Acces to web archives : querying, navigating and optimizing

par Zeynep Pehlivan

Thèse de doctorat en Informatique

Sous la direction de Anne Doucet.

Soutenue en 2013

à Paris 6 .


  • Résumé

    An important amount of the world’s cultural and intellectual knowledge is being created on the webeveryday. However, the web has en ephemeral nature e. G. New information replaces older informationconstantly without any notification, leaving a significant gap in our knowledge. That’s why archivingthe web has become a cultural necessity to preserve the knowledge for the next generations. However,the success of any web archive will be measured by the means of access it provides; as it is the casetoday on the real web. Our research is placed in the context of access to web archives and studiesdifferent research problems related to this issue. These research problems are grouped into two maintopics: Access Methods and Optimization of Access. For access methods, we first propose a conceptualmodel, as well as operators to manipulate them, as the basis of a query language for web archives tobetter satisfy user information needs. Next, a new navigation method for web archives that takes thecoherence of pages into account is introduced. In the context of access optimization, we propose achange detection algorithm to understand and to quantify what happened (and thus changed) betweentwo versions of a web page. Then, we study the behavior of different static index pruning methodswith temporal queries before proposing a new diversification-based static index pruning method andshowing its application to temporal collections and a substantial gain in performance.


  • Résumé

    Le Web crée chaque jour une quantité importante de connaissances culturelles et intellectuelles. Ses informations sont de nature éphémère car elles sont constamment remplacées, parfois sans aucunenotification. C’est pour cette raison que l’archivage du web est devenue une nécessité culturelle afinde préserver la connaissance pour les prochaines générations. Son succès sera cependant mesuré parses modes d’accès, comme ceux fournis jusqu’ici par le web. Notre recherche situe dans le contexte del’accès aux archives web, et étudie les différents problèmes d’accès qui y sont liés. Ces problèmes sontgroupés en deux thèmes principaux : Méthodes d’accès et Optimisation des accès. Pour les méthodesd’accès, nous proposons la base d’un langage de requête ayant par objectif de de mieux satisfaire lesbesoins d’information des utilisateurs. Une nouvelle méthode de navigation est ensuite introduite, quiprend en compte la cohérence des pages. Pour l’optimisation de l’accès, nous proposons un algorithmede détection de changement pour comprendre et quantifier ce qui s’est passé (et a donc changé) entredeux versions d’une même page Web. Nous étudions aussi le comportement des différentes méthodesd’élagage d’index statiques avec des requêtes temporelles. En outre, nous proposons une nouvelle méthode d’élagage index statiques basée sur la diversification et nous montrons son application aux collections temporelles et un gain supstanciel de performance par rapport aux autres approaches.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (151 p.)
  • Annexes : Bibliogr. p. 141-151. bibliogr.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Sorbonne Université. Bibliothèque de Sorbonne Université. Bibliothèque Mathématiques-Informatique Recherche.
  • Consultable sur place dans l'établissement demandeur
  • Cote : T Paris 6 2013 555
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.