Construction et évolution d'un entrepôt de données sur la toile

par Benjamin Nguyen

Thèse de doctorat en Informatique

Sous la direction de Serge Abiteboul.

Soutenue en 2003

à Paris 11, Orsay .


  • Résumé

    Nos travaux se placent dans le cadre général de la conception d'un cadre approprié pour la découverte, l'analyse, le traitement, le stockage, l'intégration et l'interrogation d'informations trouvées sur le Web. Nous proposons dans un premier temps une étude de l'état de l'art concernant les travaux sur la recherche d'information sur le Web, la gestion de l'évolution temporelle dans un entrepôt de données, et la classification de documents. Nos travaux portent spécifiquement sur la construction et l'évolution d'un entrepôt de données du Web. Nous proposons d'une part une méthodologie de conception d'un tel entrepôt, et d'autre part nous analysons les fonctionnalités nécessaires au bon fonctionnement de ce système. Nous présentons les résultats de deux expériences dans ce domaine, auxquelles nous avons participé, Xylème et Thesus. Le projet Xylème concernait la gestion de pages XML du Web, depuis leur acquisition, jusqu'à leur interrogation, et nous nous intéressons plus particulièrement au monitorage de leur évolution temporelle. Le projet Thesus traite de la construction de collections thématiques de pages Web, en se basant sur l'analyse de la sémantique des pages au travers notamment de leurs liens. Ces deux projets ont été implantés, et notre module de monitorage est utilisé dans l'industrie par la société Xylème S. A. Ces deux expériences ont fourni un cadre de réflexion, qui s'est traduit par la réalisation du prototype SPIN, qui cristallise notre approche de la conception d'un entrepôt de données thématique.


  • Résumé

    Our work is to be placed in the general context of the creation of a framework in order to discover, analyse, process, store, integrate and query information found on the Web. We begin with a review of the state of the art concerning the following problems: querying information on the Web, managing the evolution of a warehouse, and document clustering techniques. In this thesis, we study the construction and evolution of a Web Warehouse. We propose on the one hand a methodology for conceiving such a warehouse, and on the other, we study the functionalities it should posess. We present the results of two experiments in which we took part, Xyleme and Thesus. The goal of the Xyleme Project was to manage all the XML pages of the Web, from crawling and fetching to querying. We detail in this work the monitoring of the pages, their temporal evolution. The goal of the Thesus Project was to create thematic collections of Web pages, based on the analysis of the page's semantics, using various tools, including link analysis and clustering algorithms. Both projects have been implemented, and our monitoring module is used in industry by the Xyleme S. A. Company. These two experiments provided a general framework for deeper reflection on how to conceive a thematic warehouse, which is detailled and illustrated by the SPIN prototype.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 161 de p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.145-157

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : M/Wg ORSA(2003)283
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.