Une approche matérialisée basée sur les vues pour l'intégration de documents XML

par Houda Ahmad

Thèse de doctorat en Informatique

Sous la direction de Michel Simonet et de Ana Simonet.

Soutenue en 2009

à Grenoble 1 .


  • Résumé

    Les données semi-structurées occupent une place croissante dans l'évolution du Web par le biais du langag, XML. La gestion de telles données ne s'appuie pas sur un schéma prédéfini, comme dans le cas de données structurées, gérées par exemple par le modèle relationnel. Le schéma de chaque document est auto-contenu dans le document même, et des documents similaires peuvent être représentés par des schémas différents. C'est pourquoi les algorithmes et les techniques d'intégration et d'interrogation de telles sources de données sont souvent plus complexes que ceux définis pour l'intégration et l'interrogation de sources de données structurées. L'objectif de notre travail est l'intégration de données XML en utilisant les principes d'Osiris, un prototype de SGBD¬BC, dont le concept central est celui de vue. Dans ce système, une famille d'objets est définie par une hiérarchie de vues, où chaque vue est définie par ses vues mères, ses attributs et contraintes propres. Osiris appartient à la famille des logiques de description, la vue minimale d'une famille d'objets étant assimilée à un concept primitif et ses autres vues à des concepts défmis. Vn objet d'une famille satisfait certaines de ses vues. Pour chaque famille d'objets, Osiris construit, par analyse des contraintes définies dans toutes ses vues, un espace de classement n-dimensionnel. Cet espace sert de support au classement d'objets et aussi à leur indexation. Dans cette thèse nous avons étudié l'apport des principales fonctionnalités d'Osiris - classement, indexation et optimisation sémantique des requêtes - à l'intégration de documents XML. Pour cela nous produisons un schéma cible (XML schema abstrait), qui représente un schéma Osiris; chaque document satisfaisant un schéma source (XML schema concret) est réécrit en termes du schéma cible avant de subir l'extraction des valeurs de ses entités. Les objets correspondant à ces entités sont alors classés et indexés. Le mécanisme d'optimisation sémantique des requêtes d'Osiris peut dès lors être utilisé pour extraire les objets d'intérêt pour une requête. Nous avons réalisé un prototype, nommé OSIX (Osiris-based System for the Integration ofXML sources) et nous l'avons appliqué à l'intégration et l'interrogation de documents XML simulant les données d'un hôpital.

  • Titre traduit

    A materialized view-based approach to the integration of XML documents


  • Résumé

    Semi-structured data play an increasing role in the development of the Web through the use ofXML. However, the management of semi-structured data poses specific problems because semi-structured data, contrary to classical databases, do not rely on a predefined schema. The schema of a document is contained in the document itself and similar documents may be represented by different schemas. Consequently, the techniques and algorithms used for querying or integrating this data are more complex than those used for structured data. The objective of our work is the integration of XML data by using the principles of Osiris, a prototype of KB-DBMS, in which views are a central concept. Ln this system, a family of objects is defined by a hierarchy of views, where a view is defined by its parent views and its own attributes and constraints. Osiris belongs to the family of Description Logics; the minimal view of a family of objects is assimilated to a primitive concept and its other views to defined concepts. An object of a family satisfies sorne ofits views. For each family of objects, Osiris builds a n-dimensional classification space by analysing the constraints defined in all of its views. This space is used for object classification and indexation. Ln this the sis we study the contribution of the main features of Osiris - classification, indexation and semantic query optimization - to the integration ofXML documents. For this purpose we produce a target schema (an abstract XML schema), who represents an Osiris schema; every document satisfying a source schema (concrete XML schema) is rewritten in terrns of the target schema before undergoing the extraction of the values ofits entities. The objects corresponding to these entities are then classified and indexed. The Osiris mechanism for semantic query optimization can then be used to extract the objects of interest of a query.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (150 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 109 réf.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire Joseph-Fourier.
  • Disponible pour le PEB
  • Cote : TS09/GRE1/0086/D
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire Joseph-Fourier.
  • Disponible sous forme de reproduction pour le PEB
  • Cote : TS09/GRE1/0086
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.