Schema Matching and Integration in Large Scale Scenarios

par Khalid Saleem

Thèse de doctorat en Informatique

Sous la direction de Zohra Bellahsene.

Soutenue en 2008

à Montpellier 2 .

  • Titre traduit

    Intégration de Schémas Large Echelle


  • Résumé

    Le besoin d'intégrer et d'analyser des grands ensembles de données issus des bases de données publiées sur le web est présent dans de nombreux domaines d'applications comme la génomique, l'environnement, la médecine et le commerce électronique. Ces données sont, après intégration, utilisées pour prendre des décisions, des échanges de services, etc. Les outils existants pour la découverte de correspondances (appelés matchers) permettent de traiter les schémas deux par deux et nécessitent l'intervention d'un expert afin de garantir une bonne qualité des correspondances. Dans un scénario de large échelle, ces approches ne sont plus pertinentes et sont voire même infaisables à cause du nombre important de schémas et de leur taille (de l'ordre d'un millier d'éléments). Il est donc nécessaire d'automatiser la découverte de correspondances. Cependant, une méthode automatique doit préserver la qualité des correspondances et garantir des performances acceptables si l'on veut qu'elle soit utilisable. Nous avons développé des méthodes qui passent à l'échelle et qui réaliseront une découverte automatique. Nous avons proposé une méthode PORSCHE (Performance ORiented SCHEma Mediation) qui permet d'intégrer plusieurs schémas simultanément et de fournir un schéma médiateur. Cette méthode utilise un algorithme basé sur la fouille d'arbres (tree mining) et a été implémentée et expérimentée sur un grand nombre de schémas disponibles sur le web. Le Web sémantique est fortement dépendant du paradigme XML, qui suit une structure hiérarchique. Par ailleurs, l'utilisation d'ontologie se développe fortement. Nous nous intéressons à la construction d'ontologie à partir de schemas XML disponible sur le web. Nous proposons une approche automatique pour modéliser la sémantique émergente des ontologies. C'est une méthode collaborative pour la construction d'ontologie sans l'interaction directe avec les utilisateurs du domaine, des experts ou des développeurs. Une des caractéristiques très importante d'une ontologie est sa structure hiérarchique des concepts. Nous considérons des grands ensembles de schémas pour un domaine spécifique comme étant des arbres et leur appliquons des algorithmes d'extraction de sous-arbres fréquents pour découvrir des motifs (patterns) hiérarchiques en vue de construire une ontologie. Nous présentons un technique pour découvrir et proposer des correspondances complexes entre deux schemas. Ces correspondances sont ensuite validées à l'aide des mini-taxonomies qui sont les sous-arbres fréquents. La technique démontre une fois de plus la construction de la taxonomie ontologie de domaine. À cet égard, nous considérons le plus grand arbre ou un arbre créé par la fusion de l'ensemble des plus grands souvent sous-arbres comme étant une taxonomie. Nous plaidons en faveur de la confiance d'une telle taxonomie et des concepts associés car elle a été extraite à partir des schémas utilisés dans le domaine spécifié considéré


  • Résumé

    Semantic matching of schemas in heterogeneous data sharing systems is time consuming and error prone. The dissertation presents a new robust automatic method which integrates a large set of domain specific schemas, represented as tree structures, based upon semantic correspondences among them. The method also creates the mappings from source schemas to the integrated schema. Existing mapping tools employ semi-automatic techniques for mapping two schemas at a time. In a large-scale scenario, where data sharing involves a large number of data sources, such techniques are not suitable. Semi-automatic matching requires user intervention to finalize a certain mapping. Although it provides the flexibilty to compute the best possible mapping but time performance wise abates the whole matching process. At first, the dissertation gives a detail discussion about the state of the art in schema matching. We summarize the deficiencies in the currently available tools and techniques for meeting the requirements of large scale schema matching scenarios. Our approach, PORSCHE (Performance ORiented SCHEma Mediation) is juxtaposed to these shortcomings and its advantages are highlighted with sound experimental support. PORSCHE associated algorithms, first cluster the tree nodes based on linguistic label similarity. Then, it applies a tree mining technique using node ranks calculated during depth-first traversal. This minimises the target node search space and improves time performance, which makes the technique suitable for large scale data sharing. PORSCHE implements a hybrid approach, which also in parallel, incrementally creates an integrated schema encompassing all schema trees, and defines mappings from the contributing schemas to the integrated schema. The approach discovers 1:1 mappings for integration and mediation purposes. Formal experiments on real and synthetic data sets show that PORSCHE is scalable in time performance for large scale scenarios. The quality of mappings and integrity of the integrated schema is also verified by the experimental evaluation. Moreover, we present a technique for discovering complex match (1:n, n:1 and n:m) propositions between two schemas, validated by mini-taxonomies. These mini-taxonomies are extracted from the large set of domain specific metadata instances represented as tree structures. We propose a framework, called ExSTax (Extracting Structurally Coherent Mini-Taxonomies) based on frequent sub-tree mining, to support our idea. We further extend the ExSTax framework for extracting a reliable domain specific taxonomy

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (124 p.)
  • Annexes : Bibliogr. p. 117-124. Annexes

Où se trouve cette thèse ?

  • Bibliothèque : Bibliothèque interuniversitaire. Section Sciences.
  • Disponible pour le PEB
  • Cote : TS 2008.MON-126
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.