IXIA (IndeX-based Integration Approach) : une approche hybride pour l'intégration des données

par Shokoh Kermanshahani

Thèse de doctorat en Informatique

Sous la direction de Michel Simonet et de Ana Simonet.

Soutenue en 2009

à l'Université Joseph Fourier (Grenoble) .


  • Résumé

    Aujourd'hui, il existe un nombre important et croissant de sources de données, qui peuvent être des documents et des données structurées ou semi-structurées. En général, aussi bien les documents que les bases de données sont autonomes et gérés par des systèmes différents. D'autre part, beaucoup de ces sources sont reliées tout en étant sémantiquement hétérogènes : elles modélisent la même réalité externe tout en utilisant des concepts et des structures distincts. Or, les organisations et les entreprises qui sont confrontées à de telles sources de données ont besoin d'en avoir une vision homogène et cohérente. La conséquence est qu'il est nécessaire de les intégrer et de disposer d'un système qui gère ces données. L'objectif d'un système d'intégration des données est de proposer une interface homogène pour interroger plusieurs sources, qui peuvent être hétérogènes et autonomes. Derrière une telle interface il y a plusieurs défis, parmi lesquels nous soulignons l'hétérogénéité structurelle et sémantique des sources de données, la fragmentation des données, le traitement et l'optimisation des requêtes. Il existe de nombreux travaux qui présentent des approches distinctes pour l'intégration des données, et chaque approche propose des solutions spécifiques à chacun des problèmes évoqués. On considère en général que ces approches appartiennent à deux grandes catégories : l'approche matérialisée et l'approche virtuelle. Cependant, on peut aussi considérer une troisième approche, dite hybride, qui propose qu'une partie des données du système intégré soit matérialisée et qu'une autre partie des données soit virtuelle. Dans cette thèse, nous proposons une architecture hybride pour un système d'intégration de sources de données hétérogènes, qui vise à étendre l'optimisation des requêtes à toutes les requêtes du système d'intégration. Elle permet aussi de fournir un mécanisme flexible pour traiter la mise à jour des données afin de tolérer les différentes caractéristiques des sources et de leurs données. Cette approche est basée sur un système d'indexation d'objets multicritères au niveau de la médiation. Dans notre approche, nous utilisons le système Osiris et son mécanisme d'indexation. Osiris est un système de gestion de bases de données et de bases de connaissance orienté objet, où une famille d'objets est définie par une hiérarchie de vues " object-preserving ". Le système d'indexation d'Osiris est un système multi-attributs, et notre approche propose la matérialisation du sous-ensemble des données directement reliées aux attributs d'indexation. Le système d'intégration des données proposé, IXIA, matérialise la structure d'indexation des objets sous-jacents au niveau du médiateur. Les Oids des objets, leur correspondance avec les objets des sources et les données nécessaires pour la mise à jour de l'indexation des données sont aussi matérialisées. Cette approche offre une plus grande flexibilité de rafraîchissement des données qu'une approche entièrement matérialisée, et une meilleure optimisation des requêtes que les méthodes entièrement virtuelles.


  • Résumé

    There is a large and increasing volume of documents, data sources and data base management systems available in the world, and many autonomous and heterogeneous sources speak of a same reality while using different words and conceptual structures. Many organizations need to dispose of a system that handles such data in a homogeneous way, which necessitates the integration of these data sources. The goal of a data integration system is to develop a homogeneous interface for the end users to query several heterogeneous and autonomous sources. Building such a homogeneous interface raises many challenges among which the heterogeneity of data sources, the fragmentation of data, the processing and optimization of queries appear to be the most important. There are many research projects that present different approaches and each of them proposes a solution to each of these problems. Depending on the integrated view, these approaches can be categorized into two main categories: materialized and virtual approaches; there are also some hybrid approaches when there is a composition of materialized and virtual views. The main advantage of a hybrid approach is to offer a trade-off between the query response time and data freshness in a data integration system. In the existing approaches, query optimization is often privileged for the materialized part of the system. In this thesis, we develop a hybrid approach which aims to extend query optimization to all the queries of the integration system. It also provides a flexible data refreshing mechanism in order to tolerate different characteristics of sources and their data. This approach is based on the Osiris object indexing system. Osiris is a database and knowledge base platform with a specific object data model based on a hierarchy of views. Its indexation system relies on the partitioning of the object space using the view constraints. IXIA, the hybrid approach presented in this thesis, materializes the indexation structure of the underlying objects at the mediator level. The Oids of objects, their correspondence with the source objects and the needed data to refresh the indexation data are also materialized. Our index-based data integration approach offers more flexibility in data refreshing than a fully materialized approach and a better query response time in comparison with a fully virtual data integration system.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (152 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 143 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Cote : TS09/GRE1/0114/D
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible sous forme de reproduction pour le PEB
  • Cote : TS09/GRE1/0114
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.