Intégration sémantique de données guidée par une ontologie

par Fatiha Saïs

Thèse de doctorat en Informatique

Sous la direction de Marie-Christine Rousset et de Nathalie Pernelle.

Soutenue en 2007

à Paris 11 , en partenariat avec Université de Paris-Sud. Faculté des Sciences d'Orsay (Essonne) (autre partenaire) .


  • Résumé

    Dans cette thèse, nous traitons du problème d'intégration sémantique de données. L’objectif est de pouvoir combiner des sources de données autonomes et hétérogènes. Pour y parvenir, toutes les données doivent être représentées selon un même schéma et selon une sémantique unifiée. Cette thèse est articulée en deux parties relativement indépendantes. La première présente une méthode automatique et flexible de réconciliation de données avec une ontologie dans le cas où les données sont représentées dans des tableaux. Pour représenter le résultat de la réconciliation, nous avons défini le format SML dont l’originalité est de permettre de représenter tous les appariements trouvés mais également les informations imparfaitement identifiées. La seconde partie présente deux méthodes de réconciliation de références décrites relativement à un même schéma. Il s’agit de décider si des descriptions différentes se réfèrent à la même entité du monde réel. La première méthode, nommée L2R, est logique. La sémantique des données et du schéma y est traduite par un ensemble de règles de (non) réconciliation permettant d’inférer des décisions de (non) réconciliation certaines. La seconde, nommée N2R, est numérique. Dans cette méthode, la sémantique du schéma est traduite par une mesure de similarité informée utilisée pour calculer la similarité des paires de références. Ce calcul est exprimé dans un système d’équations non linéaire résolu par une méthode itérative. Ces méthodes obtiennent des résultats satisfaisants sur des données réelles, ce qui montre la faisabilité d’approches complètement automatiques et guidées uniquement par une ontologie pour ces deux problèmes de réconciliation.

  • Titre traduit

    Semantic data integration guided by an ontology


  • Pas de résumé disponible.


  • Résumé

    This thesis deals with semantic data integration guided by an ontology. Data integration aims at combining autonomous and heterogonous data sources. To this end, all the data should be represented according to the same schema and according to a unified semantics. This thesis is divided into two parts. In the first one, we present an automatic and flexible method for data reconciliation with an ontology. We consider the case where data are represented in tables. The reconciliation result is represented in the SML format which we have defined. Its originality stems from the fact that it allows representing all the established mappings but also information that is imperfectly identified. In the second part, we present two methods of reference reconciliation. This problem consists in deciding whether different data descriptions refer to the same real world entity. We have considered this problem when data is described according to the same schema. The first method, called L2R, is logical: it translates the schema and the data semantics into a set of logical rules which allow inferring correct decisions both of reconciliation and no reconciliation. The second method, called N2R, is numerical. It translates the schema semantics into an informed similarity measure used by a numerical computation of the similarity of the reference pairs. This computation is expressed in a non linear equation system solved by using an iterative method. Our experiments on real datasets demonstrated the robustness and the feasibility of our approaches. The solutions that we bring to the two problems of reconciliation are completely automatic and guided only by an ontology.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XVIII-222 p.)
  • Annexes : Bibliogr. p. 215-222

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2007)300
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.