AROMA : une méthode pour la découverte d'alignements orientés entre ontologies à partir de règles d'association

par Jérôme David

Thèse de doctorat en Informatique

Sous la direction de Henri Briand et de Fabrice Guillet.


  • Résumé

    Ce travail de thèse s'inscrit à l'intersection des deux domaines de recherche que sont l'extraction des connaissances dans les données (ECD) et de l'ingénierie des connaissances. Plus précisément, en nous s'appuyant sur la combinaison des travaux menés, d'une part sur l'alignement des ontologies, et d'autre part sur la fouille de règles d'association, nous avons proposé une nouvelle méthode d'alignement d'ontologies associées à des corpus textuels (taxonomies, hiérarchies documentaires, thésaurus, répertoires ou catalogues Web), appelée AROMA (\emph{Association Rule Matching Approach}). Dans la littérature, la plupart des travaux traitant des méthodes d'alignement d'ontologies ou de schémas s'appuient sur une définition intentionnelle des schémas et utilisent des relations basées sur des mesures de similarité qui ont la particularité d'être symétriques (équivalences). Afin d'améliorer les méthodes d'alignement, et en nous inspirant des travaux sur la découverte de règles d'association, des mesures de qualité associées, et sur l'analyse statistique implicative, nous proposons de découvrir des appariements asymétriques (implications) entre ontologies. Ainsi, la contribution principale de cette thèse concerne la conception d'une méthode d'alignement extensionnelle et orientée basée sur la découverte des implications significatives entre deux hiérarchies plantées dans un corpus textuel. Notre méthode d'alignement se décompose en trois phases successives. La phase de prétraitement permet de préparer les ontologies à l'alignement en les redéfinissant sur un ensemble commun de termes extraits des textes et sélectionnés statistiquement. La phase de fouille extrait un alignement implicatif entre hiérarchies. La dernière phase de post-traitement des résultats permet de produire des alignements consistants et minimaux (selon un critère de redondance). Les principaux apports de cette thèse sont : (1) Une modélisation de l'alignement étendue pour la prise en compte de l'implication. Nous définissons les notions de fermeture et couverture d'un alignement permettant de formaliser la redondance et la consistance d'un alignement. Nous étudions également la symétricité et les cardinalités d'un alignement. (2) La réalisation de la méthode AROMA et d'une interface d'aide à la validation d'alignements. (3) Une extension d'un modèle d'évaluation sémantique pour la prise en compte de la présence d'implications dans un alignement. (4) L'étude du comportement et de la performance d'AROMA sur différents types de jeux de tests (annuaires Web, catalogues et ontologies au format OWL) avec une sélection de six mesures de qualité. Les résultats obtenus sont prometteurs car ils montrent la complémentarité de notre approche par rapport à celles existantes.

  • Titre traduit

    AROMA : a method for the discovery of implicative alignments between ontologies based on the association rule model


  • Résumé

    This thesis deals with Knowledge Engineering and Knowledge Discovery in Databases (KDD). More precisely, by using the association rule model, we propose a new matching method designed to match ontologies provided with textual data (i. E. Thesaurus, web directories, catalogues etc. ). In the literature, most ontology or schema matching approaches rely on similarity measures and, consequently their vast majority is restricted to finding equivalence relations only. In this context, we propose to use the asymmetric nature of the association rule model, of interestingness measures, and of the implicative statistical analysis in order to overcome the restrictions of only-similarity based approaches. The main contribution of this thesis is the introduction of an extensional and asymmetric matching method based on the discovery of significant implication rules between two textual hierarchies. Our method follows a three-step KDD process: First, the pre-processing step reindexes ontologies on a common set of terms extracted from textual data; Next, the association rule discovery aims at finding a set of implications between hierarchies; And finally, the post-processing step allows to provide consistant and minimal (non-redundant) alignments. The other four contributions of this thesis are : (1) an extended model of alignment dealing with implication. We define the notions of the closure and the minimal cover of an alignment so as formalize its redundancy and consistancy. We also discuss the symmetricity and cardinality of alignements. (2) the implementations of AROMA and AROMAViz supporting the validation of alignements. (3) an extension of a semantic evaluation model taking the implications into account. (4) the study of the efficiency and the behaviour of AROMA obtained on several benchmarks (web directories, catalogues and OWL ontologies) with the use of a selection of six interestingness measures. The obtained results are promising because they underly the complementarity of our approach with existing ones.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (X-173 f.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. f. 163-173. Index

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Nantes. Service commun de la documentation. BU Sciences.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.