Extraction contextuelle d'ontologie par fouille de données

par Lobna Karoui

Thèse de doctorat en Informatique

Sous la direction de Marie-Aude Aufaure.


  • Résumé

    L’objectif de cette thèse est d’automatiser au maximum le processus de construction d’une ontologie à partir de pages web, en étudiant notamment l’impact que peut avoir la fouille de données dans une telle tâche. Pour construire l’ontologie, nous avons exploité la structure HTML du document étudié afin de pouvoir bien définir le contexte à mettre en œuvre. Ce dernier est structuré sous la forme d’une hiérarchie de contextes. Puis, nous avons défini un algorithme de clustering hiérarchique dédié à l’extraction de concepts ontologiques intitulé ‘ECO’ ; il est basé sur l’algorithme Kmeans et guidé par notre structure contextuelle. Cet algorithme génère une hiérarchie de classes de termes (concepts). En instaurant un mécanisme incrémental et en divisant récursivement les classes, l’algorithme ECO raffine le contexte de chaque classe de mots et améliore la qualité conceptuelle des clusters finaux et par conséquence des concepts extraites. L’interprétation sémantique des classes de termes par les experts ou les concepteurs de l’ontologie est une tâche difficile. Afin de la faciliter, nous avons proposé une méthodologie d’évaluation des concepts basée sur la richesse des documents web, l’interprétation sémantique, l’élicitation des connaissances et le concept de « contextualisation progressive ». Notre méthodologie définit trois critères révélateurs : « le degré de crédibilité », « le degré de cohésion » et le « degré d’éligibilité ». Elle a été appliquée pour évaluer les classes de termes (relations internes) mais pas les relations entre les classes (pas la hiérarchie de concepts). Notre objectif, également, était d’extraire des relations de différents types à partir de différentes analyses des textes et des relations existantes dans la hiérarchie de concepts. Pour cela, notre approche combine une méthode centrée autour du verbe, des analyses lexicales, syntaxiques et statistiques. Nous utilisons ces relations pour évaluer et enrichir la hiérarchie de concepts.

  • Titre traduit

    Contextual ontology extraction by data mining techniques


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (217 p.)
  • Annexes : Bibliogr. p. 208-217

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2008)220
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.