Thèse soutenue

Extraction contextuelle d'ontologie par fouille de données

FR  |  
EN
Auteur / Autrice : Lobna Karoui
Direction : Marie-Aude Aufaure
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2008
Etablissement(s) : Paris 11
Partenaire(s) de recherche : autre partenaire : Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne)

Mots clés

FR

Mots clés contrôlés

Résumé

FR

L’objectif de cette thèse est d’automatiser au maximum le processus de construction d’une ontologie à partir de pages web, en étudiant notamment l’impact que peut avoir la fouille de données dans une telle tâche. Pour construire l’ontologie, nous avons exploité la structure HTML du document étudié afin de pouvoir bien définir le contexte à mettre en œuvre. Ce dernier est structuré sous la forme d’une hiérarchie de contextes. Puis, nous avons défini un algorithme de clustering hiérarchique dédié à l’extraction de concepts ontologiques intitulé ‘ECO’ ; il est basé sur l’algorithme Kmeans et guidé par notre structure contextuelle. Cet algorithme génère une hiérarchie de classes de termes (concepts). En instaurant un mécanisme incrémental et en divisant récursivement les classes, l’algorithme ECO raffine le contexte de chaque classe de mots et améliore la qualité conceptuelle des clusters finaux et par conséquence des concepts extraites. L’interprétation sémantique des classes de termes par les experts ou les concepteurs de l’ontologie est une tâche difficile. Afin de la faciliter, nous avons proposé une méthodologie d’évaluation des concepts basée sur la richesse des documents web, l’interprétation sémantique, l’élicitation des connaissances et le concept de « contextualisation progressive ». Notre méthodologie définit trois critères révélateurs : « le degré de crédibilité », « le degré de cohésion » et le « degré d’éligibilité ». Elle a été appliquée pour évaluer les classes de termes (relations internes) mais pas les relations entre les classes (pas la hiérarchie de concepts). Notre objectif, également, était d’extraire des relations de différents types à partir de différentes analyses des textes et des relations existantes dans la hiérarchie de concepts. Pour cela, notre approche combine une méthode centrée autour du verbe, des analyses lexicales, syntaxiques et statistiques. Nous utilisons ces relations pour évaluer et enrichir la hiérarchie de concepts.