Détection de problèmes de qualité dans les ontologies construites automatiquement à partir de textes

par Toader Gherasim

Thèse de doctorat en Informatique et applications

Le président du jury était Sylvie Despres.

Les rapporteurs étaient Chantal Soulé-Dupuy, Sylvie Ranwez.


  • Résumé

    La démocratisation de l’utilisation des ontologies dans des domaines très variés a stimulé le développement d’approches proposant différents degrés d’automatisation du processus de construction d’une ontologie. Cependant, malgré le réel intérêt de ces approches, parfois les résultats obtenus peuvent être d’une faible qualité. L’objectif des travaux présentés dans cette thèse est de contribuer à l’amélioration de la qualité des ontologies construites automatiquement à partir de textes. Nos principales contributions sont : (1) une démarche pour la comparaison des approches, (2) une typologie des problèmes qui affectent la qualité les ontologies, et (3) une première réflexion sur l’automatisation de la détection des problèmes. Notre démarche de comparaison des approches comporte trois étapes complémentaires : (1) sur la base de leur degré de complétude et d’automatisation ; (2) puis sur la base de leurs caractéristiques techniques et fonctionnelles, et (3) expérimentalement par comparaison de leurs résultats avec une ontologie construite manuellement. La typologie proposée organise les problèmes de qualité selon deux dimensions : les erreurs versus les situations indésirables et les aspects logiques versus les aspects sociaux. Notre typologie contient 24 classes de problèmes qui recouvrent, en les complétant, les problèmes décrits dans la littérature. Pour la détection automatique nous avons recensé quelques unes des méthodes existantes pour chaque problème de notre typologie et nous avons mis en évidence les problèmes qui semblent encore ouverts. Et, nous avons proposé une heuristique pour un problème qui apparaît fréquemment dans nos expérimentations (étiquettes polysémiques).

  • Titre traduit

    Detection of quality problems in ontologies constructed automatically from texts


  • Résumé

    The growing use of ontologies in a variety of application areas has stimulated the development of approaches proposing different degrees of automation of the ontology construction process. However, despite the real interest of these approaches, sometimes their results are of low quality. The aim of the work presented in this thesis is to contribute to the improvement of the quality of ontologies constructed automatically from texts. Our main contributions are : (1) a method for the comparison of the approaches, (2) a typology of problems that affect the quality of ontologies, and (3) a first reflection on automating the detection of quality problems. Our method for the comparison of approaches consists of three complementary steps : (1) on the basis of their degree of automation and completeness, (2) on the basis of their technical and functional characteristics, and (3) experimentally by comparing their results with a manually constructed ontology. The proposed typology organizes the quality problems according to two dimensions : errors versus unsuitable situations and logical aspects versus social aspects. Our typology contains 24 classes of problems that cover and complement the problems described in the literature. Concerning the automatic detection we have inventoried some of the existing methods for each problem in our typology and we have highlighted the problems for which the automatic detection remains an open issue. We have also proposed a heuristic for the detection of a quality problem that appears frequently in our experimentations (polysemic labels).

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (140 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.125-137

Où se trouve cette thèse ?

  • Bibliothèque : Université de Nantes. Service commun de la documentation. BU Sciences.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.