Construction d'ontologies à partir de textes : L'apport de l'analyse de concepts formels

par Thibault Mondary

Thèse de doctorat en Informatique

Sous la direction de Adeline Nazarenko.

Soutenue en 2011

à Paris 13 .


  • Résumé

    La construction d'ontologies est un processus fastidieux qui nécessite un travail manuel conséquent. Les textes, en tant que sources de connaissances, peuvent optimiser les recours aux experts du domaine. Le passage des textes à l'ontologie requiert un double changement de perspective. Tout d'abord du niveau du discours vers le niveau linguistique (terminologie, hyperonymie, synonymie, etc. ), à l'aide d'outils de traitement automatique des langues. La conceptualisation, manuelle, permet ensuite d'entrer dans le monde des modèles. Nous étudions dans cette thèse comment une méthode de regroupement automatique, l'analyse de concepts formels (ACF), peut se combiner aux éléments du niveau linguistique afin de faciliter la tâche de conceptualisation. Nous avons mené des expérimentations sur trois domaines différents, représentés par des corpus de taille comparable. Nous montrons que, dans l'état actuel des connaissances, la construction d'ontologies à partir de textes ne peut s'effectuer de manière totalement automatique. Nous proposons plusieurs paramétrages pour s'affranchir des problèmes inhérents à l'utilisation de l'ACF sur les données textuelles, dans l'optique de fournir à l'utilisateur à la fois des regroupements pertinents et une vue fidèle sur le matériau textuel.

  • Titre traduit

    Designing ontologies from texts. Contribution of Formal Concept Analysis.


  • Résumé

    Construction of ontologies is a tedious task which still requires a great amount of manual work. Texts, as knowledge sources, can help, but TALN tools stop at linguistic level. Manual conceptualization fill the gap between a linguistic model and a conceptual model. In this thesis we study how a symbolic clustering method, Formal Concept Analysis, can be combined with a linguistic model to help the knowledge engineer. We have experimented on three different domains represented by same-sized corpora. We show that ontology learning from texts cannot be fully automatized. We propose solutions that combine FCA and terminological analysis, to let the computer suggest usefull clusters and faithful representation of texts.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (146 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.131-138

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris 13 (Villetaneuse, Seine-Saint-Denis). Bibliothèque universitaire. Section Sciences.
  • PEB soumis à condition
  • Cote : TH 079 MON
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.