Apprentissage de connaissances morphologiques pour l'acquisition automatique de ressources lexicales

par Delphine Bernhard

Thèse de doctorat en Sciences cognitives

Sous la direction de Michel Simonet.

Soutenue en 2006

à l'Université Joseph Fourier (Grenoble) .


  • Résumé

    Les ressources lexico-sémantiques, telles que les thésaurus, les terminologies ou les ontologies, visent à organiser les connaissances en rendant explicites divers types de relations sémantiques comme la synonymie ou la spécialisation. Le coût de la construction manuelle de telles ressources reste élevé, ce qui explique l'essor des méthodes d'acquisition automatique de connaissances, allant de l'extraction des termes représentant les unités de connaissance à l'identification des relations sémantiques qui les relient. Nous nous intéressons dans cette thèse au rôle que peut jouer la morphologie, c'est-à-dire la structure interne des mots, pour l'acquisition de telles connaissances à partir de corpus de textes de spécialité, essentiellement médicaux, et dans une perspective multilingue. Nous présentons deux systèmes d'acquisition de connaissances morphologiques non supervisés, caractérisés par des approches différentes. Le premier procède par segmentation des mots, tandis que le second regroupe les mots dans des familles morphologiques. Nous explorons ensuite les utilisations possibles de ce type d'informations pour l'acquisition de termes et de relations sémantiques. Nous proposons notamment une méthode de pondération et de visualisation des mots clés extraits de corpus de textes de spécialité en fonction de leur famille morphologique. Nous définissons également des schémas, basés sur les résultats de la segmentation morphologique, afin de découvrir des relations sémantiques telles que la spécialisation et la cohyponymie.


  • Pas de résumé disponible.

  • Titre traduit

    Unsupervised learning of morphological knowledge for the automatic acquisition of lexical resources


  • Résumé

    Lexico-semantic resources, like thesauri, terminologies and ontologies, aim at organising knowledge by detailing semantic relationships such as synonymy or specialisation. The cost for manually building this kind of resources is high. Methods for the automatic acquisition of knowledge from text corpora are therefore widely used. These methods aim at automatically extracting terms and semantic relationships. In this thesis, we investigate the role which can be played by morphology, i. E. The internal structure of words, within such systems. We describe two methods for the unsupervised acquisition of morphological knowledge. The first one segments words into sub-units while the other conflates words in morphological families. We then explore possible uses for this kind of knowledge. We re-use morphological families to weight and visualise keywords. We also define patterns based on morphological segmentation which make it possible to discover semantic relationships such as hypernymy and co-hyponymy.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (xiv-[176] p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 163-[176]

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Non disponible pour le PEB
  • Cote : TS06/GRE1/0196
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Cote : TS06/GRE1/0196/D
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.