Lexter : un Logiciel d'EXtraction de TERminologie : application à l'acquisition des connaissances à partir de textes

par Didier Bourigault

Thèse de doctorat en Mathématiques et informatique appliquées aux sciences sociales

Sous la direction de Jean-Pierre Desclès.

Soutenue en 1994

à Paris, EHESS .


  • Résumé

    Nous presentons dans cette these notre travail de conception, de realisation et de validation du logiciel lexter, un logiciel d'aide au depouillement terminologique. Lexter recoit en entree un corpus de textes techniques, en francais, portant sur un domaine quelconque, et il propose en sortie un ensemble de candidats termes, organise sous la forme d'un "reseau terminologique". Pour reperer des occurrences de termes complexes dans un texte, lexter met en oeuvre des techniques d'analyse syntaxique locale par patron de surface, qui repondent aux contraintes de robustesse et de precision imposees au logiciel, tout en evitant une analyse syntaxique totale des phrases. Le systeme est dote de procedures d'apprentissage qui lui permettent d'aller chercher lui-meme dans le corpus les informations syntaxiques de souss-categorisation des noms et des adjectifs dont il a besoin pour effectuer un decoupage precis des phrases. L'analyse grammaticale des candidats termes en une tete et une expansion permet d'organiser l'ensemble de ces termes en un "reseau terminologique". Les ambiguites de rattachement des adjectifs et des groupes prepositionnels sont resolues grace a une methode de desambiguisation endogene. Nous nous interessons a l'utilisation de la terminologie en general, e t d'un logiicel d'extraction de terminologie en particulier, en intelligence artificielle, pour la realisation de system e a base de connaissances. Dans une tache de modelisation des connaissances, un cogniticien ou un terminologue interprete le reseau teminologie pour reconstituer le systeme notionnel sous-jacent.

  • Titre traduit

    Lexter, a terminology extraction sofware application to knowledge acquisition from texts


  • Résumé

    This thesis describes our work to design, to code and to validate lexter, a terminology extraction software. Lexter gets its input from a french-language technical corpus on any domain. Its ouput is a set of likely terminological units, under a terminological network format. The system uses local syntactic parsing techniques, based on surface patterns, which satisfy the required robustness and accuracy constraints and, at the same time, exempt from a total parsing of sentences. The system uses learning procedures to automatically look in the corpus for syntactic informations of sub-categorization. These are needed to accurately detect complex terms in a text. Each complex term is grammatically analysed into one head and one expansion, in order to build a large terminological network. Then comes a phase of knowledge modelling : a terminologist or a knowledge engineer exploits the terminological network, so as to reconstitute the underlying notional network.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Notes : Publication autorisée par le jury

Où se trouve cette thèse ?

  • Bibliothèque : Centre Technique du Livre de l'Enseignement supérieur (Marne-la-Vallée, Seine-et-Marne).
  • Disponible pour le PEB
  • Cote : MSH TH 4455
  • Bibliothèque : Centre de recherche INRIA Nancy - Grand Est (Villers les Nancy). Service Information et Edition Scientifiques.
  • PEB soumis à condition
  • Cote : BOURIGAULT l
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.