Approche mixte pour l'extraction de terminologie : statistique lexicale et filtres linguistiques

par Béatrice Daille

Thèse de doctorat en Sciences appliquées

Sous la direction de Laurence Danlos.

Soutenue en 1994

à Paris 7 .

    mots clés mots clés


  • Résumé

    La terminologie est un probleme dont les enjeux scientifiques et techniques sont cruciaux dans le domaine de la recherche en traitement automatique du langage naturel (taln). La construction d'une banque terminologique est un travail difficile, long, requerant des competences linguistiques et terminologiques rarement reunies, d'ou les problemes en taln imputables essentiellement a une repartition stricte des connaissances et des competences. Au vu de ces difficultes, il est devenu urgent de decouvrir des methodes permettant de creer automatiquement des banques terminologiques. Le stockage informatique des textes fournit un nouvel outil de travail. Il s'agit donc d'extraire automatiquement les termes d'un domaine a partir de corpus. Les methodes statistiques appliquees a l'extraction de terminologie apportent un premier element de reponse meme si les listes incluent un bruit important. Pour reduire l'exces de bruit, nous nous sommes propose d'elaborer une methode combinant donnees linguistiques et calculs statistiques. A partir d'une etude linguistique rigoureuse des termes du domaine des telecommunications, nous avons mis au point des filtres linguistiques qui permettent une premiere selection des sequences susceptibles, sur le plan morphosyntaxique, d'etre des noms composes. C'est sur ces sequences ainsi selectionnees que nous appliquons divers modeles statistiques avant d'en evaluer les resultats. Le meilleur modele statistique qui fournit une liste de noms composes en minimisant au mieux le bruit et le silence est le coefficient de vraisemblance ou les evenements frequents sont pris en compte. Cette conclusion contredit de nombreux travaux sur l'extraction de ressources lexicales qui proclament que leur critere d'association (par exemple, l'information mutuelle) sont de meilleurs indicateurs que la frequence.

  • Titre traduit

    Combined approach for terminology extraction : lexical statistics and linguistic filtering


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 228 P.
  • Annexes : 84 REF.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Bibliothèque Diderot Centre Doc Recherche (Lyon).
  • Non disponible pour le PEB
  • Bibliothèque : Université Paris Diderot - Paris 7. Service commun de la documentation. Bibliothèque Universitaire des Grands Moulins.
  • Accessible pour le PEB
  • Cote : TS1994
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.