Acquisition terminologique en corpus : aspects linguistiques et statistiques

par JEAN-DAVID STA

Thèse de doctorat en Sciences et techniques communes

Sous la direction de Christian Fluhr.

Soutenue en 1997

à Paris 7 .

    mots clés mots clés


  • Résumé

    Dans un contexte de mondialisation de l'information et d'accroissement de l'information specialisee, les ressources terminologiques sont d'un interet crucial pour la recherche documentaire, notamment dans le processus de reformulation de requete. Le probleme etudie est celui de l'extraction des connaissances et plus particulierement de l'acquisition terminologique automatisee en corpus, visant a assister l'expert dans la construction ou l'enrichissement d'une terminologie ou d'un thesaurus. Il s'agit d'extraire des candidats terme ou des candidats relation qui les lient, de classer des termes dans des domaines ou de regrouper des termes, ceci a partir de corpus considere comme la source privilegiee et a l'aide de methodes linguistiques et statistiques. Plusieurs methodes sont proposees et experimentees sur des corpus volumineux. La phase d'extraction de candidats terme est d'abord linguistique par application de patrons categoriels filtrants. Puis elle est secondee par des statistiques sur ces candidats permettant de les ordonner. Un certain nombre de statistiques sont evaluees dont la densite locale, expression de l'homogeneite des documents contenant un candidat. Pour la phase d'extraction de candidats relation entre termes, une experience montre tout l'interet d'une methode fondee sur la ressemblance des contextes des termes en question. Enfin, le classement d'un terme dans un domaine est examine. La methode la plus efficace est fondee sur une representation d'un terme a l'aide des termes qui lui sont lies par l'information mutuelle, suivie d'une analyse discriminante lineaire.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 194 P.
  • Annexes : 149 REF.

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris Diderot - Paris 7. Service commun de la documentation. Bibliothèque Universitaire des Grands Moulins.
  • Accessible pour le PEB
  • Cote : TS1997
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.