Outil d'exploration de corpus et désambiguïté lexicale automatique

par Laurent Audibert

Thèse de doctorat en Informatique

Sous la direction de Jean Véronis.


  • Résumé

    Ce travail de thèse adresse le problème de la désambiguïsation lexicale automatique à l'aide de méthodes d'apprentissage supervisé. Dans une première partie, nous proposons un ensemble de puissants outils de manipulation de corpus linguistiques étiquetés. Pour réaliser ces outils, nous avons développé une bibliothèque C++ qui implémente un langage élaboré et expressif d'interrogation de corpus, basé sur des méta-expressions régulières. Dans une seconde partie, nous comparons divers algorithmes d'apprentissage supervisé, que nous utilisons ensuite pour mener à bien une étude systématique et approfondie de différents critères de désambiguïsation, basés sur la cooccurrence de mots et plus généralement de n-grammes. Nos résultats vont parfois à l'encontre de certaines pratiques dans le domaine. Par exemple, nous montrons que la suppression des mots grammaticaux dégrade les performances et que les bigrammes permettent d'obtenir de meilleurs résultats que les unigrammes.

  • Titre traduit

    Corpus exploration tools and automatic word sense disambiguation


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 360 p..
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 347-360

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Aix-Marseille (Marseille. St Charles). Service commun de la documentation. Bibliothèque universitaire de sciences lettres et sciences humaines.
  • Disponible pour le PEB

Cette version existe également sous forme de microfiche :

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.