Construction et évaluation en corpus variés de lexiques syntaxiques pour la résolution des ambiguïtés de rattachement prépositionnel

par Cécile Frérot

Thèse de doctorat en Sciences du langage. Traitement automatique des langues

Sous la direction de Marie-Paule Péry-Woodley.

Soutenue en 2005

à Toulouse 2 .

  • Titre traduit

    Building and evaluating lexical resources to resolve prepositional phrase attachment ambiguities in corpora


  • Pas de résumé disponible.


  • Résumé

    Le lexique est aujourd'hui reconnu comme un composant essentiel de tout système de Traitement Automatique des Langues, et l'utilisation de ressources lexicales est en pleine explosion. Les travaux dédiés à la résolution des ambiguïtés de rattachement prépositionnel, une des tâches les plus délicates à résoudre en analyse syntaxique automatique, utilisent massivement des informations lexicales acquises à partir de corpus portant sur la langue générale. L'exploitation de ressources existantes (dictionnaires) reste beaucoup plus marginale ; par ailleurs, peu de travaux ont exploré les deux pans de l'alternative et mesuré l'apport respectif des deux types de ressources. Du côté de l'évaluation, l'efficacité des lexiques est en général testé sur un seul corpus, et la question liée à la nécessité d'adapter le lexique au type de corpus demeure peu explorée. Dans notre étude, nous construisons deux types de lexiques pour le français : l'un est dérivé d'un dictionnaire existant (Lexique-Grammaire) élaboré à partir de l'introspection des linguistes, l'autre est construit à partir de données attestées, en exploitant un très gros corpus journalistique. Nous montrons le rôle joué par les deux types de lexiques dans la désambiguïsation, et mettons en évidence l'efficacité relative des lexiques en fonction du type de corpus (cinq corpus variés, notamment par rapport au domaine thématique et au niveau de spécialité). Nous faisons émerger des corpus des caractéristiques susceptibles d'éclairer les variations observées dans les résultats de la désambiguïsation. La nécessaire adaptation des ressources au type de corpus est rendue plus manifeste encore lorsque nous confrontons l'utilité du lexique acquis à partir du corpus journalistique à un lexique contenant des informations spécifiques à chacun des cinq corpus de test.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (195 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 173-180. Glossaire. Index

Où se trouve cette thèse ?

  • Bibliothèque : Université Toulouse Jean Jaurès. Bibliothèque universitaire centrale de lettres et sciences humaines.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.