Construction et évaluation en corpus variés de lexiques syntaxiques pour la résolution des ambiguïtés de rattachement prépositionnel

par Cécile Frérot

Thèse de doctorat en Sciences du langage. Traitement automatique des langues

Sous la direction de Marie-Paule Péry-Woodley.

Soutenue en 2005

à Toulouse 2 .


  • Résumé

    Le lexique est aujourd'hui reconnu comme un composant essentiel de tout système de Traitement Automatique des Langues, et l'utilisation de ressources lexicales est en pleine explosion. Les travaux dédiés à la résolution des ambiguïtés de rattachement prépositionnel, une des tâches les plus délicates à résoudre en analyse syntaxique automatique, utilisent massivement des informations lexicales acquises à partir de corpus portant sur la langue générale. L'exploitation de ressources existantes (dictionnaires) reste beaucoup plus marginale ; par ailleurs, peu de travaux ont exploré les deux pans de l'alternative et mesuré l'apport respectif des deux types de ressources. Du côté de l'évaluation, l'efficacité des lexiques est en général testé sur un seul corpus, et la question liée à la nécessité d'adapter le lexique au type de corpus demeure peu explorée. Dans notre étude, nous construisons deux types de lexiques pour le français : l'un est dérivé d'un dictionnaire existant (Lexique-Grammaire) élaboré à partir de l'introspection des linguistes, l'autre est construit à partir de données attestées, en exploitant un très gros corpus journalistique. Nous montrons le rôle joué par les deux types de lexiques dans la désambiguïsation, et mettons en évidence l'efficacité relative des lexiques en fonction du type de corpus (cinq corpus variés, notamment par rapport au domaine thématique et au niveau de spécialité). Nous faisons émerger des corpus des caractéristiques susceptibles d'éclairer les variations observées dans les résultats de la désambiguïsation. La nécessaire adaptation des ressources au type de corpus est rendue plus manifeste encore lorsque nous confrontons l'utilité du lexique acquis à partir du corpus journalistique à un lexique contenant des informations spécifiques à chacun des cinq corpus de test.

  • Titre traduit

    Building and evaluating lexical resources to resolve prepositional phrase attachment ambiguities in corpora


  • Résumé

    Lexicon is widely acknowledged as a very important component of any Natural Language Processing system, and the use of lexical resources is growing rapidly. Resolving Prepositional Phrase Attachment Ambiguity is known as a bottleneck in automatic parsing, and nowadays most work use corpus-based lexical resources while using existing intuition-based dictionaries is not so common. Furthermore, there has been very little work on investigating both sides (corpus and intuition-based) and measuring how each type of lexical resource helps in disambiguating. Assessing how well a lexical resource resolves Prepositional Phrase Attachment Ambiguity is mainly performed on a single corpus; therefore, very little work has been done on adapting lexical resources to the type of corpus. In our study, we build two types of corpus : one is based on an existing dictionary (Lexicon-Grammar), the other is corpus-based (a 200 million word newspaper corpus). We show how each lexicon helps in resolving Prepositional Phrase Attachment Ambiguity in five different corpora dealing with vulcanology, law, medicine, literature and journalism. We put forward some linguistic characteristics for each of the five corpora which help to understand why the performance of each lexicon varies according to the corpus. Adapting the type of lexicon resource to be used on a given corpus is made more obvious as we assess how the corpus-based lexicon performs compared with a specialised lexicon acquired from each of the five test corpora.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (195 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 173-180. Glossaire. Index

Où se trouve cette thèse ?

  • Bibliothèque : Université Toulouse Jean Jaurès. Bibliothèque universitaire centrale de lettres et sciences humaines.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.