Algorithmes d'analyse syntaxique par grammaires lexicalisées : optimisation et traitement de l'ambiguïté

par Olivier Blanc

Thèse de doctorat en Informatique linguistique

Sous la direction de Eric Laporte.

Soutenue en 2006

à l'Université de Marne-la-Vallée .


  • Résumé

    Nos recherches portent sur l'analyse automatique de textes par application de grammaires lexicalisées en utilisant des ressources linguistiques à large couverture. Dans ce contexte, nous avons appronfondi nos travaux dans trois domaines : l'algorithmique, la réalisation d'applications utilisables dans un contexte industriel et l'analyse syntaxique profonde. En ce qui concerne le premier point, nous avons implémenté des algorithmes originaux pour l'optimisation des grammaires locales en préalable à leur utilisation pour l'analyse et nous proposons un algorithme efficace pour l'application de ce type de grammaire sur un texte. Notre algorithme améliore le traitement des ambiguïtés lexicales et syntaxiques. Nous montrons par des évaluations chiffrées que nos algorithmes permettent de traiter de gros volumes de données textuelles en combinaison avec des ressources linguistiques fines et à large couverture. Au niveau applicatif, nous avons participé au développement de la plate-forme RNTL Outilex dédiée aux traitements automatiques de textes écrits. L'architecture modulaire de la plate-forme et sa licence peu restrictive (LGPL) permet la réalisation, à faible coût, d'applications hybrides mélangeant les méthodes à base de ressources linguistiques avec les méthodes statistiques. Enfin, le troisième axe de nos recherches porte sur l'exploitation des tables du lexique-grammaire, pour l'analyse syntaxique profonde et l'extraction des prédicats et de leurs arguments dans les textes français. A cet effet, nous avons fait évoluer le formalisme de nos grammaires vers un formalisme à structure de traits. Les équations sur les traits qui décorent notre grammaire nous permettent de résoudre de manière déclarative différents phénomènes syntaxiques et de représenter de manière formelle les résultats d'analyse. Nous présentons notre grammaire du français dans l'état actuel, qui est générée de manière semi-automatique à partir des tables du lexique grammaire, et nous donnons des évaluations de sa couverture lexicale et syntaxique

  • Titre traduit

    Algorithms for syntactic parsing with lexicalised gramars : optimisation and ambiguity management


  • Résumé

    The present work is about automatic parsing of written texts using lexicalized grammars and large coverage language resources. More specifically, we concentrated our work on three domains : algorithmic, easy development of NLP applications useful in an industrial context, and deep syntactic parsing. Concerning the first point, we implemented new algorithms for the optimisation of local grammars before their use for parsing and we propose an efficient algorithm for the application of this kind of grammar on text. Our algorithm enhance the processing of lexical and syntactic ambiguities and we show that it scales well when processing big text corpora in combination with fine grained and large coverage language resources. Concerning the second point, we were actively commited to the development of the Outilex project, a generalist linguistic platform dedicated to text processing. By its modular architecture, the platform aims to provide easy development of high level hybrid NLP applications mixing symbolic and stochastic approachs. Finally, the third part of our researchs involves the exploitation of the lexicon-grammar tables for deep syntactic parsing and the identification of predicate-arguments structures in French texts. For this purpose, we enhanced the formalism of local grammars with the addition of features structure constraints. Those constraints make possible to declaratively solve in our grammar many syntactic phenomena and to formalize the result of syntactic parsing. We present our grammar for French in its current state, which is semi-automatically generated from the lexicon-grammar tables, and we show some evaluation of its lexical and syntactic coverage

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (194 p.)
  • Annexes : Bibliogr. p. 185-194. (112 réf.). Notes bibliogr.

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Est Marne-la-Vallée. Bibliothèque.
  • Consultable sur place dans l'établissement demandeur
  • Cote : 2006 BLA 0334
  • Bibliothèque : Ecole Polytechnique de l’Université François Rabelais . Départements Electronique et Energie, Informatique, Mécanique et Systèmes. Centre de documentation.
  • Disponible pour le PEB
  • Cote : DI-TH-731
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.