Analyse syntaxique à l'aide des tables du Lexique-Grammaire du français

par Elsa Tolone

Thèse de doctorat en Informatique et linguistique

Sous la direction de Eric Laporte et de Matthieu Constant.

Le président du jury était Denys Duchier.

Le jury était composé de Eric Laporte, Matthieu Constant, Eric De La Clergerie.

Les rapporteurs étaient Laurence Danlos, Laura Kallmeyer.


  • Résumé

    Les tables du Lexique-Grammaire, dont le développement a été initié par Gross (1975), constituent un lexique syntaxique très riche pour le français. Elles couvrent diverses catégories lexicales telles que les verbes, les noms, les adjectifs et les adverbes. Cette base de données linguistiques n'est cependant pas directement exploitable informatiquement car elle est incomplète et manque de cohérence. Chaque table regroupe un certain nombre d'entrées jugées similaires car elles acceptent des propriétés communes. Ces propriétés ont pour particularité de ne pas être codées dans les tables même mais uniquement décrites dans la littérature. Pour rendre ces tables exploitables, il faut expliciter les propriétés intervenant dans chacune d'entre elles. De plus, un grand nombre de ces propriétés doivent être renommées dans un souci de cohérence. Notre objectif est d'adapter les tables pour les rendre utilisables dans diverses applications de Traitement Automatique des Langues (TAL), notamment l'analyse syntaxique. Nous expliquons les problèmes rencontrés et les méthodes adoptées pour permettre leur intégration dans un analyseur syntaxique. Nous proposons LGExtract, un outil générique pour générer un lexique syntaxique pour le TAL à partir des tables du Lexique-Grammaire. Il est relié à une table globale dans laquelle nous avons ajouté les propriétés manquantes et un unique script d'extraction incluant toutes les opérations liées à chaque propriété devant être effectuées pour toutes les tables. Nous présentons également LGLex, le nouveau lexique syntaxique généré des verbes, des noms prédicatifs, des expressions figées et des adverbes. Ensuite, nous montrons comment nous avons converti les verbes et les noms prédicatifs de ce lexique au format Alexina, qui est celui du lexique Lefff (Lexique des Formes Fléchies du Français) (Sagot, 2010), un lexique morphologique et syntaxique à large couverture et librement disponible pour le français. Ceci permet son intégration dans l'analyseur syntaxique FRMG (French MetaGrammar) (Thomasset et de La Clergerie, 2005), un analyseur profond à large couverture pour le français, basé sur les grammaires d'arbres adjoints (TAG), reposant habituellement sur le Lefff. Cette étape de conversion consiste à extraire l'information syntaxique codée dans les tables du Lexique-Grammaire. Nous présentons les fondements linguistiques de ce processus de conversion et le lexique obtenu. Nous évaluons l'analyseur syntaxique FRMG sur le corpus de référence de la campagne d'évaluation d'analyseurs du français Passage (Produire des Annotations Syntaxiques à Grande Échelle) (Hamon et al., 2008), en comparant sa version basée sur le Lefff avec notre version reposant sur les tables du Lexique-Grammaire converties

  • Titre traduit

    Syntactic analysis with tables of French Lexicon-Grammar


  • Résumé

    Lexicon-Grammar tables, whose development was initiated by Gross (1975), are a very rich syntactic lexicon for the French language. They cover various lexical categories such as verbs, nouns, adjectives and adverbs. This linguistic database is nevertheless not directly usable by computer programs, as it is incomplete and lacks consistency. Tables are defined on the basis of features which are not explicitly recorded in the lexicon. These features are only described in literature. To use these tables, we must make explicit the essential features appearing in each one of them. In addition, many features must be renamed for consistency sake. Our aim is to adapt the tables, so as to make them usable in various Natural Language Processing (NLP) applications, in particular parsing.We describe the problems we encountered and the approaches we followed to enable their integration into a parser. We propose LGExtract, a generic tool for generating a syntactic lexicon for NLP from the Lexicon-Grammar tables. It relies on a global table in which we added the missing features and on a single extraction script including all operations related to each property to be performed for all tables. We also present LGLex, the new generated lexicon of French verbs, predicative nouns, frozen expressions and adverbs.Then, we describe how we converted the verbs and predicatives nouns of this lexicon into the Alexina framework, that is the one of the Lefff lexicon (Lexique des Formes Fléchies du Français) (Sagot, 2010), a freely available and large-coverage morphological and syntactic lexicon for French. This enables its integration in the FRMG parser (French MetaGrammar) (Thomasset et de La Clergerie, 2005), a large-coverage deep parser for French, based on Tree-Adjoining Grammars (TAG), that usually relies on the Lefff. This conversion step consists in extracting the syntactic information encoded in Lexicon-Grammar tables. We describe the linguistic basis of this conversion process, and the resulting lexicon. We evaluate the FRMG parser on the reference corpus of the evaluation campaign for French parsersPassage (Produire des Annotations Syntaxiques à Grande Échelle) (Hamon et al., 2008), by comparing its Lefff-based version to our version relying on the converted Lexicon-Grammar tables


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Communautés d’Universités et d'Etablissements Université Paris-Est. Bibliothèque universitaire.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.