Acquisition de grammaire catégorielle de dépendances de grande envergure

par Ramadan Alfared

Thèse de doctorat en Informatique

Sous la direction de Alexandre Dikovsky et de Denis Béchet.

Soutenue en 2012

à Nantes , en partenariat avec École polytechnique de l'Université de Nantes (autre partenaire) .


  • Résumé

    Ce travail est une étude qui s’inscrit dans le cadre de la création d’un lexique complet d’une grammaire catégorielle de dépendance du français (CDG) et s’inscrit aussi dans le cadre de l’analyse mixte stochastique-déterministe des grammaires de dépendances de grande envergure. En particulier, nous élaborons des algorithmes pour améliorer le lexique de base de la CDG du français. Nous résolvons plusieurs problèmes pour l’analyse avec cette grammaire à savoir l’absence de solution proposée par l’analyseur pour certaines phrases. Nous présentons un algorithme proto-déverb qui permet de compléter le lexique de la CDG du français en plaçant les déverbaux dans les classes lexicales qui correspondent à leurs cadres de sous-catégorisation déduits de ceux des verbes correspondants. Le second problème auquel nous nous intéressons provient du fait que l’analyseur de CDG donne actuellement toutes les solutions compatibles avec une CDG. Nous proposons une approche de filtrage qui consiste à utiliser un étiqueteur morphosyntaxique pour choisir les classes grammaticales les plus probables des unités lexicales. Notre approche permet de réduire de manière significative le taux d’ambiguïtés fallacieuses de la CDG. Notre étude conclue que la qualité de cette solution est basée principalement sur la compatibilité entre les unités lexicales qui sont définies par les étiqueteurs morpho-syntaxiques et la grammaire de dépendance.

  • Titre traduit

    Learning large-scale categorial dependency grammars


  • Résumé

    This work is a study that is part of the creation of the lexicon of a categorial dependency grammars (CDG) for French and also part of a mixed stochasticdeterministic analysis for large-scale dependency grammars. In particular we develop algorithms for CDG to improve the existing lexicon of the French CDG. We solve several problems for the analysis of these grammars for example, the absence of analysis proposed by the parser for some sentences. We present an algorithm proto-déverb which allows to complete the lexicon of the French CDG by using the sub-categorisation frame for deverbals. The second problem we consider is the fact that the CDG parser currently provides all the compatible solutions for a CDG. We propose a filtering approach to improve dependency parsing. We show that using a morpho-syntactic tagger that chooses the most probable grammatical classes for each lexical unit, we can significantly reduce the rate of ambiguities of the French CDG. Our study concluded that the adequacy of these solutions is mainly based on the compatibility between the lexical units defined by the taggers and the dependency grammar.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (127 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.119-127

Où se trouve cette thèse ?

  • Bibliothèque : Université de Nantes. Service commun de la documentation. BU Sciences.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.