Thèse soutenue

Analyse syntaxique probabiliste en dépendances : approches efficaces à larges contexte avec ressources lexicales distributionnelles
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Enrique Henestroza Anguiano
Direction : Laurence DanlosMarie-Hélène CanditoAlexis Nasr
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2013
Etablissement(s) : Paris 7

Mots clés

FR

Résumé

FR  |  
EN

Cette thèse présente des méthodes pour améliorer l'analyse syntaxique probabiliste en dépendances. Nous employons l'analyse à base de transitions avec une modélisation effectuée par des machines à vecteurs supports (Cortes and Vapnik, 1995), et nos expériences sont réalisées sur le français. L'analyse a base de transitions est rapide, de par la faible complexité des algorithmes sous-jacents, eux mêmes fondés sur une optimisation locale des décisions d'attachement. Ainsi notre premier fil directeur est d'élargir le contexte syntaxique utilisé. Partant du système de transitions arc-eager (Nivre, 2008), nous proposons une variante qui considère simultanément plusieurs gouverneurs candidats pour les attachements à droite. Nous testons aussi la correction des analyses, inspirée par Hall and Novâk (2005), qui révise chaque attachement en choisissant parmi plusieurs gouverneurs alternatifs dans le voisinage syntaxique. Nos approches i améliorent légèrement la précision globale ainsi que celles de l'attachement des groupes prépositionnels et de la coordination. Notre deuxième fil explore des approches semi-supervisées. Nous testons l'auto-entrainement avec un analyseur en deux étapes, basé sur McClosky et al. (2006), pour le domaine journalistique ainsi que pour l'adaptation au domaine médical. Nous passons ensuite à la modélisation lexicale à base de corpus, avec des classes lexicales généralisées pour réduire la dispersion des données, et des préférences lexicales de l'attachement des groupes prépositionnels pour aider à la désambiguïsation. Nos approches améliorent, dans certains cas, la précision et la couverture de l'analyseur, sans augmenter sa complexité théorique.