Thèse soutenue

Optimisation d'analyse syntaxique basée sur les grammaires d'arbres adjoints grâce à la modélisation d'expression polylexicales et à l'algorithme A

FR  |  
EN
Auteur / Autrice : Jakub Waszczuk
Direction : Agata SavaryYannick Parmentier
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 26/06/2017
Etablissement(s) : Tours
Ecole(s) doctorale(s) : École doctorale Mathématiques, Informatique, Physique Théorique et Ingénierie des Systèmes (Centre-Val de Loire)
Partenaire(s) de recherche : Equipe de recherche : Laboratoire d'Informatique Fondamentale et Appliquée de Tours (2012-...)
Laboratoire : École polytechnique universitaire (Tours)
Jury : Président / Présidente : Jean-Yves Antoine
Examinateurs / Examinatrices : Eric Villemonte de la Clergerie, Denys Duchier, Alexis Nasr
Rapporteurs / Rapporteuses : Shuly Wintner, Laura Kallmeyer

Résumé

FR  |  
EN

Dans ce mémoire, nous nous penchons sur les expressions polylexicales (EP) et leurs relations avec l’analyse syntaxique, la tâche qui consiste à déterminer les relations syntaxiques entre les mots dans une phrase donnée. Le défi que posent les EP dans ce contexte, par rapport aux expressions linguistiques régulières, provient de leurs propriétés parfois inattendues qui les rendent difficiles à gérer dans te traitement automatique des langues. Dans nos travaux, nous montrons qu’il est pourtant possible de profiter de ce cette caractéristique des EP afin d’améliorer les résultats d’analyse syntaxique. Notamment, avec les grammaires d’arbres adjoints (TAGs), qui fournissent un cadre naturel et puissant pour la modélisation des EP, ainsi qu’avec des stratégies de recherche basées sur l’algorithme A* , il est possible d’obtenir des gains importants au niveau de la vitesse sans pour autant détériorer la qualité de l’analyse syntaxique. Cela contraste avec des méthodes purement statistiques qui, malgré l’efficacité, ne fournissent pas de solutions satisfaisantes en ce qui concerne les EP. Nous proposons un analyseur syntaxique novateur qui combine les grammaires TAG avec La technique A*, axé sur la prédiction des EP, dont les fonctionnalités permettent des applications à grande échelle, facilement extensible au contexte probabiliste.