Thèse soutenue

Analyse syntaxique robuste du français : concilier méthodes statistiques et connaissances linguistiques dans l'outil Talismane

FR  |  
EN
Auteur / Autrice : Assaf Urieli
Direction : Ludovic Tanguy
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance le 17/12/2013
Etablissement(s) : Toulouse 2
Ecole(s) doctorale(s) : École doctorale Comportement, Langage, Éducation, Socialisation, Cognition (Toulouse)
Partenaire(s) de recherche : Equipe de recherche : Cognition, langues, langage, ergonomie (Toulouse ; 2006-....)
Jury : Examinateurs / Examinatrices : Ludovic Tanguy, Alexis Nasr, Éric Wehrli, Marie-Hélène Candito, Nabil Hathout
Rapporteurs / Rapporteuses : Alexis Nasr, Éric Wehrli

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Dans cette thèse, nous explorons l'analyse syntaxique robuste statistique du français. Notre principal souci est de trouver des méthodes qui permettent au linguiste d'injecter des connaissances et/ou des ressources linguistiques dans un moteur statistique afin d'améliorer les résultats de certains phénomènes spécifiques. D'abord nous décrivons le schéma d'annotation en dépendances du français, et les algorithmes capables de produire cette annotation, en particulier le parsing par transitions. Après avoir exploré les algorithmes d'apprentissage automatique supervisé pour les problèmes de classification en TAL, nous présentons l'analyseur syntaxique Talismane développé dans le cadre de cette thèse et comprenant quatre modules statistiques – le découpage en phrases, la segmentation en mots, l'étiquetage morpho-syntaxique et le parsing – ainsi que les diverses ressources linguistiques utilisées par le modèle de base. Nos premières expériences tentent d'identifier la meilleure configuration de base parmi de nombreuses configurations possibles. Ensuite nous explorons les améliorations apportées par la recherche par faisceau et la propagation du faisceau. Enfin nous présentons une série d'expériences dont le but est de corriger des erreurs linguistiques spécifiques au moyen de traits ciblés. Une de nos innovations est l'introduction des règles qui imposent ou interdisent certaines décisions locales, permettant ainsi de contourner le modèle statistique. Nous explorons l'utilisation de règles pour les erreurs que les traits n'ont pu corriger. Finalement, nous présentons une expérience semi-supervisée avec une ressource de sémantique distributionnelle.