Thèse soutenue

Influence des annotations imparfaites sur les systèmes de Traitement Automatique des Langues, un cadre applicatif : la résolution de l'anaphore pronominale

FR  |  
EN
Auteur / Autrice : Davy Weissenbacher
Direction : Christophe FouqueréAdeline Nazarenko
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2008
Etablissement(s) : Paris 13

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Un système informatique ne peut traiter un texte sans que certaines informations, comme les mots ou les phrases, ne soient annotées. Or, à ce jour, aucun système ne réalise automatiquement une annotation parfaite d'un texte. Ce constat fait, une question s'impose: quel système de traitement automatique des langues obtient les meilleures petrformances, un système qui intégre l'imperfection des annotations dans son processus de raisonnement ou un système prevu pour raisonner à partir d'annotations parfaites mais travaillant avec des annotations imparfaites? Pour y répondre nous avons proposé un modèle d'inférence probabiliste reposant sur les réseaux bayésiens (RB), un formalisme adapté pour travailler sur des données imparfaites. Nous avons travaillé sur le problème de la résolution du pronom "it" anaphorique dans les textes anglais et validé notre modèle en évaluant deux RB sur des corpus différents: un RB pour la reconnaissances des pronoms impersonnels et un RB pour le choix de l'antécédant. Les performances du premier RB sont meilleurs que celles des systèmes de l'état de l'art concurrents et mettent en évidence l'intérêt de notre modèle. Sur la seconde tâche, plus difficile, les performances du second RB sont moins satisfaisantes mais restent comparables aux performances des systèmes de l'état de l'art et elles montrent un résultat intéressant: lorsque que l'imperfection des annotations est prise en compte dans l'inférence, l'empli d'annotations de mauvaises qualités ne dégrade que très faiblement les performances du système; si, sans être parfaites, les annotations sont de meilleure qualité, leur utilisation améliore significativement les performances du système.