Influence des annotations imparfaites sur les systèmes de Traitement Automatique des Langues, un cadre applicatif : la résolution de l'anaphore pronominale

par Davy Weissenbacher

Thèse de doctorat en Informatique

Sous la direction de Christophe Fouqueré et de Adeline Nazarenko.

Soutenue en 2008

à Paris 13 .


  • Résumé

    Un système informatique ne peut traiter un texte sans que certaines informations, comme les mots ou les phrases, ne soient annotées. Or, à ce jour, aucun système ne réalise automatiquement une annotation parfaite d'un texte. Ce constat fait, une question s'impose: quel système de traitement automatique des langues obtient les meilleures petrformances, un système qui intégre l'imperfection des annotations dans son processus de raisonnement ou un système prevu pour raisonner à partir d'annotations parfaites mais travaillant avec des annotations imparfaites? Pour y répondre nous avons proposé un modèle d'inférence probabiliste reposant sur les réseaux bayésiens (RB), un formalisme adapté pour travailler sur des données imparfaites. Nous avons travaillé sur le problème de la résolution du pronom "it" anaphorique dans les textes anglais et validé notre modèle en évaluant deux RB sur des corpus différents: un RB pour la reconnaissances des pronoms impersonnels et un RB pour le choix de l'antécédant. Les performances du premier RB sont meilleurs que celles des systèmes de l'état de l'art concurrents et mettent en évidence l'intérêt de notre modèle. Sur la seconde tâche, plus difficile, les performances du second RB sont moins satisfaisantes mais restent comparables aux performances des systèmes de l'état de l'art et elles montrent un résultat intéressant: lorsque que l'imperfection des annotations est prise en compte dans l'inférence, l'empli d'annotations de mauvaises qualités ne dégrade que très faiblement les performances du système; si, sans être parfaites, les annotations sont de meilleure qualité, leur utilisation améliore significativement les performances du système.

  • Titre traduit

    Effects of imperfect annotation on Natural Language Processing systems, an applicative case study : the pronominal anaphora resolution


  • Résumé

    It is not possible for a science computing system to process a text when sequences, like words or sentences, are not annotated. However, to date, no system has been able to automatically produce a perfect annotation of a text. This report poses the folowing question; which is the better natural language processing system: a system designed to integrate imperfect annotations in its reasoning process or a system designed to work with perfect annotation but dealing with imperfect annotations? To answer this, we have proposed a probabilistic inference model based on Bayesian Networks (BN), a formalism well adapted to reasoning from imperfect data. We have worked on the resolution of the anaphoric pronoun "it" and validate our model in evaluating two BN on different corpora: a BN dedicated to the resolution of the impersonal pronoun recognition problem and a BN dealing with the choice of he antecedent problem. The performance of the first BN achieves better results than competing state of the art systems thus highlighting the strengths of our model. The performance of the second !bn on the choice of the antecedent problem, which is known to be difficult task, is not as good. However, the results are still comparable with the performance achieved by the state of the art systems and lead to an intersting outcome: when the imperfection of the annotation is taken into acount in the inference process, using bad quality annotations slightly worsens the overall performances of the system; when using better quality annotations, yet still not perfect, teh results achieved are significantly better.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (170 p.)
  • Annexes : Bibliogr. p. 165-170

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris 13 (Villetaneuse, Seine-Saint-Denis). Bibliothèque universitaire. Section Sciences.
  • Non disponible pour le PEB
  • Cote : TH 2008 045
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.