Thèse soutenue

Analyse en corpus de chaînes de coréférence : la coréférence non-stricte à l'épreuve de la linguistique outillée
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Marine Delaborde
Direction : Frédéric Landragin
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance le 14/12/2020
Etablissement(s) : Paris 3
Ecole(s) doctorale(s) : École doctorale Sciences du langage (Paris ; 2019-....)
Partenaire(s) de recherche : Laboratoire : Langues, textes, traitements informatiques, cognition (Montrouge, Hauts de Seine)
Jury : Président / Présidente : Jeanne-Marie Debaisieux
Examinateurs / Examinatrices : Frédéric Landragin, Jeanne-Marie Debaisieux, Laure Gardelle, Emmanuel Schang, Guy Achard-Bayle
Rapporteurs / Rapporteuses : Laure Gardelle, Emmanuel Schang

Résumé

FR  |  
EN

Une chaîne de coréférence désigne l'ensemble des expressions linguistiques qui réfèrent à la même entité. La relation de coréférence entre les « maillons » d'une chaîne implique que le référent doit être strictement le même pour chaque expression qui la compose. Cependant, il arrive que le référent d'une expression soit difficile à identifier et que la relation de coréférence entre plusieurs expressions ne soit pas stricte de manière certaine. Pour un lecteur, ce manque de précision ne pose pas nécessairement de difficultés. En revanche, lors de l'annotation d'un corpus en coréférences, il est question d'indiquer clairement le référent de chaque expression. Les phénomènes de coréférence non stricte peuvent donc causer des difficultés d'annotation. Cette thèse a débuté au sein du projet ANR Democrat, avec une tâche d'annotation qui a permis de faire émerger des difficultés d'annotation théoriques et techniques liées à la coréférence non stricte. Nous proposons donc de passer en revue les phénomènes linguistiques impliqués dans la coréférence non stricte, notamment le flou (co)référentiel ainsi que les cas typiques relevés en corpus. Dans un second temps, nous proposons une étude de l'annotation de ces phénomènes dans un sous-corpus de Democrat. Cette étude révèle une grande variabilité d'annotation de ces phénomènes dont nous tirons une classification. Pour éviter les difficultés d'annotation liées à ces phénomènes, nous proposons un cadre plus précis pour l'annotation de la coréférence floue. Cela implique des précisions à ajouter au manuel d'annotation ainsi qu'un schéma d'annotation adapté, prenant en compte la coréférence floue.