Thèse soutenue

Résolution des anaphores nominales pour la compréhension automatique des textes

FR  |  
EN
Auteur / Autrice : Thi Nhung Pham
Direction : Pierre-André Buvet
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance le 27/01/2017
Etablissement(s) : Sorbonne Paris Cité
Ecole(s) doctorale(s) : École doctorale Érasme (Villetaneuse, Seine-Saint-Denis)
Partenaire(s) de recherche : Laboratoire : Laboratoire Lexiques, dictionnaires, informatique (Villetaneuse, Seine-Saint-Denis ; 2007-2017)
Jury : Président / Présidente : Salah Mejri
Examinateurs / Examinatrices : Salah Mejri, Iris Eshkol, Juan-Manuel Torres-Moreno, Xavier Blanco Escoda, Elizabete Aparecida Marques
Rapporteurs / Rapporteuses : Iris Eshkol, Juan-Manuel Torres-Moreno

Résumé

FR  |  
EN

Toutes les informations présentes actuellement sur le web représentent une source d‘informations colossale, qui s‘enrichit de jour en jour. L‘analyse automatique de ces informations, qui sont plus souvent non-structurées, constitue un véritable enjeu économique et scientifique. La résolution des anaphores nominales s‘inscrit dans la structuration des informations grâce à l‘identification du lien entre des groupes nominaux, elle permet de simplifier des tâches à différentes applications : la traduction automatique, le résumé ou l‘extraction automatique d‘information, le data mining etc. Dans ce contexte, le travail que nous avons mené dans cette thèse évoque différentes méthodes de résolution des anaphores nominales de deux types : infidèles et associatives. En nous fondant sur divers aspects autours de la notion d‘anaphore nominale et des notions de voisinage comme la résolution d‘anaphores pronominales, la résolution de coréférences ; en combinant des méthodes existantes avec des outils et des ressources disponibles pour la langue française, notre travail s‘attache à trois modules : module de prétraitement du corpus, module de résolution des anaphores nominales et le module d‘évaluation. Au module de prétraitement, les ressources lexicales sont constituées et mobilisées grâces aux analyses au niveau linguistique des anaphores nominales. La plateforme Unitex est le principal outil utilisé à cette étape. Pour les anaphores du type infidèle, nous avons utilisé deux méthodes différentes : la première mobilise des ressources lexicales simples avec les entrées de groupes nominaux uniquement ; la deuxième mobilise des ressources plus élaborées (les entrées de groupes nominaux et verbaux). Pour les anaphores associatives du type méronymique, nous nous fondons sur la théorie des classes d‘objets afin de décrire le type de relation anaphorique établie Résumé 17 entre l‘expression anaphorique et son antécédent. Les ressources utilisées pour ce type d‘anaphore sont ainsi divisées hiérarchiquement selon les classes et les domaines. Le module de résolution est l‘étape de décision, nous nous basons sur le calcul du poids de saillance de chacun des antécédents potentiels pour sélectionner le meilleur candidat. Chaque candidat peut avoir différents facteurs de saillance, qui correspond à sa probabilité d'être sélectionné. Le poids de saillance final est calculé par le moyen pondéré des poids de saillance élémentaires. Les facteurs de saillances sont proposés après les analyses syntaxiques et sémantiques du corpus. L‘évaluation de notre travail constitue un vrai enjeu à cause de la complexité de la tâche, mais elle nous permet d‘avoir une vue globale sur nos méthodes de travail. La comparaison des résultats obtenus permet de visualiser l‘apport de chaque paramètre utilisé. L‘évaluation de notre travail nous permet également de voir les erreurs au niveau du prétraitement (l‘extraction des syntagmes nominaux, des syntagmes verbaux…), cela nous a permis d‘intégrer un module de correction dans notre système.