Thèse soutenue

Représentation du sens des mots dans les modèles de langue neuronaux : polysémie lexicale et relations sémantiques

FR  |  
EN
Auteur / Autrice : Aina Garí Soler
Direction : Alexandre AllauzenMarianna Apidianaki
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 24/06/2021
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....)
référent : Faculté des sciences d'Orsay
Jury : Président / Présidente : Pierre Zweigenbaum
Examinateurs / Examinatrices : Chloé Clavel, Eneko Agirre, Malvina Nissim
Rapporteurs / Rapporteuses : Chloé Clavel, Eneko Agirre

Résumé

FR  |  
EN

Les plongements de mots générés par les modèles de langue neuronaux encodent des informations riches sur la langue et le monde. Dans cette thèse, nous étudions les connaissances sur le sens des mots encodées dans ces plongements lexicaux et proposons des méthodes automatiques pour en améliorer la qualité. Nous nous concentrons principalement sur les modèles contextuels qui génèrent des représentations capturant le sens d'occurrences de mots en contexte. Ces modèles ont dominé les domaines du Traitement Automatique des Langues (TAL) et de la linguistique computationnelle, et ouvrent de nouvelles possibilités intéressantes pour la recherche en sémantique lexicale. L'axe central de notre recherche est l'exploration des connaissances sur la polysémie lexicale encodées dans des modèles de plongements de mots. Nous accédons à ces connaissances par le biais d'expériences qui mesurent la similarité entre usages de mots, et en s'appuyant sur des annotations de substituts automatiquement attribuées par les modèles à des occurrences de mots en contexte. Nous étudions les représentations produites par les modèles sous leur forme brute, et explorons l'impact de leur enrichissement avec des connaissances sémantiques externes sur leur qualité. Nous évaluons les représentations intrinsèquement sur les tâches d'estimation de la similarité d'usages, de prédiction de la clusterabilité des sens des mots et de leur niveau de polysémie. De plus, nous utilisons des représentations contextualisées pour détecter des relations sémantiques entre les mots, plus spécifiquement en abordant l'intensité relative des adjectifs scalaires. Dans une perspective d'interprétation, nous étudions les connaissances que les modèles encodent sur les propriétés des substantifs telles qu'elles sont exprimées dans leurs modifieurs adjectivaux, ainsi que les propriétés d'implication caractérisant les constructions adjectif-substantif. Nos expériences explorent un large éventail de modèles contextualisés que nous comparons à des modèles qui génèrent des représentations statiques (non contextualisées) de mots. La majorité de nos analyses portent sur l'anglais mais nous testons également nos hypothèses et notre méthodologie en utilisant des modèles d’autres langues aussi bien qu'en utilisant des modèles multilingues. Nos résultats démontrent que les représentations contextualisées encodent des connaissances riches sur le sens des mots et leurs relations sémantiques, qui sont acquises lors de l’entraînement des modèles et qui sont, par la suite, enrichies par des informations provenant de nouveaux contextes d'utilisation. Nous constatons également que l'espace sémantique construit par ces modèles encode des notions sémantiques abstraites, comme la notion d'intensité des adjectifs, qui peuvent être utiles aussi bien pour l'analyse de la sémantique lexicale que dans des applications réelles. En outre, la méthodologie proposée peut être utile pour explorer d'autres propriétés sémantiques intrinsèques des mots ainsi que leurs relations sémantiques dans différentes langues, conduisant à une meilleure compréhension des connaissances sur le langage encodées dans les modèles de langue neuronaux.