Thèse soutenue

Évaluation qualitative des word embeddings : étude de l'instabilité dans les modèles neuronaux
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Bénédicte Pierrejean
Direction : Ludovic Tanguy
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance le 08/01/2020
Etablissement(s) : Toulouse 2
Ecole(s) doctorale(s) : École doctorale Comportement, Langage, Éducation, Socialisation, Cognition (Toulouse)
Partenaire(s) de recherche : Laboratoire : Cognition, langues, langage, ergonomie (Toulouse)
Jury : Président / Présidente : Cécile Fabre
Examinateurs / Examinatrices : Ludovic Tanguy, Olivier Ferret, Alessandro Lenci, Aurélie Herbelot
Rapporteurs / Rapporteuses : Olivier Ferret, Alessandro Lenci

Résumé

FR  |  
EN

La sémantique distributionnelle a récemment connu de grandes avancées avec l’arrivée des plongements de mots (word embeddings) basés sur des méthodes neuronales qui ont rendu les modèles sémantiques plus accessibles en fournissant des méthodes d’entraînement rapides, efficaces et faciles à utiliser. Ces représentations denses d’unités lexicales basées sur l’analyse non supervisée de gros corpus sont de plus en plus utilisées dans diverses applications. Elles sont intégrées en tant que première couche dans les modèles d’apprentissage profond et sont également utilisées pour faire de l’observation qualitative en linguistique de corpus. Cependant, malgré leur popularité, il n’existe toujours pas de méthode d’évaluation des plongements de mots qui donne à la fois une vision globale et précise des différences existant entre plusieurs modèles.Dans cette thèse, nous proposons une méthodologie pour évaluer les plongements de mots. Nous fournissons également une étude détaillée des modèles entraînés avec la méthode word2vec.Dans la première partie de cette thèse, nous donnons un aperçu de l’évolution de la sémantique distributionnelle et passons en revue les différentes méthodes utilisées pour évaluer les plongements de mots. Par la suite, nous identifions les limites de ces méthodes et proposons de comparer les plongements de mots en utilisant une approche basée sur les voisins sémantiques. Nous expérimentons avec cette approche sur des modèles entrainés avec différents paramètres ou sur différents corpus. Étant donné la nature non déterministe des méthodes neuronales, nous reconnaissons les limites de cette approche et nous concentrons par la suite sur le problème de l’instabilité des voisins sémantiques dans les modèles de plongement de mots. Plutôt que d’éviter ce problème, nous choisissons de l’utiliser comme indice pour mieux comprendre les plongements de mots. Nous montrons que le problème d’instabilité n’affecte pas tous les mots de la même manière et que plus plusieurs traits linguistiques permettent d’expliquer une partie de ce phénomène. Ceci constitue un pas vers une meilleure compréhension du fonctionnement des modèles sémantiques vectoriels.