Thèse soutenue

La résolution de la polysémie à l'aide de modèles de vecteur de mots et la visualisation de données : le cas des postpositions adverbiales -ey, -eyse, et -(u)lo en coréen

FR  |  
EN
Auteur / Autrice : Seongmin Mun
Direction : Guillaume Desagulier
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance le 18/06/2021
Etablissement(s) : Paris 10
Ecole(s) doctorale(s) : École doctorale Connaissance, langage, modélisation (Nanterre)
Partenaire(s) de recherche : Laboratoire : Laboratoire MoDyCo (Nanterre)
Jury : Président / Présidente : Delphine Battistelli
Examinateurs / Examinatrices : Guillaume Desagulier, Delphine Battistelli, Iksoo Kwon, Laurent Prévot, Caroline Brun, Iris Eshkol
Rapporteurs / Rapporteuses : Iksoo Kwon, Laurent Prévot

Résumé

FR  |  
EN

Ce projet de thèse présente des comptes rendus informatiques de la résolution de la polysémie au niveau des mots dans une langue peu étudiée—le Coréen. Les postpositions, qui se caractérisent par une correspondance forme-fonction multiple et qui sont donc polysémiques par nature, posent un défi à l'analyse automatique et à la performance des modèles pour identifier leurs fonctions. Dans ce projet, je consolide les modèles existants de classification de vecteur au niveau du mot (Positive Pointwise Mutual Information et Singular Value Decomposition; Skip-Gram and Negative Sampling) en tenant compte du Window du contexte, et j'introduis un modèle de classification de vecteur au niveau de la phrase (Bidirectional Encoder Representations from Transformers (BERT)) dans le cadre de la modélisation sémantique distributionnelle. Par ailleurs, je développe deux systèmes de visualisation qui montrent (i) les relations entre les postpositions et leurs mots co-occurrents pour les modèles de vecteur au niveau du mot, et (ii) les clusters entre les phrases pour le modèle de vecteur au niveau de la phrase. Ces systèmes de visualisation ont l'avantage de mieux comprendre comment ces modèles de classification classent les fonctions prévues de ces postpositions. Les résultats montrent que, alors que la performance des modèles de vecteur au niveau du mot est modulée par la taille des corpus d'entraînement contenant les fonctions spécifiques des postpositions, le modèle de vecteur au niveau des phrases est stable (i.e., moins affecté par la taille du corpus) et simule la façon dont les humains reconnaissent la polysémie des postpositions adverbiales coréennes de façon plus appropriée que les modèles de vecteur au niveau du mot.