La résolution de la polysémie à l'aide de modèles de vecteur de mots et la visualisation de données : le cas des postpositions adverbiales -ey, -eyse, et -(u)lo en coréen

Seongmin Mun

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Seongmin Mun
Direction :	Guillaume Desagulier
Type :	Thèse de doctorat
Discipline(s) :	Sciences du langage
Date :	Soutenance le 18/06/2021
Etablissement(s) :	Paris 10
Ecole(s) doctorale(s) :	École doctorale Connaissance, langage, modélisation (Nanterre)
Partenaire(s) de recherche :	Laboratoire : Laboratoire MoDyCo (Nanterre)
Jury :	Président / Présidente : Delphine Battistelli
	Examinateurs / Examinatrices : Guillaume Desagulier, Delphine Battistelli, Iksoo Kwon, Laurent Prévot, Caroline Brun, Iris Eshkol
	Rapporteurs / Rapporteuses : Iksoo Kwon, Laurent Prévot

Mots clés

FR |

EN

Mots clés contrôlés

Postpositions

Data visualisation

Traitement automatique du langage naturel

Polysémie

Coréen (langue)

Mots clés libres

Polysémie

Traitement automatique des langues

Classification

Modèles de vecteur de mots

Visualisation de données

Coréen

Résumé

FR |

EN

Ce projet de thèse présente des comptes rendus informatiques de la résolution de la polysémie au niveau des mots dans une langue peu étudiée—le Coréen. Les postpositions, qui se caractérisent par une correspondance forme-fonction multiple et qui sont donc polysémiques par nature, posent un défi à l'analyse automatique et à la performance des modèles pour identifier leurs fonctions. Dans ce projet, je consolide les modèles existants de classification de vecteur au niveau du mot (Positive Pointwise Mutual Information et Singular Value Decomposition; Skip-Gram and Negative Sampling) en tenant compte du Window du contexte, et j'introduis un modèle de classification de vecteur au niveau de la phrase (Bidirectional Encoder Representations from Transformers (BERT)) dans le cadre de la modélisation sémantique distributionnelle. Par ailleurs, je développe deux systèmes de visualisation qui montrent (i) les relations entre les postpositions et leurs mots co-occurrents pour les modèles de vecteur au niveau du mot, et (ii) les clusters entre les phrases pour le modèle de vecteur au niveau de la phrase. Ces systèmes de visualisation ont l'avantage de mieux comprendre comment ces modèles de classification classent les fonctions prévues de ces postpositions. Les résultats montrent que, alors que la performance des modèles de vecteur au niveau du mot est modulée par la taille des corpus d'entraînement contenant les fonctions spécifiques des postpositions, le modèle de vecteur au niveau des phrases est stable (i.e., moins affecté par la taille du corpus) et simule la façon dont les humains reconnaissent la polysémie des postpositions adverbiales coréennes de façon plus appropriée que les modèles de vecteur au niveau du mot.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

La résolution de la polysémie à l'aide de modèles de vecteur de mots et la visualisation de données : le cas des postpositions adverbiales -ey, -eyse, et -(u)lo en coréen

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

La résolution de la polysémie à l'aide de modèles de vecteur de mots et la visualisation de données : le cas des postpositions adverbiales -ey, -eyse, et -(u)lo en coréen

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses