Apprentissage non-supervisé de la morphologie des langues à l’aide de modèles bayésiens non-paramétriques

Kevin Löser

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Kevin Löser
Direction :	Alexandre Allauzen
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 09/07/2019
Etablissement(s) :	Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) :	École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur (Orsay, Essonne ; 1972-2020)
	établissement opérateur d'inscription : Université Paris-Sud (1970-2019)
Jury :	Président / Présidente : Pierre Zweigenbaum
	Examinateurs / Examinatrices : Alexandre Allauzen, Pierre Zweigenbaum, Benoît Crabbé, Christophe Cerisara
	Rapporteurs / Rapporteuses : Benoît Crabbé, Christophe Cerisara

Mots clés

FR |

EN

Mots clés contrôlés

Statistique bayésienne non paramétrique

Traitement automatique du langage naturel

Morphologie (linguistique)

Apprentissage automatique

Mots clés libres

Traitement des langues

Morphologie

Statistiques bayésiennes

Apprentissage machine

Résumé

FR |

EN

Un problème central contribuant à la grande difficulté du traitement du langage naturel par des méthodes statistiques est celui de la parcimonie des données, à savoir le fait que dans un corpus d'apprentissage donné, la plupart des évènements linguistiques n'ont qu'un nombre d'occurrences assez faible, et que par ailleurs un nombre infini d'évènements permis par une langue n'apparaitront nulle part dans le corpus. Les modèles neuronaux ont déjà contribué à partiellement résoudre le problème de la parcimonie en inférant des représentations continues de mots. Ces représentations continues permettent de structurer le lexique en induisant une notion de similarité sémantique ou syntaxique entre les mots. Toutefois, les modèles neuronaux actuellement les plus répandus n'offrent qu'une solution partielle au problème de la parcimonie, notamment par le fait que ceux-ci nécessitent une représentation distribuée pour chaque mot du vocabulaire, mais sont incapables d'attribuer une représentation à des mots hors vocabulaire. Ce problème est particulièrement marqué dans des langues morphologiquement riches, ou des processus de formation de mots complexes mènent à une prolifération des formes de mots possibles, et à une faible coïncidence entre le lexique observé lors de l’entrainement d’un modèle, et le lexique observé lors de son déploiement. Aujourd'hui, l'anglais n'est plus la langue majoritairement utilisée sur le Web, et concevoir des systèmes de traduction automatique pouvant appréhender des langues dont la morphologie est très éloignée des langues ouest-européennes est un enjeu important. L’objectif de cette thèse est de développer de nouveaux modèles capables d’inférer de manière non-supervisée les processus de formation de mots sous-jacents au lexique observé, afin de pouvoir de pouvoir produire des analyses morphologiques de nouvelles formes de mots non observées lors de l’entraînement.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Apprentissage non-supervisé de la morphologie des langues à l’aide de modèles bayésiens non-paramétriques

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Apprentissage non-supervisé de la morphologie des langues à l’aide de modèles bayésiens non-paramétriques

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses