Learning distributed representations of sentences using neural networks | Theses.fr

Alexis Conneau

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Apprentissage et applications de représentations multilingues distribuées

FR |

EN

Auteur / Autrice :	Alexis Conneau
Direction :	Paul Deléglise, Loïc Barrault, Holger Schwenk
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 20/05/2019
Etablissement(s) :	Le Mans
Ecole(s) doctorale(s) :	École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche :	Laboratoire : Laboratoire d'informatique de l'Université du Mans
Jury :	Examinateurs / Examinatrices : Paul Deléglise, Loïc Barrault, Holger Schwenk, Yann Le Cun, Chris Dyer
	Rapporteurs / Rapporteuses : Claire Gardent, François Yvon

Mots clés

FR |

EN

Mots clés contrôlés

Multilinguisme

Linguistique -- Informatique

Phrase (linguistique)

Apprentissage profond

Réseaux neuronaux (informatique)

Mots clés libres

Apprentissage machine

Réseaux de neurones profonds

Représentations distribuées de phrases

Résumé

FR |

EN

La capacité d'apprendre desreprésentations génériques d'objets tels que desimages, des mots ou des phrases est essentiellepour construire des algorithmes qui ont unecompréhension élargie du monde. Grâce àl'apprentissage par transfert, les réseaux neuronauxpeuvent apprendre des représentations d’objetscomme des images à partir de gros jeux dedonnées, puis les exploiter pour améliorer laperformance des tâches à faibles ressources. Bienque l'apprentissage par transfert ait été très efficacepour transférer les représentations d'imagesapprises sur ImageNet à des tâches de vision àfaibles ressources, les représentations génériquesde texte à l'aide de réseaux neuronaux se sontlimitées aux représentations de mots. Cette thèseprésente une étude des représentations de phrases.J’y présente comment l’on a poussé l'état de l'artdes embeddings monolingues et cross-lingues. Lespremières contributions de cette thèse incluentSentEval, un outil d'évaluation et d’analyse desreprésentations de phrases universelles etInferSent, un encodeur de phrases générique.Nous montrons dans cette première partie que desreprésentations génériques de phrase peuvent êtreconstruites via des réseaux de neurones et qu'ellesfournissent des caractéristiques (« features»)puissantes de phrases, utilisables dans denombreux contextes. Dans la deuxième partie dema thèse, mes contributions traitent de l'alignementde distributions de mots et de phrases dansplusieurs langues. Je montre pour la première foisqu'il est possible d’aligner des espaces de mots etde phrases de manière totalement non supervisée,sans aucune données parallèles. En particulier,nous montrons que nous pouvons traduire des motsde manière non supervisée, ce qui a été la pierreangulaire du nouveau domaine de recherche de"traduction automatique non supervisée". Madernière contribution sur la modélisation multilinguemontre que les représentations de phrasesprovenant des modèles de langues peuvent êtrealignées de manière totalement non supervisée, cequi conduit à un nouvel état de l'art en traductionautomatique supervisée et non supervisée, et enclassification cross-lingue.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Apprentissage et applications de représentations multilingues distribuées

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Apprentissage et applications de représentations multilingues distribuées

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses