Apprentissage profond sans supervision directe pour le traitement automatique des langues

Paul Caillon

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Apprentissage profond sans supervision directe pour le traitement automatique des langues

FR |

EN

Auteur / Autrice :	Paul Caillon
Direction :	Christophe Cerisara
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 31/05/2023
Etablissement(s) :	Université de Lorraine
Ecole(s) doctorale(s) :	École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury :	Président / Présidente : Marianne Clausel
	Examinateurs / Examinatrices : Christophe Cerisara, Alexandre Allauzen, François Portet, Madalina Olteanu
	Rapporteurs / Rapporteuses : Alexandre Allauzen, François Portet

Mots clés

FR |

EN

Mots clés contrôlés

Systèmes complexes

Traitement automatique du langage naturel

Réseaux neuronaux (informatique)

Apprentissage profond

Mots clés libres

Apprentissage profond

Supervision

Traitement automatique des langues

Réseau de neurones grossisants

Généralisation

Flatness

Résumé

FR |

EN

La profondeur des réseaux de neurones n'est plus l'aspect le plus important des systèmes d'apprentissage en profondeur de nos jours. Il s'agit plutôt de la possibilité de construire des fonctions de plus en plus abstraites et complexes implémentées sous forme de programmes informatiques paramétriques différentiables. La principale question concerne l'accès à des données annotées suffisantes pour entraîner cette fonction, ce qui devient critique. Par conséquent, de nos jours, la distinction standard entre l'apprentissage supervisé et non supervisé devient de plus en plus floue, car tout corpus annoté existant est inévitablement trop petit et statique pour représenter avec précision les informations les plus récentes. Un autre problème émergent est l'échelle des tailles de modèle utilisées pour atteindre des performances de pointe. Par exemple, en traitement du langage naturel, des super-modèles sont pré-entraînés, puis affinés pour des tâches spécifiques (Bert, XLM-R ou plus récemment PaLM et GPT-4). Les représentations génériques apprises par ces modèles sont ensuite adaptées aux tâches spécifiques à l'aide de méthodes d'apprentissage à quelques exemples adéquates. Certaines méthodes récentes réduisent les tailles des modèles entraînés après la phase d'entraînement tout en obtenant les mêmes performances, afin d'obtenir des modèles d'apprentissage automatique plus petits et éco-énergétiques utilisables sur des dispositifs à performances de calcul limitées (voir les méthodes d'élagage de réseau et de distillation). D'autre part, faire croître un petit réseau à la fois en largeur et en profondeur permet également d'apprendre des réseaux précis et relativement petits, atteignant des performances de pointe. Dans cette thèse, nous nous concentrons plus particulièrement sur le deuxième type d'approches. Nous travaillons sur des modèles capables d'augmenter progressivement la taille de la mémoire du réseau neuronal pour traiter une quantité croissante de données observées et observer la différence avec des modèles complets entraînés à partir de zéro, en mettant l'accent sur la compréhension des raisons pour lesquelles la croissance progressive conduit à des performances comparables avec moins de paramètres. Nous travaillons également sur de nouvelles fonctions de perte non supervisées ou faiblement supervisées qui permettent de former des modèles génératifs qui résolvent le manque de généralité de la plupart des méthodes d'incorporation actuelles. Nous proposons ainsi un modèle simple de grossissement permettant d'ajouter progressivement des nouveaux paramètres au cours de l'apprentissage afin d'étudier les comportements propres à ces réseaux dynamiques. Plus précisément, nous comparons les aspects des surfaces des fonctions de coût des réseaux standards et grossissants afin d'expliquer les performances de ces derniers. Pour les étudier plus en détails, nous développons également une approximation du risque théorique qui peut être utilisée à la fois comme une mesure de généralisation et comme une fonction de coût non supervisée.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Apprentissage profond sans supervision directe pour le traitement automatique des langues

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Apprentissage profond sans supervision directe pour le traitement automatique des langues

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses