Apprentissage profond sans supervision directe pour le traitement automatique des langues
| Auteur / Autrice : | Paul Caillon |
| Direction : | Christophe Cerisara |
| Type : | Thèse de doctorat |
| Discipline(s) : | Informatique |
| Date : | Soutenance le 31/05/2023 |
| Etablissement(s) : | Université de Lorraine |
| Ecole(s) doctorale(s) : | École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....) |
| Partenaire(s) de recherche : | Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications |
| Jury : | Président / Présidente : Marianne Clausel |
| Examinateurs / Examinatrices : Christophe Cerisara, Alexandre Allauzen, François Portet, Madalina Olteanu | |
| Rapporteurs / Rapporteuses : Alexandre Allauzen, François Portet |
Résumé
La profondeur des réseaux de neurones n'est plus l'aspect le plus important des systèmes d'apprentissage en profondeur de nos jours. Il s'agit plutôt de la possibilité de construire des fonctions de plus en plus abstraites et complexes implémentées sous forme de programmes informatiques paramétriques différentiables. La principale question concerne l'accès à des données annotées suffisantes pour entraîner cette fonction, ce qui devient critique. Par conséquent, de nos jours, la distinction standard entre l'apprentissage supervisé et non supervisé devient de plus en plus floue, car tout corpus annoté existant est inévitablement trop petit et statique pour représenter avec précision les informations les plus récentes. Un autre problème émergent est l'échelle des tailles de modèle utilisées pour atteindre des performances de pointe. Par exemple, en traitement du langage naturel, des super-modèles sont pré-entraînés, puis affinés pour des tâches spécifiques (Bert, XLM-R ou plus récemment PaLM et GPT-4). Les représentations génériques apprises par ces modèles sont ensuite adaptées aux tâches spécifiques à l'aide de méthodes d'apprentissage à quelques exemples adéquates. Certaines méthodes récentes réduisent les tailles des modèles entraînés après la phase d'entraînement tout en obtenant les mêmes performances, afin d'obtenir des modèles d'apprentissage automatique plus petits et éco-énergétiques utilisables sur des dispositifs à performances de calcul limitées (voir les méthodes d'élagage de réseau et de distillation). D'autre part, faire croître un petit réseau à la fois en largeur et en profondeur permet également d'apprendre des réseaux précis et relativement petits, atteignant des performances de pointe. Dans cette thèse, nous nous concentrons plus particulièrement sur le deuxième type d'approches. Nous travaillons sur des modèles capables d'augmenter progressivement la taille de la mémoire du réseau neuronal pour traiter une quantité croissante de données observées et observer la différence avec des modèles complets entraînés à partir de zéro, en mettant l'accent sur la compréhension des raisons pour lesquelles la croissance progressive conduit à des performances comparables avec moins de paramètres. Nous travaillons également sur de nouvelles fonctions de perte non supervisées ou faiblement supervisées qui permettent de former des modèles génératifs qui résolvent le manque de généralité de la plupart des méthodes d'incorporation actuelles. Nous proposons ainsi un modèle simple de grossissement permettant d'ajouter progressivement des nouveaux paramètres au cours de l'apprentissage afin d'étudier les comportements propres à ces réseaux dynamiques. Plus précisément, nous comparons les aspects des surfaces des fonctions de coût des réseaux standards et grossissants afin d'expliquer les performances de ces derniers. Pour les étudier plus en détails, nous développons également une approximation du risque théorique qui peut être utilisée à la fois comme une mesure de généralisation et comme une fonction de coût non supervisée.