Apprentissage de représentation continu

par Juan manuel Coria

Projet de thèse en Informatique

Sous la direction de Sophie Rosset.

Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication , en partenariat avec Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur (laboratoire) , ILES - Information, Langue Ecrite et Signée (equipe de recherche) et de Faculté des sciences d'Orsay (référent) depuis le 01-11-2019 .


  • Résumé

    L'apprentissage continu est la capacité d'un système d'apprentissage automatique d'acquérir des connaissances et de s'améliorer au cours du temps à travers un flux de données séquentielles. Ces données sont généralement présentées au modèle dans des fenêtres dont les limites sont spécifiées par la tâche à résoudre, le domaine d'application ou encore les classes connues. De plus, l'accès aux fenêtres précédentes est limité ou inexistant. Cela contraste fortement avec l'apprentissage traditionnel basé sur la descente de gradient, qui suppose qu'un problème est stationnaire et que les échantillons d'apprentissage sont indépendants et identiquement distribués. Le principal problème qui se pose dans ce scénario est connu sous le nom d''oubli catastrophique' [French, 1999], ce qui signifie que le système adapte ses poids pour modéliser la fenêtre actuelle, et perd les connaissances et les performances qu'il a acquises pour les fenêtres précédentes. La plupart des travaux existants tentent de contraindre les réseaux de neurones pour garantir la préservation des poids déjà appris [Robins, 1995, Kirkpatrick et al., 2017, Javed & White, 2019]. Les avantages de l'apprentissage continu sont l'adaptation constante à un problème changeant et le potentiel d'améliorer l'efficacité et le transfert entre des tâches similaires en tirant parti des connaissances acquises [Hadsell et al., 2020]. D'autre part, les systèmes d'apprentissage de représentation sont entraînés pour produire des représentations vectorielles (appelées 'embeddings') robustes et de haute qualité à partir des échantillons d'entrée. Grâce au progrès des réseaux de neurones, ces systèmes ont connu des améliorations remarquables dans des domaines tels que la modélisation du langage [Peters et al., 2018, Devlin et al., 2019] et le traitement de la parole [Snyder et al., 2018, Ravanelli & Bengio, 2018], entre autres. Ce travail se situe à l'intersection entre l'apprentissage continu et l'apprentissage de représentation, avec un accent sur le langage écrit et parlé. En particulier, l'objectif est d'étudier et de développer des systèmes capables d'apprendre à générer (et à utiliser) des représentations de haute qualité du texte ou de la parole pour l'apprentissage séquentiel et incrémental.

  • Titre traduit

    Continual representation learning


  • Résumé

    Continual learning denotes the ability of machine learning systems to acquire skills and improve themselves over time through a sequential flow of data, which is generally presented to the model in windows delimited according to the task, domain or even known classes, and with limited or no access to previous windows. This is in stark contrast to traditional gradient-based learning, which assumes that a problem is stationary and training samples are independent and identically distributed. The main issue that arises in this scenario is known as 'catastrophic forgetting' [French, 1999], which means that the system completely adapts its weights to model the current window, losing the knowledge and performance it acquired for previous ones. Most of the existing work tries to constrain neural networks to guarantee the preservation of previously learned weights [Robins, 1995, Kirkpatrick et al., 2017, Javed & White, 2019]. Continual learning brings the advantages of constant adaptation to a changing problem and it has the potential of improving learning efficiency and transfer between related tasks by leveraging past knowledge [Hadsell et al., 2020]. On the other hand, representation learning systems are trained to produce robust and high quality vector representations (known as embeddings) of input samples. Thanks to advances in artificial neural networks, such systems have witnessed outstanding improvements in fields like language modelling [Peters et al., 2018, Devlin et al., 2019] and speech processing [Snyder et al., 2018, Ravanelli & Bengio, 2018], among others. This work lies at the intersection between continual and representation learning, with special focus on written and spoken language. In particular, the goal is to study and develop systems that can learn to generate (and utilize) high quality representations of text or speech for sequential and incremental learning.