Apprentissage par renforcement et réseaux de neurones récurrents : approches dynamiques

par Corentin Tallec

Projet de thèse en Informatique

Sous la direction de Yann Ollivier.

Thèses en préparation à Paris Saclay , dans le cadre de Sciences et Technologies de l'Information et de la Communication , en partenariat avec LRI - Laboratoire de Recherche en Informatique (laboratoire) , A&O - Apprentissage et Optimisation (equipe de recherche) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 01-10-2016 .


  • Résumé

    Nous attendrions d'une intelligence artificielle qu'elle soit capable de s'adapter à son environnement à mesure qu'elle interagit avec lui. Les méthodes actuelles d'apprentissage par renforcement mettant en jeu des réseaux de neurones, qui traitent en particulier de ce problème, ne répondent que partiellement à cette problématique. En effet, elles reposent sur un mécanisme de rétropropagation de l'information dans le temps, obligeant l'agent à parcourir à rebours l'intégralité de l'historique de ses observations à chaque instant, ce qui est irréaliste. Nous avons déjà introduit, dans la prépublication Ollivier-Tallec-Charpiat-2015 commune avec le candidat, une approche permettant de contourner ce problème et de traiter des réseaux de neurones récurrents dans le sens naturel d'écoulement du temps, en empruntant des idées de la théorie des systèmes dynamiques et des processus stochastiques. Cependant, cette avancée n'est pas encore bien comprise théoriquement, et en outre elle exclut les possibles influences de l'agent sur son environnement, impossibles à traiter directement de cette manière. Nous nous proposons de tenter de résoudre cette problématique, en exploitant ces pistes avec pour objectif le développement mathématique et le test pratique d'algorithmes d'apprentissage par renforcement se déroulant dans le sens naturel du temps, ce qui faciliterait grandement le déploiement de ces méthodes.

  • Titre traduit

    Reinforcement learning and recurrent neural networks: a dynamical approach


  • Résumé

    An intelligent agent would be expected to be able to adapt to its environment as it interacts with it. Current methods only partially, involving neural networks, only partially fit this requirement. They indeed rely on backpropagation mechanism, that go through the whole observation history. Following current advances in online RNN learning, the goal of this thesis would be to develop a fully online, neural based, reinforcement learning algorithm.