Réseaux récurrents et apprentissage par renforcement : approches dynamiques

par Corentin Tallec

Thèse de doctorat en Informatique

Sous la direction de Yann Ollivier.

Thèses en préparation à l'Université Paris-Saclay (ComUE) , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) , en partenariat avec Laboratoire de Recherche en Informatique (laboratoire) et de Université Paris-Sud (1970-2019) (établissement opérateur d'inscription) .


  • Résumé

    D'un agent intelligent plongé dans le monde, nous attendons à la fois qu'il comprenne, et interagisse avec son environnement. La compréhension du monde environnant requiert typiquement l'assimilation de séquences de stimulations sensorielles diverses. Interagir avec l'environnement requiert d'être capable d'adapter son comportement dans le but d'atteindre un objectif fixé, ou de maximiser une notion de récompense. Cette vision bipartite de l'interaction agent-environnement motive les deux parties de cette thèse : les réseaux de neurone récurrents sont des outils puissants pour traiter des signaux multimodaux, comme ceux résultants de l'interaction d'un agent avec son environnement, et l'apprentissage par renforcement et le domaine privilégié pour orienter le comportement d'un agent en direction d'un but. Cette thèse a pour but d'apporter des contributions théoriques et pratiques dans ces deux champs. Dans le domaine des réseaux récurrents, les contributions de cette thèse sont doubles : nous introduisons deux nouveaux algorithmes d'apprentissage de réseaux récurrents en ligne, théoriquement fondés, et passant à l'échelle. Par ailleurs, nous approfondissons les connaissances sur les réseaux récurrents à portes, en analysant leurs propriétés d'invariance. Dans le domaine de l'apprentissage par renforcement, notre contribution principale est de proposer une méthode pour robustifier les algorithmes existant par rapport à la discrétisation temporelle. Toutes ces contributions sont motivées théoriquement, et soutenues par des éléments expérimentaux.

  • Titre traduit

    Recurrent neural networks and reinforcement learning: dynamical approaches


  • Résumé

    An intelligent agent immerged in its environment must be able to both understand and interact with the world. Understanding the environment requires processing sequences of sensorial inputs. Interacting with the environment typically involves issuing actions, and adapting those actions to strive towards a given goal, or to maximize a notion of reward. This view of a two parts agent-environment interaction motivates the two parts of this thesis: recurrent neural networks are powerful tools to make sense of complex and diverse sequences of inputs, such as those resulting from an agent-environment interaction; reinforcement learning is the field of choice to direct the behavior of an agent towards a goal. This thesis aim is to provide theoretical and practical insights in those two domains. In the field of recurrent networks, this thesis contribution is twofold: we introduce two new, theoretically grounded and scalable learning algorithms that can be used online. Besides, we advance understanding of gated recurrent networks, by examining their invariance properties. In the field of reinforcement learning, our main contribution is to provide guidelines to design time discretization robust algorithms. All these contributions are theoretically grounded, and backed up by experimental results.