Apprentissage par renforcement en environement non stationnaire

par Erwan Lecarpentier

Thèse de doctorat en Robotique et Informatique

Sous la direction de Guillaume Infantes et de Emmanuel Rachelson.

Thèses en préparation à Toulouse, ISAE , dans le cadre de École doctorale Systèmes , en partenariat avec ISAE-ONERA CSDV - Commande des Systèmes et Dynamique du Vol (laboratoire) depuis le 01-12-2016 .


  • Résumé

    Comment est-ce qu'un agent doit agir étant donné l'incertitude qu'il a sur l'évolution de son environnement ? Dans cette thèse, je donne une perspective d'apprentissage par renforcement sur la résolution de problèmes dynamiques, c'est-à-dire des problèmes évoluant dans le temps. Trois réponses, s'appuyant sur différents ensembles d'hypothèses, sont proposées sur ce sujet. Premièrement, en considérant des environnements stationnaires, je propose une approche pour calculer un comportement optimal avec une probabilité contrôlée, tirant parti du fait que l'on connaît un modèle stationnaire du monde. Deuxièmement, j'étudie le cas où l'environnement évolue régulièrement mais d'une manière inconnue. Dans cette configuration, une approche robuste aux possibles évolutions est proposée. Troisièmement, une évolution non régulière est considérée dans un cadre mieux connu sous le nom de emph{Lifelong Reinforcement Learning}. Je propose une méthode de transfert de connaissances basée sur l'étude théorique de la continuité d'une certaine fonction objectif dans l'espace des tâches. L'approche permet d'accélérer l'apprentissage dans les tâches nouvellement rencontrées.

  • Titre traduit

    Reinforcement learning in non-stationary environments


  • Résumé

    How should an agent act in the face of uncertainty on the evolution of its environment? In this thesis, I give a Reinforcement Learning perspective on the resolution of dynamical problems, i.e., problems changing through time. Three answers, relying on different sets of hypothesis, are proposed on that topic. First, by considering stationary environments, I propose an approach for computing an optimal behaviour with a controlled probability, taking advantage of the fact that we know a stationary model of the world. Secondly, I study the case where the environment evolves smoothly, but in an unknown manner. In that setting, a robust approach to the possible evolutions is proposed. Thirdly, non-smooth evolution is considered in a setting best known as Lifelong Reinforcement Learning. I propose a knowledge transfer method based on the theoretical study of the continuity of a certain objective function in the space of tasks. The approach allows to speed-up the learning in new encountered tasks.