Thèse soutenue

Apprentissage par renforcement en environement non stationnaire

FR  |  
EN
Auteur / Autrice : Erwan Lecarpentier
Direction : Guillaume InfantesEmmanuel Rachelson
Type : Thèse de doctorat
Discipline(s) : Robotique et Informatique
Date : Soutenance le 06/07/2020
Etablissement(s) : Toulouse, ISAE
Ecole(s) doctorale(s) : École doctorale Systèmes (Toulouse ; 1999-....)
Partenaire(s) de recherche : Equipe de recherche : Equipe d'accueil doctoral Commande des systèmes et dynamique du vol (Toulouse, Haute-Garonne)
Laboratoire : Institut supérieur de l'aéronautique et de l'espace (Toulouse, Haute-Garonne). Département d’ingénierie des systèmes complexes
Jury : Président / Présidente : Régis Sabbadin
Examinateurs / Examinatrices : Guillaume Infantes, Emmanuel Rachelson, Régis Sabbadin, Olivier Bernard Henri Buffet, Bruno Zanuttini, Tristan Cazenave, Aurélien Garivier, Kaufmann Aurélie
Rapporteurs / Rapporteuses : Olivier Bernard Henri Buffet, Bruno Zanuttini

Résumé

FR  |  
EN

Comment un agent doit-il agir étant donné que son environnement évolue de manièreincertaine ? Dans cette thèse, nous fournissons une réponse à cette question du point devue de l’apprentissage par renforcement. Le problème est vu sous trois aspects différents.Premièrement, nous étudions le compromis planification vs. re-planification des algorithmesde recherche arborescente dans les Processus Décisionnels Markoviens. Nous proposons uneméthode pour réduire la complexité de calcul d’un tel algorithme, tout en conservant desguaranties théoriques sur la performance. Deuxièmement, nous étudions le cas des environnementsévoluant graduellement au cours du temps. Cette hypothèse est formulée dansun cadre mathématique appelé Processus de Décision Markoviens Non-Stationnaires Lipschitziens.Dans ce cadre, nous proposons un algorithme de planification robuste aux évolutionspossibles, dont nous montrons qu’il converge vers la politique minmax. Troisièmement,nous considérons le cas de l’évolution temporelle abrupte dans le cadre du “lifelong learning”(apprentissage tout au long de la vie). Nous proposons une méthode de transfert non-négatifbasée sur l’étude théorique de la continuité de Lipschitz de la Q-fonction optimale par rapportà l’espace des tâches. L’approche permet d’accélérer l’apprentissage dans de nouvelles tâches.Dans l’ensemble, cette dissertation propose des réponses à la question de la résolution desProcessus de Décision Markoviens Non-Stationnaires dans trois cadres d’hypothèses.