Reinforcement learning in non-stationary environments | Theses.fr

Erwan Lecarpentier

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Apprentissage par renforcement en environement non stationnaire

FR |

EN

Auteur / Autrice :	Erwan Lecarpentier
Direction :	Guillaume Infantes, Emmanuel Rachelson
Type :	Thèse de doctorat
Discipline(s) :	Robotique et Informatique
Date :	Soutenance le 06/07/2020
Etablissement(s) :	Toulouse, ISAE
Ecole(s) doctorale(s) :	École doctorale Systèmes (Toulouse ; 1999-....)
Partenaire(s) de recherche :	Equipe de recherche : Equipe d'accueil doctoral Commande des systèmes et dynamique du vol (Toulouse, Haute-Garonne)
	Laboratoire : Institut supérieur de l'aéronautique et de l'espace (Toulouse, Haute-Garonne). Département d’ingénierie des systèmes complexes
Jury :	Président / Présidente : Régis Sabbadin
	Examinateurs / Examinatrices : Guillaume Infantes, Emmanuel Rachelson, Régis Sabbadin, Olivier Bernard Henri Buffet, Bruno Zanuttini, Tristan Cazenave, Aurélien Garivier, Kaufmann Aurélie
	Rapporteurs / Rapporteuses : Olivier Bernard Henri Buffet, Bruno Zanuttini

Mots clés

FR |

EN

Mots clés contrôlés

Apprentissage par renforcement (intelligence artificielle)

Processus décisionnels de Markov relationnels

Mots clés libres

Apprentissage par Renforcement

Planification

Apprentissage tout au long de la vie

Processus Décisionnel de Markov

Processus Décisionnel de Markov Non Stationnaire

Résumé

FR |

EN

Comment un agent doit-il agir étant donné que son environnement évolue de manièreincertaine ? Dans cette thèse, nous fournissons une réponse à cette question du point devue de l’apprentissage par renforcement. Le problème est vu sous trois aspects différents.Premièrement, nous étudions le compromis planification vs. re-planification des algorithmesde recherche arborescente dans les Processus Décisionnels Markoviens. Nous proposons uneméthode pour réduire la complexité de calcul d’un tel algorithme, tout en conservant desguaranties théoriques sur la performance. Deuxièmement, nous étudions le cas des environnementsévoluant graduellement au cours du temps. Cette hypothèse est formulée dansun cadre mathématique appelé Processus de Décision Markoviens Non-Stationnaires Lipschitziens.Dans ce cadre, nous proposons un algorithme de planification robuste aux évolutionspossibles, dont nous montrons qu’il converge vers la politique minmax. Troisièmement,nous considérons le cas de l’évolution temporelle abrupte dans le cadre du “lifelong learning”(apprentissage tout au long de la vie). Nous proposons une méthode de transfert non-négatifbasée sur l’étude théorique de la continuité de Lipschitz de la Q-fonction optimale par rapportà l’espace des tâches. L’approche permet d’accélérer l’apprentissage dans de nouvelles tâches.Dans l’ensemble, cette dissertation propose des réponses à la question de la résolution desProcessus de Décision Markoviens Non-Stationnaires dans trois cadres d’hypothèses.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Apprentissage par renforcement en environement non stationnaire

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Apprentissage par renforcement en environement non stationnaire

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses