Contributions à l'apprentissage par renforcement inverse

Édouard Klein

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Édouard Klein
Direction :	Yann Guermeur, Matthieu Geist
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 21/11/2013
Etablissement(s) :	Université de Lorraine
Ecole(s) doctorale(s) :	École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine
Partenaire(s) de recherche :	Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury :	Président / Présidente : Sylvain Contassot-Vivier
	Examinateurs / Examinatrices : Guillaume Laurent, Manuel Lopes, Olivier Pietquin
	Rapporteurs / Rapporteuses : Rachid Alami, Brahim Chaib-Draa

Mots clés

FR

Mots clés contrôlés

Analyse de régression

Rétro-ingénierie (informatique)

Apprentissage par renforcement (intelligence artificielle)

Markov, Processus de

Systèmes auto-organisés

Mots clés libres

Apprentissage par renforcement inverse

Processus de Markov

Algorithme de classification structurée

Régression

Résumé

FR |

EN

Cette thèse, intitulée "Contributions à l'apprentissage par renforcement inverse", fournit trois contributions majeures au domaine. La première est une méthode d'estimation de l'attribut moyen, une quantité exploitée par la grande majorité des approches constituant l'état de l'art. Elle a permis d'étendre ces approches au cadre batch et off-policy. La seconde contribution majeure est un algorithme d'apprentissage par renforcement inverse, structured classification for inverse reinforcement learning (SCIRL), qui relâche une contrainte standard du domaine, la résolution répétée d'un processus décisionnel de Markov en introduisant la structure temporelle (par le biais de l'attribut moyen) de ce processus dans un algorithme de classification structurée. Les garanties théoriques qui lui sont attachées et ses bonnes performances en pratique ont permis sa présentation dans une conférence internationale prestigieuse : NIPS. Enfin, la troisième contribution est constituée par la méthode cascaded supervised learning for inverse reinforcement learning (CSI) consistant à apprendre le comportement de l'expert par une méthode supervisée puis à introduire la structure temporelle du MDP par une régression mettant en jeu la fonction de score du classifieur utilisé. Cette méthode offre des garanties théoriques de même nature que celle de SCIRL tout en présentant l'avantage d'utiliser des composants standards pour la classification et la régression, ce qui simplifie la mise en oeuvre. Ce travail sera présenté dans une autre conférence internationale prestigieuse : ECML

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Contributions à l'apprentissage par renforcement inverse

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Contributions à l'apprentissage par renforcement inverse

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses