Thèse soutenue

Apprentissage par renforcement, étude du cas continu
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Rémi Munos
Direction : Paul Bourgine
Type : Thèse de doctorat
Discipline(s) : Sciences cognitives
Date : Soutenance en 1997
Etablissement(s) : Paris, EHESS

Résumé

FR

Le problème abordé est comment concevoir des méthodes permettant à des systèmes artificiels d' "apprendre par l'expérience",c'est à dire de résoudre une tâche sans être explicitement programmé pour cela, mais seulement à partir du schéma d'apprentissage : essais -> erreur ou succès. Il s'agit de définir des méthodes, sous forme d'algorithmes, permettant la modification des paramètres internes du système afin de définir des prises de décisions pertinentes. L'approche développée est celle de "l'apprentissage par renforcement" qui se définit naturellement sous la forme d'un problème de contrôle optimal pour lequel les données de la dynamique d'état sont a priori (au moins partiellement) inconnues du système. Cette thèse est une étude formelle du cas où l'espace des états possibles ainsi que le temps auquel les décisions sont prises sont des variables continues ; la préoccupation majeure de ce travail étant l'étude de la convergence des méthodes employées. Nous décrivons le formalisme du contrôle optimal et présentons la méthode de la programmation dynamique : définition de la fonction valeur et enonce l'équation de HamiltonJacobi-Bellman associée. Nous introduisons les notions de solutions de viscosité et décrivons des méthodes d'approximation numériques à partir de schémas convergents. Puis nous donnons un théorème de convergence d'algorithmes basés sur les schémas précédents - ce qui représente la contribution majeure de ce travail. Ce théorème fournit une méthode très générale pour concevoir des algorithmes d'apprentissage par renforcement convergents. Enfin nous illustrons la méthode avec divers exemples d'algorithmes variés portant sur des dynamiques d'état déterministes ou stochastiques, selon des méthodes dites directes ou indirectes et à partir de schémas basés sur des méthodes aux différences finies ou aux élements finis.