Apprentissage par renforcement, étude du cas continu

par Rémi Munos

Thèse de doctorat en Sciences cognitives

Sous la direction de Paul Bourgine.

Soutenue en 1997

à Paris, EHESS .


  • Résumé

    Le probleme aborde est comment concevoir des methodes permettant a des systemes artificiels d' << apprendre par l'experience >>, c'est a dire de resoudre une tache sans etre explicitement programme pour cela, mais seulement a partir du schema d'apprentissage : essais -> erreur ou succes ii s'agit de definir des methodes, sous forme d'algorithmes, permettant la modification des parametres internes du systeme afin de definir des prises de decisions pertinentes. L'approche developpee est celle de << l'apprentissage par renforcement >> qui se definit naturellement sous la forme d'un probleme de controle optimal pour lequel les donnees de la dynamique d'etat sont a priori (au moins partiellement) inconnues du systeme. Cette these est une etude formelle du cas ou l'espace des etats possibles ainsi que le temps auquel les decisions sont prises sont des variable continues ; la preoccupation majeure de ce travail etant l'etude de la convergences des methodes employees. Nous decrivons le formalisme du controle optimal et presentons la methode de la programmation dynamique : definition de la fonction valeur et enonce l'equation de hamiltonjacobi-bellman associee. Nous introduisons les notions desolutions de viscosite et decrivons des methodes d'approximation numeriques a partir de schemas convergents. Puis nous donnons un theoreme de convergence d'algorithmes bases sur les schemas precedents -ce qui represente la contribution majeure de ce travail. Ce theoreme fournit une methode tres generale pour concevoir des algorithmes d'apprentissage par renforcement convergents. Enfin nous illustrons la methode avec divers exemples d'algorithmes varies portant sur des dynamiques d'etat deterministes ou stochastiques, selon des methodes dites directes ou indirectes et a partir de schemas bases sur des methodes aux differences finies ou aux elements finis.

  • Titre traduit

    Reinforcement learning, study of the continuous case


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (123 f.)
  • Notes : Publication autorisée par le jury

Où se trouve cette thèse\u00a0?

  • Bibliothèque : École des hautes études en sciences sociales. Thèses.
  • Non disponible pour le PEB
  • Cote : TPE 1997-21
  • Bibliothèque : École des hautes études en sciences sociales. Thèses.
  • Non disponible pour le PEB
  • Bibliothèque : Fondation Maison des sciences de l'homme. Bibliothèque.
  • PEB soumis à condition

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire Joseph-Fourier.
  • Accessible pour le PEB
  • Cote : MF-1997-MUN
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.