Exploration guidée et induction de comportements génériques en apprentissage par renforcement

par Pascal Garcia

Thèse de doctorat en Informatique

Sous la direction de Pierre-Yves Glorennec.

Soutenue en 2004

à Rennes, INSA .


  • Résumé

    L'apprentissage par renforcement est un paradigme dans lequel un agent autonome apprend quelles actionseffectuer dans différentes situations (états), de façon à optimiser les renforcements (récompenses ou punitions) qu'il recevra sur le long terme. Bien qu'un très grand nombre de tâches puisse se formuler dans ce paradigme, deux problèmes fondamentaux se posent concernant les algorithmes d'apprentissage par renforcement standards : 1. Ils ne permettent pas de résoudre en un temps raisonnable des tâches ayant un assez grand nombre d'états. 2. Pour une tâche donnée, ces algorithmes doivent apprendre à partir de zéro même si cette tâche est similaire à une autre précédemment résolue. Il serait bien plus utile d'avoir des algorithmes permettant de résoudre plusieurs tâches séquentiellement, la connaissance apprise sur une tâche pouvant être transférée vers la suivante afin de guider l'apprentissage. Nous proposons des méthodes pour aborder ces deux problèmes : 1. Nous définissons deux formalismes permettant d'ajouter de la connaissance a priori, même très succincte, que l'utilisateur possède sur une tâche donnée afin de guider l'agent. L'agent est ainsi doté d'un comportement de base qui pourra se modifier lors de la phase d'apprentissage. 2. Nous définissons une méthode permettant à l'agent, après la résolution d'une ou plusieurs tâches apparentées et à partir de briques élémentaires, d'induire un comportement générique. Il pourra l'utiliserlors de la résolution d'une nouvelle tâche en plus des actions de base associées à cette tâche.

  • Titre traduit

    Guided exploration and induction of generic behaviours in reinforcement learning : zeng


  • Résumé

    Reinforcement learning is a general framework in which an autonomous agent learns which actions to choose in particular situations (states) in order to optimize some reinforcements (rewards or punitions) in the long run. Even if a lot of tasks can be formulated in this framework, there are two problems with the standard reinforcement learning algorithms: 1. Due to the learning time of those algorithms, in practice, tasks with a moderatly large state space are not solvable in reasonable time. 2. Given several problems to solve in some domains, a standard reinforcement learning agent learns an optimal policy from scratch for each problem. It would be far more useful to have systems that can solve several problems over time, using the knowledge obtained from previous problem instances to guide in learning on new problems. We propose some methods to address those issues: 1. We define two formalisms to introduce a priori knowledge to guide the agent on a given task. The agent has an initial behaviour which can be modified during the learning process. 2. We define a method to induce generic behaviours,based on the previously solved tasks and on basicbuilding blocks. Those behaviours will be added to the primitive actions of a new related task tohelp the agent solve it.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (212 p.)
  • Notes : Autorisation de publication délivrée par le jury
  • Annexes : Bibliogr. p.203-212 Index

Où se trouve cette thèse ?