Une architecture logicielle pour aider un agent apprenant par renforcement

par Fabien Montagne

Thèse de doctorat en Informatique

Sous la direction de Philippe Preux et de Samuel Delepoulle.

Soutenue en 2008

à Littoral .


  • Résumé

    Cette thèse s’inscrit dans le cadre de l’apprentissage par renforcement. L’un des principaux avantages est qu’il ne nécessite pas de connaître explicitement le comportement attendu. Durant son apprentissage, l’agent perçoit des états, reçoit un ensemble de retours et sélectionne des actions. Il adapte son comportement en optimisant la quantité de retour. Néanmoins, le temps de calcul nécessaire peut vite être prohibitif. La nécessité d’explorer son environnement en est la principale raison. Notre approche consiste à utiliser des connaissances externes pour « guider » l’agent dans son exploration. Ces connaissances constituent une aide pouvant s’exprimer sous forme de trajectoires formant une base de connaissances. Elles limitent l’exploration de l’environnement tout en permettant d’acquérir un comportement de bonne qualité. Aider un agent n’implique pas de connaître une politique, même partielle, ni d’avoir la même perception que l’agent. L’architecture critique-critique a été conçue pour répondre à cette problématique. Elle combine un algorithme d’apprentissage par renforcement standard avec une aide exprimée sous forme de potentiels, lesquels associent une valeur à chaque transition des trajectoires. L’estimation de la valeur par l’agent et le potentiel de l’aide sont combinés au cours de l’apprentissage. La variation de cette combinaison permet de remettre en cause l’aide tout en garantissant une politique optimale ou proche rapidement. Il est montré que l’algorithme proposé converge dans certaines conditions. De plus, des travaux empiriques montrent que l’agent est capable de tirer profit d’une aide même en dehors de ces conditions.

  • Titre traduit

    An architecture for helping a reinforcement learning agent


  • Résumé

    This thesis deals with reinforcement learning. One of the main advantage of this learning is to not require to know explicitely the expected behavior. During its learning, the agent percieves states, gets a set of rewards and selects actions to carry out. The agent fits its behavior by optimizing the amount of rewards. Nevertheless, the computing time required quickly becomes prohibitive. This is mainly due to the agent’s need of exploring its environment. The approach considered here consists in using external knowledge to “guide” the agent during its exploration. This knowledge constitutes an help which can, for example, be expressed by trajectories that set up a knowledge database. These trajectories are used to limit the exploration of the environment while allowing the agent to build a good quality behavior. Helping an agent does neither involve knowing the actions choose in all states, nor having the same perceptions as the agent. The critic-critic architecture was devised to fulfill to this problematic. It combines a standard reinforcement learning algorithm with an help given through potentials. The potentials assiociate a value to each transition of the trajectories. The value function estimation by the agent and the potential of the help are combined during the training. Fitting this combine dynamically makes it possible to throw assistance into question while guaranteing an optimal or almost optimal policy quickly. It is formally proved that the proposed algorithm converges under certain conditions. Moreover, empirical work show that the agent is able to benefit from an help without these conditions.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (viii-142 p.)
  • Annexes : Bibliogr. p. 133-138.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université du Littoral-Côte d'Opale (Calais, Pas-de-Calais). Bibliothèque. Section Sciences.
  • Disponible pour le PEB
  • Bibliothèque : Université du Littoral-Côte d'Opale (Calais, Pas-de-Calais). Bibliothèque. Section Sciences.
  • Consultable sur place dans l'établissement demandeur

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Non disponible pour le PEB
  • Cote : 2008DUNK0198
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.