Stratégies optimistes en apprentissage par renforcement

par Sarah Filippi

Thèse de doctorat en Signal et images

Sous la direction de Olivier Cappé et de Aurélien Garivier.

Soutenue en 2010

à Paris, Télécom ParisTech .


  • Résumé

    This thesis concerns model-based methods to solve reinforcement learning problems: these methods define a set of models which could explain the interaction between an agent and an environment. We consider different models of interaction : (partially observed) Markov decision processes and bandit models. We show that our novel algorithms perform well in practice and theoretically. The first algorithm consists of following an exploration policy during which the model is estimated and then an exploitation one. The duration of the exploration phase is controlled in an adaptative way. We then obtain a logarithmic regret for a parametric Markov decision problem even if the state is partially observed. This model is motivated by an application of interest in cognitive radio : the opportunistic access of a communication network by a secondary user. We are also interested in optimistic algorithms: the agent chooses the optimal actions for the best possible model. We construct such an algorithm in a parametric bandit model for a generalized linear model. We consider an online advertisement application. We then use the Kullback-Leibler divergence to construct the set of likely models in optimistic algorithms for finite Markov decision processes. This change in metric is studied in details and leads to significant improvement in practice.    

  • Titre traduit

    Optimistic strategies in reinforcement learning


  • Résumé

    Cette thèse traite de méthodes model-based pour résoudre des problèmes d’apprentissage par renforcement qui consistent à construire à chaque instant un ensemble de modèles permettant d’expliquer au mieux l’interaction entre un agent et un environnement. Nous considérons différents modèles d’interactions : les processus de décisions markoviens observés ou partiellement observés et les modèles de bandits. Les algorithmes proposés dans chacun de ses environnements se veulent performants tant en pratique que d'un point de vue théorique. Le premier algorithme consiste à suivre successivement une stratégie d’estimation du modèle d’interaction, puis une stratégie d’exploitation. La durée de la phase d’exploration est contrôlée de manière adaptative. Ceci permet d’obtenir un regret logarithmique dans un processus de décision markovien paramétrique partiellement observé particulier motivé par une application d’intérêt en radio cognitive qu’est l’accès opportuniste à un réseau de communication par un utilisateur secondaire. Nous nous intéressons de plus à des algorithmes optimistes : l’agent suit la politique optimale du meilleur des modèles possibles. Nous construisons un tel algorithme pour un modèle de bandit paramétrique dans un cas de modèles linéaires généralisés permettant ainsi de considérer des applications telles que la gestion de publicité sur internet. De plus, nous utilisons de la divergence de Kullback-Leibler pour la construction de l’ensemble des modèles vraisemblables dans des algorithmes optimistes pour des processus de décision markoviens à espaces d’états et d’actions finis, ce qui améliore significativement la performance pratique des algorithmes optimistes

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (179 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 158 réf. bibliogr. Résumé en français et en anglais

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Télécom Paris. Bibliothèque scientifique et technique.
  • Disponible pour le PEB
  • Cote : 2.77 FILI
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.