Bandits à Mémoire pour la prise de décision en environnement dynamique

par Réda Alami

Projet de thèse en Mathématiques et Informatique

Sous la direction de Michèle Sebag et de Odalric-Ambrym Maillard.

Thèses en préparation à Paris Saclay , dans le cadre de Sciences et Technologies de l'Information et de la Communication , en partenariat avec LRI - Laboratoire de Recherche en Informatique (laboratoire) , A&O - Apprentissage et Optimisation (equipe de recherche) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 02-11-2016 .


  • Résumé

    La thèse tourne autour du problème des bandits dans l'apprentissage par renforcement. L'objectif est d'étendre les résultats des bandits stochastiques, adverses et contextuelles dans le cas où l'environnement est variable (dynamique). L'environnement dynamique sera caractérisé par des switchs observés à dex temps inconnus. Ces temps suivent une loi inconnue.

  • Titre traduit

    Memory Bandits for decision making in dynamical environments


  • Résumé

    The thesis revolves around the bandit problem in reinforcement learning. The aim is to extend the results of stochastic, adversarial and contextual bandits when the environment is variable (dynamic).