Thèse soutenue

Problèmes de décision séquentielle dans des environnements non-stationnaires

FR  |  
EN
Auteur / Autrice : Yoan Russac
Direction : Olivier CappéAurélien Garivier
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 01/03/2022
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique
Equipe de recherche : Traitement et classification de signaux (Paris)
établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....)
Jury : Président / Présidente : Florence d' Alché-Buc
Examinateurs / Examinatrices : Olivier Cappé, Aurélien Garivier, Florence d' Alché-Buc, Sébastien Gadat, Junya Honda, Arnak S. Dalalyan, Michal Valko, Alessandro Lazaric
Rapporteurs / Rapporteuses : Sébastien Gadat, Junya Honda

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

La version classique du modèle de bandit suppose que les distributions de probabilité des récompenses sont indépendantes et identiquement distribuées. Pour autant, cette hypothèse est restrictive dans de nombreux cas, puisqu’elle ne permet pas de prendre en compte d’éventuels changements de comportements. Dans le domaine médical, l’efficacité d’un traitement peut diminuer au cours du temps. Pour un site internet d’information en temps réel, le taux de consultation d’une page diminue à raison de sa date d’ancienneté. Les tendances de mode et les préférences des consommateurs évoluent rapidement. Un algorithme de recommendation ignorant ces formes de non-stationarité est alors susceptible de faire des suggestions sous-optimales. Ainsi, l’objet de cette thèse est l’étude des algorithmes de bandits stochastiques dans des environnements non-stationnaires. La non-stationarité peut être incorporée de plusieurs manières dans les modèles de bandits. Dans un premier temps, nous étudions une variante du problème d’identification du meilleur bras. Cette variante correspond à un système d’apprentissage qui cherche à identifier l’ensemble des options qui sont meilleures qu’un bras de contrôle, et ce en présence de sous-populations. Entre autres, l’utilisation de sous-populations permet la modélisation de l’évolution temporelle des différents bras. Nous proposons ensuite des algorithmes avec des garanties théoriques fortes pour la minimisation du regret et étudions le compromis exploration-exploitation pour de tels environnements. Nos recherches portent sur trois modèles différents : le bandit classique multi-bras, le bandit linéaire ou encore le bandit linéaire généralisé. Nous examinons les spécificités de chacun de ces trois modèles, ainsi que les défis techniques liés à la non-stationarité.