Thèse soutenue

Exploration Pure Adaptative dans les Processus de Décision Markoviens et les Bandits

FR  |  
EN
Auteur / Autrice : Aymen Al Marjani
Direction : Aurélien GarivierEmilie Kaufmann
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 06/12/2023
Etablissement(s) : Lyon, École normale supérieure
Ecole(s) doctorale(s) : École doctorale en Informatique et Mathématiques de Lyon (2009-....)
Partenaire(s) de recherche : Laboratoire : Unité de Mathématiques Pures et Appliquées (Lyon ; 1991-....)
Jury : Président / Présidente : Bruno Gaujal
Examinateurs / Examinatrices : Aurélien Garivier, Emilie Kaufmann, Bruno Gaujal, Robert Nowak, Nicolas Gast, Ciara Pike-Burke, Anders Jonsson
Rapporteurs / Rapporteuses : Robert Nowak, Nicolas Gast

Résumé

FR  |  
EN

Cette thèse s’intéresse aux problèmes d’exploration pure dans les Processus de Décision Markoviens (PDM) et les Bandits Multi-Bras. Ces problèmes ont surtout été étudiés dans une optique "pire-des-cas". L’objet de cette thèse est d’aller au-delà de ce cadre pessimiste en approfondissant notre compréhension de la complexité "spécifique à l’instance", c’est-à-dire du nombre d’observations dont un algorithme adaptatif aurait besoin pour accomplir une tâche d’exploration pure dans un PDM qui n’est pas nécessairement difficile. Premièrement, nous étudions le problème d’identification de la meilleure politique (en anglais "Best Policy Identification" ou BPI) dans un PDM. En s’inspirant de travaux existants dans le cas particulier des bandits, nous démontrons une borne inférieure sur la complexité des algorithmes de BPI dans un PDM escompté. Ensuite nous proposons un algorithme inspiré par cette borne et qui explore les paires d’état-action du PDM proportionnellement aux fréquences optimales dictées par la borne. Nous démontrons que et algorithme est, à un facteur 2 près, asymptotiquement optimal.Dans un deuxième temps, nous développons une approche d’exploration plus directe qui permet de collecter n’importe quel nombre souhaité d’observations depuis n’importe quelles paires d’état-action dans un PDM épisodique, tout en utilisant un nombre minimal d’épisodes. Nous verrons que pour un bon choix du nombre d’observations, une telle stratégie peut être employée pour résoudre le problème de BPI mais aussi celui de l’exploration sans récompense ("Reward-Free Exploration" en anglais). Ceci donne lieu à des algorithmes admettant des bornes plus fines sur leur complexité, qui dépendent notamment du PDM que l’on souhaite résoudre. Finalement, à travers le problème d’identification de l’ensemble des bras ε-optimaux dans un bandit multi-bras, nous explorons une méthode alternative pour prouver des bornes inférieures dans les problèmes d’exploration pure. Nous illustrons certains cas où les bornes obtenues ainsi sont plus fines que celles prouvées via la méthode classique.