Adaptive Pure Exploration in Markov Decision Processes and Bandits | Theses.fr

Aymen Al Marjani

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Exploration Pure Adaptative dans les Processus de Décision Markoviens et les Bandits

FR |

EN

Auteur / Autrice :	Aymen Al Marjani
Direction :	Aurélien Garivier, Emilie Kaufmann
Type :	Thèse de doctorat
Discipline(s) :	Mathématiques
Date :	Soutenance le 06/12/2023
Etablissement(s) :	Lyon, École normale supérieure
Ecole(s) doctorale(s) :	École doctorale en Informatique et Mathématiques de Lyon (2009-....)
Partenaire(s) de recherche :	Laboratoire : Unité de Mathématiques Pures et Appliquées (Lyon ; 1991-....)
Jury :	Président / Présidente : Bruno Gaujal
	Examinateurs / Examinatrices : Aurélien Garivier, Emilie Kaufmann, Bruno Gaujal, Robert Nowak, Nicolas Gast, Ciara Pike-Burke, Anders Jonsson
	Rapporteurs / Rapporteuses : Robert Nowak, Nicolas Gast

Mots clés

FR |

EN

Mots clés contrôlés

Prise de décision -- Modèles mathématiques

Processus décisionnels de Markov relationnels

Mots clés libres

Processus de Décision Markoviens

Identification de la meilleure politique

Exploration sans récompense

Apprentissage par Renforcement

Exploration pure

Résumé

FR |

EN

Cette thèse s’intéresse aux problèmes d’exploration pure dans les Processus de Décision Markoviens (PDM) et les Bandits Multi-Bras. Ces problèmes ont surtout été étudiés dans une optique "pire-des-cas". L’objet de cette thèse est d’aller au-delà de ce cadre pessimiste en approfondissant notre compréhension de la complexité "spécifique à l’instance", c’est-à-dire du nombre d’observations dont un algorithme adaptatif aurait besoin pour accomplir une tâche d’exploration pure dans un PDM qui n’est pas nécessairement difficile. Premièrement, nous étudions le problème d’identification de la meilleure politique (en anglais "Best Policy Identification" ou BPI) dans un PDM. En s’inspirant de travaux existants dans le cas particulier des bandits, nous démontrons une borne inférieure sur la complexité des algorithmes de BPI dans un PDM escompté. Ensuite nous proposons un algorithme inspiré par cette borne et qui explore les paires d’état-action du PDM proportionnellement aux fréquences optimales dictées par la borne. Nous démontrons que et algorithme est, à un facteur 2 près, asymptotiquement optimal.Dans un deuxième temps, nous développons une approche d’exploration plus directe qui permet de collecter n’importe quel nombre souhaité d’observations depuis n’importe quelles paires d’état-action dans un PDM épisodique, tout en utilisant un nombre minimal d’épisodes. Nous verrons que pour un bon choix du nombre d’observations, une telle stratégie peut être employée pour résoudre le problème de BPI mais aussi celui de l’exploration sans récompense ("Reward-Free Exploration" en anglais). Ceci donne lieu à des algorithmes admettant des bornes plus fines sur leur complexité, qui dépendent notamment du PDM que l’on souhaite résoudre. Finalement, à travers le problème d’identification de l’ensemble des bras ε-optimaux dans un bandit multi-bras, nous explorons une méthode alternative pour prouver des bornes inférieures dans les problèmes d’exploration pure. Nous illustrons certains cas où les bornes obtenues ainsi sont plus fines que celles prouvées via la méthode classique.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Exploration Pure Adaptative dans les Processus de Décision Markoviens et les Bandits

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Exploration Pure Adaptative dans les Processus de Décision Markoviens et les Bandits

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses