Thèse soutenue

Méthodes efficaces en apprentissage contrefactuel de politiques et prise de décisions séquentielles

FR  |  
EN
Auteur / Autrice : Houssam Zenati
Direction : Julien MairalEustache Diemert
Type : Thèse de doctorat
Discipline(s) : Mathématiques et informatique
Date : Soutenance le 21/09/2023
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Jean Kuntzmann (Grenoble)
Entreprise : Criteo SA (société anonyme)
Jury : Président / Présidente : Massih-Reza Amini
Examinateurs / Examinatrices : Olivier Cappé, Claire Vernade
Rapporteurs / Rapporteuses : Olivier Cappé, Nicolo Cesa-Bianchi

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Les données "loggées" sont devenues omniprésentes dans de nombreuses applications. Ces données observationnelles contiennent des informations partielles associées à des variables contextuelles et aux actions prises par une politique initiale. Le but de ces méthodes d’apprentissage contrefactuel en "bandits contextuels hors ligne" est d’apprendre une politique qui améliore la politique initiale. Bien que de nombreuses applications nécessitent un espace d’action discret, un intérêt moindre a été accordé aux méthodes avec actions continues. Aussi, le développement d’algorithmes avec des garanties théoriques qui fonctionnent dans ces régimes, ainsi que l’élargissement des données de référence en source ouverte est une direction de recherche importante qui a été un objet de cette thèse. Nous y présentons une méthode pour actions continues ainsi qu’un nouveau jeu de données CoCoA. De plus, nous étudions l’utilisation de méthodes d’optimisation liées à la nature de la fonction objective du minimisation de risque contrefactuel et proposons un nouvel estimateur qui est plus adapté à l’optimisation basée sur des gradients.Par ailleurs, les méthodes d’apprentissage contrefactuel utilisent généralement des estimateurs de pondération de propension inverse qui sont sujets à des problèmes de variance. Ce dernier est encore plus prononcé dans les cas où les décisions passées ont sous-exploré l’espace d’action. Par conséquent, une analyse hors ligne peut ne pas suffire pour prendre des décisions statistiquement plausibles ; il peut être nécessaire de collecter des données supplémentaires pour augmenter la taille d’échantillon. Ainsi, les conceptions séquentielles de collection de données de manière adaptative devraient permettre d’améliorer les garanties de convergence. Nous explorons cette direction dans cette thèse en proposant un nouvel estimateur avec des garanties améliorées qui permettent à leur tour d’obtenir des taux rapides sous une hypothèse similaire à celle des stratégies de redémarrage dans les méthodes d’optimisation accélérée.Inversement, lorsque l’exploration en ligne est possible, le principe d’optimisme a été déterminant pour obtenir des algorithmes avec des taux de regret sous-linéaires et des performances particulièrement remarquables dans des problèmes pratiques. Alors que les premières méthodes supposaient des hypothèses de linéarité sur la forme de la fonction de coût, les représentations non linéaires des méthodes à noyau permettent d’obtenir des représentations de données plus riches avec des performances améliorées. Cependant, de telles méthodes à noyau souffrent de problèmes de scalabilité car elles deviennent couteuses en calcul lorsque le nombre d’étapes de décision augmente. Nous étudions dans cette thèse l’utilisation de méthodes d’approximations pour proposer une implémentation efficace de la méthode UCB à noyau. Nous analysons le regret et explicitons les régimes dans lesquels l’approximation des méthodes à noyau permet de restaurer le taux de regret original tout en obtenant des calculs plus rapides.Enfin, en apprentissage séquentiel, un agent peut être appelé à choisir entre des actions dans un ensemble d’alternatives et développer une stratégie aléatoire dans des environnements adversariaux. Cependant, dans certaines applications, l’apprenant doit choisir entre un grand nombre d’alternatives qui présentent des similarités pouvant être induites par des coûts corrélées. Dans ce cas, un agent d’apprentissage peut souffrir d’un regret inutile et inversement, un agent qui bénéficierait d’informations annexes sur une structure de similarité devrait obtenir des performances améliorées. Cette thèse apporte des contributions sur des classes de problèmes de bandits multi-bras adversariaux avec un nouvel algorithme d’apprentissage avec conseils d’experts et un algorithme de poids exponentiel emboîté qui effectue une exploration en couches de l’espace d'actions.