Exploration sous contrainte dans l'apprentissage par renforcement
Auteur / Autrice : | Evrard Garcelon |
Direction : | Vianney Perchet |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques appliquées |
Date : | Soutenance le 08/12/2022 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Centre de Recherche en Economie et Statistique (Palaiseau ; 1993-....) |
établissement opérateur d'inscription : École nationale de la statistique et de l'administration économique (Palaiseau ; 1960-....) | |
Jury : | Président / Présidente : Aurélien Garivier |
Examinateurs / Examinatrices : Vianney Perchet, Branislav Kveton, Azadeh Khaleghi, Aurélien Bellet | |
Rapporteurs / Rapporteuses : Aurélien Garivier, Branislav Kveton |
Mots clés
Résumé
Une application majeure de l'apprentissage machine automatisée est la personnalisation des différents contenus recommandé à différents utilisateurs. Généralement, les algorithmes étant à la base de ces systèmes sont dit supervisé. C'est-à-dire que les données utilisées lors de la phase d'apprentissage sont supposées provenir de la même distribution. Cependant, ces données sont générées par des interactions entre un utilisateur et ces mêmes algorithmes. Ainsi, les recommandations pour un utilisateur à un instant t peuvent modifier l'ensemble des recommandations pertinentes à un instant ultérieur. Il est donc nécessaire de prendre en compte ces interactions afin de produire un service de la meilleure qualité possible. Ce type d'interaction est réminiscente du problème d'apprentissage en ligne. Parmi les algorithmes dit en ligne, les algorithmes de bandits et d'apprentissage par Renforcement (AR) semblent être les mieux positionnés afin de remplacer les méthodes d'apprentissage supervisé pour des applications nécessitant un certain degré de personnalisation. Le déploiement en production d'algorithmes d'apprentissage par Renforcement présente un certain nombre de difficultés tel que garantir un certain niveau de performance lors des phases d'exploration ou encore comment garantir la confidentialité des données collectées par ces algorithmes. Dans cette thèse nous considérons différentes contraintes freinant l’utilisation d’algorithmes d’apprentissage par renforcement, en fournissant des résultats à la fois empirique et théorique sur la vitesse d’apprentissage en présence de différentes contraintes.