Thèse soutenue

Algorithmes d'apprentissage par renforcement avancé pour les problèmes bandits multi-arches

FR  |  
EN
Auteur / Autrice : Francisco Robledo Relaño
Direction : Florin AvramUrtzi Ayesta
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 11/10/2024
Etablissement(s) : Pau en cotutelle avec Universidad del País Vasco. Facultad de ciencias
Ecole(s) doctorale(s) : École doctorale sciences exactes et leurs applications (Pau, Pyrénées Atlantiques ; 1995-)
Partenaire(s) de recherche : Laboratoire : Laboratoire de mathématiques et de leurs applications (Pau)
Jury : Président / Présidente : Peter Jacko
Examinateurs / Examinatrices : Pali Lassila, Lanire Taboada puente, Inmaculada Arostegui madariaga, Cong-Duc Pham, Ernesto José Exposito Garcia
Rapporteurs / Rapporteuses : Pali Lassila

Résumé

FR  |  
EN

Cette thèse présente des avancées dans les algorithmes d'apprentissage par renforcement (RL) pour la gestion des ressources et des politiques dans les problèmes de bandit multiarmé sans repos (RMAB). Nous développons des algorithmes à travers deux approches dans ce domaine. Premièrement, pour les problèmes avec des actions discrètes et binaires, ce qui est le cas original de RMAB, nous avons développé QWI et QWINN. Ces algorithmes calculent les indices de Whittle, une heuristique qui découple les différents processus RMAB, simplifiant ainsi la détermination de la politique. Deuxièmement, pour les problèmes avec des actions continues, qui se généralisent aux processus de décision de Markov faiblement couplés (MDP), nous proposons LPCA. Cet algorithme utilise une relaxation lagrangienne pour découpler les différents PDM.Les algorithmes QWI et QWINN sont présentés comme des méthodes à deux échelles de temps pour le calcul des indices de Whittle pour les problèmes RMAB. Dans nos résultats, nous montrons mathématiquement que les estimations des indices de Whittle de l'algorithme QWI convergent vers les valeurs théoriques. QWINN, une extension de QWI, incorpore des réseaux neuronaux pour calculer les valeurs Q utilisées pour calculer les indices de Whittle. Grâce à nos résultats, nous présentons les propriétés de convergence locale du réseau neuronal utilisé dans QWINN. Nos résultats montrent que QWINN est plus performant que QWI en termes de taux de convergence et d'évolutivité.Dans le cas de l'action continue, l'algorithme LPCA applique une relaxation lagrangienne pour découpler les processus de décision liés, ce qui permet un calcul efficace des politiques optimales sous contrainte de ressources. Nous proposons deux méthodes d'optimisation différentes, l'évolution différentielle et les stratégies d'optimisation gourmande, pour gérer efficacement l'allocation des ressources. Dans nos résultats, LPCA montre des performances supérieures à d'autres approches RL contemporaines.Les résultats empiriques obtenus dans différents environnements simulés valident l'efficacité des algorithmes proposés.Ces algorithmes représentent une contribution significative au domaine de l'allocation des ressources dans le cadre de l'apprentissage par renforcement et ouvrent la voie à de futures recherches sur des cadres d'apprentissage par renforcement plus généralisés et évolutifs.