Thèse soutenue

Méta-apprentissage par renforcement pour le contrôle adaptatif

FR  |  
EN
Auteur / Autrice : Yesmina Jaafra
Direction : Aline DeruyverMohamed Sabeur Naceur
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 11/09/2020
Etablissement(s) : Strasbourg en cotutelle avec Université de la Manouba (Tunisie)
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences de l'information et de l'ingénieur (Strasbourg ; 1997-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire des sciences de l'ingénieur, de l'informatique et de l'imagerie (Strasbourg ; 2013-....)
Jury : Président / Présidente : Pierre Collet
Examinateurs / Examinatrices : Aline Deruyver, Mohamed Sabeur Naceur, Pierre Collet, David Filliat, Slim Yacoub, Élisa Fromont, Lhassane Idoumghar
Rapporteurs / Rapporteuses : David Filliat, Slim Yacoub

Résumé

FR  |  
EN

Avec l'avènement de l'apprentissage profond, l'intelligence artificielle a franchi un pas décisif vers l'automatisation des tâches de grande dimensionnalité. L'apprentissage par renforcement a été révolutionné grâce aux nouveaux concepts de représentation profonde. Toutefois, l'extension de l'application de ce paradigme vers la sphère du monde réel a engendré des nouveaux défis de généralisation et d'optimisation face à la non-stationnarité des tâches. Dans cette thèse, nous nous intéressons à l'évolution méthodologique récente de l'apprentissage automatique vers le méta-apprentissage afin de remédier aux limites de l'apprentissage profond. L'approche proposée est construite sur la base d'une formulation Markovienne évoluant graduellement selon 2 axes d'amélioration. Au niveau de la robustesse de l'apprentissage, nous intégrons dans l'expression du gradient de la politique la fonction avantage estimée par une version généralisée de l'apprentissage par différence temporelle. Concernant la capacité de généralisation, nous implémentons un méta-optimiseur de type gradient apprenant les évaluations de l'algorithme de base à travers les tâches. Le modèle généralisable obtenu a montré une adaptation rapide aux nouveaux contextes de conduite autonome en milieu urbain.