Quantification d'Incertitudes pour l'Apprentissage par Renforcement

par Maksim Kaledin

Projet de thèse en Mathématiques appliquées

Sous la direction de Eric Moulines et de Denis Belomestny.

Thèses en préparation à l'Institut polytechnique de Paris en cotutelle avec Higher School of Economics National Research University (HSE NRU) , dans le cadre de École doctorale de mathématiques Hadamard , en partenariat avec CMAP - Centre de Mathématiques appliquées (laboratoire) et de SIMPAS : Signal IMage Probabilités numériques Apprentissage Statistique (equipe de recherche) depuis le 01-09-2019 .


  • Résumé

    L'apprentissage par renforcement est l'une des directions de recherche les plus prometteuses. Ce problème présente des similarités avec le contrôle optimal qui vise à apprendre à contrôler un système (pouvant être déterministe ou stochastique) de manière optimale (au sens d'un certain critère dépendant le plus souvent de récompenses associées à des actions). L'apprentissage par renforcement vise à déterminer des politiques de contrôle optimales mais sans connaître explicitement la dynamique du processus sous-jacent. La connaissance de la dynamique est remplacée par la donnée d'expériences obtenues sous des politiques de contrôles sous-optimales. De nombreuses approches ont été proposées, certaines très performantes pour certaines tâches. Toutefois, il reste délicat d'obtenir des garanties de fiabilité théoriques. L'objectif de la quantification d'incertitudes est précisément de construire de telles garanties. Plusieurs approches ont été proposées récemment pour la quantification d'incertitudes. La première direction de recherche consiste à considérer une fonction d'objectif plus générale que la moyenne des récompenses future. Cette approche vise à étendre les méthodes de contrôle 'risk-sensitive' à la problématique de l'apprentissage par renforcement. La deuxième approche est de considérer l'apprentissage par renforcement distributionnel. Cette approche consiste à remplacer l'équation de Bellman par un équivalent 'en loi'. Les résultats obtenus sont prometteurs mais la théorie reste à écrire. La troisième approche, plus classique, consiste à considérer des processus de décision de Markov robustes (robust MDP). Notre projet de recherche vise à développer de nouveaux algorithmes d'apprentissage par renforcement et d'établir des résultats théoriques en nous appuyant sur les résultats connus en contrôle optimal stochastique et inférence de processus.

  • Titre traduit

    Uncertainty Quantification in Reinforcement Learning


  • Résumé

    Reinforcement learning(RL) is one of the most promising perspective in modern machine learning. It currently attracts a large number of scientists and practitioners. Reinforcement learning shares many similarities with the problem of optimal control where the goal is to learn how to control some system (deterministic or stochastic) in optimal way (according to some optimality criteria). In comparison to this, reinforcement learning considers the same problem but without explicitly knowing the dynamics of the underlying process; in reinforcement learning, the knowledge of the underlying dynamic is only possible by using experiments under sub-optimal policy. Many approaches have been proposed: some have proven very successful to solve difficult tasks. Nevertheless, most of the recently introduced techniques come with little theoretical guarantees. One of the reasons why RL algorithms are not so widely used in practice as one could expect is that in particular it is extremely hard to obtain a sensible assessment of the reliability of learned policy. This is the main objective of the Uncertainty Quantification. Recently there were several directions have been developed hinting how Uncertainty Quantification should be performed in RL. The first direction of research is to consider a more general objective function instead of the average of future rewards. This approach aims to extend risk-sensitive control methods to the reinfocement learning. The second approach is to consider learning policy by distributional reinforcement learning. This approach consists in replacing the Bellman equation by a distributional proxy. The results obtained are promising but the theory remains to be developed. The third, more traditional approach is to consider robust Markov decision-making processes (robust CDM). In our research project we are aimed at developing new algorithms and provide theory for uncertainty quantification using results in risk-sensitive optimal control and inference of stochastic processes.