Une contribution à l'apprentissage par renforcement : application au Computer Go

par Sylvain Gelly

Thèse de doctorat en Informatique

Sous la direction de Michèle Sebag et de Nicolas Bredèche.


  • Résumé

    Le domaine de l'Apprentissage par Renforcement (AR) se trouve à l'interface entre la théorie du contrôle, l'apprentissage supervisé et non-supervisé, l'optimisation et les sciences cognitives, et est un domaine très actif de par ses applications et les problèmes non résolus. Cette thèse apporte quelques contributions dans ce domaine, principalement sur trois axes. Le 1er axe correspond à la modélisation de l'environnement, i. E. à l'apprentissage de la fonction de transition entre deux pas de temps. L'apprentissage et l'utilisation de ce modèle se fait efficacement dans les approches factorisées. Les Réseaux Bayesiens sont un moyen de représenter ce type de modèle, et dans ce domaine le travail présenté propose un nouveau critère d'apprentissage, à la fois pour le paramétrique (probabilités conditionnelles) et non-paramétrique (structure). Le 2ème axe est une étude du cas de l'AR en continu (espace d'état et d'action), à partir de l'algorithme de résolution par programmation dynamique. Cette analyse s'attaque à trois étapes fondamentales de cet algorithme: l'optimisation (choix de l'action à partir de la fonction de valeurs (FV)), l'apprentissage supervisé (regression) de la FV et le choix des exemples sur lesquels apprendre (apprentissage actif). Le 3ème axe de contribution correspond au domaine applicatif du jeu de Go, qui est un cas discret et de grande dimension qui reste un grand challenge pour les algorithmes d'AR. Dans ce domaine, les algorithmes utilisés et améliorés ont permis au programme résultant, MoGo de gagner de nombreuses compétitions internationales et devenant par exemple le premier programme jouant à un niveau dan amateur sur plateau 9x9.

  • Titre traduit

    A contribution to Reinforcement Learning : application to Computer Go


  • Pas de résumé disponible.


  • Résumé

    Reinforcement Learning (RL) is at the interface of control theory, supervised and unsupervised learning, optimization and cognitive sciences. While RL addresses many objectives with major economic impact, it raises deep theoretical and practical difficulties. This thesis brings some contributions to RL, mainly on three axis. The first axis corresponds to environment modeling, i. E. Learning the transition function between two time steps. Factored approaches give an efficiently framework for the learning and use of this model. The Bayesian Networks are a tool to represent such a model, and this work brings new learning criterion, either in parametric learning (conditional probabilities) and non parametric (structure). The second axis is a study in continuous space and action RL, thanks to the dynamic programming algorithm. This analysis tackles three fundamental steps: optimization (action choice from the value function), supervised learning (regression) of the value function and choice of the learning examples (active learning). The third axis tackles the applicative domain of the game of Go, as a high dimensional discrete control problem, one of the greatest challenge in Machine Learning. The presented algorithms with their improvements made the resulting program, MoGo, win numerous international competitions, becoming for example the first go program playing at an amateur dan level on 9x9.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (23-24-236 p.)
  • Annexes : Bibliogr. p. 212-236

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2007)227
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.