Synthèse d'agents adaptatifs et coopératifs par apprentissage par renforcement : application à la commande d'un système distribué de micromanipulation

par Laëtitia Matignon

Thèse de doctorat en Automatique

Sous la direction de Nadine Lefort-Piat.

Soutenue en 2008

à Besançon , en partenariat avec Université de Franche-comté. UFR des sciences et techniques (autre partenaire) .


  • Résumé

    De nombreuses applications peuvent être formulées en termes de systèmes distribués que ce soit une nécessité face à une distribution physique des entités (réseaux, robotique mobile) ou un moyen adopté face à la complexité d'appréhender un problème de manière globale. A travers l'utilisation conjointe de méthodes dites d'apprentissage par renforcement et des systèmes multi-agents, des agents autonomes coopératifs peuvent apprendre à résoudre de manière décentralisée des problèmes complexes en s'adaptant à ceux-ci afin de réaliser un objectif commun. Les méthodes , d'apprentissage par renforcement ne nécessitent aucune connaissance a priori sur la dynamique du système, celui-ci pouvant être stochastique et non-linéaire. Cependant, afin d'améliorer la vitesse d'apprentissage, des méthodes d'injection de connaissances pour les problèmes de plus court chemin stochastique sont étudiées et une fonction d'influence générique est proposée. Nous nous intéressons ensuite au cas d'agents indépendants situés daJ1S des jeux de Markov d'équipe. Dans ce cadre, les agents apprenant par renforcement doivent surmonter plusieurs enjeux tels que la coordination ou l'impact de l'exploration. L'étude de ces enjeux permet tout d'abord de synthétiser les caractéristiques des méthodes décentralisées d'apprentissage par renforcement existantes Ensuite, au vu des difficultés rencontrées par ces approches, deux algorithmes sont proposés. Le premier est le Q-learning hystérétique qui repose sur des agents « à tendance optimiste réglable ». Le second est le Swing befween Optimistic or Neutra/ (SOoN) qui permet à des agents indépendants de s'adapter automatiquement à la stochasticité de l'environnement. Les expérimentations sur divers jeux de Markov d'équipe montrent notamment que le SOoN surmonte les principaux facteurs de non-coordination et est robuste face à l'exploration des autres agents. Une extension de ces travaux à la commande décentralisée d'un système distribué de micromanipulation (smart surface) dans un cas partiellement observable est enfin exposée.

  • Titre traduit

    Synthesis of adaptative and cooperative agents by reinforcement learning : application to the control of a distributed micromanipulation system


  • Résumé

    Numerous applications can be formulated in terms of distributed systems, be it a necessity face to a physical distribution of entities (networks, mobile robotics) or a means of confronting the complexity to solve globally a problem. The objective is to use together reinforcement learning methods and multi-agent systems. Thus, cooperative and autonomous agents can learn resolve in a decentralized way complex problems by adapting to them 50 as to realize a joint objective. Reinforcement learning methods do not need any a priori knowledge about the dynamics of the system, which can be stochastic and nonlinear. In order to improve the learning speed, knowledge incorporation methods are studied within the context of goal-directed tasks. A generic goal bias function is also proposed. Then we took an interest in independent learners in team Markov games. In this framework, agents learning by reinforcement must overcome several difficulties as the coordination or the impact of the exploration. The study of these issues allows first to synthesize the characteristics of existing reinforcement learning decentralized methods. Then, given the difficulties encountered by this approach, two algorithms are proposed. The first one, called hysteretic Q-learning, is based on agents with "adjustable optimistic tendency". The second one is the Swing between Optimistic or Neutral (SOoN) in which independent agents can adapt automatically to the environment stochasticity. Experimentations on various team Markov games notably show that SOoN overcomes the main factors of non-coordination and is robust face to the exploration of the other agents. An extension of these works to the decentralized control of a distributed micromanipulation system (smart surface) in a partially observable case is finally proposed

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (230 p.) ; 30 cm
  • Notes : Reproduction de la thèse autorisée
  • Annexes : Bibliographie p. 213-226

Où se trouve cette thèse ?

  • Bibliothèque : Bibliothèque universitaire Sciences - Sport (Besançon).
  • Disponible pour le PEB
  • Cote : SCI.BESA.2008.26
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.