Apprentissage par renforcement et systèmes distribués : application à l'apprentissage de la marche d'un robot hexapode

par Youcef Zennir

Thèse de doctorat en Automatique industrielle

Sous la direction de Maurice Bétemps.

Soutenue en 2004

à Villeurbanne, INSA .


  • Résumé

    Le but de cette thèse est d'étudier et de proposer des techniques d'apprentissage par renforcement pour l'apprentissage de la marche d'un robot marcheur hexapode. L'hypothèse sur laquelle repose ce travail est que des marches peuvent être obtenues lorsque la commande des mouvements est distribuée au niveau de chaque patte plutôt que d'être centralisée. Une approche distribuée de l'apprentissage par renforcement de type Q-learning a été retenue dans laquelle les agents (les contrôleurs de mouvement) contribuant à une même tâche mènent leur propre apprentissage en tenant compte ou non de l'existence des autres agents. Différentes simulations et tests on été menés avec pour objectif la génération de marches périodiques stables. La marche apparaît comme un phénomène émergeant des mouvements individuels des pattes. L'influence des paramètres d'apprentissage sur les marches obtenues est étudiée. Sont aussi traités des problèmes de tolérances aux fautes et de manque d'information sur l'état du robot. Enfin il est vérifié en simulation que, avec les algorithmes développés, le robot apprend à rattraper une trajectoire prédéfinie tout en contrôlant sa posture.

  • Titre traduit

    Reinforcement learning and distributed systems : application to the learning of the walk of hexapod robot


  • Résumé

    The goal of this thesis is to study and to develop reinforcement learning techniques in order a hexapod robot to learn to walk. The main assumption on which this work is based is that effective gaits can be obtained as the control of the movements is distributed on each leg rather than centralised in a single decision centre. A distributed approach of the Q-learning technique is adopted in which the agents contributing to the same global objective perform their own learning process taking into account or not the other agents. The centralised and distributed approaches are compared. Different simulations and tests are carried out so as to generate stable periodic gaits. The influence of the learning parameters on the quality of the gaits are studied. The walk appears as an emerging phenomenon from the individual movements of the legs. Problems of fault tolerance and lack of state information are investigated. Finally it is verified that with the developed algorithm the simulated robot learns how to reach a desired trajectory while controlling its posture.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 169 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 160-169

Où se trouve cette thèse ?

  • Bibliothèque : Institut national des sciences appliquées (Villeurbanne, Rhône). Service Commun de la Documentation Doc'INSA.
  • Disponible pour le PEB
  • Cote : C.83(2826)
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.