Synthèse de comportements par apprentissages par renforcement parallèles : application à la commande d'un micromanipulateur plan

par Guillaume Laurent

Thèse de doctorat en Automatique et Informatique

Sous la direction de Nadine Lefort-Piat.

Soutenue en 2002

à Besançon , en partenariat avec Université de Franche-comté. UFR des sciences et techniques (autre partenaire) .


  • Résumé

    En microrobotique, la commande des systèmes est délicate car les phénomènes physiques liés à l'échelle microscopique sont complexes. Les méthodes dites d'apprentissage par renforcement constituent une approche intéressante car elles permettent d'établir une stratégie de commande sans connaissance a priori sur le système. Au vu des grandes dimensions des espaces d'états des systèmes étudiés, nous avons développé une approche parallèle qui s'inspire à la fois des architectures comportementales et de l'apprentissage par renforcement. Cette architecture, basée sur la parallélisation de l'algorithme du Q-Learning, permet de réduire la complexité du système et d'accélérer l'apprentissage. Sur une application simple de labyrinthe, les résultats obtenus sont bons mais le temps d'apprentissage est trop long pour envisager la commande d'un système réel. Le Q-Learning a alors été remplacé par l'algorithme du Dyna-Q que nous avons adapté à la commande de systèmes non déterministes en ajoutant un historique des dernières transitions. Cette architecture, baptisée Dyna-Q parallèle, permet non seulement d'améliorer la vitesse de convergence, mais aussi de trouver de meilleures stratégies de contrôle. Les expérimentations sur le système de manipulation montrent que l'apprentissage est alors possible en temps réel et sans utiliser de simulation. La fonction de coordination des comportements est efficace si les obstacles sont relativement éloignés les uns des autres. Si ce n'est pas le cas, cette fonction peut créer des maxima locaux qui entraînent temporairement le système dans un cycle. Nous avons donc élaboré une autre fonction de coordination qui synthétise un modèle plus global du système à partir du modèle de transition construit par le Dyna-Q. Cette nouvelle fonction de coordination permet de sortir très efficacement des maxima locaux à condition que la fonction de mise en correspondance utilisée par l'architecture soit robuste.

  • Titre traduit

    Synthesis of behaviours by using parallel reinforcement learning : application to the control of a plane micromanipulator


  • Pas de résumé disponible.

Autre version

Cette thèse a donné lieu à une publication en 2005 par [CCSD] [diffusion/distribution] à Villeurbanne

Synthèse de comportements par apprentissages par renforcement parallèles : application à la commande d'un micromanipulateur plan

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : x-157 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 151-157

Où se trouve cette thèse ?