Contrôle de la locomotion des robots quadrupèdes à partir de méthodes d’apprentissage
| Auteur / Autrice : | Michel Aractingi |
| Direction : | Philippe Souères |
| Type : | Thèse de doctorat |
| Discipline(s) : | Informatique et Robotique |
| Date : | Soutenance le 06/12/2023 |
| Etablissement(s) : | Toulouse, INSA |
| Ecole(s) doctorale(s) : | École doctorale Systèmes (Toulouse ; 1999-....) |
| Partenaire(s) de recherche : | Laboratoire : LAAS - Laboratoire d'Analyse et d'Architecture des Systèmes - Laboratoire d'analyse et d'architecture des systèmes / LAAS |
| Jury : | Président / Présidente : Nicolas Mansard |
| Examinateurs / Examinatrices : Madiha Nadri | |
| Rapporteurs / Rapporteuses : Jean-Baptiste Mouret, David Filliat |
Mots clés
Mots clés libres
Résumé
Depuis de nombreuses années, les chercheurs tentent de développer et d’étudier des machines à pattes imitant les animaux et les humains. Les pattes permettent à l’agent de naviguer sur différents terrains et de franchir les obstacles et les marches là où les robots à roues échouent. Ces dernières années, plusieurs robots quadrupèdes ont été développés, capables de produire une densité de couple élevée et de résister aux chocs. En conséquence, la recherche sur la locomotion s’est accélérée car de nombreux défis mécaniques ont pu être résolus sur ces nouvelles plates- formes. Cependant, en raison de la complexité du contrôle de ces robots et de leur nature sous- actionnée il est difficile de leur conférer une locomotion robuste. Les méthodes traditionnelles basées sur la modélisation et l’optimisation produisent une locomotion efficace, mais sont difficiles à adapter aux différentes situations et manquent de robustesse. Au cours de la dernière décennie, les progrès dans le domaine de « l’apprentissage par renforcement profond » ont incité les chercheurs à utiliser cette nouvelle approche en robotique. Ces méthodes permettent d’apprendre des politiques de contrôle à partir des données d’interaction en maximisant une fonction de récompense qui permet d’exécuter la tâche souhaitée.Dans cette thèse, nous explorons et développons des méthodes d’apprentissage par renforcement profond pour la locomotion des quadrupèdes. Nous avons eu accès à deux robots quadrupèdes, le Solo-12 du LAAS et le Mini-Cheetah du MIT. Tout d’abord, nous avons développé une méthode d’apprentissage venant en complément d’un contrôleur basé-modèle. L’approche proposée modifie la locomotion nominale de Solo-12 produite par un contrôleur basé sur l’optimisation prédictive basée-modèle (MPC), assurant un compromis entre le suivi de la vitesse et la consommation d’énergie. Nous décrivons l’approche que nous avons développée pour apprendre de bout en bout d’une politique de commande des angles des liaisons de Solo-12. Cette politique permet de contrôler le robot pour suivre une vitesse de commande définie par l’utilisateur. Nous définissons les états, les actions et la fonction de récompense, ainsi que d’un terme représentant les pertes énergétiques sur le robot réel, que nous introduisons dans la récompense afin de simuler la consommation énergétique réelle. Nous montrons ensuite que la méthode qui nous a permis de réaliser le transfert des politiques sur Solo-12 ne peut pas être directement utilisée pour Mini-Cheetah. Pour y parvenir, nous avons développé une approche plus complexe basée sur la distillation afin d’apprendre une représentation de paramètres privilégiés inobservables, liés à la dynamique de l’environnement et du robot.Enfin, nous proposons une approche hiérarchique de la locomotion dans laquelle la politique de bas niveau est chargée d’optimiser différents paramétrages de la récompense et du contrôle. Nous mettons en évidence que de nombreuses caractéristiques sous-jacentes de la locomotion ne sont pas représentées dans la tâche de suivi de la vitesse, telles que la hauteur des pieds en vol, la longueur des pas et l’énergie dépensée. Nous proposons une approche pour apprendre les politiques de contrôle augmentées de paramètres permettant de modifier différents aspects de la fonction de récompense et de la configuration du contrôle, ce qui, en retour, entraîne des variations de la locomotion pouvant être contrôlées par une politique de haut niveau.Cette thèse contribue à la locomotion des robots à pattes en développant et en déployant des contrôleurs d’angle articulaires appris par apprentissage par renforcement profond sur les robot Solo-12 et Mini-Cheetah. De nombreuses expériences ont été menées sur chacun de ces robots pour valider ces développements et les difficultés rencontrées ont été détaillées.