comment dresser votre robot - nouveaux environnements de formation robotique et nouvelles méthodes de transfert de stratégies du simulateur au vrai robot

par Florian Golemo

Thèse de doctorat en Informatique

Sous la direction de Pierre-Yves Oudeyer.


  • Résumé

    Les robots sont l'avenir. Mais comment pouvons-nous leur apprendre de nouvelles compétences utiles? Ce travail couvre une variété de sujets, ayant tous pour but commun de faciliter l'entraînement des robots. La première composante principale de cette thèse est notre travail sur le transfert de modélisation sim2real. Lorsqu'une stratégie a été entièrement apprise en simulation, ses performances sont généralement considérablement inférieures à celles du vrai robot. Cela peut être dû à du bruit aléatoire, à des imprécisions ou à des effets non modélisés, tels que des réactions en retour. Nous introduisons une nouvelle technique pour apprendre la différence entre le simulateur et le vrai robot et pour l'utiliser afin de corriger le simulateur. Nous avons constaté que pour plusieurs de nos idées, aucune simulation appropriée n'était disponible. Par conséquent, pour la deuxième partie principale de la thèse, nous avons créé un ensemble de nouvelles simulations robotiques et de nouveaux environnements de test. Nous fournissons (1) plusieurs nouvelles simulations pour des robots existants, ainsi que des variantes d'environnements existants, qui permettent un ajustement rapide de la dynamique du robot. Nous avons également co-créé (2) le défi AIDO de Duckietown, qui est un concours de robotique en direct à grande échelle pour les conférences NIPS 2018 et ICRA 2019. Pour ce défi, nous avons créé l'infrastructure de simulation, qui permet aux participants d'entraîner leurs robots en simulation avec ou sans ROS. Il leur permet également d'évaluer automatiquement leurs soumissions sur des robots en direct dans un "Robotarium". Afin d'évaluer la compréhension et l'acquisition continue de langage par un robot, nous avons développé le (3) Test d'Interaction Multimodal Homme-Robot (MHRI). Cet ensemble de tests contient plusieurs heures d'enregistrements annotés de différentes personnes montrant et pointant des objets ménagers courants, le tout du point de vue d'un robot. La nouveauté et la difficulté de cette tâche découlent du bruit réaliste inclus dans le jeu de données: la plupart des personnes n'était pas de langue maternelle anglaise, certains objets étaient obstrués et personne n'avait reçu d'instructions détaillées sur la manière de communiquer avec le robot, entraînant des interactions très naturelles. Nous avons constaté un manque flagrant de simulations d'environnements domestiques réalistes, avec annotations sémantiques, qui permettraient à un agent d'acquérir les compétences nécessaires pour maîtriser une telle tâche. C'est pourquoi nous avons créé (4) HoME, une plate-forme de formation de robots domestiques à la compréhension du langage. L'environnement a été créé en encapsulant la base de données existante SUNCG 3D, composée de maisons, dans un moteur de jeu pour permettre aux agents simulés de parcourir ces dernières. Il intègre un moteur acoustique très détaillé et un moteur sémantique pouvant générer des descriptions d'objets en relation avec d'autres objets, meubles et pièces. La troisième et dernière contribution principale de ce travail prend en considération le fait qu'un robot peut se trouver dans un nouvel environnement non couvert par la simulation. Dans un tel cas, nous fournissons une nouvelle approche qui permet à l'agent de reconstruire une scène 3D à partir d'une seule image 2D en apprenant l'intégration d'objets. Le principal inconvénient de ce travail est qu'il ne prend actuellement pas en charge de manière fiable la reconstruction de couleur et de texture. Nous avons testé cette approche sur une tâche de rotation mentale, courante dans les tests de QI, et avons constaté que notre modèle arrivait nettement mieux à reconnaître et à faire pivoter des objets que plusieurs modèles de référence.

  • Titre traduit

    how to train your robot - new environments for robotic training and new methods for transferring policies from the simulator to the real robot


  • Résumé

    Robots are the future. But how can we teach them useful new skills? This work covers a variety of topics, all with the common goal of making it easier to train robots. The first main component of this thesis is our work on model-building sim2real transfer. When a policy has been learned entirely in simulation, the performance of this policy is usually drastically lower on the real robot. This can be due to random noise, to imprecisions, or to unmodelled effects like backlash. We introduce a new technique for learning the discrepancy between the simulator and the real robot and using this discrepancy to correct the simulator. We found that for several of our ideas there weren't any suitable simulations available. Therefore, for the second main part of the thesis, we created a set of new robotic simulation and test environments. We provide (1) several new robot simulations for existing robots and variations on existing environments that allow for rapid adjustment of the robot dynamics. We also co-created (2) the Duckietown AIDO challenge, which is a large scale live robotics competition for the conferences NIPS 2018 and ICRA 2019. For this challenge we created the simulation infrastructure, which allows participants to train their robots in simulation with or without ROS. It also lets them evaluate their submissions automatically on live robots in a "Robotarium". In order to evaluate a robot's understanding and continuous acquisition of language, we developed the (3) Multimodal Human-Robot Interaction benchmark (MHRI). This test set contains several hours of annotated recordings of different humans showing and pointing at common household items, all from a robot's perspective. The novelty and difficulty in this task stems from the realistic noise that is included in the dataset: Most humans were non-native English speakers, some objects were occluded and none of the humans were given any detailed instructions on how to communicate with the robot, resulting in very natural interactions. We noticed that there was a distinct lack of simulations in realistic house settings with semantic annotations that would allow an agent to acquire the skills necessary to master such a task. That is why we created (4) HoME, a platform for training household robots to understand language. The environment was created by wrapping the existing SUNCG 3D database of houses in a game engine to allow simulated agents to traverse the houses. It integrates a highly-detailed acoustic engine and a semantic engine that can generate object descriptions in relation to other object, furniture, and rooms. The third and final main contribution of this work considered that a robot might find itself in a novel environment which wasn't covered by the simulation. For such a case we provide a new approach that allows the agent to reconstruct a 3D scene from a single 2D image by learning object embeddings. The main drawback of this work is that it currently doesn't reliably support reconstruction of color or texture. We tested the approach on a mental rotation task, which is common in IQ tests, and found that our model performs significantly better in recognizing and rotating objects than several baselines.