Apprentissage de représentations spatiales pour les politiques mono-tâches de navigation et multi-tâches
Auteur / Autrice : | Pierre Marza |
Direction : | Olivier Simonin |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 25/11/2024 |
Etablissement(s) : | Lyon, INSA |
Ecole(s) doctorale(s) : | École doctorale InfoMaths (Lyon ; 2009-....) |
Partenaire(s) de recherche : | Membre de : Université de Lyon (2015-....) |
Laboratoire : Laboratoire d'InfoRmatique en Images et Systèmes d'information (Ecully, Rhône ; 2003-....) - Laboratoire d'InfoRmatique en Image et Systèmes d'information / LIRIS | |
Equipe de recherche : imagine - Extraction de Caractéristiques et Identification - SyCoSMA - Systèmes Cognitifs et Systèmes Multi-Agents - CHROMA - Robots coopératifs et adaptés à la présence humaine en environnements | |
Jury : | Président / Présidente : Nicolas Thome |
Examinateurs / Examinatrices : Olivier Simonin, Nicolas Thome, Karteek Alahari, Ivan Laptev, Christian Wolf, Georgia Chalvatzaki, Laetitia Matignon | |
Rapporteurs / Rapporteuses : Karteek Alahari, Ivan Laptev |
Mots clés
Mots clés contrôlés
Résumé
Agir de manière autonome dans notre monde 3D requiert un large éventail de compétences, parmi lesquelles se trouvent la perception du milieu environnant, sa représentation précise et suffisamment efficace pour garder une trace du passé, la prise de décisions et l’action en vue d’atteindre des objectifs. Les animaux, par exemple les humains, se distinguent par leur robustesse lorsqu’il s’agit d’agir dans le monde. En particulier, ils savent s’adapter efficacement à de nouveaux environnements, mais sont aussi capables de maîtriser rapidement de nombreuses tâches à partir de quelques exemples. Ce manuscrit étudiera comment les réseaux neuronaux artificiels peuvent être entrainés pour acquérir un sous-ensemble de ces capacités. Nous nous concentrerons tout d’abord sur l’entrainement d’agents neuronaux à la cartographie sémantique, à la fois à partir d’un signal de supervision augmenté et avec des représentations neuronales de scènes. Les agents neuronaux sont souvent entrainés par apprentissage par renforcement (RL) à partir d’un signal de récompense peu dense. Guider l’apprentissage des capacités de cartographie d’une scène en ajoutant au signal de supervision des tâches auxiliaires favorisant le raisonnement spatial aidera à naviguer plus efficacement. Au lieu de travailler sur le signal d’entrainement des agents neuronaux, nous verrons également comment l’incorporation de représentations neuronales spécifiques de la sémantique et de la géométrie à l’architecture de l’agent peut contribuer à améliorer les performances de navigation sémantique. Ensuite, nous étudierons la meilleure façon d’explorer un environnement 3D afin de construire des représentations neuronales de l’espace qui soient aussi satisfaisantes que possible sur la base de métriques pensées pour la robotique que nous proposerons. Enfin, nous passerons d’agents de navigation à des agents multi-tâches et nous verrons à quel point il est important d’adapter les caractéristiques visuelles extraites des observations de capteurs à chaque tâche à accomplir pour réaliser une variété de tâches, mais aussi pour s’adapter à de nouvelles tâches inconnues à partir de quelques démonstrations. Ce manuscrit abordera donc différentes questions : Comment représenter une scène 3D et garder une trace de l’expérience passée dans un environnement ? – Comment s’adapter de manière robuste à de nouveaux environnements, scénarios et potentiellement de nouvelles tâches ? – Comment entrainer des agents à des tâches séquentielles à horizon long ? – Comment maîtriser conjointement toutes les sous-compétences requises ? – Quelle est l’importance de la perception en robotique ?