Méta-apprentissage par renforcement pour la robotique sociale
| Auteur / Autrice : | Anand Ballou |
| Direction : | Xavier Alameda-Pineda |
| Type : | Thèse de doctorat |
| Discipline(s) : | Mathématiques et informatique |
| Date : | Soutenance le 27/03/2024 |
| Etablissement(s) : | Université Grenoble Alpes |
| Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble, Isère, France ; 1995-....) |
| Partenaire(s) de recherche : | Laboratoire : Laboratoire Jean Kuntzmann (Grenoble, Isère, France ; 2007-....) |
| Jury : | Président / Présidente : Anne Spalanzani |
| Examinateurs / Examinatrices : Reuth Mirsky, Serena Ivaldi, Chris Reinke | |
| Rapporteurs / Rapporteuses : Alain Dutech, David Filliat |
Résumé
Les systèmes de robotique sociale visent à fournir une assistance, à coopérer, à participer à des tâches de collaboration et à interagir avec les utilisateurs humains. Cela nécessite que le système robotique interagisse dans un environnement inconnu. La principale manière actuelle de relever ce défi repose sur des outils et des algorithmes d’apprentissage automatique. Les approches d'apprentissage automatique permettent au robot d'apprendre des informations de son environnement. L’apprentissage par renforcement est une approche d’apprentissage automatique populaire pour la robotique sociale. L'apprentissage par renforcement (RL) est un cadre de résolution de problèmes de prise de décision dans lequel un agent apprend à interagir avec son environnement par un processus d'essais et d'erreurs. En interagissant avec son environnement, l'agent recevra un feedback qui récompensera ou pénalisera l'action entreprise. L’objectif des algorithmes d’apprentissage par renforcement est d’apprendre une stratégie de sélection d’actions (politique) qui maximisera la récompense que l’agent recevra. RL est bien adapté pour résoudre des problèmes de décision tels que les environnements d’interaction sociale des robots, où les ensembles de données étiquetés ne sont généralement pas disponibles. Cependant, appliquer l’apprentissage par renforcement directement à l’environnement social est difficile en raison de divers facteurs. L’un de ces facteurs est la diversité des environnements auxquels un agent social sera confronté lors de son déploiement et la nécessité pour l’agent de s’adapter aux différentes préférences des utilisateurs. Cependant, il est notoirement difficile pour les agents d’apprentissage par renforcement de s’adapter à des environnements présentant des dynamiques différentes ou des fonctions de récompense différentes.Pour aider à résoudre ce problème, cette thèse étudie deux manières différentes d'améliorer l'adaptabilité des agents d'apprentissage par renforcement. Dans la première partie, nous étudions l’utilisabilité des approches d’apprentissage par méta-renforcement dans un contexte de robotique sociale. Nous proposons une amélioration par rapport à un algorithme d'apprentissage par méta-renforcement de pointe dans l'espoir de générer des comportements plus diversifiés. Dans la deuxième partie, nous proposons d'étudier comment utiliser directement les retours des utilisateurs pour une adaptation rapide à des fonctions de récompense inconnues. Pour ce faire, nous proposons d'intégrer l'apprentissage par méta-renforcement dans le cadre classique d'apprentissage basé sur les préférences afin de construire un algorithme robuste et permettant de gagner du temps pour l'apprentissage basé sur les préférences dans le contexte de la robotique sociale. Pour comparer notre approche, nous proposons également une nouvelle suite d'environnements d'apprentissage par renforcement social, qui permettent de tester notre algorithme sur diverses tâches sociales avec différents paramètres et préférences utilisateur complexes.