Architecture cognitive générique pour la coordination de stratégies d'apprentissage en robotique
Auteur / Autrice : | Rémi Dromnelle |
Direction : | Mehdi Khamassi, Raja Chatila |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 01/07/2021 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris |
Partenaire(s) de recherche : | Laboratoire : Institut des systèmes intelligents et de robotique (Paris ; 2009-....) |
Jury : | Président / Présidente : Mohamed Chetouani |
Examinateurs / Examinatrices : Aurélie Clodic, Céline Teulière | |
Rapporteurs / Rapporteuses : Olivier Simonin, Nicolas Rougier |
Mots clés
Mots clés contrôlés
Résumé
L’objectif principal de cette thèse est de proposer une nouvelle méthode d’adaptation en ligne de l’apprentissage robotique, permettant aux robots d’adapter dynamiquement et de manière autonome leur comportement en fonction des variations de leur propre performance. La méthode élaborée est suffisamment générale et tâche-indépendante pour qu’un robot l’utilisant puisse effectuer différentes tâches dynamiques de nature variée sans ajustement des algorithmes ou des paramètres par le programmeur. Les algorithmes qui sous-tendent cette méthode consistent en un système de méta-contrôle permettant au robot de faire appel à deux experts décisionnels suivant une stratégie comportementale différente. L’expert model-based construit un modèle des effets des actions à long-terme et utilise ce modèle pour décider ; cette stratégie est coûteuse en termes de ressources calculatoires, mais converge rapidement vers la solution. L’expert model-free est quant à lui peu coûteux en termes de ressources calculatoires, mais met du temps à converger vers la solution optimale. Dans ce travail, nous avons élaboré un nouveau critère de coordination de ces deux experts permettant au robot de changer dynamiquement de stratégie au cours du temps. Nous montrons dans ce travail que notre méthode de coordination de comportements permet au robot de maintenir une performance optimale en termes de performance et de temps de calcul. Nous montrons aussi que la méthode permet de faire face à des changements brusques de l’environnement, des changements d’objectifs ou de comportements du partenaire humain dans le cas des tâches d’interaction.