Thèse soutenue

Architecture cognitive générique pour la coordination de stratégies d'apprentissage en robotique

FR  |  
EN
Auteur / Autrice : Rémi Dromnelle
Direction : Mehdi KhamassiRaja Chatila
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 01/07/2021
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : Institut des systèmes intelligents et de robotique (Paris ; 2009-....)
Jury : Président / Présidente : Mohamed Chetouani
Examinateurs / Examinatrices : Aurélie Clodic, Céline Teulière
Rapporteurs / Rapporteuses : Olivier Simonin, Nicolas Rougier

Résumé

FR  |  
EN

L’objectif principal de cette thèse est de proposer une nouvelle méthode d’adaptation en ligne de l’apprentissage robotique, permettant aux robots d’adapter dynamiquement et de manière autonome leur comportement en fonction des variations de leur propre performance. La méthode élaborée est suffisamment générale et tâche-indépendante pour qu’un robot l’utilisant puisse effectuer différentes tâches dynamiques de nature variée sans ajustement des algorithmes ou des paramètres par le programmeur. Les algorithmes qui sous-tendent cette méthode consistent en un système de méta-contrôle permettant au robot de faire appel à deux experts décisionnels suivant une stratégie comportementale différente. L’expert model-based construit un modèle des effets des actions à long-terme et utilise ce modèle pour décider ; cette stratégie est coûteuse en termes de ressources calculatoires, mais converge rapidement vers la solution. L’expert model-free est quant à lui peu coûteux en termes de ressources calculatoires, mais met du temps à converger vers la solution optimale. Dans ce travail, nous avons élaboré un nouveau critère de coordination de ces deux experts permettant au robot de changer dynamiquement de stratégie au cours du temps. Nous montrons dans ce travail que notre méthode de coordination de comportements permet au robot de maintenir une performance optimale en termes de performance et de temps de calcul. Nous montrons aussi que la méthode permet de faire face à des changements brusques de l’environnement, des changements d’objectifs ou de comportements du partenaire humain dans le cas des tâches d’interaction.