Approche neuronale fondée sur des modèles pour la manipulation d'objets

par Guillaume Padiolleau

Projet de thèse en Informatique

Sous la direction de Frédéric Alexandre et de Denis Penninckx.

Thèses en préparation à Bordeaux , dans le cadre de Mathématiques et Informatique , en partenariat avec LaBRI - Laboratoire Bordelais de Recherche en Informatique (laboratoire) et de Modèles et Algorithmes pour la Bioformatique et la Visualisation d'Informations (equipe de recherche) depuis le 21-11-2018 .


  • Résumé

    Contexte: L'apprentissage par renforcement a permis la mise au point d'algorithmes d'apprentissage pour réseaux de neurones très efficaces. Ils sont en particulier utilisés dans un cadre robotique, pour la manipulation d'objets par des bras robotisés. Une architecture efficace dans ce cadre est l'architecture modulaire Acteur-Critique, où un acteur réalise la politique apprise et le critique utilise les retours d'expérience pour mettre à jour la valeur des états aussi bien que les paramètres de la politique. Cette approche est appelée ‘sans modèle' (model-free) car l'apprentissage permet d'affiner le comportement sans disposer d'un modèle explicite de l'environnement. Ceci peut cependant entrainer quelques désavantages, en particulier au niveau du temps d'apprentissage qui peut devenir très long car de très nombreux exemples sont nécessaires pour l'entrainement. Ce désavantage peut devenir rédhibitoire lorsque l'espace d'apprentissage est de très grande taille ou lorsque les régions de l'espace qui sont récompensées sont peu nombreuses et clairsemées. Dans ce cas, l'apprentissage sans modèle devient impossible et d'autres solutions doivent être trouvées. L'approche avec modèle (model-based) est connue depuis longtemps pour être une solution à ce problème car, utilisant de façon explicite des règles de transition décrivant la dynamique du monde, elle évite de passer un long moment à l'apprendre. Mais elle suppose que ce modèle du monde est disponible, ce qui est rarement le cas dans la pratique, ce qui remet en cause l'intérêt de l'approche. Le CEA Cesta conçoit et industrialise des équipements mécaniques. Sur différents sujets des problèmes industriels existent, liés à la manipulation d'objets orientée vers un but (comme le placement d'objets) et plus précisément à la manipulation au contact. Des opérations humaines pouvant présenter certaines difficultés, l'automatisation de certaines opérations est étudiée, en s'appuyant sur l'utilisation de bras robotisés, de manipulation à partir du retour d'effort et de stratégies définies par apprentissage artificiel. Cette application sera un très bon cas d'étude du contexte défini plus haut, par les caractéristiques de l'espace d'apprentissage et par la connaissance disponible sur le problème, permettant de considérer une approche « model-based ». Projet : Nous proposons ici de développer une approche d'apprentissage par renforcement basée sur des modèles, dans le cadre de manipulation d'objets orientée vers un but, en étudiant en particulier la possibilité d'exploiter deux caractéristiques du problème considéré, reposant par ailleurs sur des considérations cognitives. - La notion de modèle considérée dans une approche model-based peut correspondre à un modèle construit explicitement pour cette opération. Il peut aussi correspondre à un modèle interne déjà existant, élaboré par apprentissage. Au niveau cognitif, il a ainsi été établi en observant des régions cérébrales activées à partir de dynamiques internes, que l'on pouvait accélérer une phase d'apprentissage en utilisant un modèle interne, permettant de générer des exemples choisis (Pezzulo, 2014) et de corriger son apprentissage à partir de ces simulations internes. D'une façon analogue, nous pouvons profiter ici d'une forme de modèle interne, construit par apprentissage avec un logiciel de simulation (Gazebo) ou en situation réelle, et pouvant être exploité comme une forme de cartographie de la connaissance du problème et donc comme un élément de décision. - Le concept de motivation peut être interprété comme un moyen d'éviter une recherche systématique et aveugle, et permettant d'apporter une connaissance en soulignant que certaines régions de l'espace d'apprentissage sont plus intéressantes que d'autres car correspondant à des aspects identifiés par un processus de motivation (un but pour une motivation extrinsèque ou une évolution pour une motivation intrinsèque). Ce concept de motivation commence à être bien étudié au niveau des neurosciences (Rushworth, 2004) aussi bien qu'au niveau des algorithmes d'apprentissage automatique (Oudeyer, 2007) et pourront être étudiés ici comme un moyen d'orienter l'apprentissage comme peut le faire une technique de régularisation. Ces deux pistes seront étudiées de façon couplée afin de diminuer la dimensionnalité du problème pour la manipulation d'objets par bras robotisé. Programme de travail : - Etat de l'art de modèles neuronaux de manipulation d'objets orientée vers un but dans le cadre d'apprentissage par renforcement. Etude des formalismes neuronaux utilisés, avec focus particulier sur les RBM (Restricted Boltzmann Machine). - Définition précise du cadre applicatif et utilisation du logiciel de simulation pour générer un modèle interne. - Etude d'approches motivationnelles permettant de construire l'apprentissage de façon modulaire, structurée par les connaissances induites. - Synthèse de ces approches dans une architecture de type acteur-critique et évaluation de performances.

  • Titre traduit

    Neuronal approach based on models for object manipulation


  • Résumé

    Contexte: L'apprentissage par renforcement a permis la mise au point d'algorithmes d'apprentissage pour réseaux de neurones très efficaces. Ils sont en particulier utilisés dans un cadre robotique, pour la manipulation d'objets par des bras robotisés. Une architecture efficace dans ce cadre est l'architecture modulaire Acteur-Critique, où un acteur réalise la politique apprise et le critique utilise les retours d'expérience pour mettre à jour la valeur des états aussi bien que les paramètres de la politique. Cette approche est appelée ‘sans modèle' (model-free) car l'apprentissage permet d'affiner le comportement sans disposer d'un modèle explicite de l'environnement. Ceci peut cependant entrainer quelques désavantages, en particulier au niveau du temps d'apprentissage qui peut devenir très long car de très nombreux exemples sont nécessaires pour l'entrainement. Ce désavantage peut devenir rédhibitoire lorsque l'espace d'apprentissage est de très grande taille ou lorsque les régions de l'espace qui sont récompensées sont peu nombreuses et clairsemées. Dans ce cas, l'apprentissage sans modèle devient impossible et d'autres solutions doivent être trouvées. L'approche avec modèle (model-based) est connue depuis longtemps pour être une solution à ce problème car, utilisant de façon explicite des règles de transition décrivant la dynamique du monde, elle évite de passer un long moment à l'apprendre. Mais elle suppose que ce modèle du monde est disponible, ce qui est rarement le cas dans la pratique, ce qui remet en cause l'intérêt de l'approche. Le CEA Cesta conçoit et industrialise des équipements mécaniques. Sur différents sujets des problèmes industriels existent, liés à la manipulation d'objets orientée vers un but (comme le placement d'objets) et plus précisément à la manipulation au contact. Des opérations humaines pouvant présenter certaines difficultés, l'automatisation de certaines opérations est étudiée, en s'appuyant sur l'utilisation de bras robotisés, de manipulation à partir du retour d'effort et de stratégies définies par apprentissage artificiel. Cette application sera un très bon cas d'étude du contexte défini plus haut, par les caractéristiques de l'espace d'apprentissage et par la connaissance disponible sur le problème, permettant de considérer une approche « model-based ». Projet : Nous proposons ici de développer une approche d'apprentissage par renforcement basée sur des modèles, dans le cadre de manipulation d'objets orientée vers un but, en étudiant en particulier la possibilité d'exploiter deux caractéristiques du problème considéré, reposant par ailleurs sur des considérations cognitives. - La notion de modèle considérée dans une approche model-based peut correspondre à un modèle construit explicitement pour cette opération. Il peut aussi correspondre à un modèle interne déjà existant, élaboré par apprentissage. Au niveau cognitif, il a ainsi été établi en observant des régions cérébrales activées à partir de dynamiques internes, que l'on pouvait accélérer une phase d'apprentissage en utilisant un modèle interne, permettant de générer des exemples choisis (Pezzulo, 2014) et de corriger son apprentissage à partir de ces simulations internes. D'une façon analogue, nous pouvons profiter ici d'une forme de modèle interne, construit par apprentissage avec un logiciel de simulation (Gazebo) ou en situation réelle, et pouvant être exploité comme une forme de cartographie de la connaissance du problème et donc comme un élément de décision. - Le concept de motivation peut être interprété comme un moyen d'éviter une recherche systématique et aveugle, et permettant d'apporter une connaissance en soulignant que certaines régions de l'espace d'apprentissage sont plus intéressantes que d'autres car correspondant à des aspects identifiés par un processus de motivation (un but pour une motivation extrinsèque ou une évolution pour une motivation intrinsèque). Ce concept de motivation commence à être bien étudié au niveau des neurosciences (Rushworth, 2004) aussi bien qu'au niveau des algorithmes d'apprentissage automatique (Oudeyer, 2007) et pourront être étudiés ici comme un moyen d'orienter l'apprentissage comme peut le faire une technique de régularisation. Ces deux pistes seront étudiées de façon couplée afin de diminuer la dimensionnalité du problème pour la manipulation d'objets par bras robotisé. Programme de travail : - Etat de l'art de modèles neuronaux de manipulation d'objets orientée vers un but dans le cadre d'apprentissage par renforcement. Etude des formalismes neuronaux utilisés, avec focus particulier sur les RBM (Restricted Boltzmann Machine). - Définition précise du cadre applicatif et utilisation du logiciel de simulation pour générer un modèle interne. - Etude d'approches motivationnelles permettant de construire l'apprentissage de façon modulaire, structurée par les connaissances induites. - Synthèse de ces approches dans une architecture de type acteur-critique et évaluation de performances.