De la reconnaissance des expressions faciales à une perception visuelle partagée : une architecture sensori-motrice pour amorcer un référencement social d'objets, de lieux ou de comportements

par Sofiane Boucenna

Thèse de doctorat en STIC (sciences et technologies de l'information et de la communication)

Sous la direction de Philippe Gaussier.


  • Résumé

    Cette thèse se concentre sur les interactions émotionnelles en robotique autonome. Le robot doit pouvoir agir et réagir dans un environnement naturel et faire face à des perturbations imprédictibles. Il est donc nécessaire que le robot puisse acquérir une autonomie comportementale à savoir la capacité d'apprentissage et d'adaptation en ligne. En particulier, nous nous proposons d'étudier quels mécanismes introduire pour que le robot ait la capacité de se constituer une perception des objets de son environnement qui puisse être partagée par celle d'un partenaire humain. Le problème sera de faire apprendre à notre robot à préférer certains objets et à éviter d'autres objets. La solution peut être trouvée en psychologie dans ce que l'on appelle "référencement social" ("social referencing") qui consiste à attribuer une valeur à un objet grâce à l'interaction avec un partenaire humain. Dans ce contexte, notre problème est de trouver comment un robot peut apprendre de manière autonome à reconnaître les expressions faciales d'un partenaire humain pour ensuite les utiliser pour donner une valence aux objets et permettre leur discrimination.Nous nous intéresserons à comprendre comment des interactions émotionnelles avec un partenaire peuvent amorcer des comportements de complexité croissante tel que le référencement social. Notre idée est que le référencement social aussi bien que la reconnaissance d'expressions faciales peut émerger d'une architecture sensori-motrice. Sans connaissance de ce que l'autre est, le robot devrait réussir à apprendre des tâches "sociales" de plus en plus complexes. Nous soutenons l'idée que le référencement social peut être amorcé par une simple cascade d'architectures sensori-motrices qui à la base ne sont pas dédiées aux interactions sociales.Cette thèse traite de plusieurs sujets qui ont comme dénominateur commun l'interaction sociale. Nous proposons tout d'abord une architecture capable d'apprendre à reconnaître de manière autonome des expressions faciales primaires grâce à un jeu d'imitation entre une tête expressive et un expérimentateur.Les interactions avec le dispositif robotique commençeraient par l'apprentissage de 5 expressions faciales prototypiques. Nous proposons ensuite une architecture capable de reproduire des mimiques faciales ainsi que leurs différents niveaux d'intensité. La tête expressive pourra reproduire des expressions secondaires par exemple une joie mêlée de colère. Nous verrons également que la discrimination de visages peut émerger de cette interaction émotionnelle à l'aide d'une rythmicité implicite qui se crée entre l'homme et le robot. Enfin, nous proposerons un modèle sensori-moteur ayant la capacité de réaliser un référencement social. Trois situations ont pu être testées: 1) un bras robotique capable d'attraper et de fuir des objets selon les interactions émotionnelles venant du partenaire humain. 2) un robot mobile capable de rejoindre ou d'éviter certaines zones de son environnement. 3) une tête expressive capable d'orienter son regard dans la même direction que l'humain tout en attribuant des valeurs émotionnelles aux objets via l'interaction expressive de l'expérimentateur.Nous montrons ainsi qu'une séquence développementale peut émerger d'une interaction émotionnelle de très bas niveau et que le référencement social peut s'expliquer d'abord à un niveau sensori-moteur sans nécessiter de faire appel à un modèle de théorie de l'esprit.

  • Titre traduit

    From facial expressions recognition to joint visual perception : a sensori-motor architecture for the social referencing of objects, places, behaviors.


  • Résumé

    My thesis focuses on the emotional interaction in autonomous robotics. The robot must be able to act and react in a natural environment and cope with unpredictable pertubations. It is necessary that the robot can acquire a behavioral autonomy, that is to say the ability to learn and adapt on line. In particular, we propose to study what are the mechanisms to introduce so that the robot has the ability to perceive objects in the environment and in addition they can be shared by an experimenter. The problem is to teach the robot to prefer certain objects and avoid other objects. The solution can be found in psychology in the social referencing. This ability allows to associate a value to an object through emotional interaction with a human partner. In this context, our problem is how a robot can autonomously learn to recognize facial expressions of a human partner and then use them to give a emotional valence to objects and allow their discrimination. We focus on understanding how emotional interaction with a partner can bootstrap behavior of increasing complexity such as social referencing. Our idea is that social referencing as well as the recognition of facial expressions can emerge from a sensorimotor architecture. We support the idea that social referencing may be initiated by a simple cascade of sensorimotor architectures which are not dedicated to social interactions. My thesis underlines several topics that have a common denominator: social interaction. We first propose an architecture which is able to learn to recognize facial expressions through an imitation game between an expressive head and an experimenter. The robotic head would begin by learning five prototypical facial expressions. Then, we propose an architecture which can reproduce facial expressions and their different levels of intensity. The robotic head can reproduce expressive more advanced for instance joy mixed with anger. We also show that the face detection can emerge from this emotional interaction thanks to an implicit rhythm that is created between human partner and robot. Finally, we propose a model sensorimotor having the ability to achieve social referencing. Three situations have been tested: 1) a robotic arm is able to catch and avoid objects as emotional interaction from the human partner. 2) a mobile robot is able to reach or avoid certain areas of its environment. 3) an expressive head can orient its gaze in the same direction as humans and addition to associate emotional values to objects according tothe facial expressions of experimenter. We show that a developmental sequence can merge from emotional interaction and that social referencing can be explained a sensorimotor level without needing to use a model theory mind.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université de Cergy-Pontoise. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.