Modulation de mouvements de tête pour l'analyse multimodale d'un environnement inconnu

par Benjamin Cohen-Lhyver

Thèse de doctorat en Sciences Mécaniques, Acoustique, Electronique & Robotique

Sous la direction de Bruno Gas et de Sylvain Argentieri.

Soutenue le 19-09-2017

à Paris 6 , dans le cadre de École doctorale Sciences mécaniques, acoustique, électronique et robotique de Paris , en partenariat avec Institut des Systèmes Intelligents et de Robotique / ISIR (laboratoire) .

Le président du jury était Axel Roebel.

Le jury était composé de Jens Blauert, Antoine Deleforge.

Les rapporteurs étaient Mathias Quoy, Manuel Lopes.


  • Résumé

    L'exploration d'un environnement inconnu par un robot mobile est un vaste domaine de recherche visant à comprendre et implémenter des modèles d'exploration efficaces, rapides et pertinents. Cependant, depuis les années 80, l'exploration ne s'est plus contentée de la seule détermination de la topographie d'un espace : à la composante spatiale a été couplée une composante sémantique du monde exploré. En effet, en addition aux caractéristiques physiques de l'environnement — murs, obstacles, chemins empruntables ou non, entrées et sorties — permettant au robot de se créer une représentation interne du monde grâce à laquelle il peut s'y déplacer, existent des caractéristiques dynamiques telles que l'apparition d'événements audiovisuels. Ces événements sont d'une grande importance en cela qu'ils peuvent moduler le comportement du robot en fonction de leur localisation dans l'espace — aspect topographique — et de l'information qu'ils portent — aspect sémantique. Bien qu'imprédictibles par nature (puisque l'environnement est inconnu) tous ces événements ne sont pas d'égale importance : certains peuvent porter une information utile au robot et à sa tâche d'exploration, d'autres non. Suivant les travaux sur les motivations intrinsèques à explorer un environnement inconnu et puisant son inspiration de phénomènes neurologiques, ce travail de thèse a consisté en l'élaboration du modèle Head Turning Modulation (HTM) visant à donner à un robot doté de mouvements de tête la capacité de déterminer l'importance relative de l'apparition d'un événement audiovisuel dans un environnement inconnu en cours d'exploration. Cette importance a été formalisée sous la forme de la notion de Congruence s'inspirant principalement (i) de l'entropie de Shannon, (ii) du phénomène de Mismatch Negativity et (iii) de la Reverse Hierarchy Theory. Le modèle HTM, créé dans le cadre du projet européen Two!Ears, est un paradigme d'apprentissage basé sur (i) une auto-supervision (le robot décide lorsqu'il est nécessaire d'apprendre ou non), (ii) une contrainte de temps réel (le robot apprend et réagit aussitôt que des données sont perçues), et (iii) une absence de données a priori sur l'environnement (il n'existe pas de vérité à apprendre, seulement la réalité perçue de l'environnement à explorer). Ce modèle, intégré à l’ensemble du framework Two!Ears, a été entièrement porté sur un robot mobile pourvu d'une vision binoculaire et d'une audition binaurale. Le modèle HTM couple ainsi une approche montante traditionnelle d’analyse des signaux perceptifs (extractions de caractéristiques, reconnaissance visuelle ou auditive, etc.) à une approche descendante permettant, via la génération d’une action motrice, de comprendre et interpréter l’environnement audiovisuel du robot. Cette approche bottom-up/top-down active est ainsi exploitée pour moduler les mouvements de tête d’un robot humanoïde et étudier l'impact de la Congruence sur ces mouvements. Le système a été évalué via des simulations réalistes, ainsi que dans des conditions réelles, sur les deux plateformes robotiques du projet Two!Ears.

  • Titre traduit

    Head movements modulation for the multimodal analysis of unknown environments


  • Résumé

    The exploration of an unknown environement by a mobile robot is a vast research domain aiming at understanding and implementing efficient, fast and relevant exploration models. However, since the 80s, exploration is no longer restricted to the sole determination of topography a space: to the spatial component has been coupled a semantic one of the explored world. Indeed, in addition to the physical characteristics of the environment — walls, obstacles, usable paths or not, entrances and exits — allowing the robot to create its own internal representation of the world through which it can move in it, exist dynamic components such as the apparition of audiovisual events. These events are of high importance for they can modulate the robot's behavior through their location in space — topographic aspect — and the information they carry — semantic aspect. Although impredictible by nature (since the environment is unknown) all these events are not of equal importance: some carry valuable information for the robot's exploration task, some don't. Following the work on intrinsic motivations to explore an unknown environment, and being rooted in neurological phenomenons, this thesis work consisted in the elaboration of the Head Turning Modulation (HTM) model aiming at giving to a robot capable of head movements, the ability to determine the relative importance of the apparition of an audioivsual event. This "importance" has been formalized through the notion of Congruence which is mainly inspired from (i) Shannon's entropy, (ii) the Mismatch Negativity phenomenon, and (iii) the Reverse Hierarchy Theory. The HTM model, created within the Two!Ears european project, is a learning paradigm based on (i) an auto-supervision (the robot decides when it is necessary or not to learn), (ii) a real-time constraint (the robot learns and reacts as soon as data is perceived), and (iii) an absence of prior knowledge about the environment (there is no "truth" to learn, only the reality of the environment to explore). This model, integrated in the overal Two!Ears framework, has been entirely implemented in a mobile robot with binocular vision and binaural audition. The HTM model thus gather the traditional approach of ascending analysis of perceived signals (extraction of caracteristics, visual or audio recognition etc.) to a descending approach that enables, via motor actions generation in order to deal with perception deficiency (such as visual occlusion), to understand and interprete the audiovisual environment of the robot. This bottom-up/top-down active approach is then exploited to modulate the head movements of a humanoid robot and to study the impact of the Congruence on these movements. The system has been evaluated via realistic simulations, and in real conditions, on the two robotic platforms of the Two!Ears project.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.