Apprendre à un robot à reconnaître des objets visuels nouveaux et à les associer à des mots nouveaux : le rôle de l’interface

par Pierre Rouanet

Thèse de doctorat en Informatique

Sous la direction de Pierre-Yves Oudeyer.

Le jury était composé de Rodolphe Gelin, François Chaumette, David Filliat.

Les rapporteurs étaient Mohamed Chetouani, Peter Ford Dominey.


  • Résumé

    Cette thèse s’intéresse au rôle de l’interface dans l’interaction humain-robot pour l’apprentissage. Elle étudie comment une interface bien conçue peut aider les utilisateurs non-experts à guider l’apprentissage social d’un robot, notamment en facilitant les situations d’attention partagée. Nous étudierons comment l’interface peut rendre l’interaction plus robuste, plus intuitive, mais aussi peut pousser les humains à fournir les bons exemples d’apprentissage qui amélioreront les performances de l’ensemble du système. Nous examinerons cette question dans le cadre de la robotique personnelle où l’apprentissage social peut jouer un rôle clé dans la découverte et l’adaptation d’un robot à son environnement immédiat. Nous avons choisi d’étudier le rôle de l’interface sur une instance particulière d’apprentissage social : l’apprentissage conjoint d’objets visuels et de mots nouveaux par un robot en interaction avec un humain non-expert. Ce défi représente en effet un levier important du développement de la robotique personnelle, l’acquisition du langage chez les robots et la communication entre un humain et un robot. Nous avons particulièrement étudié les défis d’interaction tels que le pointage et l’attention partagée.Nous présenterons au chapitre 1 une description de notre contexte applicatif : la robotique personnelle. Nous décrirons ensuite au chapitre 2 les problématiques liées au développement de robots sociaux et aux interactions avec l’homme. Enfin, au chapitre 3 nous présenterons la question de l’interface dans l’acquisition des premiers mots du langage chez les robots. La démarche centrée utilisateur suivie tout au long du travail de cette thèse sera décrite au chapitre 4. Dans les chapitres suivants, nous présenterons les différentes contributions de cette thèse. Au chapitre 5, nous montrerons comment des interfaces basées sur des objets médiateurs peuvent permettre de guider un robot dans un environnement du quotidien encombré. Au chapitre 6, nous présenterons un système complet basé sur des interfaces humain-robot, des algorithmes de perception visuelle et des mécanismes d’apprentissage, afin d’étudier l’impact des interfaces sur la qualité des exemples d’apprentissage d’objets visuels collectés. Une évaluation à grande échelle de ces interfaces, conçue sous forme de jeu robotique afin de reproduire des conditions réalistes d’utilisation hors-laboratoire, sera décrite au chapitre 7. Au chapitre 8, nous présenterons une extension de ce système permettant la collecte semi-automatique d’exemples d’apprentissage d’objets visuels. Nous étudierons ensuite la question de l’acquisition conjointe de mots vocaux nouveaux associés aux objets visuels dans le chapitre 9. Nous montrerons comment l’interface peut permettre d’améliorer les performances du système de reconnaissance vocale, et de faire directement catégoriser les exemples d’apprentissage à l’utilisateur à travers des interactions simples et transparentes. Enfin, les limites et extensions possibles de ces contributions seront présentées au chapitre 10.


  • Résumé

    This thesis is interested in the role of interfaces in human-robot interactions for learning. In particular it studies how a well conceived interface can aid users, and more specifically non-expert users, to guide social learning of a robotic student, notably by facilitating situations of joint attention. We study how the interface can make the interaction more robust, more intuitive, but can also push the humans to provide good learning examples which permits the improvement of performance of the system as a whole. We examine this question in the realm of personal robotics where social learning can play a key role in the discovery and adaptation of a robot in its immediate environment. We have chosen to study this question of the role of the interface in social learning within a particular instance of learning : the combined learning of visual objects and new words by a robot in interactions with a non-expert human. Indeed this challenge represents an important an lever in the development of personal robotics, the acquisition of language for robots, and natural communication between a human and a robot. We have studied more particularly the challenge of human-robot interaction with respect to pointing and joint attention.We present first of all in Chapter 1 a description of our context : personal robotics. We then describe in Chapter 2 the problems which are more specifically linked to social robotic development and interactions with people. Finally, in Chapter 3, we present the question of interfaces in acquisition of the first words of language for a robot. The user centered approach followed throughout the work of this thesis will be described in Chapter 4. In the following chapters, we present the different contributions of this thesis. In Chapter 5, we show how some interfaces based on mediator objects can permit the guiding of a personal robot in a cluttered home environment. In Chapter 6, we present a complete system based on human-robot interfaces, the algorithms of visual perception and machine learning in order to study the impact of interfaces, and more specifically the role of different feedback of what the robot perceives, on the quality of collected learning examples of visual objects. A large scale user-study of these interfaces, designed in the form of a robotic game that reproduces realistic conditions of use outside of a laboratory, will be described in details in Chapter 7. In Chapter 8, we present an extension of the system which allows the collection of semi-automatic learning examples of visual objects. We then study the question of combined acquisition of new vocal words associated with visual objects in Chapter 9. We show that the interface can permit both the improvement of the performance of the speech recognition and direct categorization of the different learning examples through simple and transparent user’s interactions. Finally, a discussion of the limits and possible extensions of these contributions will be presented in Chapter 10.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Bordeaux. Direction de la Documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.