Thèse soutenue

De l'auto-évaluation aux émotions : approche neuromimétique et bayésienne de l'apprentissage de comportements complexes impliquant des informations multimodales

FR  |  
EN
Auteur / Autrice : Adrien Jauffret
Direction : Philippe Gaussier
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 11/07/2014
Etablissement(s) : Paris 11
Ecole(s) doctorale(s) : Ecole doctorale Informatique de Paris-Sud
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur (Orsay, Essonne ; 1972-2020) - Equipes Traitement de l'Information et Systèmes (Cergy-Pontoise, Val d'Oise)
Jury : Président / Présidente : Michèle Sebag
Examinateurs / Examinatrices : Philippe Gaussier, Michèle Sebag, David Filliat, Nicolas Rougier, Philippe Bonnifait, Bruno Poucet, Philippe Tarroux
Rapporteurs / Rapporteuses : David Filliat, Nicolas Rougier

Résumé

FR  |  
EN

Cette thèse a pour objectif la conception d’une architecture de contrôle bio-inspirée permettant à un robot autonome de naviguer sur de grandes distances. Le modèle développé permet également d’améliorer la compréhension des mécanismes biologiques impliqués. De précédents travaux ont montré qu’un modèle de cellules de lieu, enregistrées chez le rat, permettait à un robot mobile d’apprendre des comportements de navigation robustes, tels qu’une ronde ou un retour au nid, à partir d’associations entre lieu et action. La reconnaissance d’un lieu ne reposait alors que sur des informations visuelles. L’ambiguïté de certaines situations (e.g. un long couloir) ne permettait pas de naviguer dans de grands environnements. L’ajout d’autres modalités constitue une solution efficace pour augmenter la robustesse dans des environnements complexes. Cette solution nous a permis d’identifier les briques minimales nécessaires à la fusion d’informations multimodales, d’abord par le biais d’un conditionnement simple entre 2 modalités sensorielles, puis par la formalisation d’un modèle, plus générique, de prédictions inter-modales. C’est un mécanisme bas niveau qui permet de générer une cohérence perceptive : l’ensemble des modalités sensorielles s’entraident pour ne renvoyer qu’une perception claire et cohérente aux mécanismes décisionnels de plus haut niveau. Les modalités les plus corrélées sont ainsi capables de combler les informations manquantes d’une modalité défaillante (cas pathologique). Ce modèle implique la mise en place d’un système de prédiction et donc une capacité à détecter de la nouveauté dans ses perceptions. Ainsi, le modèle est également capable de détecter une situation inattendue ou anormale et possède donc une capacité d’auto-évaluation : l’évaluation de ses propres perceptions. Nous nous sommes ensuite mis à la recherche des propriétés fondamentales à tout système d'auto-évaluation.La première propriété essentielle a été de constater qu’évaluer un comportement sensorimoteur revient à reconnaître une dynamique entre sensation et action, plutôt que la simple reconnaissance d’une forme sensorielle. La première brique encapsule donc un modèle interne minimaliste des interactions du robot avec son environnement, qui est la base sur laquelle le système fera des prédictions.La seconde propriété essentielle est la capacité à extraire l’information pertinente par le biais de calculs statistiques. Il est nécessaire que le robot apprenne à capturer les invariants statistiques en supprimant l’information incohérente. Nous avons donc montré qu’il était possible d’estimer une densité de probabilité par le biais d’un simple conditionnement. Cet apprentissage permet de réaliser l’équivalent d’une inférence bayésienne. Le système estime la probabilité de reconnaître un comportement à partir de la reconnaissance d’informations statistiques apprises. C’est donc par la mise en cascade de simples conditionnements que le système peut apprendre à estimer les moments statistiques d’une dynamique (moyenne, variance, asymétrie, etc...). La non-reconnaissance de cette dynamique lui permet de détecter qu’une situation est anormale.Mais détecter un comportement inhabituel ne nous renseigne pas pour autant sur son inefficacité. Le système doit également surveiller l’évolution de cette anomalie dans le temps pour pouvoir juger de la pertinence du comportement. Nous montrons comment un contrôleur émotionnel peut faire usage de cette détection de nouveauté pour réguler le comportement et ainsi permettre au robot d’utiliser la stratégie la plus adaptée à la situation rencontrée. Pour finir, nous avons mis en place une procédure de frustration permettant au robot de lancer un appel à l’aide lorsqu’il détecte qu’il se retrouve dans une impasse. Ce réseau de neurones permet au robot d’identifier les situations qu’il ne maîtrise pas dans le but d’affiner son apprentissage, à l’instar de certains processus développementaux.