Intelligence Socio-Affective pour un Robot : primitives langagières pour une interaction évolutive d'un robot de l’habitat intelligent

par Yuko Sasa

Thèse de doctorat en Informatique

Sous la direction de Véronique Aubergé et de Gang Feng.

Le président du jury était Martine Adda-Decker.

Le jury était composé de Yoshinori Sagisaka.

Les rapporteurs étaient Mohamed Chetouani, Daniel Luzzati.


  • Résumé

    Le Traitement Automatique de la Parole (TAP) s’intéresse de plus en plus et progresse techniquement en matière d’étendue de vocabulaire, de gestion de complexité morphosyntaxique, de style et d’esthétique de la parole humaine. L’Affective Computing tend également à intégrer une dimension « émotionnelle » dans un objectif commun au TAP visant à désambiguïser le langage naturel et augmenter la naturalité de l’interaction personne-machine. Dans le cadre de la robotique sociale, cette interaction est modélisée dans des systèmes d’interaction, de dialogue, qui tendent à engendrer une dimension d’attachement dont les effets doivent être éthiquement et collectivement contrôlés. Or la dynamique du langage humain situé met à mal l’efficacité des systèmes automatiques. L’hypothèse de cette thèse propose dans la dynamique des interactions, il existerait une « glu socio-affective » qui ferait entrer en phases synchroniques deux individus dotés chacun d’un rôle social impliqué dans une situation/contexte d’interaction. Cette thèse s'intéresse à des dynamiques interactionnelles impliquant spécifiquement des processus altruistes, orthogonale à la dimension de dominance. Cette glu permettrait ainsi de véhiculer les événements langagiers entre les interlocuteurs, en modifiant constamment leur relation et leur rôle, qui eux même viennent à modifier cette glu, afin d’assurer la continuité de la communication. La seconde hypothèse propose que la glu socio-affective se construise à partir d’une « prosodie socio-affective pure » que l’on peut retrouver dans certaines formes de micro-expressions vocales. L’effet de ces événements langagiers serait alors graduel en fonction du degré de contrôle d’intentionnalité communicative qui s’observerait successivement par des primitives langagières : 1) des bruits de bouche (non phonétiques, non phonologiques), 2) des sons prélexicaux, 3) des interjections/onomatopées, 4) des imitations à contenu lexical contrôlé. Une méthodologie living-lab est ainsi développée au sein de la plateforme Domus, sur des boucles agiles et itératives co-construites avec les partenaires industriels et sociétaux. Un Magicien d’Oz – EmOz – est utilisé afin de contrôler les primitives vocales comme unique support langagier d’un robot majordome d’un habitat intelligent interagissant avec des personnes âgées en isolement relationnel. Un large corpus, EmOz Elderly Expressions –EEE– est ainsi recueilli. Cet isolement relationnel permet méthodologiquement d’appréhender les dimensions de la glu socio-affective, en introduisant une situation contrastive dégradée de la glu. Les effets des primitives permettraient alors d’observer les comportements de l’humain à travers des indices multimodaux. Les enjeux sociétaux abordés par la gérontechnologie montrent que l’isolement est un facteur de fragilisation où la qualité de la communication délite le maillage relationnel des personnes âgées alors que ces liens sont bénéfiques à sa santé et son bien-être. L’émergence de la robotique d’assistance en est une illustration. Le système automatisé qui découlera des données et des analyses de cette étude permettrait alors d’entraîner les personnes à solliciter pleinement leurs mécanismes de construction relationnelle, afin de redonner l’envie de communiquer avec leur entourage humain. Les analyses du corpus EEE recueilli montrent une évolution de la relation à travers différents indices interactionnels, temporellement organisés. Ces paramètres visent à être intégrés dans une perspective de système de dialogue incrémental – SASI. Les prémisses de ce système sont proposées dans un prototype de reconnaissance de la parole dont la robustesse ne dépendra pas de l’exactitude du contenu langagier reconnu, mais sur la reconnaissance du degré de glu, soit de l’état relationnel entre les locuteurs. Ainsi, les erreurs de reconnaissance tendraient à être compensées par l’intelligence socio-affective adaptative de ce système dont pourrait être doté le robot.

  • Titre traduit

    Intelligence from Socio-Affects of Robot : Dialog Primitives for a Scalable Interaction with a Smart Home Robot


  • Résumé

    The Natural Language Processing (NLP) has technically improved regarding human speech vocabulary extension, morphosyntax scope, style and aesthetic. Affective Computing also tends to integrate an “emotional” dimension with a common goal shared with NLP which is to disambiguate the natural language and increase the human-machine interaction naturalness. Within social robotics, the interaction is modelled in dialogue systems trying to reach out an attachment dimension which effects need to an ethical and collective control. However, the situated natural language dynamics is undermining the automated system’s efficiency, which is trying to respond with useful and suitable feedbacks. This thesis hypothesis supposes the existence of a “socio-affective glue” in every interaction, set up in between two individuals, each with a social role depending on a communication context. This glue is so the consequence of dynamics generated by a process which mechanisms rely on an altruistic dimension, but independent of dominance dimension as seen in emotions studies. This glue would allow the exchange of the language events between interlocutors, by regularly modifying their relation and their role, which is changing themselves this glue, to ensure the communication continuity. The second hypothesis proposes the glue as built by “socio-affective pure prosody” forms that enable this relational construction. These cues are supposed to be carried by hearable and visible micro-expressions. The interaction events effect would also be gradual following the degree of the communication’s intentionality control. The graduation will be continuous through language primitives as 1) mouth noises (neither phonetics nor phonological sounds), 2) pre-lexicalised sounds, 3) interjections and onomatopoeias, 4) controlled command-based imitations with the same socio-affective prosody supposed to create and modify the glue. Within the Domus platform, we developed an almost living-lab methodology. It functions on agile and iterative loops co-constructed with industrial and societal partners. A wizard of oz approach – EmOz – is used to control the vocal primitives proposed as the only language tools of a Smart Home butler robot interacting with relationally isolated elderly. The relational isolation allows the dimensions the socio-affective glue in a contrastive situation where it is damaged. We could thus observe the primitives’ effects through multimodal language cues. One of the gerontechnology social motivation showed the isolation to be a phenomenon amplifying the frailty so can attest the emergence of assistive robotics. A vicious circle leads by the elderly communicational characteristics convey them to some difficulties to maintain their relational tissue while their bonds are beneficial for their health and well-being. If the proposed primitives could have a real effect on the glue, the automated system will be able to train the persons to regain some unfit mechanisms underlying their relational construction, and so possibly increase their desire to communicate with their human social surroundings. The results from the collected EEE corpus show the relation changes through various interactional cues, temporally organised. These denoted parameters tend to build an incremental dialogue system in perspectives – SASI. The first steps moving towards this system reside on a speech recognition prototype which robustness is not based on the accuracy of the recognised language content but on the possibility to identify the glue degree (i.e. the relational state) between the interlocutors. Thus, the recognition errors avoid the system to be rejected by the user, by tempting to be balanced by this system’s adaptive socio-affective intelligence.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Savoie Mont Blanc (Chambéry-Annecy). Service commun de la documentation et des bibliothèques universitaires. Bibliothèque électronique.
  • Bibliothèque : Service Interétablissement de Documentation. LLSH Collections numériques.
  • Bibliothèque : Service interétablissements de Documentation. STM. Collections numériques.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.