Modeling and predicting affect in audio signals : perspectives from acoustics and chaotic dynamics

par Pauline Mouawad

Thèse de doctorat en Informatique

Sous la direction de Myriam Desainte-Catherine.

Le président du jury était Jenny Benois Pineau.

Le jury était composé de Myriam Desainte-Catherine, Jenny Benois Pineau, Régine André-Obrecht, Gérard Assayag, Shlomo Dubnov, Marie Beurton-Aimar, Pascal Desbarats.

Les rapporteurs étaient Régine André-Obrecht, Gérard Assayag.

  • Titre traduit

    Modelisation de l'affect dans le son : perspectives de l'acoustique et de la dynamique chaotique


  • Résumé

    La présente thèse décrit un projet de recherche multidisciplinaire qui porte sur la reconnaissance de l’émotion dans les sons, couvrant les théories psychologiques, l’analyse du signal acoustique,l’apprentissage automatique et la dynamique chaotique.Dans nos interactions et nos relations sociales, nous dépendons considérablement de la communication de l’information et de notre perception des messages transmis. En fait, la communication se produit lorsque les signaux transmettent des informations entre une source et une destination. Le signal peut être verbal, et l’information est ensuite portée par des motifs sonores, tels que des mots. Dans la communication vocale non verbale, cependant,l’information peut être des modèles perceptifs qui véhiculent des indices affectifs, que nous percevons et évaluons sous la forme d’intentions, d’attitudes, d’humeurs et d’émotions.La prévalence de la composante affective peut être observée dans les interactions informatiques humaines (HCI) où le développement d’applications automatisées qui comprennent et expriment les émotions est devenu crucial. De tels systèmes doivent être significatifs et faciles à utiliser pour l’utilisateur final, de sorte que notre interaction avec eux devient une expérience positive. Bien que la reconnaissance automatique des émotions dans les sons ait reçu une attention accrue au cours des dernières années, il s’agit encore d’un jeune domaine de recherche.Non seulement cela contribue à l’informatique affective en général, mais il fournit également une compréhension approfondie de la signification des sons dans notre vie quotidienne.Dans cette thèse, le problème de la reconnaissance des affects est abordé à partir d’une double perspective: nous commençons par adopter une approche standard de l’analyse acoustique du signal, où nous examinons et expérimentons les fonctionnalités existantes pour déterminer leur rôle dans la communication émotionnelle. Ensuite, nous nous tournons vers la dynamique chaotique et la symbolisation des séries temporelles, pour comprendre le rôle de la dynamique inhérente des sons dans l’expressivité affective. Nous menons nos études dans le contexte des sons non verbaux, à savoir les sons vocaux, musicaux et environnementaux.D’un point de vue de l’écoute humaine, une tâche d’annotation est menée pour construire un ground-truth de voix de chant non verbales, marquées par des descriptions catégoriques du modèle bidimensionnel d’émotions. Deux types de sons sont inclus dans l’étude: vocal et glottal.D’un point de vue psychologique, la présente recherche porte sur un débat qui existe depuis longtemps parmi les scientifiques et les psychologues, concernant les origines communes de la musique et de la voix. La question est abordée à partir d’une analyse acoustique ainsi que d’une approche dynamique non linéaire.D’un point de vue de la modélisation, ce travail propose une nouvelle approche dynamique non linéaire pour la reconnaissance de l’affect dans le son, basée sur la dynamique chaotique et la symbolisation adaptative des séries temporelles. Tout au long de cette thèse, les contrastes clés dans l’expressivité de l’émotion sont illustrés parmi les différents types de sons, à travers l’analyse des propriétés acoustiques, les métriques de la dynamique non linéaire et les performances des prédictions.Enfin, d’un point de vue progressif, nous suggérons que les travaux futurs étudient des caractéristiques motivées par les études cognitives. Nous suggérons également d’examiner dans quelle mesure nos caractéristiques reflètent les processus cognitifs. En outre, nous recommandons que nos fonctionnalités dynamiques soient testées dans des études à grande échelle de la reconnaissance d’émotions à travers la participation aux défis expérimentaux, dans le but de vérifier s’ils obtiennent un consensus.


  • Résumé

    The present thesis describes a multidisciplinary research project on emotion recognition in sounds, covering psychological theories, acoustic-based signal analysis, machine learning and chaotic dynamics.In our social interactions and relationships, we rely greatly on the communication of information and on our perception of the messages transmitted. In fact communication happens when signals transmit information between a source and a destination. The signal can be verbal,and the information is then carried by sound patterns, such as words. In non verbal vocal communication however, information can be perceptual patterns that convey affective cues,that we sense and appraise in the form of intentions, attitudes, moods and emotions.The prevalence of the affective component can be seen in human computer interactions(HCI) where the development of automated applications that understand and express emotions has become crucial. Such systems need to be meaningful and friendly to the end user, so thatour interaction with them becomes a positive experience. Although the automatic recognition of emotions in sounds has received increased attention in recent years, it is still a young fieldof research. Not only does it contribute to Affective Computing in general, but it also provides insight into the significance of sounds in our daily life.In this thesis the problem of affect recognition is addressed from a dual perspective: we start by taking a standard approach of acoustic-based signal analysis, where we survey and experiment with existing features to determine their role in emotion communication. Then,we turn to chaotic dynamics and time series symbolization, to understand the role of the inherent dynamics of sounds in affective expressiveness. We conduct our studies in the context of nonverbal sounds, namely voice, music and environmental sounds.From a human listening point of view, an annotation task is conducted to build a ground truth of nonverbal singing voices, labelled with categorical descriptions of the two-dimensional model of affect. Two types of sounds are included in the study: vocal and glottal.From a psychological perspective, the present research addresses a debate that is of long standing among scientists and psychologists, concerning the common origins of music and voice.The question is addressed from an acoustic-based analysis as well as a nonlinear dynamics approach.From a modeling viewpoint, this work proposes a novel nonlinear dynamics approach for the recognition of affect in sound, based on chaotic dynamics and adaptive time series symbolization.Throughout this thesis, key contrasts in the expressiveness of affect are illustrated among the different types of sounds, through the analysis of acoustic properties, nonlinear dynamics metrics and predictions performances. Finally from a progressive perspective, we suggest that future works investigate features that are motivated by cognitive studies. We also suggest to examine to what extent our features reflect cognitive processes. Additionally we recommend that our dynamic features be tested inlarge scale ER studies through the participation in ER challenges, with an aim to verify if they gain consensus.



Le texte intégral de cette thèse sera accessible librement à partir du 17-07-2018


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.