Thèse soutenue

Apprentissage automatique des expressions émotionnelles à partir de signaux acoustiques et de textes

FR  |  
EN
Auteur / Autrice : Sina Ali Samir
Direction : François Portet
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 03/10/2023
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Grenoble
Equipe de recherche : Groupe d'étude en traduction automatique - Traitement automatisé des langues et de la parole (Grenoble)
Jury : Président / Présidente : Martial Mermillod
Examinateurs / Examinatrices : Catherine Pelachaud, Hussein Al Osman, Florian Eyben
Rapporteurs / Rapporteuses : Mohamed Chetouani, Emily Mower Provost

Résumé

FR  |  
EN

La reconnaissance automatique des émotions (RAE) à partir de textes ou d'enregistrements audio d'interactions naturelles entre humains ou entre humains et machines est une technologie qui peut avoir un impact dans des domaines aussi divers que l'éducation, la santé et le divertissement. Bien que les systèmes de RAE existants puissent fonctionner correctement dans des scénarios spécifiques, ils ne sont pas encore assez robustes pour être utilisés de manière fiable pour des enregistrements d'environnements, de locuteurs et de microphones différents (c.-à-d. les données naturelles). Dans cette thèse, plusieurs contributions ont été faites pour avancer la recherche sur la RAE pour les données naturelles.Les systèmes de RAE les plus récents utilisent des méthodes d'apprentissage automatique basées sur les données pour prédire les annotations numériques des émotions à partir des représentations numériques des signaux acoustiques ou du texte. L'une des contributions de cette thèse est d'étudier la fusion des représentations vocales et de leurs transcriptions textuelles correspondantes pour la RAE sur des données actées et naturelles. En outre, comme les transcriptions humaines ne sont pas toujours disponibles, les systèmes de reconnaissance automatique de la parole (RAP) existants sont explorés dans le même paradigme. Les résultats montrent que l'utilisation de représentations acoustiques et textuelles fusionnées permet d'obtenir de meilleures performances en matière de reconnaissance automatique d'émotion pour des expressions actées et naturelles, comparé à l'utilisation séparée de chaque modalité. Les représentations acoustiques et textuelles ont également été fusionnées avec les représentations du locuteur, ce qui a permis d'améliorer les performances en RAE pour des expressions actées.En outre, l'émotion étant un concept subjectif sans définition universelle, elle est annotée et utilisée de diverses manières dans les différents systèmes de RAE. Pour résoudre ce problème, cette thèse propose une méthode d'entraînement d'un modèle sur différents ensembles de données avec différentes annotations d'émotions. La méthode proposée est composée d'un modèle partagé entre plusieurs ensembles de données, qui calcule la représentation latente générique de l'émotion, et de plusieurs modèles spécifiques, qui peuvent faire correspondre la représentation de l'émotion à l'ensemble des étiquettes d'émotion spécifiques à chaque ensemble de données. Les résultats suggèrent que la méthode proposée peut produire des représentations d'émotions qui peuvent relier des étiquettes d'émotions identiques ou similaires dans différents ensembles de données avec différents schémas d'annotation. Enfin, en combinant la méthode proposée avec des représentations acoustiques et textuelles conjointes, il a été démontré que cette méthode peut exploiter les expressions émotionnelles actées pour améliorer les performances de la RAE effectuées sur des expressions naturelles.