Détection des émotions sociales grâce à une architecture d'apprentissage profond multimodale dans les centres d'appel d'urgence

par Théo Deschamps-berger

Projet de thèse en Informatique

Sous la direction de Laurence Devillers.

Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication , en partenariat avec Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....) (laboratoire) , TLP - Traitement du Langage Parlé (equipe de recherche) et de Faculté des sciences d'Orsay (référent) depuis le 01-10-2020 .


  • Résumé

    La thèse portera sur une architecture d'apprentissage profond multimodale pour la détection des émotions sociales lors des dialogues Homme-Homme dans les centres d'appels d'urgence. Le développement algorithmique repose souvent sur l'hypothèse que les émotions sont l'expression prototypique d'une émotion, ce qui n'est pas vrai dans les interactions parlées de la vie réelle. Cette thèse présentera des méthodes pour interpréter le contenu émotionnel des énoncés non prototypiques (corpus CEMO) recueillis dans les centres d'appels d'urgence en 2005 et testera également de nouvelles données provenant d'autres centres d'appels d'urgence en 2020. Basé sur la détection des émotions sur les deux canaux: voix et transcription automatique de la parole (ASR), nous pourrions également essayer de détecter la situation critique de malentendus entre l'appelant et l'opérateur. La position émotionnelle de l'appelant, qui peut aller du maintien du calme à la perte de contrôle, est cruciale pour la compréhension et l'évaluation des appels d'urgence par les opérateurs. La détection automatique des émotions pourrait enrichir la plate-forme utilisée par les agents dans les centres d'appels d'urgence. Cette thèse est financée dans le cadre de la Chaire AI HUMAAINE : HUman MAchine Affective Interaction Ethics au LIMSI-CNRS.

  • Titre traduit

    Social emotion detection with multi-modal deep learning architecture in emergency call centers


  • Résumé

    The thesis will focus on a multi-modal deep learning architecture for detecting social emotions during Human-Human dialogues in emergency call centers. Algorithmic development often rests on the assumption that the input emotions are prototypical emotion expression, which is not true in real-life spoken interactions. This thesis will present methods for interpreting the emotional content of non-prototypical utterances (corpus CEMO) collected in emergency call centers in 2005 and will also test new data coming from another emergency call centers in 2020. Based on emotions detection on both channels voice and words from Automatic Speech Recognition (ASR), we could also try to detect the critical misunderstanding situation between the caller and the operator. The caller's emotional stance, which may range from keeping calm to losing control, is crucial for operators' understanding and assessment of emergency calls. Automatic emotion detection could enrich the platform used by agent in emergency call centers. This thesis is financed within the context of the Chaire AI HUMAAINE : HUman MAchine Affective Interaction & Ethics at LIMSI-CNRS.