Détection des émotions à partir de vidéos dans un environnement non contrôlé

par Rizwan Ahmed Khan

Thèse de doctorat en Informatique

Sous la direction de Saïda Bouakaz, Alexandre Meyer et de Hubert Konik.

Soutenue le 14-11-2013

à Lyon 1 , dans le cadre de École doctorale en Informatique et Mathématiques de Lyon , en partenariat avec Laboratoire d'InfoRmatique en Image et Systèmes d'information (laboratoire) .

Le jury était composé de Thomas Baltzer Moeslund, Patrick Lambert, Samir Garbaya.

Les rapporteurs étaient Renaud Séguier, Jean-Claude Martin.


  • Résumé

    Dans notre communication quotidienne avec les autres, nous avons autant de considération pour l’interlocuteur lui-même que pour l’information transmise. En permanence coexistent en effet deux modes de transmission : le verbal et le non-verbal. Sur ce dernier thème intervient principalement l’expression faciale avec laquelle l’interlocuteur peut révéler d’autres émotions et intentions. Habituellement, un processus de reconnaissance d’émotions faciales repose sur 3 étapes : le suivi du visage, l’extraction de caractéristiques puis la classification de l’expression faciale. Pour obtenir un processus robuste apte à fournir des résultats fiables et exploitables, il est primordial d’extraire des caractéristiques avec de forts pouvoirs discriminants (selon les zones du visage concernées). Les avancées récentes de l’état de l’art ont conduit aujourd’hui à diverses approches souvent bridées par des temps de traitement trop couteux compte-tenu de l’extraction de descripteurs sur le visage complet ou sur des heuristiques mathématiques et/ou géométriques.En fait, aucune réponse bio-inspirée n’exploite la perception humaine dans cette tâche qu’elle opère pourtant régulièrement. Au cours de ces travaux de thèse, la base de notre approche fut ainsi de singer le modèle visuel pour focaliser le calcul de nos descripteurs sur les seules régions du visage essentielles pour la reconnaissance d’émotions. Cette approche nous a permis de concevoir un processus plus naturel basé sur ces seules régions émergentes au regard de la perception humaine. Ce manuscrit présente les différentes méthodologies bio-inspirées mises en place pour aboutir à des résultats qui améliorent généralement l’état de l’art sur les bases de référence. Ensuite, compte-tenu du fait qu’elles se focalisent sur les seules parties émergentes du visage, elles améliorent les temps de calcul et la complexité des algorithmes mis en jeu conduisant à une utilisation possible pour des applications temps réel.

  • Titre traduit

    Detection of emotions from video in non-controlled environment


  • Résumé

    Communication in any form i.e. verbal or non-verbal is vital to complete various daily routine tasks and plays a significant role inlife. Facial expression is the most effective form of non-verbal communication and it provides a clue about emotional state, mindset and intention. Generally automatic facial expression recognition framework consists of three step: face tracking, feature extraction and expression classification. In order to built robust facial expression recognition framework that is capable of producing reliable results, it is necessary to extract features (from the appropriate facial regions) that have strong discriminative abilities. Recently different methods for automatic facial expression recognition have been proposed, but invariably they all are computationally expensive and spend computational time on whole face image or divides the facial image based on some mathematical or geometrical heuristic for features extraction. None of them take inspiration from the human visual system in completing the same task. In this research thesis we took inspiration from the human visual system in order to find from where (facial region) to extract features. We argue that the task of expression analysis and recognition could be done in more conducive manner, if only some regions are selected for further processing (i.e.salient regions) as it happens in human visual system. In this research thesis we have proposed different frameworks for automatic recognition of expressions, all getting inspiration from the human vision. Every subsequently proposed addresses the shortcomings of the previously proposed framework. Our proposed frameworks in general, achieve results that exceeds state-of-the-artmethods for expression recognition. Secondly, they are computationally efficient and simple as they process only perceptually salient region(s) of face for feature extraction. By processing only perceptually salient region(s) of the face, reduction in feature vector dimensionality and reduction in computational time for feature extraction is achieved. Thus making them suitable for real-time applications.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Claude Bernard. Service commun de la documentation. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.