Représentation parcimonieuse appliquée à la décomposition des informations portées par un visage – Application à la reconnaissance conjointe de l'identité et de l'expression faciale

par Dawood Al Chanti

Projet de thèse en Signal image parole telecoms

Sous la direction de Alice Caplier.

Thèses en préparation à Grenoble Alpes , dans le cadre de Electronique, Electrotechnique, Automatique, Traitement du Signal (EEATS) , en partenariat avec Grenoble Images Parole Signal Automatique (laboratoire) et de Architecture, Géométrie, Perception Images Gestes (AGPIG) (equipe de recherche) depuis le 01-10-2016 .


  • Résumé

    De nombreuses recherches sont menées dans le domaine de l'analyse automatique de visages pour des applications différentes telles que la reconnaissance d'expressions faciales ou la reconnaissance de visages. En pratique les informations pertinentes sur le visage nécessaires à la reconnaissance d'expressions faciales sont des informations parasites quand il s'agit de faire de l'identification et réciproquement. L'objectif principal de cette thèse est de décomposer un visage selon divers canaux d'informations telles que les déformations typiques d'un visage expressif d'une part et les informations morphologiques typiques de l'identité d'autre part de manière à développer un algorithme de reconnaissance conjointe de l'identité d'une personne et de son expression. De plus, nous nous intéresserons à des expressions dites naturelles c'est-à-dire non jouées par des acteurs. La pertinence d'une application en traitement d'images est bien souvent associée au choix d'une "représentation adéquate'', c'est-à-dire au choix d'une représentation capable de rassembler les informations pertinentes vis-à-vis de l'application visée tout en s'affranchissant d'éventuelles informations parasites. Dans le cadre de la thèse proposée, nous souhaitons investiguer l'intérêt de l'utilisation d'une représentation parcimonieuse pour décomposer un visage selon divers canaux d'informations. La représentation parcimonieuse d'un signal consiste dans la décomposition de ce signal avec un faible nombre de coefficients significatifs. Par définition, un signal est dit parcimonieux lorsque la plupart de ses coefficients sont (approximativement) nuls. Les représentations parcimonieuses (sparse representations) consistent en la décomposition du signal sur un dictionnaire comprenant un nombre d'éléments (ou atomes) très supérieur à la dimension du signal. Cette décomposition va introduire dans la nouvelle représentation du signal un grand nombre de valeurs nulles, voilà pourquoi on parle de représentation parcimonieuse. Les problématiques scientifiques que posent ces représentations sont les suivantes : - La définition du critère de parcimonie, - La construction du dictionnaire D en fonction de l'application à réaliser. Jusqu'à présent, les dictionnaires existants peuvent être regroupés en deux familles d'approches: celles s'appuyant sur des modèles mathématiques de données (comme par exemple, la DCT pour la compression d'images) et celles pour lesquelles le dictionnaire est appris à partir des données. Ce type de représentation a déjà été utilisée en traitement d'images pour certaines applications telles que la compression de vidéos, la restauration d'images, le débruitage. L'objectif du travail de la thèse sera d'étudier en quelle mesure il serait possible d'utiliser une représentation parcimonieuse pour générer une décomposition multiple du visage efficace pour reconnaître conjointement l'identité et l'expression d'un visage.

  • Titre traduit

    Sparse Representation applied to the decomposition of information carried by a face - Application to the joint recognition of identity and facial expression.


  • Résumé

    Many research is conducted in the field of automatic analysis of faces for different applications such as facial expression recognition or face recognition. In practice the relevant information on the face for the recognition of facial expressions are parasites information when it comes to identifying and vice versa. The main objective of this thesis is to break down a face by various channels of information such as the typical deformations of an expressive face on the one hand and the typical morphological information of the identity of the other so as to develop a joint recognition algorithm of a person's identity and expression. In addition, we will focus on so-called natural expressions that is to say not played by actors. The relevance of an image processing application is often associated with the choice of "adequate representation", that is to say the choice of a representation able to gather the relevant information vis-à-vis the intended application while avoiding any interference information. as part of the proposed thesis, we want to investigate the benefits of using a sparse representation for breaking a face using various channels of information. The sparse representation of a signal consists of the decomposition of this signal with a small number of significant coefficients. By definition, a signal is said parsimonious when most of its coefficients are (approximately) zero. The sparse representations (sparse representations) consist of the decomposition of the signal on a dictionary comprising a number of members (or atoms) much greater than the dimension of the signal. This decomposition will introduce in the new representation of the signal a lot of zeros, that's why we talk about sparse representation. The scientific problems posed by these representations are: - The definition of parsimony criterion, - The construction of the dictionary D according to the application to be realized. So far, the existing dictionaries can be grouped into two families of approaches: those based on mathematical models of data (eg, the DCT for image compression) and those for which the dictionary is learned from data. This type of representation has already been used in image processing for certain applications such as video compression, image restoration, noise removal. The objective of the work of the thesis is to study whether it would be possible to use a sparse representation to generate a multiple decomposition of the effective face to jointly recognize the identity and the expression of a face.