Video person recognition strategies using head motion and facial appearance

par Federico Matta

Thèse de doctorat en Automatique, traitement du signal et des images

Sous la direction de Jean-Luc Dugelay.

  • Titre traduit

    Reconnaissance d'individus à partir de l'apparence et de la dynamique du visage


  • Résumé

    Dans cette thèse, nous avons principalement exploré l'utilisation de l'information temporelle des séquences vidéo afin de l'appliquer à la reconnaissance de personne et de son genre; en particulier, nous nous concentrons sur l'analyse du mouvement de la tête et du visage ainsi que sur leurs applications potentielles comme éléments d'identification biométriques. De plus, nous cherchons à exploiter la majorité de l'information contenue dans la vidéo pour la reconnaissance automatique; plus précisément, nous regardons la possibilité d'intégrer dans un système biométrique multimodal l'information liée au mouvement de la tête et de la bouche avec celle de l'aspect du visage, et nous étudions l'extraction des nouveaux paramètres spatio-temporels pour la reconnaissance faciale. Nous présentons d'abord un système de reconnaissance de la personne qui exploite l'information relative au mouvement spontané de la tête. Cette information est extraite par le suivi dans le plan image de certains éléments caractéristiques du visage. En particulier, nous détaillons la façon dont dans chaque séquence vidéo le visage est tout d'abord détecté semi-automatiquement, puis le suivi automatique dans le temps de certains éléments caractéristiques en utilisant une approche basée sur l'appariement de bloques (template matching). Ensuite, nous exposons les normalisations géométriques des signaux que nous avons obtenus, le calcul des vecteurs caractéristiques, et la façon dont ils sont utilisés pour estimer les modèles des clients, approximés avec des modèles de mélange de gaussiennes. En fin de compte, nous parvenons à identifier et vérifier l'identité de la personne en appliquant la théorie des probabilités et la règle de décision bayésienne (aussi appelée inférence bayésienne). Nous proposons ensuite une extension multimodale de notre système de reconnaissance de la personne; plus précisément, nous intégrons à travers un cadre probabiliste unifié l'information sur le mouvement de la tête avec celles liées au mouvement de la bouche et à l'aspect du visage. En fait nous développons un nouveau sous-système temporel qui a un espace caractéristique étendu, lequel est enrichi par certains paramètres supplémentaires relatif au mouvement de la bouche; dans le même temps nous introduisons un sous-système spatial complémentaire au précédent, basé sur une extension probabiliste de l'approche Eigenfaces d'origine. Ensuite, une étape d'intégration combine les scores de similarité des deux sous-systèmes parallèles, grâce à une stratégie appropriée de fusion d'opinions. Enfin nous étudions une méthode pratique pour extraire de nouveaux paramètres spatio-temporels liés au visage à partir des séquences vidéo; le but est de distinguer l'identité et le genre de la personne. À cette fin nous développons un système de reconnaissance appelé tomovisages (tomofaces), qui applique la technique de la tomographie vidéo pour résumer en une seule image l'information relative au mouvement et à l'aspect du visage d'une personne. Puis, nous détaillons la projection linéaire à partir de l'espace de l'image en rayons X à un espace caractéristique de dimension réduite, l'estimation des modèles des utilisateurs en calculant les représentants des clusters correspondants, et la reconnaissance de l'identité et du genre par le biais d'un classificateur de plus proche voisin, qui adopte des distances dans le sous-espace.


  • Résumé

    In this doctoral dissertation, we principally explore the use of the temporal information available in video sequences for person and gender recognition; in particular, we focus on the analysis of head and facial motion, and their potential application as biometric identifiers. We also investigate how to exploit as much video information as possible for the automatic recognition; more precisely, we examine the possibility of integrating the head and mouth motion information with facial appearance into a multimodal biometric system, and we study the extraction of novel spatio-temporal facial features for recognition. We initially present a person recognition system that exploits the unconstrained head motion information, extracted by tracking a few facial landmarks in the image plane. In particular, we detail how each video sequence is firstly pre-processed by semi-automatically detecting the face, and then automatically tracking the facial landmarks over time using a template matching strategy. Then, we describe the geometrical normalisations of the extracted signals, the calculation of the feature vectors, and how these are successively used to estimate the client models through a Gaussian mixture model (GMM) approximation. In the end, we achieve person identification and verification by applying the probability theory and the Bayesian decision rule (also called Bayesian inference). Afterwards, we propose a multimodal extension of our person recognition system; more precisely, we successfully integrate the head motion information with mouth motion and facial appearance, by taking advantage of a unified probabilistic framework. In fact, we develop a new temporal subsystem that has an extended feature space enriched by some additional mouth parameters; at the same time, we introduce a complementary spatial subsystem based on a probabilistic extension of the original eigenface approach. In the end, we implement an integration step to combine the similarity scores of the two parallel subsystems, using a suitable opinion fusion (or score fusion) strategy. Finally, we investigate a practical method for extracting novel spatio-temporal facial features from video sequences, which are used to discriminate identity and gender. For this purpose we develop a recognition system called tomofaces, which applies the temporal X-ray transformation of a video sequence to summarise the facial motion and appearance information of a person into a single X-ray image. Then, we detail the linear projection from the X-ray image space to a low dimensional feature space, the estimation of the client models obtained by computing their cluster representatives, and the recognition of identity and gender through a nearest neighbour classifier using distances.


  • Résumé

    In questa tesi di dottorato esploriamo la possibilità di riconoscere l'identità e il sesso di una persona attraverso l'utilizzo dell'informazione temporale disponibile in alcune sequenze video, in particolare ci concentriamo sull'analisi del movimento della testa e del viso, nonché del loro potenziale utilizzo come identificatiori biometrici. Esaminiamo inoltre la problematica relativa al fatto di sfruttare la maggior parte dell'informazione presente nei video per effettuare il riconoscimento automatico della persona; più precisamente, analizziamo la possibilità di integrare in un sistema biometrico multimodale l'informazione relativa al movimento della testa e della bocca con quella dell'aspetto del viso, e studiamo il calcolo di nuovi parametri spazio-temporali che siano utilizzabili per il riconoscimento stesso. In primo luogo presentiamo un sistema di riconoscimento biometrico della persona che sfrutti l'informazione legata al movimento naturale della testa, il quale è estratto seguendo la posizione nel piano immagine di alcuni elementi caratteristici del viso. In particolare descriviamo come in una sequenza video il volto venga dapprima individuato semiautomaticamente, e come poi alcuni suoi elementi caratteristici siano localizzati nel tempo tramite un algoritmo automatico di messa in corrispondenza di modelli (template matching) permettendo di seguirne la posizione. Spieghiamo quindi le normalizzazioni geometriche dei segnali che abbiamo ricavato, il calcolo dei vettori caratteristici, ed il modo in cui questi sono utilizzati per stimare i modelli degli utilizzatori, approssimandoli tramite delle misture di distribuzioni gaussiane (Gaussian mixture models). Alla fine otteniamo l'identificazione e la verifica dell'identità della persona applicando la teoria delle probabilità e la regola di decisione o inferenza bayesiana. In seguito proponiamo un'estensione multimodale del nostro sistema di riconoscimento della persona; più precisamente, tramite un approccio probabilistico unificato, integriamo l'informazione sul movimento della testa con quelle relative al movimento della bocca e all'aspetto del viso. Infatti sviluppiamo un nuovo sottosistema temporale che possiede uno spazio caratteristico esteso, arricchito di alcuni parametri aggiuntivi legati al movimento della bocca; contemporaneamente, introduciamo un sottosistema spaziale complementare al precedente, basato su un'estensione probabilistica dell'approccio Eigenfaces originale. Alla fine implementiamo uno stadio di fusione, che metta insieme i valori di somiglianza dei due sottosistemi paralleli, attraverso un'appropriata strategia di fusione delle opinioni. Infine investighiamo un metodo pratico per estrarre nuovi parametri spazio-temporali relativi al volto a partire da sequenze video, i quali sono utilizzati per distinguere l'identità ed il sesso della persona. A questo riguardo sviluppiamo un sistema di riconoscimento chiamato tomovolti (tomofaces), il quale utilizza la tecnica della tomografia video per riassumere in una sola immagine l'informazione relativa all'aspetto ed al movimento del volto di una persona. Poi descriviamo la proiezione lineare dallo spazio dell'immagine ai raggi X ad un spazio caratteristico di dimensione ridotta, la stima dei modelli degli utilizzatori attraverso il calcolo dei rappresentanti corrispondenti ad ogni cluster, ed il riconoscimento dell'identità e del genere attraverso un classificatore al vicino più prossimo (nearest neighbour classifier), che adopera le distanze nel sottospazio.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (156 p.)
  • Annexes : Bibliogr. p. 148-156. Résumés en anglais, français, italien

Où se trouve cette thèse ?

  • Bibliothèque : Université Nice Sophia Antipolis. Service commun de la documentation. Section Sciences.
  • Non disponible pour le PEB
  • Cote : 08NICE4038
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.