Vérification de l'identité d'un visage parlant : apport de la mesure de synchronie audiovisuelle face aux tentatives délibérées d'imposture

par Hervé Bredin

Thèse de doctorat en Signal et images

Sous la direction de Gérard Chollet.

Soutenue en 2007

à Paris, ENST .


  • Résumé

    La biométrie est le domaine technologique traitant de la vérification d'identité et/ou de l'identification de personnes par leurs caractéristiques physiques individuelles, morphologiques ou comportementales. En plus d'être une des modalités biométriques les moins intrusives et donc plus facilement acceptée, la modalité « visage parlant » est intrinsèquement multimodale : elle regroupe la reconnaissance du visage, la vérification du locuteur et une troisième modalité portant sur la synchronie entre la voix et les lèvres. Les protocoles d'évaluation classiquement utilisés ne tiennent pas compte des tentatives délibérées d'imposture. Aussi, nous confrontons, dans la première partie, un système de référence (basé sur la fusion des scores de vérification du locuteur et du visage) à quatre types d'imposture délibérée de type rejeu et mettons en évidence ses faiblesses. Dans la seconde partie, nous étudions la synchronie audiovisuelle entre le mouvement des lèvres acquis par la caméra et la voix acquise par le microphone. Plusieurs nouvelles mesures de synchronie basées sur l'analyse de corrélation canonique et l'analyse de co-inertie sont évaluées sur la tâche de détection d'asynchronie. Une nouvelle modalité biométrique basée sur la mesure de synchronie dépendante du client est proposée. Sa robustesse intrinsèque aux attaques de type rejeu est mise en évidence. La complémentarité entre le système de référence et cette nouvelle modalité est utilisée dans le cadre de stratégies de fusion originales, de façon à trouver un compromis entre performances brutes et robustesse à l’imposture.

  • Titre traduit

    Making talking-face authentication robust to deliberate imposture using audiovisual synchrony measures


  • Résumé

    Biometrics is the technological field dealing with authentication and/or identification of people using their physical characteristics, including morphological and behavioral measurements. Not only is talking face one of the less intrusive biometric modality, it is also intrinsically multimodal: it includes both speaker and face verification, and a third modality related to audiovisual speech synchrony between the voice and lip motion. In the first part, we underline that deliberate impostor attacks are often forgotten in the development process of talking-face authentication algorithms. We simulate four kinds of deliberate impostor replay attacks in order to uncover the main weakness of classical systems based on the fusion of speaker and face verification scores. In the second part, we propose to study the audiovisual synchrony between voice and lip motion as a way of making a classical speaker+face robust to attacks. Several novel synchrony measures based on canonical correlation analysis and co-inertia analysis are introduced and tested on the asynchrony detection task. The promising results that we obtained with a client-dependent synchrony measure led us to introduce a novel biometric modality based on audiovisual synchrony. Though it is not as efficient as speaker and face verification, this new modality is intrinsically robust to deliberate impostor attacks. We finally point out the complementarity between the speaker+face reference system and the synchrony modality and introduce novel fusion strategies that allow to achieve a good compromise between the efficiency of the former and the robustness of the latter.

Autre version

Cette thèse a donné lieu à une publication en 2007 par École nationale supérieure des télécommunications à Paris

Vérification de l'identité d'un visage parlant : apport de la mesure de synchronie audiovisuelle face aux tentatives délibérées d'imposture


Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (195 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 102 réf. bibliogr. Résumé en français et en anglais

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
  • Disponible pour le PEB
  • Cote : 7.301 BRED
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.
Cette thèse a donné lieu à 1 publication .

Consulter en bibliothèque

Cette thèse a donné lieu à une publication en 2007 par École nationale supérieure des télécommunications à Paris

Informations

  • Sous le titre : Vérification de l'identité d'un visage parlant : apport de la mesure de synchronie audiovisuelle face aux tentatives délibérées d'imposture
  • Dans la collection : ENST , 2007E019 , 0751-1353
  • Détails : 1 vol. (195 p.)
  • Annexes : Bibliogr. p. 185-195. Résumé en français et en anglais
La version de soutenance de cette thèse existe aussi sous forme papier.

Où se trouve cette thèse ?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.