Estimation des mouvements du visage d'un locuteur dans une séquence audiovisuelle

par Matthias Odisio

Thèse de doctorat en Signal, image, parole, télécoms

Sous la direction de Gérard Bailly.

Soutenue en 2005

à Grenoble, INPG .

    mots clés mots clés


  • Résumé

    Cette thèse présente un système pour l'estimation en 3D des mouvements du visage d'un locuteur pour chaque image d'une séquence audiovisuelle. Afin de prendre en compte les spécificités de l'articulation du locuteur ainsi que la complexité des déformations faciales Iors de la parole, des modèles articulatoires, propres au locuteur, de la géométrie et de l'apparence du visage ont été construits à partir de données soigneusement collectées. Des analyses statistiques supervisées ont fait émerger de ces données un modèle précis en 3D de la géométrie et plusieurs modèles de l'apparence du visage. L'apparence est vue ici comme la texture de tout le visage ou comme l'apparence locale de points de chair sélectionnés automatiquement sur le visage. L'estimation proprement dite des gestes de la parole a été faite à partir de ces modèles via une boucle d'analyse par la synthèse. Les résultats du suivi ont été comparés aux données de référence; les évaluations basées sur l'erreur de recouvrement de la géométrie 3D et sur les gains d'intelligibilité procurés par les mouvements ont illustré le très bon fonctionnement des systèmes basés sur des descripteurs de l'apparence dépendant de l'articulation.


  • Pas de résumé disponible.

  • Titre traduit

    Estimation of a speaker's facial movements in an audiovisual sequence


  • Résumé

    This thesis presents a system that can recover and track the 3D speech movements of a speaker's face for each image of a video sequence. To handle both the specificity of the speaker's articulation and the complexity of facial deformations during speech, speakerspecific articulated models of the face geometry and appearance were built from carefully collected real data. Statistical analyses then led to a precise 3D model of the facial geometry and to several models of the facial appearance. Appearance was considered to be the texture of the entire face or the local appearance of fleshpoints automatically selected over the face. Given these models, the speech gesture estimation was done using an analysis-by-synthesis paradigm. Tracking results were compared with ground truth data not only in terms of recovery errors of the 3D geometry but also in terms of intelligibility enhancement provided by the movements. Results of these evaluations showed a very good performance for systems that used appearance features depending on articulatory movements.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (201 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 165-181

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Non disponible pour le PEB
  • Cote : TS05/INPG/0179
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Cote : TS05/INPG/0179/D
  • Bibliothèque : Phelma. Bibliothèque.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.