Analyse d'images et modèles de formes pour la détection et la reconnaissance : application aux visages en multimédia

par Pierre Gacon

Thèse de doctorat en Signal, image, parole, télécoms

Sous la direction de Pierre-Yves Coulon et de Gérard Bailly.

Soutenue en 2006

à Grenoble, INPG .


  • Résumé

    La segmentation de la bouche est un problème important qui trouve des applications dans plusieurs domaines du multimédia. Dans ce travail, notre objectif est d'obtenir une détection robuste et efficace des contours des lèvres de façon à être capable de restaurer les mouvements de la parole aussi fidèlement que possible. Nous apportons une attention particulière au contour intérieur de la bouche dan la segmentation est une tâche difficile à cause des variations non-linéaires de l'apparence. Nous proposons une méthode basée sur un modèle statistique de la forme et de l'apparence échantillonnée faisant intervenir des descripteurs gaussiens locaux d'apparence. Notre hypothèse est que la réponse de ces descripteurs locaux peut être prédite à partir de la forme par le biais d'un réseau de neurones non- linéaire. Nous avons d'abord testé cette hypothèse dans un cas mono-locuteur et l'avons ensuite généralisé à un cas multi-Iocuteurs en tenant de la variabilité inter-personne. A cet effet, nous adaptons progressivement notre modèle au locuteur traité en déterminant son' apparence caractéristique. A partir de notre segmentation de la bouche, nous pouvons ensuite générer un clone de la bouche de la personne dont les mouvements


  • Pas de résumé disponible.

  • Titre traduit

    Image analysis and shape models for detection and recognition : application to face in multimedia.


  • Résumé

    Mouth segmentation is an important issue which applies in many multimedia applications. Ln this work, our goal is to have a robust and efficient detection of lips contour in order to restore as faithfully as possible the speech movement. We specially focus on the detection of the inner mouth contour which is a difficult task due to the non-linear appearance variations. We propose a method based on a statistical model of shape and sampled-appearance with local appearance gaussian descriptors. Our hypothesis is that the response of the local descriptors can be predicted from the shape by a non-linear neural network. We tested this hypothesis with a single speaker task and the generalized it to take care of the inter person appearance variability in a multi-speaker task. To that purpose, we adapt progressively our model to the speaker by determining its characteristic appearance. From our automatic segmentation of the mouth, we can th en generat, a clone of a speaker mouth whose lips movements will be as close as possible of the original ones. Finally, we evaluate our method relevance quantitatively and next qualitatively by carrying out an experience which quantify the effective enhancement in comprehension brought by our analysis-resynthesis scheme in a telephone enquiry task.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (168 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. [155]-165

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Non disponible pour le PEB
  • Cote : TS06/INPG/0058
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Cote : TS06/INPG/0058/D
  • Bibliothèque : Phelma. Bibliothèque.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.