Segmentation et suivi des contours externe et interne des lèvres pour des applications de maquillage virtuel et de labiophone

par Sébastien Stillittano

Thèse de doctorat en Signal, image, parole et télécommunications

Sous la direction de Alice Caplier et de Pierre-Yves Coulon.

Soutenue en 2009

à Grenoble, INPG , en partenariat avec Grenoble Images Parole Signal Automatique (laboratoire) .


  • Résumé

    Ces dernières années, l'analyse des visages connaît un intérêt grandissant dans le domaine de la vision par ordinateur. Le visage est un vecteur d'information puissant de la communication entre être humains et il fournit des indications pertinentes sur l'identité d'une personne, sur son état émotionnel ou sur ce qu'elle dit. Le laboratoire GIPSA a mené de multiples études concernant le problème de la segmentation automatique des traits du visage pour des applications de type multimédia (réalité mixte, terminal téléphonique, interaction homme machine, interprétation de gestes de communication non verbal, simulateur de conduite interactif. . . ). Des travaux ont porté sur la localisation de la tête dans une image, sur l'extraction des contours des yeux, des sourcils et de l'arc mandibulaire et, plus récemment, sur la segmentation des contours de la bouche. Cette thèse présente un algorithme automatique de segmentation des contours intérieur et extérieur des lèvres utilisé pour des images statiques et des séquences vidéo. Ce système est composé de deux modules : un module statique et un module de suivi. Dans le cas d'une image statique, après avoir localisé le visage et avoir calculé une boîte englobante de la bouche, l'algorithme statique permet d'extraire automatiquement le contour complet des lèvres en combinant contours actifs et modèles paramétriques. Les jumping snakes permettent de trouver des points clefs externes et internes sur les contours afin de positionner un modèle paramétrique composé de courbes cubiques appropriées aux déformations possibles des lèvres. Le modèle interne peut prendre deux formes différentes selon que la bouche soit ouverte ou fermée. Finalement, une méthode de maximisation de flux moyen de gradients optimise le modèle paramétrique. Dans le cas de séquences vidéo, le même traitement statique est réalisé sur la 1ère image pour initialiser l'algorithme de suivi. La segmentation des contours dans les images suivantes se fait à l'aide de méthodes de tracking permettant le suivi des points clefs du modèle paramétrique des lèvres. L'ajustement du modèle paramétrique s'effectue ensuite de nouveau par maximisation de flux moyen de gradients. Les contributions de cette thèse sont les suivantes: 1) Proposition d'un modèle paramétrique complet des lèvres suffisamment flexible pour reproduire un ensemble varié de formes possibles de la bouche 2) Création de plusieurs gradients combinant des informations de luminance et de chrominance adaptés à chaque partie du contour labial. 3) Évaluation quantitative et qualitative de l'algorithme de segmentation dans le cadre d'applications de maquillage virtuel et de lecture labiale.


  • Résumé

    In recent years, the analysis of faces is a growing interest in the field of computer vision. The face is a powerful communications medium between human beings. It provides relevant clues on person identity, emotions or what it says. The GIPSA-lab carried out several studies on facial feature segmentation for multimedia applications (mixed reality, telephone terminal, human computer interaction, gesture interpretation for nonverbal communication interpretation, interactive driving simulator. . . ). Studies deal with face location, with eye, eyebrow and mandibular arch contour extraction and, more recently, with mouth contour segmentation. This work introduces an automatic outer and inner lip contour segmentation method for static images and video sequences. The algorithm is composed of two modules: a static module and a tracking module. In case of static images, the first steps are face location and mouth bounding box extraction. Then, the lip contours are detected by combining active contours and parametric models. The jumping snakes are used to find key points to position a cubic curve parametric model which is appropriate to the possible lip shape deformations. Two inner parametric models have been built: one model for open mouths and another for closed mouths. Finally, maximization of relevant gradient flows is used to optimize the model parameter estimation. In case of video sequences, the same static process is carried out on the first frame to initialize the tracking algorithm. On subsequent images, the tracking method is based on key point tracking techniques and the model is adjusted by the gradient flow maximization method. The contributions of this work are: 1) a flexible lip parametric model, 2) several gradients combining luminance and chrominance information to highlight the lip contours, 3) quantitative and qualitative evaluation of the segmentation algorithm performances for the virtual make up and lipreading applications.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (212 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 180 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Cote : TS09/INPG/0081/D
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible sous forme de reproduction pour le PEB
  • Cote : TS09/INPG/0081
  • Bibliothèque : GIPSA-lab. Bibliothèque.
  • Disponible pour le PEB
  • Cote : 2009 STI
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.