Suivi labial couleur pour analyse-synthèse vidéo et communication temps-réel

par Brice Beaumesnil

Thèse de doctorat en Informatique

Sous la direction de Franck Luthon.

Soutenue en 2006

à Pau .


  • Résumé

    Le problème abordé dans cette thèse concerne l'extraction vidéo et le suivi de points caractéristiques de la bouche d'un locuteur en vue d'animer de façon réaliste et en temps réel un clone de synthèse dans des conditions d'éclairage suffisantes mais non contraintes (typiquement un éclairage de bureau) sans exploitation d'information sonore. Nous avons cherché à étudier les différentes techniques existant dans le domaine pour les modifier afin de les adapter à notre cas de figure. Tout d'abord nous avons choisi l'utilisation d'un espace couleur non-linéaire peu sensible à la luminosité afin d'en extraire une teinte lèvre permettant une bonne discrimination par rapport au reste du visage. Cette teinte est ensuite segmentée par un outil de classification pour pouvoir détecter la position de bouche ainsi que ses contours. Afin de rendre l'algorithme plus robuste nous avons utilisé l'information issue de la synthèse du visage pour guider l'analyse de la bouche (technique de contre-réaction). L'utilisation de méthodes dites de bas niveau nous procure l'avantage par rapport aux nombreux autres travaux existants de ne pas avoir à réaliser de base d'apprentissage. De plus, leurs paramétrages dynamiques assurent une grande robustesse aux conditions d'éclairage et aux différents types de peau des locuteurs. Le travail réalisé nous a permis d'obtenir une chaîne globale de traitement allant de la capture vidéo du locuteur jusqu'à l'animation d'un clone de synthèse. Un prototype complet opérationnel permet de réaliser des animations en temps-réel avec de nombreux individus sous différents types d'éclairage.


  • Résumé

    The objective of this thesis is to extract and to track relevant primitives of the mouth in a nonconstrained environment (typically o_ce lighting) to make a realistic animation of a synthetic 3D face model in real-time without audio information. We sought to study various existing methods to adapt them to our problem. First we define a lip hue based on a non-linear color space (little sensitive to lighting variation) in order to exhibit very distinctly skin and lip hue areas on the speaker's face. This hue is then segmented by a clustering algorithm to be able to detect the position of the mouth and its contours. In order to make the algorithm more robust we use synthesis information (feedback loop) of the face to guide the mouth analysis. Low-level methods give us the avantage not to use a database compared to many existing works (typically AAMs). Moreover, their dynamic control ensures a great robustness to the lighting exposition and to the various types of speaker's skin. With this work we have realized a global analysis/synthesis chain (going from the video capture of the speaker until the clone animation). An operational prototype enables us to make animations in real time with many speakers under various types of lighting.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (190 p.)
  • Annexes : Bibliographie p.177-186

Où se trouve cette thèse ?

  • Bibliothèque : Université de Pau et des Pays de l'Adour. Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : US 461449
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.