Thèse soutenue

Modèles a posteriori de la forme et de l'apparence des lèvres pour la reconnaissance automatique de la parole audiovisuelle

FR
Auteur / Autrice : Philippe Daubias
Direction : Paul Deléglise
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2002
Etablissement(s) : Le Mans
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de l'Université du Mans

Résumé

FR  |  
EN

Après une étude bibliographique approfondie, nous décrivons des modèles a posteriori, appris sur des corpus, de la forme et de l'apparence des lèvres, utilisables pour extraire des paramètres visuels pour la reconnaissance automatique de parole audiovisuelle dans des conditions naturelles (peu contraintes). Le modèle de la forme, deux polygones décrivant les contours interne et externe des lèvres, est appris par ACP. Le modèle d'apparence est un réseau de neurones qui classifie les points de l'image. Son entraînement nécessite de repérer les lèvres sur des images naturelles et, plutôt que de recourir à un étiquetage manuel, nous proposons une nouvelle méthode automatique utilisant deux répétitions d'une même phrase, avec et sans maquillage bleu. Le maquillage permet d'extraire le contour des lèvres et l'alignement par DTW des canaux acoustiques des deux séquences permet d'estimer la forme des lèvres sur les images naturelles, grâce aux formes extraites avec le maquillage.