Modèles a posteriori de la forme et de l'apparence des lèvres pour la reconnaissance automatique de la parole audiovisuelle
Auteur / Autrice : | Philippe Daubias |
Direction : | Paul Deléglise |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2002 |
Etablissement(s) : | Le Mans |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique de l'Université du Mans |
Résumé
Après une étude bibliographique approfondie, nous décrivons des modèles a posteriori, appris sur des corpus, de la forme et de l'apparence des lèvres, utilisables pour extraire des paramètres visuels pour la reconnaissance automatique de parole audiovisuelle dans des conditions naturelles (peu contraintes). Le modèle de la forme, deux polygones décrivant les contours interne et externe des lèvres, est appris par ACP. Le modèle d'apparence est un réseau de neurones qui classifie les points de l'image. Son entraînement nécessite de repérer les lèvres sur des images naturelles et, plutôt que de recourir à un étiquetage manuel, nous proposons une nouvelle méthode automatique utilisant deux répétitions d'une même phrase, avec et sans maquillage bleu. Le maquillage permet d'extraire le contour des lèvres et l'alignement par DTW des canaux acoustiques des deux séquences permet d'estimer la forme des lèvres sur les images naturelles, grâce aux formes extraites avec le maquillage.