Modélisation de la coarticulation labiale : mise en oeuvre sur une tête parlante

par Vincent Robert

Thèse de doctorat en Informatique

Sous la direction de Yves Laprie et de Anne Bonneau.

Soutenue le 12-11-2008

à Nancy 1 , dans le cadre de IAEM Lorraine , en partenariat avec LORIA (laboratoire) .

Le président du jury était Jean-Paul Haton.

Le jury était composé de Jean-Paul Haton, Yves Laprie, Anne Bonneau, Laurent Besacier, Olivier Boëffard, Rudolph Sock.

Les rapporteurs étaient Laurent Besacier, Olivier Boëffard.


  • Résumé

    Cette thèse s'inscrit dans une étude sur l’élaboration d'une tête parlante. Nous nous intéressons tout particulièrement à la prédiction du mouvement de coarticulation des lèvres et de la mâchoire. Après avoir analysé les variations intra et interlocuteur des paramètres labiaux de deux corpora audiovisuels, nous avons conçu un algorithme de prédiction de la coarticulation basé sur des règles phonétiques et prenant en considération l'interaction entre les articulateurs. Nous avons ensuite proposé une technique pour synthétiser les mouvements articulatoires des lèvres et de la mâchoire en utilisant un corpus monolocuteur. Le principe de base est la concaténation de séquences élémentaires de type VC...CV qui ont été jugées pertinentes par notre algorithme de prédiction phonétique, et qui sont soit extraites du corpus, soit obtenues par complétion. Nous avons modélisé les mouvements articulatoires par des sigmoïdes qui offrent l'avantage de réduire considérablement la taille du modèle construit et permettent de s'adapter facilement à des vitesses d'élocution ou des stratégies articulatoires particulières tout en conservant les contrastes distinctifs entre les sons successifs et leurs caractéristiques intrinsèques. Afin d'estimer la qualité de notre synthèse, nous avons mesuré les différences entre les signaux réels et synthétisés sur l'ensemble des phrases du corpus et nous avons comparé notre solution avec l’algorithme de Cohen et Massaro. Nous avons montré que notre synthèse est meilleure pour certaines séquences spécifiques de type VCCV où l'anticipation est plus complexe.

  • Titre traduit

    Modeling labial coarticulation : implementation for a talking head


  • Résumé

    This thesis comes within the scope of talking heads. We are particularly interested in the prediction of labial and jaw coarticulation movements. After analyzing intra and inter speaker variability using two corpora, we defined a prediction algorithm for anticipatory coarticulation based on phonetic rules which takes into account interactions between articulators. We then proposed a solution to estimate labial and jaw movements using a one speaker corpus. It consists in concatenating elementary VC...CV sequences selected by our prediction algorithm and either extracted from the corpus or rebuilt by completion. We modeled articulatory movements using sigmoids which offer the advantage of considerably reducing the model size and which are adaptable to speaking rate or articulatory strategies. Additionally, sigmoids are able to keep distinctive contrasts between neighboring segments as well as intrinsic characteristics of the sounds. With the aim of estimating the quality of our synthesis process, we measured differences between real and predicted data for all the sentences of the corpus et we compared our solution with Cohen and Massaro 's algorithm. It turns out that our solution is better for specific VCCV sequences in which anticipation is more complex.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.