Reconnaissance de la Langue Française Parlée Complété (LPC) : décodage phonétique des gestes main-lèvres

par Noureddine Aboutabit

Thèse de doctorat en Signal, image, parole, télecommunications

Sous la direction de Denis Beautemps.

Soutenue en 2007

à Grenoble INPG , en partenariat avec Grenoble Images Parole Signal Automatique (laboratoire) .


  • Résumé

    La Langue Française Parlée Complétée (LPC) héritée du Cued Speech (CS) a été conçue pour compléter la lecture labiale par nature ambigüe et ainsi améliorer la perception de la parole par les sourds profonds. Dans ce système, le locuteur pointe des positions précises sur le côté de son visage ou à la base du cou en présentant de dos des formes de main bien définies. La main et les lèvres portent chacune une partie complémentaire de l’information phonétique. Cette thèse présente tout d’abord une modélisation du flux manuel pour le codage automatique des positions de la main et de la configuration. Puis les travaux sont centrés sur le flux labial en discutant la classification des voyelles et des consonnes du Français. Le flux labial est composé des variations temporelles de paramètres caractéristiques issus du contour interne et externe des lèvres. Dans le cas des voyelles la méthode de classification utilise la modélisation gaussienne et les résultats montrent une performance moyenne de 89 % en fonction de la position de la main LPC. Le contexte vocalique est pris en compte dans le cas des consonnes par une modélisation HMM de la transition labiale de la consonne vers la voyelle avec un taux d’identification de 80 % en termes de visèmes CV. Un modèle de fusion « Maître-Esclave » piloté par le flux manuel est présenté et discuté dans le cadre de la reconnaissance des voyelles et des consonnes produites en contexte LPC. Le modèle de fusion prend en compte les contraintes temporelles de la production et la perception du LPC, ce qui constitue aussi une première contribution à la modélisation du système LPC du point de vue perceptif.

  • Titre traduit

    French Cued Speech recognition : phonetic translation of hand-lips gestures.


  • Résumé

    Cued Speech (CS) is a visual communication system that uses handshapes placed in different positions near the face, in combination with the natural speech lip-reading, to enhance speech perception from visual input for deaf people. In this system, the speaker moves his hand in close relation with speech. Handshapes are designed to distinguish among consonants whereas hand positions are used to distinguish among vowels. Due to the CS system, both manual and lip flows produced by the CS speaker carry a part of the phonetic information. This work presents at first a method for the automatic coding of the manual flow in term of CS hand positions and CS handshapes. Then the lip-shape classification of the vowels and the consonants is discussed. The labial flow is composed of the temporal variations of lip parameters extracted from the inner and the outer contours of the lips. This work will show how the distribution of lip parameters inside each group of CS hand positions allows vowel discrimination. A classification method based on Gaussian modeling is presented and results demonstrate a good performance of this classification (89% as test score). The vocalic context is taken into account in the case of the consonants, with the use of HMM for the modeling of the lip transition from the consonant towards the vowel (80 % as test scores in term of CV visemes). Finally, the modeling of the lip information and the coding of the manual flow are included in a “Master-Slave” fusion model for recognition of the vowels and the consonants in the CS context. The fusion model integrates the temporal constraints of the CS production and perception. This work is thus also a first contribution to the modeling of the CS system from the perceptive point of view.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (252 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 219 à 233. Publications de l'auteur

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Cote : TS07/INPG/0153/D
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible sous forme de reproduction pour le PEB
  • Cote : TS07/GRE1/0153
  • Bibliothèque : GIPSA-lab. Bibliothèque.
  • Disponible pour le PEB
  • Cote : 2007 ABO
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.