Reconstitution de la parole par imagerie ultrasonore et vidéo de l'appareil vocal : vers une communication parlée silencieuse

par Thomas Hueber

Thèse de doctorat en Électronique

Sous la direction de Bruce Denby et de Gérard Chollet.

Soutenue en 2009

à Paris 6 en cotutelle avec l'Etablissement ParisTech .


  • Résumé

    L’objectif poursuivi dans cette thèse est la réalisation d’une « interface de communication en parole silencieuse » : un système capable d’interpréter une parole normalement articulée mais non vocalisée. Un tel dispositif pourrait être utilisé par une personne laryngectomisée, pour communiquer dans un milieu où le silence est requis (transports en commun, opération militaire), ou dans un environnement très bruité. Le dispositif propose�� est basé sur la saisie de l’activité articulatoire par imagerie ultrasonore et vidéo. Le problème traité est celui de la synthèse d’un signal acoustique, uniquement à partir de données visuelles. Cette « conversion visuo-acoustique » s’effectue par apprentissage artificiel. Un système de synchronisation des flux ultrasonore, vidéo et audio a été développé. Deux bases de données contenant une heure de « parole continue » en langue anglaise ont été construites. Deux techniques ont été mises en œuvre pour la caractérisation des images, l’une basée sur la transformée en cosinus discrète, l’autre sur l’analyse en composantes principales. Dans une première approche, la fonction de conversion visuo-acoustique est modélisée par un réseau de neurones et par des mélanges de gaussiennes. La seconde approche proposée s’appuie sur une modélisation par « modèles de Markov cachés » (MMC), et met en œuvre une étape intermédiaire de décodage phonétique afin d’introduire dans la conversion des connaissances linguistiques a priori. Enfin, deux méthodes basées respectivement sur une approche par sélection d’unités et sur la « synthèse par MMC » (HTS), s’appuyant sur une modélisation du type « Harmonique plus Bruit », sont proposées pour la synthèse du signal

  • Titre traduit

    Sppech synthesis from ultrasound and video images of the vocal tract : toward a silent speech interface


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. ([198] p.)
  • Annexes : Bibliogr. p. 159-167. 115 réf. bibliogr.

Où se trouve cette thèse ?

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie. Section Biologie-Chimie-Physique Recherche.
  • Consultable sur place dans l'établissement demandeur
  • Cote : T Paris 6 2009 456
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.