La séparation de sources audiovisuelles

par David Sodoyer

Thèse de doctorat en Signal, image, parole, télécom

Sous la direction de Jean-Luc Schwartz, Christian Jutten et de Laurent Girin.

Soutenue en 2004

à Grenoble INPG , en partenariat avec Institut de la communication parlée (Grenoble1983-2007) (laboratoire) .

    mots clés mots clés


  • Résumé

    En cette époque où les technologies du multimédia envahissent notre quotidien de sons et d'images, cette thèse a pour objectif, dans le cadre du traitement de la parole, d'étendre et d'unir deux domaines de recherche : la séparation aveugle de sources et l'étude des interactions audio-visuelles dans la communication parlée. Partant du fait que la parole c'est du son mais aussi de l'image, nous proposons de mettre en œuvre un système de séparation de signaux de parole, en exploitant l'information visuelle fournie par les lèvres d'un locuteur. Après une brève revue des concepts de la séparation aveugle de sources développés tout au long de ces 20 dernières années, nous rappelons divers travaux montrant le gain qu'apporte la parole audio-visuelle dans des milieux bruités, et certaines de ses potentialités dans des systèmes de traitement de la parole. Une première phase théorique traite d'un principe de séparation de sources basé sur l'utilisation d'une information spectrale, nous permettant de mettre en place les fondations de notre étude. Puis, grâce aux propriétés de la parole audio-visuelle (cohérence et complémentarité), cette information spectrale est remplacée par l'information audio visuelle modélisée par une probabilité conjointe entre un spectre audio et une forme de lèvres. Une étude sur les principales caractéristiques de ce modèle audio-visuel permet de passer à l'implémentation et à l'évaluation de ce système de séparation de source audio-visuelles. Les résultats montrent la faisabilité d'un tel système, le gain apporté par l'information visuelle vis-à-vis d'algorithmes de séparation aveugle de sources, et les perspectives dans des situations plus complexes.

  • Titre traduit

    Audio-visual sources séparation


  • Pas de résumé disponible.


  • Résumé

    Ln the present time where multimedia technologies invade our day-to-day existence, this speech processing work is focussed on the association of two research areas : blind source separation and audio-visual interactions in speech communication. We present and develop a speech separation system, exploiting visual information provided by the speaker's lips. After a short review of blind source separation techniques presented in the last twenty years, we recall some of the literature about audio-visual speech, its perception and it processing. A first theoretical step consists in studying a source separation algorithm using spectral information, which allows to set foundations for our work. Next, thanks to audiovisual properties (coherence and complementary), we replace spectral information by audio-visual information described by a joint probability between an audio spectrum and lips shape. A study on this audio-visual model allows to implement and to assess this audio-visual speech source separation system. The results show the interest of the system, displa and discuss the gains provided by visual information in comparison with classical blind source separation algorithms, and present the perspectives in more complex situations.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (xxi-152 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 135-145

Où se trouve cette thèse\u00a0?

  • Bibliothèque : GIPSA-lab. Bibliothèque.
  • Disponible pour le PEB
  • Cote : 2004 SOD
  • Bibliothèque : Université Grenoble Alpes (Saint-Martin d'Hères, Isère). Bibliothèque et Appui à la Science Ouverte. Bibliothèque universitaire Joseph-Fourier.
  • Non disponible pour le PEB
  • Cote : TS04/INPG/0156
  • Bibliothèque : Université Grenoble Alpes (Saint-Martin d'Hères, Isère). Bibliothèque et Appui à la Science Ouverte. Bibliothèque universitaire Joseph-Fourier.
  • Disponible pour le PEB
  • Cote : TS04/INPG/0156/D

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Non disponible pour le PEB
  • Cote : 2004INPG0156
  • Bibliothèque : Université Paris-Est Créteil Val de Marne. Service commun de la documentation. Section multidisciplinaire.
  • PEB soumis à condition
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.