La bimodalité de la parole au secours de la séparation de sources

par Bertrand Rivet

Thèse de doctorat en Signal, image, parole, télécoms

Sous la direction de Christian Jutten et de Laurent Girin.

Soutenue en 2006

à Grenoble, INPG .


  • Résumé

    Cette thèse est dédiée à la modélisation conjointe des modalités audio et vidéo de la parole et à son exploitation pour la séparation de sources. Tout d'abord, une modélisation probabiliste bimodale de la parole audiovisuelle à base de mélange de noyaux est proposée. Cette modélisation est ensuite exploitée pour la détection des silences. De plus, nous proposons une détection purement visuelle des silences en s'appuyant sur l'observation des lèvres du locuteur. Ce dernier procédé présente l'avantage d'être indépendant d'un bruit acoustique. Ces deux modélisations sont ensuite exploitées pour la séparation de mélanges convolutifs de sources audiovisuelles. Nous résolvons ainsi le problème classique des indéterminations des méthodes de séparation dans le domaine fréquentiel avant de proposer une méthode géométrique qui utilise les périodes de silence de la source d'intérêt. Les algorithmes proposés sont validés par des expériences sur des corpus multi-Iocuteurs et multi-Iangues.


  • Pas de résumé disponible.

  • Titre traduit

    ˜The œbimodality of speech as a help to source separation


  • Résumé

    This thesis is dedicated to both the joint modeling of the audio and visu al modalities of speech and its use in source separation. A mixture of kernels is first proposed to model the bi-modality of audiovisual speech. This modeling is then exploited to detect the silence phases of speech. Moreover, we propose a purely visual detection of silence based on the lip movements of the speaker. The later detection is robust to any acoustic environ ment. These two modelings are then exploited in source separation of convolutive mixtures. We first solve the classical indeterminacies encountered by frequency domain separation algorithms. We then propose a geometric separation which exploits the silence of the source of interest. The proposed algorithms are validated by experiments on multi-speakers and multi-Ianguages data bases.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (193 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 183-193

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Non disponible pour le PEB
  • Cote : TS06/INPG/0097
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Cote : TS06/INPG/0097/D
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.