Estimation robuste et apprentissage aveugle de modèles pour la séparation de sources sonores

par Simon Arberet

Thèse de doctorat en Traitement du signal et télécommunications

Sous la direction de Rémi Gribonval et de Frédéric Bimbot.

Soutenue en 2008

à Rennes 1 .


  • Résumé

    La séparation de sources aveugle dans le cas sous-déterminé est un problème mal posé pour lequel on suppose que les sources sont indépendantes et parcimonieuses dans le domaine temps-fréquence. La séparation se fait alors en deux étapes : une étape d'estimation des paramètres du mélange, suivi d'une étape d'estimation des sources. Les hypothèses faites sur les sources ne sont cependant pas valides sur l'ensemble des points temps-fréquence, si bien que les approches qui traitent naïvement de l'ensemble des points de manière identiques et indépendantes, sont peu robustes pour estimer les paramètres du mélange et les sources. L'objet de cette thèse est d'exploiter la distribution locale du mélange dans les voisinages de chaque point temps-fréquence, afin de : - Détecter les régions temps-fréquence où une seule source est active et d'estimer la direction de la source dominante dans ces régions ; - Estimer la distribution des sources en chaque point temps-fréquence à l'aide de la connaissance sur les paramètres du mélange. L'approche locale que nous proposons est étayée par un algorithme de clustering appelé DEMIX, qui estime de façon robuste les paramètres du mélange dans les cas instantanés et anéchoïques. D'autre part, l'estimation locale de la distribution des sources peut être utilisée pour apprendre des MMG spectraux qui jusqu'à présent nécessitaient une étape d'apprentissage à partir d'exemples. Nous montrons que cette approche améliore l'estimation des sources de plusieurs dB en SDR.

  • Titre traduit

    Robust estimation and blind model learning for sound source separation


  • Résumé

    Blind source separation in the underdetermined case is an ill-posed problem where it is usually assumed that sources are independent and sparse in the time-frequency domain. Separation is then done in two steps : the estimation of the mixture parameters, followed by the estimation of the sources. The assumptions made about the sources are not valid for all the time-frequency points, so that the approaches which naively address all the points identically and independently, are little robust in estimating the mixture parameters and the sources. In this thesis we exploit the local distribution of the mixture in the neighborhood of each time-frequency point, to : - Detect the time-frequency regions where only one source is active and to estimate the direction of the dominant source in these regions; - Estimate the distribution of the sources in each time-frequency point using the knowledge on the mixture parameters. The proposed local approach is supported by a clustering algorithm called DEMIX, which robustly estimates the mixture parameters in the instantaneous and anechoic cases. On the other hand, the local spatial distribution of the sources can be used to learn Spectral-GMM which until now required a learning step with source examples. We show that this approach improve the source estimation performance of some dB in SDR.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (197 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 182-192

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rennes I. Service commun de la documentation. Section sciences et philosophie.
  • Disponible pour le PEB
  • Cote : TA RENNES 2008/177
  • Bibliothèque : Centre de recherche INRIA Rennes - Bretagne Atlantique. Service IST.
  • PEB soumis à condition
  • Cote : I.8 - ARB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.