Séparation de sources pour l’audition des robots

par Mounira Maazaoui

Thèse de doctorat en Signal et Images

Sous la direction de Yves Grenier et de Karim Abed Meraim.

Le président du jury était Yannick Deville.

Le jury était composé de Olivier Warusfel.

Les rapporteurs étaient Rémi Gribonval, Christian Jutten.


  • Résumé

    Cette thèse propose des algorithmes de séparation aveugle de sources audio en utilisant un réseau de capteurs. L'application finale de ces algorithmes est l'audition des robots dans le cadre du projet ROMEO. Dans cette thèse, nous avons développé des algorithmes de séparation aveugle de sources audio basés sur des critères de parcimonie. Nous montrons que la minimisation de la norme l1 avec une technique d'optimisation du gradient naturel permet d’élaborer un algorithme se situant au niveau de l’état de l’art. Nous montrons qu’un critère basé sur la paramétrisation de la pseudo-norme lp, avec 0<p<1 en améliore les performances. Ceci revient à rendre la contrainte de parcimonie plus dure au fur et à mesure que l'algorithme avance dans ses itérations. Pour exploiter l'aspect multicapteurs de notre application (16 capteurs sont fixés autour de la tête de l'humanoïde), nous avons proposé des algorithmes de séparation avec une étape de prétraitement de formation de voies fixe. Dans le cas de l'audition des robots, les capteurs sont souvent placés sur la tête de l'humanoïde. Afin de tenir compte de l'influence de la tête sur le champ sonore proche, nous avons construit les filtres de formation en utilisant les fonctions de transfert de tête (HRTF) du robot. L'étape de formation de voies améliore les résultats de séparation par rapport à l'utilisation d'un algorithme de séparation seule de minimum 10dB. Cette thèse propose aussi les versions adaptatives de ces algorithmes. Dans le scénario réel où le nombre de sources présentes dans l'environnement du robot est inconnu et change au cours du temps, nous montrons comment détecter et suivre le nombre de sources.

  • Titre traduit

    Source separation for robot audition


  • Résumé

    This thesis proposes blind audio source separation algorithms using a microphone array. The final application of these algorithms is robot audition through the ROMEO project. In this thesis, we developed blind source separation algorithms based on a sparcity criterion. We show that l1 minimization using the natural gradient optimization technique has the same performance that the state of the art. We show that a criterion based on the parametrization of the quazi-norm lp, with 0<p<1, improves the previous results: the sparsity criterion gets harder through the iterations of the algorithm. Then, we exploited the multisensor aspect of our application (16 sensors are fixed in the head of the humanoid) and we proposed a separation algorithms with a fixed beamforming preprocessing step. In the robot audition case, the sensors are often placed on the head of the humanoid. To take into account the influence of the head in the near sound manifold, we built the beamforming filters using the head related transfer functions (HRTF) of the robot. The beamforming step improves the separation results compared to the use of a blind source separation only. This thesis also proposes the adaptive versions of those algorithms. In the real scenario where the number of sources is unknown and changes, we show how to detect and follow the number of sources.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.