Spatial separation of sound sources

par Bin Dong

Thèse de doctorat en Acoustique

Sous la direction de Jérôme Antoni.

Soutenue le 14-04-2014

à Lyon, INSA , dans le cadre de Ecole Doctorale Mecanique, Energetique, Genie Civil, Acoustique (Villeurbanne) , en partenariat avec LVA - Laboratoire Vibrations Acoustique (laboratoire) et de Laboratoire Vibrations Acoustique / LVA (laboratoire) .

Le président du jury était Charles Pézerat.

Le jury était composé de Jérôme Antoni, Charles Pézerat, Mohamed El Badaoui, Jean-Hugh Thomas, Quentin Leclère.

Les rapporteurs étaient Mohamed El Badaoui, Jean-Hugh Thomas.

  • Titre traduit

    Séparation spatiale des sources sonores


  • Résumé

    La séparation aveugle de sources est une technique prometteuse pour l'identification, la localisation, et la classification des sources sonores. L'objectif de cette thèse est de proposer des méthodes pour séparer des sources sonores incohérentes qui peuvent se chevaucher à la fois dans les domaines spatial et fréquentiel par l'exploitation de l'information spatiale. De telles méthodes sont d'intérêt dans les applications acoustiques nécessitant l'identification et la classification des sources sonores ayant des origines physiques différentes. Le principe fondamental de toutes les méthodes proposées se décrit en deux étapes, la première étant relative à la reconstruction du champ source (comme par exemple à l'aide de l'holographie acoustique de champ proche) et la seconde à la séparation aveugle de sources. Spécifiquement, l'ensemble complexe des sources est d'abord décomposé en une combinaison linéaire de fonctions de base spatiales dont les coefficients sont définis en rétropropageant les pressions mesurées par un réseau de microphones sur le domaine source. Cela conduit à une formulation similaire, mais pas identique, à la séparation aveugle de sources. Dans la seconde étape, ces coefficients sont séparés en variables latentes décorrélées, affectées à des “sources virtuelles” incohérentes. Il est montré que ces dernières sont définies par une rotation arbitraire. Un ensemble unique de sources sonores est finalement résolu par la recherche de la rotation (par gradient conjugué dans la variété Stiefel des matrices unitaires) qui minimise certains critères spatiaux, tels que la variance spatiale, l'entropie spatiale, ou l'orthogonalité spatiale. Il en résulte la proposition de trois critères de séparation à savoir la “moindre variance spatiale”, la “moindre entropie spatiale”, et la “décorrélation spatiale”, respectivement. De plus, la condition sous laquelle la décorrélation classique (analyse en composantes principales) peut résoudre le problème est établit de une manière rigoureuse. Le même concept d'entropie spatiale, qui est au cœur de cette thèse, est également exploité dans la définition d'un nouveau critère, la courbe en L entropique, qui permet de déterminer le nombre de sources sonores actives sur le domaine source d'intérêt. L'idée consiste à considérer le nombre de sources qui réalise le meilleur compromis entre une faible entropie spatiale (comme prévu à partir de sources compactes) et une faible entropie statistique (comme prévu à partir d'une faible erreur résiduelle).


  • Résumé

    Blind source separation is a promising technique for the identification, localization, and ranking of sound sources. The aim of this dissertation is to offer methods for separating incoherent sound sources which may overlap in both the space and frequency domains by exploiting spatial information. This is found of interest in acoustical applications involving the identification and ranking of sound sources stemming from different physical origins. The fundamental principle of all proposed methods proceeds in two steps, the first one being reminiscent to source reconstruction (e.g. as in near-field acoustical holography) and the second one to blind source separation. Specifically, the source mixture is first expanded into a linear combination of spatial basis functions whose coefficients are set by backpropagating the pressures measured by an array of microphones to the source domain. This leads to a formulation similar, but no identical, to blind source separation. In the second step, these coefficients are blindly separated into uncorrelated latent variables, assigned to incoherent “virtual sources”. These are shown to be defined up to an arbitrary rotation. A unique set of sound sources is finally recovered by searching for that rotation (conjugate gradient descent in the Stiefel manifold of unitary matrices) which minimizes some spatial criteria, such as spatial variance, spatial entropy, or spatial orthogonality. This results in the proposal of three separation criteria coined “least spatial variance”, “least spatial entropy”, and “spatial decorrelation”, respectively. Meanwhile, the condition under which classical decorrelation (principal component analysis) can solve the problem is deduced in a rigorous way. The same concept of spatial entropy, which is central to the dissertation, is also exploited in defining a new criterion, the entropic L-curve, dedicated to determining the number of active sound sources on the source domain of interest. The idea consists in considering the number of sources that achieves the best compromise between a low spatial entropy (as expected from compact sources) and a low statistical entropy (as expected from a low residual error).


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Institut national des sciences appliquées (Villeurbanne, Rhône). Service Commun de la Documentation Doc’INSA. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.