Reconstruction de phase par modèles de signaux : application à la séparation de sources audio

par Paul Magron

Thèse de doctorat en Signal et images

Sous la direction de Roland Badeau et de Bertrand David.

Le président du jury était Yannis Stylianou.

Le jury était composé de Laurent Girin, Jonathan Le Roux.

Les rapporteurs étaient Philippe Depalle, Laurent Girin.


  • Résumé

    De nombreux traitements appliqués aux signaux audio travaillent sur une représentation Temps-Fréquence (TF) des données. Lorsque le résultat de ces algorithmes est un champ spectral d’amplitude, la question se pose, pour reconstituer un signal temporel, d’estimer le champ de phase correspondant. C’est par exemple le cas dans les applications de séparation de sources, qui estiment les spectrogrammes des sources individuelles à partir du mélange ; la méthode dite de filtrage de Wiener, largement utilisée en pratique, fournit des résultats satisfaisants mais est mise en défaut lorsque les sources se recouvrent dans le plan TF. Cette thèse aborde le problème de la reconstruction de phase de signaux dans le domaine TF appliquée à la séparation de sources audio. Une étude préliminaire révèle la nécessité de mettre au point de nouvelles techniques de reconstruction de phase pour améliorer la qualité de la séparation de sources. Nous proposons de baser celles-ci sur des modèles de signaux. Notre approche consiste à exploiter des informations issues de modèles sous-jacents aux données comme les mélanges de sinusoïdes. La prise en compte de ces informations permet de préserver certaines propriétés intéressantes, comme la continuité temporelle ou la précision des attaques. Nous intégrons ces contraintes dans des modèles de mélanges pour la séparation de sources, où la phase du mélange est exploitée. Les amplitudes des sources pourront être supposées connues, ou bien estimées conjointement dans un modèle inspiré de la factorisation en matrices non-négatives complexe. Enfin, un modèle probabiliste de sources à phase non-uniforme est mis au point. Il permet d’exploiter les à priori provenant de la modélisation de signaux et de tenir compte d’une incertitude sur ceux-ci. Ces méthodes sont testées sur de nombreuses bases de données de signaux de musique réalistes. Leurs performances, en termes de qualité des signaux estimés et de temps de calcul, sont supérieures à celles des méthodes traditionnelles. En particulier, nous observons une diminution des interférences entre sources estimées, et une réduction des artéfacts dans les basses fréquences, ce qui confirme l’intérêt des modèles de signaux pour la reconstruction de phase.

  • Titre traduit

    Phase recovery based on signal modeling : application to audio source separation


  • Résumé

    A variety of audio signal processing techniques act on a Time-Frequency (TF) representation of the data. When the result of those algorithms is a magnitude spectrum, it is necessary to reconstruct the corresponding phase field in order to resynthesize time-domain signals. For instance, in the source separation framework the spectrograms of the individual sources are estimated from the mixture ; the widely used Wiener filtering technique then provides satisfactory results, but its performance decreases when the sources overlap in the TF domain. This thesis addresses the problem of phase reconstruction in the TF domain for audio source separation. From a preliminary study we highlight the need for novel phase recovery methods. We therefore introduce new phase reconstruction techniques that are based on music signal modeling : our approach consists inexploiting phase information that originates from signal models such as mixtures of sinusoids. Taking those constraints into account enables us to preserve desirable properties such as temporal continuity or transient precision. We integrate these into several mixture models where the mixture phase is exploited ; the magnitudes of the sources are either assumed to be known, or jointly estimated in a complex nonnegative matrix factorization framework. Finally we design a phase-dependent probabilistic mixture model that accounts for model-based phase priors. Those methods are tested on a variety of realistic music signals. They compare favorably or outperform traditional source separation techniques in terms of signal reconstruction quality and computational cost. In particular, we observe a decrease in interferences between the estimated sources and a reduction of artifacts in the low-frequency components, which confirms the benefit of signal model-based phase reconstruction methods.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.