Thèse soutenue

Modèles génératifs pour la classification et la séparation de sources sonores en temps-réel

FR  |  
EN
Auteur / Autrice : Maxime Baelde
Direction : Christophe BiernackiRaphaël Greff
Type : Thèse de doctorat
Discipline(s) : Mathématiques et leurs interactions
Date : Soutenance le 20/09/2019
Etablissement(s) : Université de Lille (2018-2021)
Ecole(s) doctorale(s) : École doctorale Sciences pour l'ingénieur (Lille ; 1992-2021)
Partenaire(s) de recherche : Laboratoire : Laboratoire Paul Painlevé

Résumé

FR  |  
EN

Cette thèse s'inscrit dans le cadre de l'entreprise A-Volute, éditrice de logiciels d'amélioration d'expérience audio. Elle propose un radar qui transpose l'information sonore multi-canale en information visuelle en temps-réel. Ce radar, bien que pertinent, manque d'intelligence car il analyse uniquement le flux audio en terme d'énergie et non en termes de sources sonores distinctes. Le but de cette thèse est de développer des algorithmes de classification et de séparation de sources sonores en temps-réel. D'une part, la classification de sources sonores a pour but d'attribuer un label (par exemple voix) à un son monophonique (un label) ou polyphonique (plusieurs labels). La méthode développée utilise un attribut spécifique, le spectre de puissance normalisé, utile à la fois dans le cas monophonique et polyphonique de part sa propriété d'additivité des sources sonores. Cette méthode utilise un modèle génératif qui permet de dériver une règle de décision basée sur une estimation non paramétrique. Le passage en temps-réel est réalisé grâce à un pré-traitement des prototypes avec une classification hiérarchique ascendante. Les résultats sont encourageants sur différentes bases de données (propriétaire et de comparaison), que ce soit en terme de précision ou de temps de calcul, notamment dans le cas polyphonique. D'autre part, la séparation de sources consiste à estimer les sources en terme de signal dans un mélange. Deux approches de séparation ont été considérées dans la thèse. La première considère les signaux à retrouver comme des données manquantes et à les estimer via un schéma génératif et une modélisation probabiliste. L'autre approche consiste, à partir d'exemples sonores présent dans une base de données, à calculer des transformations optimales de plusieurs exemples dont la combinaison tends vers le mélange observé. Les deux propositions sont complémentaires, avec chacune des avantages et inconvénients (rapidité de calcul pour la première, interprétabilité du résultat pour la deuxième). Les résultats expérimentaux semblent prometteurs et nous permettent d'envisager des perspectives de recherches intéressantes pour chacune des propositions.