Thèse soutenue

Réalisme dans l’apprentissage virtuellement supervisé pour la caractérisation acoustique des salles et la localisation de sources

FR  |  
EN
Auteur / Autrice : Prerak Srivastava
Direction : Emmanuel VincentAntoine Deleforge
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 13/11/2023
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine
Partenaire(s) de recherche : Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury : Président / Présidente : Marie-Odile Berger
Examinateurs / Examinatrices : Emmanuel Vincent, Antoine Deleforge, Rainer Martin, Eric Bavu, Simon Leglaive
Rapporteurs / Rapporteuses : Rainer Martin, Eric Bavu

Résumé

FR  |  
EN

La Réalité Augmentée Audio vise à intégrer un contenu audio virtuel dans l'environnement acoustique de l'utilisateur, créant ainsi une expérience audio immersive. La disponibilité commerciale de casques de réalité augmentée tels que l'Apple Vision Pro a encore renforcé l'intérêt pour ce domaine de recherche. Pour synthétiser un son spatial binaural capable de recréer la perception de la distance, de la direction et des indices acoustiques, la connaissance des paramètres acoustiques spécifiques de l'environnement de l'utilisateur est un prérequis. Les paramètres acoustiques se divisent en deux catégories : des paramètres globaux associés à la géométrie de la pièce, au temps de réverbération et aux matériaux des parois, et des paramètres locaux concernent la localisation de chaque source sonore. À l'aide de simulateurs acoustiques, ces paramètres sont utilisés pour simuler des réponses impulsionnelles des salles. Ces réponses impulsionnelles peuvent ensuite être convoluées avec des signaux audio bruts pour synthétiser un son spatial binaural avec une perception de réalisme. Cependant, l'estimation des paramètres acoustiques est un défi. Des recherches antérieures ont tenté de résoudre ce problème grâce à des mesures in-situ laborieuses et chronophages, souvent peu pratiques. Dans cette thèse, nous relevons ce défi en utilisant des techniques d'apprentissage automatique supervisées utilisant des enregistrements de parole en entrée. Notre principal domaine d'application concerne les pièces cuboïdes avec des scénarios acoustiques statiques. Dans la première partie de notre travail, nous développons un réseau de neurones multi-tâches pour l'estimation des paramètres de la salle. Nous évaluons ensuite sa robustesse en utilisant des données réelles. Dans la deuxième partie, nous déplaçons notre attention vers l'apprentissage virtuellement supervisé. Cette approche consiste à entraîner des modèles d'apprentissage automatique exclusivement sur des données simulées. La justification de cette stratégie repose sur la disponibilité limitée de jeux de données réels spécifiques à la tâche dans ce domaine. Pour assurer la généralisation des modèles ainsi appris, l'ensemble d'apprentissage doit ressembler de près aux scénarios rencontrés dans les ensembles de test. Afin de combler cette lacune, nous améliorons le réalisme du simulateur acoustique open-source Pyroomacoustics en y intégrant une extension de la méthode de source image. Nous utilisons, ce simulateur acoustique amélioré pour entraîner des réseaux neuronaux aux tâches d'estimation des paramètres de la salle et de localisation des sources sonores. Nous utilisons plusieurs ensembles de test réels pour évaluer l'impact positif de l'apprentissage à l'aide du simulateur amélioré. Nos expériences montrent que la généralisation est améliorée pour les deux tâches par rapport aux modèles appris pour la même tâche avec des données d'apprentissage moins réalistes. À notre connaissance, il s'agit de l'une des premières études à explorer l'apprentissage virtuellement supervisé pour l'estimation des paramètres acoustiques de salle à la fois globaux et locaux.