Thèse soutenue

Contributions à l'entrainement du modèle neuronal de segmentation en locuteurs et son impact sur leur regroupement

FR  |  
EN
Auteur / Autrice : Alexis Plaquet
Direction : Jérome FarinasHervé Bredin
Type : Thèse de doctorat
Discipline(s) : Informatique et Télécommunications
Date : Soutenance le 04/12/2025
Etablissement(s) : Université de Toulouse (2023-....)
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche : Laboratoire : Institut de Recherche en Informatique de Toulouse (1995-....)
Etablissement de délivrance conjointe : Université de Toulouse (EPE ; 2025-....)
Jury : Président / Présidente : Thomas Hueber
Examinateurs / Examinatrices : Chloé Clavel
Rapporteurs / Rapporteuses : Marie Tahon, Romain Serizel

Résumé

FR  |  
EN

En informatique, la tâche de segmentation et le regroupement en locuteur (ou SD pour “Speaker Diarization” en anglais) consiste à traiter un enregistrement audio, et à déterminer ''qui parle quand”. Connaître cette information est utile pour de nombreuses applications comme l'alignement temporel de transcriptions automatiques, l'analyse de réunions, ou plus généralement l'extraction d'informations sur des locuteurs individuels. Dans ce manuscrit, nous nous concentrons sur l'amélioration de méthodes neuronales travaillant de bout-en-bout avec regroupement vectoriel (End-to-End Neural Diarization with Vector Clustering, ou EEND-VC) apparues en 2021.Cette thèse de doctorat présente dans une première partie un état de l'art afin de mieux comprendre dans quel contexte se positionnent les contributions proposées. Nous présentons d'abord en détail l'évolution des méthodes de diarization du locuteur jusqu'à l'approche EEND-VC, puis voyons différentes techniques et architectures pour l'apprentissage profond. Enfin, nous présentons les métriques d’évaluation de la performance des systèmes de SD, et les jeux de données communément utilisés pour évaluer la tâche.La seconde partie du manuscrit présente ensuite plusieurs contributions permettant d'améliorer la qualité du modèle de diarization de bout-en-bout. Nous proposons d'abord de changer la fonction de coût utilisée pour l'entraînement du modèle. Ce simple changement permet d'améliorer la détection de parole superposée, pour un coût en vitesse d’exécution négligeable. Nous explorons ensuite un large éventail de choix architecturaux pour ce modèle, et proposons une analyse détaillée des forces et des faiblesses de chacun. Le système auquel nous aboutissons atteint des résultats à l'état de l'art sur la majorité des jeux de données évalués.La troisième partie du manuscrit présente des contributions affectant le système EEND-VC entier, et non seulement le modèle de diarization local. Nous étudions d'abord la calibration des sorties du modèle local, c'est-à-dire vérifier si les probabilités de sortie du modèle reflètent la qualité de la prédiction. Nous analysons les usages classiques de l'information de calibration, et proposons une amélioration du système EEND-VC qui en tire parti. Ensuite, nous nous penchons sur l'hyper-paramètre de durée de la fenêtre glissante, inhérent au paradigme EEND-VC, et proposons une analyse détaillée de son impact selon l'architecture utilisée.Enfin, dans une quatrième et dernière partie, nous résumons les contributions qui résultent de cette thèse. Nous présentons les publications scientifiques réalisées, les systèmes proposés à des challenges, et les contributions à des projets open source. Les contributions présentées sont systématiquement testées sur un large éventail de jeux de données, et nous battons à plusieurs reprises l'état de l'art sur plusieurs d'entre eux.