Thèse soutenue

Diarisation multimodale : vers des modèles robustes et justes en contexte réel

FR  |  
EN
Auteur / Autrice : Yannis Tevissen
Direction : Jérôme Boudy
Type : Thèse de doctorat
Discipline(s) : Informatique, données, IA
Date : Soutenance le 04/12/2023
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : SAMOVAR - Services répartis, Architectures, Modélisation, Validation, Administration des Réseaux - Institut Polytechnique de Paris / IP Paris
Etablissement opérateur d'inscription : Télécom SudParis (France)
Equipe de recherche : ARMEDIA / ARMEDIA-SAMOVAR
Jury : Président / Présidente : Sylvain Meignier
Examinateurs / Examinatrices : Björn Schuller, Dijana Petrovska-Delacrétaz, Gérard Chollet, Hervé Bredin
Rapporteurs / Rapporteuses : Björn Schuller

Résumé

FR  |  
EN

La diarisation du locuteur, c'est à dire la tache de déterminer automatiquement « qui parle, quand ? » dans un enregistrement audio ou vidéo, est un des piliers des systèmes modernes d'analyse des conversations. A la télévision, les contenus diffusés sont divers et couvrent à peu près tous les types de conversations, de la discussion calme entre deux personnes, aux débats passionnés, en passant par les interviews en terrain de guerre. L'analyse de ces contenus, réalisée par la société Newsbridge, requiert, en vue de leur archivage et de leur indexation, des méthodes de traitement robustes et justes. Dans ce travail, nous présentons deux nouvelles méthodes permettant d'améliorer la robustesse des systèmes via des approches de fusion. La première se concentre sur la détection d'activité vocale, prétraitement nécessaire à tout système de diarisation. La seconde est une approche multimodale qui tire notamment parti des dernières avancées en traitement du langage naturel. Nous voyons également que les récentes avancées des systèmes de diarisation rendent l'utilisation de la diarisation du locuteur réaliste y compris dans des secteurs critiques tels que l'analyse de larges archives audiovisuelles ou le maintien à domicile de personnes âgées. Enfin ce travail présente une nouvelle méthode d'évaluation de la justesse algorithmique de la diarisation du locuteur en vue de rendre son utilisation plus responsable.