Diarisation multimodale : vers des modèles robustes et justes en contexte réel

Yannis Tevissen

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Yannis Tevissen
Direction :	Jérôme Boudy
Type :	Thèse de doctorat
Discipline(s) :	Informatique, données, IA
Date :	Soutenance le 04/12/2023
Etablissement(s) :	Institut polytechnique de Paris
Ecole(s) doctorale(s) :	École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche :	Laboratoire : SAMOVAR - Services répartis, Architectures, Modélisation, Validation, Administration des Réseaux - Institut Polytechnique de Paris / IP Paris
	Etablissement opérateur d'inscription : Télécom SudParis (France)
	Equipe de recherche : ARMEDIA / ARMEDIA-SAMOVAR
Jury :	Président / Présidente : Sylvain Meignier
	Examinateurs / Examinatrices : Björn Schuller, Dijana Petrovska-Delacrétaz, Gérard Chollet, Hervé Bredin
	Rapporteurs / Rapporteuses : Björn Schuller

Mots clés

FR |

EN

Mots clés contrôlés

Télédétection

Interaction humain-machine

Intelligence artificielle

Mots clés libres

Robustesse

Apprentissage profond

Résumé

FR |

EN

La diarisation du locuteur, c'est à dire la tache de déterminer automatiquement « qui parle, quand ? » dans un enregistrement audio ou vidéo, est un des piliers des systèmes modernes d'analyse des conversations. A la télévision, les contenus diffusés sont divers et couvrent à peu près tous les types de conversations, de la discussion calme entre deux personnes, aux débats passionnés, en passant par les interviews en terrain de guerre. L'analyse de ces contenus, réalisée par la société Newsbridge, requiert, en vue de leur archivage et de leur indexation, des méthodes de traitement robustes et justes. Dans ce travail, nous présentons deux nouvelles méthodes permettant d'améliorer la robustesse des systèmes via des approches de fusion. La première se concentre sur la détection d'activité vocale, prétraitement nécessaire à tout système de diarisation. La seconde est une approche multimodale qui tire notamment parti des dernières avancées en traitement du langage naturel. Nous voyons également que les récentes avancées des systèmes de diarisation rendent l'utilisation de la diarisation du locuteur réaliste y compris dans des secteurs critiques tels que l'analyse de larges archives audiovisuelles ou le maintien à domicile de personnes âgées. Enfin ce travail présente une nouvelle méthode d'évaluation de la justesse algorithmique de la diarisation du locuteur en vue de rendre son utilisation plus responsable.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Diarisation multimodale : vers des modèles robustes et justes en contexte réel

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Diarisation multimodale : vers des modèles robustes et justes en contexte réel

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses