Steps towards end-to-end neural speaker diarization

Ruiqing Yin

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Étapes vers un système neuronal de bout en bout pour la tâche de segmentation et de regroupement en locuteurs

FR |

EN

Auteur / Autrice :	Ruiqing Yin
Direction :	Claude Barras
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 26/09/2019
Etablissement(s) :	Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) :	École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur (Orsay, Essonne ; 1972-2020)
	établissement opérateur d'inscription : Université Paris-Sud (1970-2019)
Jury :	Président / Présidente : Anne Vilnat
	Examinateurs / Examinatrices : Claude Barras, Anne Vilnat, Sylvain Meignier, Najim Dehak, Jean-François Bonastre, Ricard Marxer
	Rapporteurs / Rapporteuses : Sylvain Meignier, Najim Dehak

Mots clés

FR |

EN

Mots clés contrôlés

Réseaux neuronaux (informatique)

Segmentation (linguistique)

Traitement automatique de la parole

Mots clés libres

Segmentation et regroupement en locuteurs

Détection des changements de locuteurs

Segmentation

LSTM

Propagation d'affinité

Partitionnement spectral

Résumé

FR |

EN

La tâche de segmentation et de regroupement en locuteurs (speaker diarization) consiste à identifier ''qui parle quand'' dans un flux audio sans connaissance a priori du nombre de locuteurs ou de leur temps de parole respectifs. Les systèmes de segmentation et de regroupement en locuteurs sont généralement construits en combinant quatre étapes principales. Premièrement, les régions ne contenant pas de parole telles que les silences, la musique et le bruit sont supprimées par la détection d'activité vocale (VAD). Ensuite, les régions de parole sont divisées en segments homogènes en locuteur par détection des changements de locuteurs, puis regroupées en fonction de l'identité du locuteur. Enfin, les frontières des tours de parole et leurs étiquettes sont affinées avec une étape de re-segmentation. Dans cette thèse, nous proposons d'aborder ces quatre étapes avec des approches fondées sur les réseaux de neurones. Nous formulons d’abord le problème de la segmentation initiale (détection de l’activité vocale et des changements entre locuteurs) et de la re-segmentation finale sous la forme d’un ensemble de problèmes d’étiquetage de séquence, puis nous les résolvons avec des réseaux neuronaux récurrents de type Bi-LSTM (Bidirectional Long Short-Term Memory). Au stade du regroupement des régions de parole, nous proposons d’utiliser l'algorithme de propagation d'affinité à partir de plongements neuronaux de ces tours de parole dans l'espace vectoriel des locuteurs. Des expériences sur un jeu de données télévisées montrent que le regroupement par propagation d'affinité est plus approprié que le regroupement hiérarchique agglomératif lorsqu'il est appliqué à des plongements neuronaux de locuteurs. La segmentation basée sur les réseaux récurrents et la propagation d'affinité sont également combinées et optimisées conjointement pour former une chaîne de regroupement en locuteurs. Comparé à un système dont les modules sont optimisés indépendamment, la nouvelle chaîne de traitements apporte une amélioration significative. De plus, nous proposons d’améliorer l'estimation de la matrice de similarité par des réseaux neuronaux récurrents, puis d’appliquer un partitionnement spectral à partir de cette matrice de similarité améliorée. Le système proposé atteint des performances à l'état de l'art sur la base de données de conversation téléphonique CALLHOME. Enfin, nous formulons le regroupement des tours de parole en mode séquentiel sous la forme d'une tâche supervisée d’étiquetage de séquence et abordons ce problème avec des réseaux récurrents empilés. Pour mieux comprendre le comportement du système, une analyse basée sur une architecture de codeur-décodeur est proposée. Sur des exemples synthétiques, nos systèmes apportent une amélioration significative par rapport aux méthodes de regroupement traditionnelles.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Étapes vers un système neuronal de bout en bout pour la tâche de segmentation et de regroupement en locuteurs

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Étapes vers un système neuronal de bout en bout pour la tâche de segmentation et de regroupement en locuteurs

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses