Structuration automatique en locuteurs par approche acoustique

par Xuan Zhu

Thèse de doctorat en Informatique

Sous la direction de Jean-Luc Gauvain.


  • Résumé

    Cette thèse porte sur la structuration en locuteurs de différents types d'enregistrements audio, en particulier des journaux télévisés ou radiophoniques et des réunions. La structuration en locuteurs a pour objectif de répondre à la question ``qui a parlé quand'' dans un document audio donné. Cette thèse fait l'hypothèse qu'aucune connaissance a priori sur la voix de locuteurs ou sur leur nombre n'est disponible. La principale originalité du système de structuration en locuteurs pour des journaux télévisés ou radiophoniques présenté est de combiner deux étapes de regroupement en locuteurs: la première étape se fonde sur le Critère d'Information Bayesien (BIC) avec des Gaussiennes à matrice de covariance pleine et la deuxième étape de regroupement recombine les classes résultant en utilisant des techniques proposées pour l'identification du locuteur et utilisant des modèle de mélange de Gaussiennes (GMM) adaptés à partir d'un modèle générique. Ce système a été validé dans l'évaluation internationale NIST RT-04F (Rich Transcription 2004 Fall) et l'évaluation française ESTER 2005 du projet Technolangue EVALDA. Il a obtenu les meilleurs résultats dans les deux évaluations. Le système de structuration en locuteurs conçu pour les journaux télévisés a également été adapté aux réunions. Il intègre un nouveau détecteur de parole fondé sur le rapport de log-vraisemblance. Diverses techniques de normalisation des paramètres acoustiques et différentes représentations acoustiques ont été testées au cours de cette adaptation. Dans la dernière évaluation du NIST sur de réunions, le système adapté a eu un taux d'erreur de 26% environ sur les données de conférences et séminaires

  • Titre traduit

    Acoustic-based speaker diarization


  • Résumé

    This thesis presents a work focusing on the topic of speaker diarization for different types of audio recordings, especially including broadcast news (BN) and meetings. The speaker diarization task aims to answer the question of ``who spoke when'' for a given audio stream. This thesis work is carried out following the assumption that no a priori knowledge of the speakers voice or the number of speakers is available. The principal originality of the proposed BN. Speaker diarization system lies in the combination of two speaker clustering stages, where a Bayesian Information Criterion (BIC) based clustering using single full-covariance Gaussian models is performed to provide a under-clustering and the resulting clusters are recombined via a second clustering stage relying on Gaussian Mixture Model (GMM) based speaker identification techniques. The implemented BN speaker diarization system has been examined in both the international NIST Rich Transcription 2004 Fall (RT-04F) evaluation and a French Technolangue ESTER evaluation and provided the best diarization results in both evaluations. The BN speaker diarization system has also been adapted for the meeting domain. The adapted diarization system for meetings integrates a new speech activity detector based on log-likelihood ratio. Various feature normalization techniques and different sets of acoustic features are also explored by the adapted system. In the last NIST RT meeting recognition evaluation, this meeting diarization system had an overlap diarization error of 26% approxiately on the conference and lecture test data

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (158 p.)
  • Annexes : Bibliogr. p.144 -158

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2007)131
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.