Maximum-likelihood linear regression coefficients as features for speaker recognition

par Marc Ferras Font

Thèse de doctorat en Informatique

Sous la direction de Jean-Luc Gauvain.

Soutenue en 2009

à Paris 11 , en partenariat avec Université de Paris-Sud. Faculté des Sciences d'Orsay (Essonne) (autre partenaire) .

  • Titre traduit

    Utilisation des coefficients de régression linéaire par maximum de vraisemblance pour la reconnaissance automatique du locuteur


  • Résumé

    Ce manuscrit porte sur la reconnaissance automatique du locuteur indépendante du texte en utilisant des paramètres de régression linéaire par maximum de vraisemblance (MLLR). Ces paramètres sont obtenus par l'adaptation d'un modèle acoustique indépendant du locuteur aux données de parole d'un locuteur et sont des indices pertinents qui caractérisent ce locuteur. Nous utilisons le paradigme MLLR-SVM qui classifie ces coefficients avec une Machine à Vecteurs Support (SVM). Nous proposons une approche purement acoustique qui n'utilise pas de transcriptions tout en évitant de dépendre de la langue en utilisant des transformations MLLR contraintes (CMLLR) et l'apprentissage d'un modèle du monde adapté au locuteur (SAT). Nous évaluons les effets de SAT ainsi que des transformations CMLLR dans l'espace des modèles et des paramètres pour lesquelles nous proposons plusieurs représentations alternatives. La compensation de la variabilité inter-session est aussi évaluée au moyen de la technique de projection d'attributs nuisibles (NAP), un cadre dont nous profitons pour développer une nouvelle méthode de compensation au niveau des paramètres. Nous explorons les systèmes multi-classe (C)MLLR-SVM basés sur des modèles acoustiques phonémiques. Une étude expérimentale complète des schémas d'adaptation est réalisée sur de multiples axes tels que le type de paramètres cepstraux, le type et le nombre de transformations, le type de modèle et la méthode d'apprentissage. Nous explorons aussi l'utilisation de l'adaptation MLLR basée sur des treillis de mots pour rendre plus robuste l'approche MLLR-SVM aux erreurs de transcription ainsi que des stratégies de fusion.


  • Résumé

    This dissertation addresses text-independent Automatic Speaker Verification (ASV) using features issued from Maximum Likelihood Linear Regression (MLLR) adaptation of Markov models with Gaussian mixture observation densities. MLLR transform coefficients obtained by adaptation of a speaker-independent model to speech data capture relevant cues characterizing a speaker. We focus on the MLLR-SVM paradigm classifying these features using Support Vector Machines (SVM). We propose a purely acoustic approach which avoids the need for transcripts and structural language constraints of previous systems by using Constrained MLLR (CMLLR) transforms together with Speaker Adaptive Training (SAT) of a Universal Background Model (UBM). We assess the impact of SAT and feature-space and model-space CMLLR transforms and we propose several alternative representations of CMLLR transforms based on the Singular Value Decomposition (SVD). We also assess inter-session variability compensation in CMLLR-SVM via Nuisance Attribute Projection (NAP). We use this framework to further develop a feature-level session compensation technique. We focus on multi-class (C)MLLR-SVM systems using LVCSR acoustic models. We perform a comprehensive experimental study of adaptation schemes exploring multiple axes such as front-end type, transform type, number of transforms, model type or training method. We draw numerous conclusions from it, namely the distinct behavior of CMLLR and MLLR adaptation which we analyze. We explore lattice MLLR adaptation as a means of dealing with erroneous transcripts as well as several fusion strategies at the feature and score levels.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (239 p.)
  • Annexes : Bibliogr. p. 229-239

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2009)96
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.