Maximum-likelihood linear regression coefficients as features for speaker recognition

par Marc Ferras Font

Thèse de doctorat en Informatique

Sous la direction de Jean-Luc Gauvain.

  • Titre traduit

    Utilisation des coefficients de régression linéaire par maximum de vraisemblance pour la reconnaissance automatique du locuteur


  • Pas de résumé disponible.


  • Pas de résumé disponible.


  • Résumé

    Ce manuscrit porte sur la reconnaissance automatique du locuteur indépendante du texte en utilisant des paramètres de régression linéaire par maximum de vraisemblance (MLLR). Ces paramètres sont obtenus par l'adaptation d'un modèle acoustique indépendant du locuteur aux données de parole d'un locuteur et sont des indices pertinents qui caractérisent ce locuteur. Nous utilisons le paradigme MLLR-SVM qui classifie ces coefficients avec une Machine à Vecteurs Support (SVM). Nous proposons une approche purement acoustique qui n'utilise pas de transcriptions tout en évitant de dépendre de la langue en utilisant des transformations MLLR contraintes (CMLLR) et l'apprentissage d'un modèle du monde adapté au locuteur (SAT). Nous évaluons les effets de SAT ainsi que des transformations CMLLR dans l'espace des modèles et des paramètres pour lesquelles nous proposons plusieurs représentations alternatives. La compensation de la variabilité inter-session est aussi évaluée au moyen de la technique de projection d'attributs nuisibles (NAP), un cadre dont nous profitons pour développer une nouvelle méthode de compensation au niveau des paramètres. Nous explorons les systèmes multi-classe (C)MLLR-SVM basés sur des modèles acoustiques phonémiques. Une étude expérimentale complète des schémas d'adaptation est réalisée sur de multiples axes tels que le type de paramètres cepstraux, le type et le nombre de transformations, le type de modèle et la méthode d'apprentissage. Nous explorons aussi l'utilisation de l'adaptation MLLR basée sur des treillis de mots pour rendre plus robuste l'approche MLLR-SVM aux erreurs de transcription ainsi que des stratégies de fusion.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (239 p.)
  • Annexes : Bibliogr. p. 229-239

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2009)96
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.