Thèse soutenue

Utilisation des coefficients de régression linéaire par maximum de vraisemblance pour la reconnaissance automatique du locuteur
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Marc Ferras Font
Direction : Jean-Luc Gauvain
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2009
Etablissement(s) : Paris 11
Partenaire(s) de recherche : autre partenaire : Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne)

Résumé

FR  |  
EN

Ce manuscrit porte sur la reconnaissance automatique du locuteur indépendante du texte en utilisant des paramètres de régression linéaire par maximum de vraisemblance (MLLR). Ces paramètres sont obtenus par l'adaptation d'un modèle acoustique indépendant du locuteur aux données de parole d'un locuteur et sont des indices pertinents qui caractérisent ce locuteur. Nous utilisons le paradigme MLLR-SVM qui classifie ces coefficients avec une Machine à Vecteurs Support (SVM). Nous proposons une approche purement acoustique qui n'utilise pas de transcriptions tout en évitant de dépendre de la langue en utilisant des transformations MLLR contraintes (CMLLR) et l'apprentissage d'un modèle du monde adapté au locuteur (SAT). Nous évaluons les effets de SAT ainsi que des transformations CMLLR dans l'espace des modèles et des paramètres pour lesquelles nous proposons plusieurs représentations alternatives. La compensation de la variabilité inter-session est aussi évaluée au moyen de la technique de projection d'attributs nuisibles (NAP), un cadre dont nous profitons pour développer une nouvelle méthode de compensation au niveau des paramètres. Nous explorons les systèmes multi-classe (C)MLLR-SVM basés sur des modèles acoustiques phonémiques. Une étude expérimentale complète des schémas d'adaptation est réalisée sur de multiples axes tels que le type de paramètres cepstraux, le type et le nombre de transformations, le type de modèle et la méthode d'apprentissage. Nous explorons aussi l'utilisation de l'adaptation MLLR basée sur des treillis de mots pour rendre plus robuste l'approche MLLR-SVM aux erreurs de transcription ainsi que des stratégies de fusion.