Adaptation rapide au locuteur par sous-espace variable de modèles de référence

par Wen Xuan Teng

Thèse de doctorat en Traitement du signal et télécommunications

Sous la direction de Frédéric Bimbot.

Soutenue en 2008

à Rennes 1 .


  • Résumé

    This dissertation is dedicated to the adaptation of acoustic models for automatic speech recognition using very little adaptation data (a. K. A rapid adaptation). A common framework, the reference model subspace concept, is established to unify most rapid adaptation techniques in the literature. It helps us to study the limitations of the current techniques and investigate new adaptation algorithms by modifying the parameters of the framework. Random reference model subspace selection experiments reveal the robustness limitation of the techniques which are based on the a priori selection of reference model subspaces. In order to address this problem, we try to make subspaces variable at runtime for different adaptation targets by the a posteriori selection of reference models.  This is implemented through a novel adaptation algorithm, reference model interpolation (RMI).  The proposed technique is applied in phoneme decoding and LVCSR systems and evaluated with both supervised and unsupervised adaptation tasks. Experiments on three different databases IDIOLOGOS, PAIDIOLOGOS and ESTER show the effectiveness of RMI with utterance by utterance instantaneous adaptation. In addition, the incremental adaptation is also achieved by combining the slow update of reference models with the RMI rapid adaptation.

  • Titre traduit

    Rapid speaker adaptation by variable reference model subspace


  • Résumé

    Les travaux présentés dans cette thèse sont consacrés au problème de l’adaptation de modèles acoustiques pour la reconnaissance automatique de la parole en utilisant très peu de données. Nous définissons le concept de sous-espace de modèle de référence afin d’unifier la plupart des techniques d'adaptation rapide proposées dans la littérature dans un formalisme commun. Il nous aide à étudier les limites des techniques actuelles et à explorer de nouveaux algorithmes d'adaptation. Nous avons montré expérimentalement que l'adaptation avec des sous-espaces fixés ne peut pas donner d’améliorations stables pour différentes cibles à adapter (e. G. Locuteurs). Afin de résoudre ce problème, nous avons proposé d'utiliser des sous-espaces variables qui est mis en œuvre par un nouvel algorithme d’adaptation, l’interpolation de modèle de référence (IMR). Cette technique permet la sélection a posteriori de modèles de référence avec différents critères de sélection. La technique proposée est appliquée dans les systèmes de décodage phonétique et de reconnaissance automatique de la parole continue à grand vocabulaire. Des expériences sur trois bases de données, à savoir IDIOLOGOS, PAIDIOLOGOS et ESTER, montrent l'efficacité de la technique IMR avec l'adaptation instantanée. En outre, l'adaptation progressive est également atteinte en combinant la lente mise à jour des modèles de référence avec l’adaptation rapide par IMR.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XII-37-158 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr., 7 p.

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rennes I. Service commun de la documentation. Section sciences et philosophie.
  • Disponible pour le PEB
  • Cote : TA RENNES 2008/132
  • Bibliothèque : Centre de recherche INRIA Rennes - Bretagne Atlantique. Service IST.
  • PEB soumis à condition
  • Cote : I.2.7 - TEN
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.