Reconnaissance de la parole continue : adaptation au locuteur et controle temporel dans les modeles de markov caches

par Claude Barras

Thèse de doctorat en Sciences appliquées

Sous la direction de J.-G. GANASCIA.

Soutenue en 1996

à Paris 6 .

    mots clés mots clés


  • Résumé

    Les systemes les plus performants en reconnaissance de la parole continue exploitent une approche statistique par modeles de markov caches, mais leur qualite reste encore decevante. Nous avons cherche a ameliorer un systeme standard de reconnaissance en etudiant plus particulierement l'adaptation au locuteur et la modelisation de la duree acoustique. Afin d'evaluer la pertinence des traitements proposes, un systeme de reference a ete developpe a partir la plate-forme logicielle htk et teste sur la base de donnees timit par des experiences de decodage acoustico-phonetique. Ce systeme est constitue de modeles phonetiques dependants du contexte, et integre une procedure originale pour un meilleur apprentissage des densites de probabilite. La premiere etude concerne l'adaptation rapide du systeme a un nouveau locuteur par une approche qui generalise l'adaptation classique par multi-modeles. Les locuteurs d'apprentissage sont classes au moyen d'une distance inter-locuteurs utilisee en reconnaissance du locuteur. Pour un locuteur de test donne, les modeles appris sur les classes de locuteurs les plus proches au sens de la distance sont ensuite combines dans un modele unique. La deuxieme etude concerne le controle temporel de l'enchainement des modeles. Une analyse par rupture de modeles detecte des evenements infraphonemiques dans le signal de parole, qui sont exploites au cours du decodage de la parole continue pour modifier les probabilites de transition entre unites phonetiques. Le controle propose apporte une amelioration significative de la reconnaissance lexicale. Ces travaux sont une contribution au developpement d'un systeme de dictee vocale independant du locuteur, ce qui necessite en particulier l'integration d'un veritable modele de langage et l'evaluation sur d'autres bases de donnees

  • Titre traduit

    Continuous speech recognition: speaker adaptation and temporal control for hidden markov models


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 197 P.
  • Annexes : 216 REF.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Moyens Informatiques et Multimédia. Information.
  • Disponible pour le PEB
  • Cote : I.2-BAR
  • Bibliothèque : Sorbonne Université. Bibliothèque de Sorbonne Université. Bibliothèque Biologie-Chimie-Physique Recherche.
  • Non disponible pour le PEB
  • Cote : T Paris 6 1996 19
  • Bibliothèque : Centre Technique du Livre de l'Enseignement supérieur (Marne-la-Vallée, Seine-et-Marne).
  • Disponible pour le PEB
  • Cote : PMC RT P6 1996
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.