Un modele probabiliste pour integrer la dimension temporelle dans un systeme de reconnaissance automatique de parole

par NELLY SUAUDEAU

Thèse de doctorat en Traitement du signal et télécommunications

Sous la direction de Albert Benveniste.

Soutenue en 1994

à Rennes 1 .

    mots clés mots clés


  • Résumé

    En reconnaissance de parole, les modeles de markov caches (mmc) sont utilises avec succes. La modelisation markovienne s'appuie sur une description hierarchique des applications, deduite a partir de connaissances a priori syntaxique, lexical et phonetique. Cependant, une des insuffisances de ces modeles est qu'ils sont contraints a traiter uniformement les observations. Or, parmi les parametres extraits du signal de parole, contrairement aux parametres spectraux qui dependent directement du niveau acoustique elementaire, les parametres prosodiques sont aussi lies au niveau phonetique suprasegmental. Afin de combiner efficacement les indices prosodiques et acoustiques, nous definissons un nouveau modele qui resulte d'une extension des mmc. Sa specificite est qu'il distingue, suivant leur nature, les observations qui sont traitees au niveau acoustique de celles qui sont introduites au niveau phonetique. Pour valider ce modele, la prise en compte explicite des durees globales des sons au niveau phonetique a ete etudiee. Puis, afin de rendre l'approche plus realiste, les caracteristiques statistiques du parametre de duree sont adaptees en fonction de la vitesse d'elocution. Deux alternatives ont ete envisagees. L'information de vitesse est exploitee soit en cours de reconnaissance en employant un filtre de kalman, soit dans une etape de post-traitement. Les experiences faites sur une application de reconnaissance des nombres de 0 a 999 montrent que les modelisations proposees conduisent a une reduction du taux d'erreur de l'ordre de 15% par rapport a l'approche markovienne classique. L'avantage de nos methodes est de permettre une modelisation explicite des informations de duree et de vitesse d'elocution, tout en preservant une representation precise de la structure acoustique du signal de parole

  • Titre traduit

    A probabilistic model to introduce the temporal dimension in an automatic speech recognition system


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 235 P.
  • Annexes : 109 REF.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Rennes. Service commun de la documentation. BU Beaulieu.
  • Disponible pour le PEB
  • Cote : TA RENNES 1994/119

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Non disponible pour le PEB
  • Cote : 1994REN10038
  • Bibliothèque : Université Paris-Est Créteil Val de Marne. Service commun de la documentation. Section multidisciplinaire.
  • PEB soumis à condition
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.