Thèse soutenue

Un modele probabiliste pour integrer la dimension temporelle dans un systeme de reconnaissance automatique de parole
FR  |  
EN
Accès à la thèse
Auteur / Autrice : NELLY SUAUDEAU
Direction : Albert Benveniste
Type : Thèse de doctorat
Discipline(s) : Traitement du signal et télécommunications
Date : Soutenance en 1994
Etablissement(s) : Rennes 1

Résumé

FR

En reconnaissance de parole, les modeles de markov caches (mmc) sont utilises avec succes. La modelisation markovienne s'appuie sur une description hierarchique des applications, deduite a partir de connaissances a priori syntaxique, lexical et phonetique. Cependant, une des insuffisances de ces modeles est qu'ils sont contraints a traiter uniformement les observations. Or, parmi les parametres extraits du signal de parole, contrairement aux parametres spectraux qui dependent directement du niveau acoustique elementaire, les parametres prosodiques sont aussi lies au niveau phonetique suprasegmental. Afin de combiner efficacement les indices prosodiques et acoustiques, nous definissons un nouveau modele qui resulte d'une extension des mmc. Sa specificite est qu'il distingue, suivant leur nature, les observations qui sont traitees au niveau acoustique de celles qui sont introduites au niveau phonetique. Pour valider ce modele, la prise en compte explicite des durees globales des sons au niveau phonetique a ete etudiee. Puis, afin de rendre l'approche plus realiste, les caracteristiques statistiques du parametre de duree sont adaptees en fonction de la vitesse d'elocution. Deux alternatives ont ete envisagees. L'information de vitesse est exploitee soit en cours de reconnaissance en employant un filtre de kalman, soit dans une etape de post-traitement. Les experiences faites sur une application de reconnaissance des nombres de 0 a 999 montrent que les modelisations proposees conduisent a une reduction du taux d'erreur de l'ordre de 15% par rapport a l'approche markovienne classique. L'avantage de nos methodes est de permettre une modelisation explicite des informations de duree et de vitesse d'elocution, tout en preservant une representation precise de la structure acoustique du signal de parole