Thèse soutenue

Mesures de confiance trame-synchrones et locales en reconnaissance automatique de la parole

FR  |  
EN
Auteur / Autrice : Joseph Razik
Direction : Jean-Paul HatonOdile Mella
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 09/10/2007
Etablissement(s) : Nancy 1
Ecole(s) doctorale(s) : IAEM Lorraine
Partenaire(s) de recherche : Laboratoire : LORIA
Jury : Président / Présidente : René Schott
Examinateurs / Examinatrices : René Schott, Jean-François Bonastre, Gérard Chollet, Laurent Besacier, Jean-Paul Haton, Odile Mella
Rapporteurs / Rapporteuses : Jean-François Bonastre, Gérard Chollet

Mots clés

FR

Mots clés contrôlés

Mots clés libres

Résumé

FR  |  
EN

En reconnaissance automatique de la parole, les mesures de confiance tentent d'estimer la confiance qu'on peut accorder au résultat (phonème, mot, phrase) fourni par le moteur de reconnaissance. Dans cette thèse nous proposons des mesures de confiance capables de faire cette estimation dans le cas d'applications nécessitant une reconnaissance grand vocabulaire en flux continu. Nous avons défini deux types de mesure de confiance. Les premières, fondées sur des rapports de vraisemblance, sont des mesures trame-synchrones qui peuvent être calculées au fur et à mesure de la progression du moteur de reconnaissance au sein de la phrase à reconnaître. Les secondes, fondées sur une estimation de la probabilité a posteriori limitée à un voisinage local du mot considéré, nécessitent seulement un court délai avant de pouvoir être calculées. Ces mesures ont été évaluées et comparées à une mesure de l'état de l'art également fondée sur la probabilité a posteriori mais nécessitant la reconnaissance de toute la phrase. Cette évaluation a été faite d'une part dans une tâche de transcription automatique d'un corpus réel d'émissions radiophoniques et en utilisant le critère d'évaluation EER (Equal Error Rate) ; d'autre part dans une tâche de détection de mots clés sur le même corpus. Des performances très proches de celles de la mesure de l'état de l'art ont été obtenues par nos mesures locales avec un délai de moins d'une seconde. Nous avons également intégré l'une de nos mesures trame-synchrones dans le processus de décodage du moteur de reconnaissance afin d'améliorer la solution proposée par le système et ainsi diminuer le taux d'erreur en mots d'environ 6% en relatif.