Recherche des n meilleurs solutions et post-traitements, en reconnaissance de la parole

par Mohamed Lokbani

Thèse de doctorat en Sciences appliquées

Sous la direction de Jean-Sylvain Liénard.

Soutenue en 1993

à Paris 11 .

    mots clés mots clés


  • Résumé

    Cette these porte sur l'adaptation d'une methode de recherche des n meilleures solutions au systeme de reconnaissance de la parole du cnet et le developpement de post-traitements segmental et syntaxique pour rechercher la solution correcte dans la liste des n proposees. La methode de recherche des n meilleures solutions est realisee en deux phases: l'algorithme de viterbi dans la phase aller et l'algorithme a#* dans la phase retour. Cette methode est introduite au niveau acoustique afin d'obtenir la segmentation phonetique de chaque solution. Pour un nombre n petit, le temps de recherche des n meilleures solutions est une fonction affine du nombre de solutions developpees. Le post-traitement syntaxique est utilise dans le cas ou la syntaxe de l'application est trop couteuse a implanter dans la phase de decodage. Une syntaxe surgenerative est introduite dans le modele de langage et les n meilleures solutions sont developpees. Dans le post-traitement syntaxique, la premiere solution parmi les n proposees, qui respecte la veritable syntaxe de l'application est declaree correcte. Cette approche a permis d'obtenir un tres faible taux de substitution sur une tache d'epellation de noms de villes. Pour les mots isoles ou connectes, la syntaxe de l'application est integree directement dans le processus de decodage. Nous avons pour ce cas developpe un post-traitement statistique utilisant des informations segmentales extraites de chacune des solutions proposees. Nous avons introduit une nouvelle technique dans la modelisation de chaque segment prenant en compte deux modeles statistiques. Un modele pour la segmentation correcte et un autre pour la segmentation incorrecte. Le score segmental de chaque solution est la combinaison des scores obtenus par ces deux modeles. Cette nouvelle approche a permis une reduction du taux d'erreur de 15% a 25% sur les differents corpus de donnees testes, par rapport a l'utilisation des modeles de markov seuls

  • Titre traduit

    N best solutions algorithm and post-processings in speech recognition


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 200 P.
  • Annexes : 96 REF.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris-Saclay. DIBISO. BU Orsay.
  • Accessible pour le PEB
  • Bibliothèque : Centre Technique du Livre de l'Enseignement supérieur (Marne-la-Vallée, Seine-et-Marne).
  • Disponible pour le PEB
  • Cote : TH2014-011560
  • Bibliothèque :
  • PEB soumis à condition
  • Cote : LOKBANI r

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université Grenoble Alpes (Saint-Martin d'Hères, Isère). Bibliothèque et Appui à la Science Ouverte. Bibliothèque universitaire Joseph-Fourier.
  • Non disponible pour le PEB
  • Cote : MF-1993-LOK
  • Bibliothèque : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Non disponible pour le PEB
  • Cote : 1993PA112457
  • Bibliothèque : Université Paris-Est Créteil Val de Marne. Service commun de la documentation. Section multidisciplinaire.
  • PEB soumis à condition
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.