Extraction de parametres discriminatifs : application a la reconnaissance de la parole

par ALAIN ERNEST BIEM

Thèse de doctorat en Sciences appliquées

Sous la direction de Patrick Gallinari.

Soutenue en 1997

à Paris 6 .

    mots clés mots clés


  • Résumé

    La reconnaissance automatique de la parole suppose l'application de deux processus fondamentaux : la parametrisation du signal de parole et le decodage phonetique. La parametrisation acoustique a pour but d'extraire l'information pertinente du signal acoustique dans le but d'en fournir une description aussi compacte et representative que possible. Sa mise en oeuvre repose principalement sur des methodes issues du traitement du signal. Le decodage phonetique consiste essentiellement a classifier des formes acoustiques en vue de la reconnaissance. Differents decodeurs sont utilises a l'heure actuelle (modeles de markov caches, reseaux de neuronnes) ayant chacun leur propre algorithme d'apprentissage. Force est de constater que le processus de parametrisation acoustique et le processus decodage utilisent des criteres d'optimisation differents, alors qu'ils ont pour objectif commun la reconnaissance des unites phonetiques. On peut, par exemple, s'interroger sur l'optimalite, en terme de minimisation de l'erreur de classification, des parametres derives d'un critere de distorsion ou d'un critere de perception. En d'autres termes, les methodes classiques ne garantissent pas l'optimalite du processus global de reconnaissance. Une solution a ce probleme serait d'integrer ces deux processus dans un systeme obeissant au seul critere de minimisation des erreurs de classification. Il y aurait donc deux modules optimisables composant l'architecture du systeme : l'extracteur de traits et le processus de classification (decodeur). Cette methode, appelee en anglais discriminative feature extraction (dfe), a ete appliquee a quelques taches en parole, dans le cadre theorique mce/gpd (minimum classification error / generalized probabilistic descent method). Dans cette approache, une fonction d'erreur refletant les erreurs de classification du systeme est minimisee a l'aide d'un algorithme de descente de gradient stochastique. Le principal avantage de ce formalisme reside dans le fait qu'il peut etre applique a n'importe quels types de parametrisation et de decodage, garantissant l'optimalite du systeme ainsi realise. Cette approache est appliquee a l'optimisation des bank de filtres et des coefficients cepstraux, qui constituent les methodes de parametrisation du signal vocal les plus repandues.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 266 P.
  • Annexes : 151 REF.

Où se trouve cette thèse ?

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie . Section Mathématiques-Informatique Recherche.
  • Non disponible pour le PEB
  • Cote : T Paris 6 1997 231
  • Bibliothèque : Centre Technique du Livre de l'Enseignement supérieur (Marne-la-Vallée, Seine-et-Marne).
  • Disponible pour le PEB
  • Cote : PMC RT P6 1997
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.