Optimisation du graphe de décodage d'un système de reconnaissance vocale par apprentissage discriminant

par Shiuan-Sung Lin

Thèse de doctorat en Signal et images

Sous la direction de François Yvon et de Gérard Chollet.

Soutenue en 2007

à Paris, ENST .


  • Résumé

    Les trois sources principalement utilisées en reconnaissance vocale automatique (Automatic Speech Recognition, ASR) sont les modèles acoustiques, le dictionnaire et le modèle de langage. Elles sont habituellement conçues et optimisées de manière séparée. Notre travail a proposé une méthodologie, à savoir un apprentissage discriminant sur un grand graphe de décodage, pour optimiser conjointement les paramètres de ces différents modèles, en se fondant sur l'intégration des ressources dans un transducteur fini pondéré dont les poids des transitions sont estimés par de manière discriminante. Dans ce cadre d'apprentissage, les paramètres du modèle sont ajustés itérativement de façon à réduire progressivement le nombre d'erreurs de retranscription commises par le système. Nous considérons en particulier dans ce travail de mettre en oeuvre ce cadre d'apprentissage pour une tâche de reconnaissance à « grand vocabulaire » : la transcription automatique des nouvelles de la radio française. Nous proposons plusieurs techniques pour un accélérer les algorithmes de décodage, afin de rendre ce type d'apprentissage computationnellement faisable. Une série d'expériences conduites sur cette tâche montrent qu'une réduction de 1 point du taux d'erreur de retranscription peut être obtenu, démontrant que cette méthodologie d'apprentissage permet d'améliorer les performances des systèmes de reconnaissance. Diverses extensions de cette méthode seront finalement présentées et discutées.

  • Titre traduit

    Optimization on decoding graphs by discriminative training


  • Résumé

    The three main knowledge sources used in the automatic speech recognition (ASR), namely the acoustic models, a dictionary and a language model, are usually designed and optimized in isolation. Our previous work proposed a methodology for jointly tuning these parameters, based on the integration of the resources as a finite-state graph, whose transition weights are trained discriminatively. In this training framework, parameter optimization is performed on a static decoding graph, whose transition weights are iteratively adjusted. We extend our previous work to a much more complex large-vocabulary task: French radio broadcast news database (ESTER). We also propose several fast decoding techniques to make the training practical. Experiments show that a reduction of 1% absolute of word error rate (WER) can be obtained, demonstrating the effectiveness of this training framework. In addition, we also investigate the strengths and shortcomings of this approach and discuss the new directions it opens.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (177 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 159 réf. bibliogr. Résumé étendu en français

Où se trouve cette thèse ?

  • Bibliothèque : Conservatoire national des arts et métiers (Paris). Bibliothèque Centrale.
  • Non disponible pour le PEB
  • Cote : B 13908
  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
  • Disponible pour le PEB
  • Cote : 7.331 LIN
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.