Reconnaissance automatique de la parole guidée par des transcriptions a priori

par Benjamin Lecouteux

Thèse de doctorat en Informatique

Sous la direction de Jean-François Bonastre.

Soutenue en 2008

à Avignon .


  • Résumé

    L’utilisation des systèmes de reconnaissance automatique de la parole nécessite des conditions d’utilisation contraintes pour que ces derniers obtiennent des résultats convenables. Dans de nombreuses situations, des informations auxiliaires aux flux audio sont disponibles. Le travail de cette thèse s’articule autour des approches permettant d’exploiter ces transcriptions a priori disponibles. Ces informations se retrouvent dans de nombreuses situations : les pièces de théâtre avec les scripts des acteurs, les films accompagnés de sous-titres ou de leur scénario, les flashes d’information associés aux prompts des journalistes, les résumés d’émissions radio. . . Ces informations annexes sont de qualité variable, mais nous montrerons comment ces dernières peuvent être utilisées afin d’améliorer le décodage d’un SRAP. Ce document est divisé en deux axes liés par l’utilisation de transcriptions a priori au sein d’un SRAP : la première partie présente une méthode originale permettant d’exploiter des transcriptions a priori manuelles, et de les intégrer directement au coeur d’un SRAP. Nous proposons une méthode permettant de guider efficacement le système de reconnaissance à l’aide d’informations auxiliaires. Nous étendons notre stratégie à de larges corpus dénués d’informations temporelles. La seconde partie de nos travaux est axée sur la combinaison de SRAP. Nous proposons une combinaison de SRAP basée sur le décodage guidé : les transcriptions a priori guidant un SRAP principal sont fournies par des systèmes auxiliaires. Les travaux présentés proposent d’utiliser efficacement une information auxiliaire au sein d’un SRAP. Le décodage guidé par des transcriptions manuelles permet d’améliorer sensiblement la qualité du décodage ainsi que la qualité de la transcription a priori. Par ailleurs, les stratégies de combinaison proposées sont originales et obtiennent d’excellents résultats par rapport aux méthodes existantes à l’état de l’art

  • Titre traduit

    ˜A œpriori transcript driven speech recognition


  • Résumé

    Robustness in speech recognition refers to the need to maintain high recognition accuracies even when the quality of the input speech is degraded. In the last decade, some papers proposed to use relevant meta-data in order to enhance the recognition process. Nevertheless, in many cases, an imperfect a priori transcript can be associated to the speech signal : movie subtitles, scenarios and theatrical plays, summaries and radio broadcast. This thesis addresses the issue of using such imperfect transcripts for improving the performance figures of automatic speech recognition (ASR) systems. Unfortunately, these a priori transcripts seldom correspond to the exact word utterances and suffer from a lack of temporal information. In spite of their varying quality, we will show how to use them to improve ASR systems. In the first part of the document we propose to integrate the imperfect transcripts inside the ASR search algorithm. We propose a method that allows us to drive an automatic speech recognition system by using prompts or subtitles. This driven decoding algorithm relies on an on-demand synchronization and on the linguistic rescoring of ASR hypotheses. In order to handle transcript excerpts, we suggest a method for extracting segments in large corpora. The second part presents the Driven Decoding Algorithm (DDA) approach in combining several speech recognition (ASR) systems : it consists in guiding the search algorithm of a primary ASR system by the one-best hypotheses of auxiliary systems. Our work suggests using auxiliary information directly inside an ASR system. The driven decoding algorithm enhances the baseline system and improves the a priori transcription. Moreover, the new combination schemes based on generalized-DDA significantly outperform state of the art combinations

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (170 p.)
  • Annexes : Bibliogr. p. 155-165. Bibliogr. de l'auteur p. 167

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Avignon et des Pays de Vaucluse. Bibliothèque universitaire.
  • Disponible pour le PEB
  • Cote : T 17.08.360
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.