Vers le temps réel en transcription automatique de la parole grand vocabulaire

par Leila Zouari-Ben Letaïfa

Thèse de doctorat en Signal et images

Sous la direction de Gérard Chollet.

Soutenue en 2007

à Paris,ENST .


  • Résumé

    Cette thèse porte sur la réduction du temps de calcul des systèmes de transcription en vue de permettre leur utilisation dans des contextes réels. Une telle optimisation est particulièrement intéressante lors du calcul des probabilités d'émission des états, tâche occupant souvent plus de la moitié du temps de traitement. Vu que ce calcul dépend du nombre de gaussiennes et que seules quelques gaussiennes ont un réel impact sur la reconnaissance, on s'est intéressé à la sélection de ces gaussiennes. Les méthodes existantes sont basées sur la classification. Pour améliorer cette classification, nous avons proposé un partitionnement hiérarchique par état basé sur la similarité entre les distributions gaussiennes. Chaque niveau de l'arbre de classification obtenu donne lieu à une sélection de gaussiennes. Les distributions choisies sont à l'intersection de toutes les sélections. Les mélanges de distributions correspondent à des contextes d'apparition différents. Malheureusement, les méthodes de sélection existantes ne prennent pas en compte ces différents contextes, puisque lorsque le nombre de gaussiennes par état est faible, toutes les distributions sont mélangées avant d'être regroupées. Ainsi, nous avons développé une méthode de sélection contextuelle des gaussiennes. Les méthodes de sous-quantification vectorielle sont apparues comme une alternative aux approches basées sur la sélection des gaussiennes. En regroupant toutes les distributions, elles mélangent certains contextes. Ainsi, nous avons introduit une sousquantification vectorielle contextuelle. Les résultats obtenus sont intéressants et dépassent certaines méthodes existantes.

  • Titre traduit

    Towards real time in large vocabulary speech recognition


  • Résumé

    Large vocabulary speech recognition systems based on hidden Markov models (HMM) make use of many tens of thousands of Gaussian distributions to achieve improved recognition. Hence, the computation of the state likelihood is time consuming. As the performance and the speed of such recognition systems are closely related to the number of HMM Gaussians, reducing the number of Gaussians without decreasing the system performance is of major interest. Assuming that only a few Gaussians dominate the state likelihood, Gaussian selection techniques have been developed to detect them. These techniques are based on classification and can be divided into two categories: state and model based methods. In order to improve the state-based Gaussian selection we propose an original clustering and a multi-level Gaussian selection. The clustering algorithm use a new Gaussian similarity distance. In model based methods the classification is applied to the Gaussian distributions of all the models. The contextuel information is lost du to merging distributions of the different contexts. So we introduce a contextual Gaussian selection. In recent years, as an alternative to the Gaussian selection, sub-vector quantization was successfully used to reduce the acoustic models complexity. Unfortunally, these techniques make use of the classification by merging different contexts. Hence we investigate a contextual sub-vector quantization. The proposed algorithms are evaluated within a framework of large vocabulary continuous speech recognition. Results outperform some existing methods.

Autre version

Cette thèse a donné lieu à une publication en 2008 par École nationale supérieure des télécommunications à Paris

Vers le temps réel en transcription automatique de la parole grand vocabulaire


Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (142 p.)
  • Annexes : 93 réf. bibliogr. Résumé

Où se trouve cette thèse ?

  • Bibliothèque :
  • Disponible pour le PEB
  • Cote : 7.33 ZOUA
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.
Cette thèse a donné lieu à 1 publication .

Consulter en bibliothèque

Cette thèse a donné lieu à une publication en 2008 par École nationale supérieure des télécommunications à Paris

Informations

  • Sous le titre : Vers le temps réel en transcription automatique de la parole grand vocabulaire
  • Dans la collection : ENST , 2007E024 , 0751-1353
  • Détails : 1 vol. (XII-122 p.)
  • Annexes : Bibliogr. p. 115-122. Résumé
La version de soutenance de cette thèse existe aussi sous forme papier.

Où se trouve cette thèse ?