Vers le temps réel en transcription automatique de la parole grand vocabulaire
Auteur / Autrice : | Leila Zouari-Ben Letaïfa |
Direction : | Gérard Chollet |
Type : | Thèse de doctorat |
Discipline(s) : | Signal et images |
Date : | Soutenance en 2007 |
Etablissement(s) : | Paris, ENST |
Mots clés
Mots clés contrôlés
Résumé
Cette thèse porte sur la réduction du temps de calcul des systèmes de transcription en vue de permettre leur utilisation dans des contextes réels. Une telle optimisation est particulièrement intéressante lors du calcul des probabilités d'émission des états, tâche occupant souvent plus de la moitié du temps de traitement. Vu que ce calcul dépend du nombre de gaussiennes et que seules quelques gaussiennes ont un réel impact sur la reconnaissance, on s'est intéressé à la sélection de ces gaussiennes. Les méthodes existantes sont basées sur la classification. Pour améliorer cette classification, nous avons proposé un partitionnement hiérarchique par état basé sur la similarité entre les distributions gaussiennes. Chaque niveau de l'arbre de classification obtenu donne lieu à une sélection de gaussiennes. Les distributions choisies sont à l'intersection de toutes les sélections. Les mélanges de distributions correspondent à des contextes d'apparition différents. Malheureusement, les méthodes de sélection existantes ne prennent pas en compte ces différents contextes, puisque lorsque le nombre de gaussiennes par état est faible, toutes les distributions sont mélangées avant d'être regroupées. Ainsi, nous avons développé une méthode de sélection contextuelle des gaussiennes. Les méthodes de sous-quantification vectorielle sont apparues comme une alternative aux approches basées sur la sélection des gaussiennes. En regroupant toutes les distributions, elles mélangent certains contextes. Ainsi, nous avons introduit une sousquantification vectorielle contextuelle. Les résultats obtenus sont intéressants et dépassent certaines méthodes existantes.