Reconnaissance automatique de la parole continue : grand vocabulaire en vietnamien

par Hong Quang Nguyen

Thèse de doctorat en Informatique

Sous la direction de Pascal Nocera et de Van Loan Trinh.

Soutenue en 2008

à Avignon en cotutelle avec l'Institut Polytechnique (Hanoï) .


  • Résumé

    La reconnaissance de la parole vietnamienne est juste au début de son développement. Nous constatons que les différences entre la langue vietnamienne et les langues occidentales sont telles que les techniques de reconnaissance de la parole communément employées pour ces dernières (anglais, français par exemple. ) ne suffisent pas pour développer directement un système de reconnaissance performant. La prise en compte des caractéristiques de la langue vietnamienne au niveau de la représentation des données (lexique, modèle de langage) et des modèles (modèle de tons) permettent par contre d’obtenir des résultats prometteurs. La première différence est la segmentation des entités sémantiques des phrases. En vietnamien, les mots/concepts peuvent être composés d'une ou plusieurs syllabes qui sont systématiquement découpés en syllabes séparées par un espace (langue syllabique). La segmentation en mots/concepts de la phrase est une tâche importante pour les langues isolantes telles que le mandarin, le cantonais, le thaï mais aussi pour le vietnamien. Pour améliorer les résultats des traitements automatiques de ces langues, nous avons construit un module de segmentation en mots multi syllabiques des phrases syllabiques. Deux approches ont été utilisées pour cela : la première utilise un dictionnaire de mots vietnamiens multi syllabiques alors que la seconde construit automatiquement un lexique multi syllabique à l’aide d’un algorithme utilisant l’information mutuelle des mots comme critère de regroupement, et la programmation dynamique pour simplifier les traitements. La deuxième différence entre ces langues est l’importance du ton dans la langue vietnamienne. La reconnaissance des tons est donc un aspect fondamental du traitement des langues tonales. Dans cette thèse, nous avons étudié en détail différentes méthodes pour représenter de manière optimale la fréquence fondamentale et l’énergie, d’une part, et pour trouver un moyen d’atténuer l’influence du phénomène de coarticulation entre les tons. Nous avons utilisé deux approches pour effectuer cette reconnaissance : une approche trame à trame à l’aide des modèles de Markov caché et une méthode globale à l’aide d’un perceptron multicouche. En cumulant les traitements des caractéristiques linguistiques (lexique multi syllabique) et acoustiques (reconnaissance des tons), les résultats ont été améliorés de pratiquement 50 % (par rapport au système initial). Ces résultats prouvent que l’ajout d’informations supplémentaires, caractéristiques de la langue vietnamienne, améliore considérablement les performances des systèmes de reconnaissance de la parole

  • Titre traduit

    Large vocabulary continuous speech recognition for vietnamese


  • Résumé

    Development of the Vietnamese speech recognition has just started. This is due to the differences between Vietnamese language and Western languages, the speech recognition techniques broadly used for these languages (English, French for example. ) are not enough for developing directly a powerful Vietnamese speech recognition system. Taking into consideration the Vietnamese language characteristics in term of data (lexicon, language model) and model (tone model) representation should allow us to obtain promised results and better performances. The first difference is the semantic entities segmentation of the sentence. In Vietnamese, the word/concept consists of one or several syllables which are systematically separated by spaces (syllabic language). The segmentation of the sentence in words/concepts is an important stage for the isolating languages such as the Mandarin, the Cantonese, and the Thai but also for the Vietnamese. To improve the performance of automatic recognition system for Vietnamese, we built a polysyllabic word segmentation module for syllabic sentences. Two approaches were used: the first one uses a Vietnamese polysyllabic word dictionary whereas the second builds automatically this dictionary using the mutual information of the words as the grouping criterion, and a dynamic programming algorithm to simplify the treatments. The second difference is the crucial role of the tone in the Vietnamese language. The tone recognition is thus a fundamental aspect of the tonal language processing. In this thesis, we studied various methods to represent, in an optimal way, the fundamental frequency and the energy. We also were interested in finding a method to reduce the influence of the co-articulation phenomenon between tones. We furthermore used two approaches: an approach in frames by using hidden Markov models and a more general method based on the multi-level perceptrons. By integrating the processing of the linguistic (polysyllabic word lexicon) and acoustic (tone recognition) characteristics, the results were improved by practically 50 % (compared to the baseline system). These results prove that the addition of supplementary information, characteristics of Vietnamese language, improves considerably the performances of the speech recognition system

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (161 p.)
  • Annexes : Bibliogr. p. 155-161

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Avignon et des Pays de Vaucluse. Bibliothèque universitaire.
  • Disponible pour le PEB
  • Cote : T 17.08.322
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.