Thèse soutenue

Modélisation des gestes acoustiques. Application à un système de reconnaissance de la parole Vietnamienne

FR  |  
EN
Auteur / Autrice : Thi-Anh-Xuan Tran
Direction : Eric CastelliThi Ngoc Yen PhamNathalie Vallée
Type : Thèse de doctorat
Discipline(s) : Signal, image, paroles, télécoms
Date : Soutenance le 30/03/2016
Etablissement(s) : Université Grenoble Alpes (ComUE) en cotutelle avec Institut Polytechnique (Hanoï)
Ecole(s) doctorale(s) : École doctorale électronique, électrotechnique, automatique, traitement du signal (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Grenoble Images parole signal automatique - International Research Institute MICA / MICA
Jury : Président / Présidente : Martine Adda-Decker
Examinateurs / Examinatrices : Eric Castelli, Thi Ngoc Yen Pham, Nathalie Vallée
Rapporteurs / Rapporteuses : Georges Linarès, François Pellegrino

Résumé

FR  |  
EN

La sélection de caractéristiques acoustiques appropriées est essentielle dans tout système de traitement de la parole. Pendant près de 40 ans, la parole a été généralement considérée comme une séquence de signaux quasi-stables (voyelles) séparés par des transitions (consonnes). Bien qu‟un grand nombre d'études documentent clairement l'importance de la coarticulation, et révèlent que les cibles articulatoires et acoustiques ne sont pas indépendantes du contexte, l‟hypothèse que chaque voyelle présente une cible acoustique qui peut être spécifiée d'une manière indépendante du contexte reste très répandue. Ce point de vue implique des limitations fortes. Il est bien connu que les fréquences de formants sont des caractéristiques acoustiques qui présentent un lien évident avec la production de la parole, et qui peuvent participer à la distinction perceptive entre les voyelles. Par conséquent, les voyelles sont généralement décrites avec des configurations articulatoires statiques représentées par des cibles dans l'espace acoustique, généralement par les fréquences des formants correspondants, représentées dans les plans F1-F2 et F2-F3. Les consonnes occlusives peuvent être décrites en termes de point d'articulation, représentés par locus (ou locus équations) dans le plan acoustique. Mais les trajectoires des fréquences de formants dans la parole fluide présentent rarement un état d'équilibre pour chaque voyelle. Elles varient avec le locuteur, l'environnement consonantique (co-articulation) et le débit de parole (relative à un continuum entre hypo et hyper-articulation). En vue des limites inhérentes aux approches statiques, la démarche adoptée ici consiste à étudier les transitions entre les voyelles et les consonnes (V1V2 et V1CV2) d‟un point de vue dynamique.