Thèse de doctorat en Sciences appliquées. Systèmes électroniques
Sous la direction de Christophe d' Alessandro.
Soutenue en 2004
à Paris 11 , en partenariat avec Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne) (autre partenaire) .
Dans le but de sélectionner des voix pour des serveurs vocaux interactifs, cette thèse présente une analyse acoustique permettant la modélisation de critères perceptifs caractérisant ces voix. Le corpus d'étude est composé de 20 locutrices et 10 locuteurs professionnels ayant enregistré une phrase selon 5 styles d'élocution différents. Deux expériences précédant ce travail ont permis de retenir 20 critères perceptifs et d'évaluer les 150 voix sur chacun d'eux grâce à une échelle graduée de 1 à 7. Après avoir étudié ces résultats et estimé la pertinence des critères dans la description des voix (notamment par l'étude de l'écart type des réponses des sujets), le travail se poursuit par la détermination de paramètres acoustiques corrélés aux critères perceptifs. Ces paramètres sont de natures diverses, certains décrivent la prosodie de manière statique (par exemple F0 moyenne et énergie maximum) et dynamique (contours de F0, énergie et durée), d'autres paramètres décrivent l'équilibre vocalique/consonantique et l'équilibre dans des bandes de fréquence, et d'autres la source glottique. L'originalité de ce travail réside dans la prise en compte d'une grande variété de paramètres et dans la description vectorielle de la prosodie. Il est montré qu'une sélection judicieuse de ces paramètres contribue à améliorer les performances de la modélisation, permettant d'obtenir une erreur de prédiction très satisfaisante pour l'ensemble des critères. D'une manière générale, ce travail a montré l'efficacité d'une méthodologie permettant l'élaboration et l'estimation de modèles acoustiques de la perception des voix.
The voices of vocal services : from perception to modeling
This thesis presents an acoustic analysis for modelling some perceptive criteria that are used to describe voices that have been selected for interactive vocal server applications. The corpus of this study is composed of 20 female and 10 male professional speakers who have recorded a sentence using 5 elocution styles. Two previous experiments determined 20 perceptive criteria and used them to assess the 150 voices of the corpus by using a 7 point scale. After studying the results and estimating the relevance criteria for the voice descriptions, especially by studying the standard deviation of the subjects results, the work continues and tries to find acoustic parameters that correlate with the perceptive criteria. These parameters are heterogeneous. Some of them describe the prosody, first statically (pitch average, energy maximum for example), then dynamically (pitch, energy and duration contour). Others describe the glottal source, the balance of vocalic/non-vocalic components of the speech and of the different energy bands. The originality of this work comes from the fact that a great variety of parameters is studied, in particular the prosody with a specific vectorial representation. It has been proven that a judicious selection of parameters infers a decrease of the prediction error of the models that reaches a reasonably sufficient level. In conclusion, this work proves the efficiency of a methodolody for building and assessing acoustic models of voice perception.