Thèse de doctorat en Physique. Traitement du signal
Sous la direction de Christophe d' Alessandro.
Soutenue en 2009
à Paris 11 , en partenariat avec Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne) (autre partenaire) .
La génération de parole expressive constitue aujourd’hui l’un des nouveaux défis pour les synthétiseurs de parole. Un moyen direct de rendre la synthèse expressive, consiste à la contrôler en temps réel par les gestes d’un opérateur. Notre recherche s'est donc déroulée selon deux axes : d'une part, la modification prosodique de la hauteur et de la durée de parole enregistrée, et d'autre part, la synthèse de voyelles, à partir d’un modèle de source glottique. Concernant la modification prosodique, nous avons implémenté en temps réel un algorithme permettant la modification conjointe de la hauteur et de la durée d'une phrase de parole enregistrée. Grâce à cet outil, nous avons mené différentes expériences, visant à valider la possibilité de modifier la prosodie grâce au geste manuel. Nos expériences ont montré que l'on était capable, de reproduire avec précision une intonation donnée grâce au geste manuel. Le second axe de notre recherche s’est focalisé sur la réalisation d’un synthétiseur de voyelles, dont on peut modifier la qualité vocale. La première étape de la réalisation de notre synthétiseur a consisté à implémenter une version en temps réel de l’onde de débit glottique, ainsi que les apériodicités de la source vocale. Nous pouvons ainsi contrôler la fréquence fondamentale, l’effort vocal, la tension, le souffle, les apériodicités structurelles et les différents mécanismes laryngés. Une attention particulière a été apportée à la réalisation du phonétogramme, ainsi qu’aux correspondances perceptives entre les paramètres du modèle et les dimensions vocales. Notre étude permet d’envisager à terme la modification conjointe, interactive, des composantes prosodiques et de qualité vocale.
Gestural control of prosody and voice quality
Today, expressive speech generation constitutes one of the new challenges for Text-to-Speech systems. A direct means to give synthesis expressive capabilities consists of controlling in real time using an operator’s gestures. Our research has been conducted along two main axes : on the one hand, the modification of pitch and duration of recorded speech, either natural or synthetic, and on the other hand, synthesis of vowels, based on a glottal source model. Concerning prosody modification, we implemented in real time an algorithm capable of achieving the joint modification of pitch and duration of a recorded speech utterance. Thanks to our tool, we carried out several experiments in order to validate and evaluate prosody modification. Our experimental results proved that by using manual gesture, we were capable of reproducing a given intonation accurately. Our second research axis focused on the development of a vowel synthesizer, which can modify voice quality within a perceptual space. The first development of our glottal source synthesizer consisted of the implementation of a real time version of the glottal source waveform, together with vocal source aperiodicities. Thus, we are able to simultaneously control fundamental frequency, vocal effort, tension, breath, structural aperiodicities and laryngeal mechanisms. Particular attention was paid to the realization of the phonetogram, as well as the perceptual mappings between parameters of the model and vocal dimensions. Our study allows us to envisage in the long-term the conjoint modification, in real time, of prosodic components and voice quality.
Cette thèse a donné lieu à une publication en 2011 par [CCSD] à Villeurbanne
Contrôle gestuel de la prosodie et de la qualité vocale