Identification et generation automatique de contours prosodiques pour la synthese vocale a partir du texte en francais

par Stéphanie de Tournemire

Thèse de doctorat en Chimie

Sous la direction de Laurent Miclet.

Soutenue en 1998

à Paris, ENST .

    mots clés mots clés


  • Résumé

    En francais, comme dans la plupart des langues indo-europeennes, la prosodie depend de nombreux facteurs (la syntaxe, la semantique, la pragmatique, le locuteur) difficiles a modeliser par un seul systeme de synthese a partir du texte (tts). Ainsi, generalement, la creation d'une nouvelle voix synthetique consiste a modifier les niveaux acoustiques sans introduire de nouvelles caracteristiques prosodiques. Les techniques d'apprentissage automatique permettent d'extraire automatiquement les regularites prosodiques presentes dans un corpus de parole enregistree. Neanmoins, ces techniques necessitent la transcription prosodique (souvent) manuelle de corpus importants, creant par la-meme un frein a l'acquisition rapide de nouveaux modeles prosodiques. Cette etude propose une solution permettant de capturer automatiquement une nouvelle prosodie a partir d'un corpus de parole enregistree. La methodologie de construction du modele prosodique comporte trois principales etapes : la transcription prosodique semi-automatique d'un corpus enregistre, l'apprentissage automatique d'un modele de prediction des contours prosodiques a partir du corpus transcrit et l'integration de ce modele dans un systeme de synthese de parole a partir du texte. La mise au point de la methodologie s'appuie sur la realisation d'un modele prosodique de f0 et des durees pour le francais a partir d'un corpus enregistre. L'erreur objective moyenne produite par le modele sur la base de test est de 20 hz pour f0 et de 17 ms pour les durees des phonemes. Les resultats d'un test subjectif ont situe le modele prosodique developpe comme equivalent au systeme standard de generation des contours prosodiques du cnet (cnetvox). La methodologie est appliquee a l'acquisition des parametres prosodiques d'un second locuteur a partir d'un corpus enregistre par ce nouveau locuteur. Les performances du nouveau modele prosodique permettent de valider la methodologie.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 254 p.
  • Annexes : 179 ref.

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
  • Disponible pour le PEB

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire Joseph-Fourier.
  • Non disponible pour le PEB
  • Cote : MF-1998-TOU
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.