Transformation de l'intonation : application à la synthèse de la parole et à la transformation de voix

par Damien Lolive

Thèse de doctorat en Informatique

Sous la direction de Olivier Boëffard et de Nelly Barbot.

Soutenue en 2008

à Rennes 1 .


  • Résumé

    Les travaux de cette thèse se situent dans le cadre de la transformation de la prosodie en se focalisant sur la fréquence fondamentale, F0, facteur jugé proéminent dans le traitement de la prosodie. En particulier, nous nous intéressons aux différentes étapes nécessaires à la construction d'un tel système : la stylisation, la classification et la transformation des contours mélodiques. Pour chaque étape, nous proposons une méthodologie qui tient compte des problèmes qui se sont posés à l'étape précédente. Tout d'abord, un modèle B-spline est proposé pour la stylisation des contours mélodiques. Ensuite, pour représenter l'espace mélodique du locuteur, une approche par modèles de Markov est introduite. Enfin, une méthodologie de transformation de la prosodie à partir de corpus non parallèles par une technique d'adaptation au locuteur est présentée. Les résultats obtenus tendent à montrer qu'il est nécessaire de traiter la dynamique du F0 et de piloter la transformation par des informations d'ordre morphosyntaxique.

  • Titre traduit

    Prosody transformation : application to speech synthesis and voice transformation


  • Résumé

    The work presented in this thesis lies within the scope of prosody conversion and more particularly the fundamental frequency conversion which is considered as a prominent factor in prosody processing. This document deals with the different steps necessary to build such a conversion system : stylization, clustering and conversion of melodic contours. For each step, we propose a methodology that takes into account the issues and difficulties encountered in the previous one. A B-spline based approach is first proposed to model the melodic contours. Then to represent the melodic space of a speaker, a HMM based approach is introduced. To finish, a prosody transformation methodology using non-parallel corpora based on a speaker adaptation technique is derived. The results we obtain tend to show that it is necessary to model the evolution of the melody and to drive the transformation system by using morpho-syntactic information.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XII-185 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 169-182

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rennes I. Service commun de la documentation. Section sciences et philosophie.
  • Disponible pour le PEB
  • Cote : TA RENNES 2008/102
  • Bibliothèque : Centre de recherche INRIA Rennes - Bretagne Atlantique. Service IST.
  • PEB soumis à condition
  • Cote : I.2.7 - LOL
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.