Transformation automatique de la parole : étude des transformations acoustiques

par Larbi Mesbahi

Thèse de doctorat en Informatique

Sous la direction de Olivier Boëffard.

Soutenue en 2010

à Rennes 1 .


  • Résumé

    Le travail effectué dans cette thèse présente une évaluation des techniques de transformation de voix à base de GMM. Ces techniques de transformation linéaires malgré leurs qualités obtenues, elles ne manquent pas de quelques défauts, on peut noter le sur-lissage, le problème de distorsion spectrale et le sur-apprentissage. Dans un premier volet, nous avons pris en compte ces questions pour adapter la stratégie d'apprentissage des fonctions de conversion. La première c'est la réduction du nombre des paramètres libres de la fonction de conversion. La deuxième considère que les solutions par transformation linéaire sont instables face au peu de données d'apprentissage, d'où le recours aux modèles de transformation non-linéaire de type RBF. Dans un deuxième volet, pour aligner les données non-parallèles des locuteurs source et cible, une solution consiste à correspondre ces données via une représentation récursive d'un arbre binaire. Dans un dernier volet, pour obtenir une haute qualité de voix, l'utilisation d'un modèle de true-envelope est nécessaire. Pour cela, le recours aux techniques de réduction de dimension par PCA est indispensable avant d'appliquer les méthodes de conversion.

  • Titre traduit

    Automatic speech transformation : study of acoustic transformations


  • Résumé

    This work presents an experimental evaluation of various voice transformation techniques based on GMM models. These linear transforms, despite their quality obtained, they fail to some defects specially the oversmoothing effect, the problem of spectral distortion and the overfitting. In a first part, we proposed taking these issues into account to adapt the learning strategy of the conversion functions. The first main idea is to reduce the number of parameters describing the conversion function. The second idea considers the solutions based on linear transform are unstable face to the lack of the training data, hence the recourse to non-linear transform model like RBF. In a second part in some situations, we need to align non-parallel data from the source and target speakers, one solution consists to use a recursive representation of binary tree, whose depth depends on the learning data size. In the last part, to get a high voice quality, we have proposed a model of parameters issued from the PCA projection on the true envelope before applying the conversion methods.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XII-151 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 137-145

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rennes I. Service commun de la documentation. Section sciences et philosophie.
  • Disponible pour le PEB
  • Cote : TA RENNES 2010/82
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.