Sélection des unités pour la synthèse vocale par concaténation

par Christophe Blouin

Thèse de doctorat en Informatique

Sous la direction de Christophe d' Alessandro.

Soutenue en 2003

à Paris 11 .


  • Résumé

    Cette thèse concerne la synthèse vocale à partir du texte: c'est-à-dire l'énonciation orale d'un texte de nature quelconque par le système de synthèse. Le travail réalisé porte sur la méthode de génération du signal de parole par concaténation de signaux élémentaires de parole pré-enregistrés, les unités, et plus particulièrement sur la procédure de sélection de ces unités dans la base de données. Actuellement, la qualité de la synthèse obtenue par la méthode par concaténation est reconnue comme proportionnelle au nombre des unités présentes dans la base de données. Ce constat explique la généralisation récente de bases de données de grande taille, de l'ordre de quelques heures de parole enregistrée. Néanmoins, la taille importante d'une base de données n'assure pas seule la bonne qualité de la synthèse obtenue: une procédure de sélection capable de retrouver dans cette base les unités les plus appropriées est aussi essentielle. L'objectif de cette thèse est donc de proposer une nouvelle procédure de sélection des unités. La méthode employée pour aborder la sélection des unités consiste à la décomposer en trois étapes indépendantes les unes des autres: le choix des unités (le choix des paramètres qui les définissent et le choix de la base de données dont ces unités sont extraites); la pré-sélection, (la sélection des unités potentiellement utilisables pour la vocalisation de la phrase); la sélection finale des unités effectivement utilisées. Deux nouvelles méthodes de pré-sélection sont proposées: l'une basée sur des connaissances expertes et un formalisme très générique; l'autre reposant sur une technique d'apprentissage automatique couplée à une technique de partitionnement acoustique. Une nouvelle méthode de sélection finale, s'inspirant de travaux récemment présentés dans la littérature, est aussi proposée. Les procédures de sélection des unités qui incluent les différentes méthodes proposées sont évaluées au cours de tests formels d'écoute.


  • Résumé

    This thesis is about Text-To-Speech (TTS), i. E. : the oral enunciation of an unrestricted text by the speech synthesis system. The accomplished work concerns the signal generation method that operates by concatenating pre-recorded elementary speech signals, the units, and especially these signals selection procedure. Nowadays, the quality of the speech synthesized by the concatenative method is acknowledged as proportional to the number of units stored in the database. This statement explains the recent spread of big databases, containing about several hours of recorded speech. However, the size of a database, how big it might be, cannot assure the good quality of the synthesized speech: a unit selection procedure able to find in the database the most adapted units is also necessary. Consequently, the aim of this thesis is to propose a new unit selection procedure. The method used to deal with the unit selection procedure is to break it up into three separate steps: the unit choice (that is, the choice of units parameters and the choice of the database); the pre-selection (the selection in the database of the units which could be used for the vocalisation of the input sentence); the final selection of the units eventually used. Two novel pre- selection methods are proposed: the first one of these is based on linguistic knowledge and on a generic formalism, while the second one is based on an automatic learning procedure coupled with an acoustic clustering technique. A new final selection method is also proposed, inspired by most recent works presented in literature. The unit selection procedures that embed the proposed methods for pre-selection and final selection are eventually evaluated during formal listening tests.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 231 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.205-223

Où se trouve cette thèse ?

  • Bibliothèque : Laboratoire Parole et Langage (Aix-en-Provence). Centre de documentation.
  • Non disponible pour le PEB
  • Cote : T 03 BLO
  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : M/Wg ORSA(2003)262
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.