Etude des désintégrations B eta-cK avec le détecteur BABAR

par Mélanie Langer

Thèse de doctorat en Physique

Sous la direction de Georges London.

Soutenue en 2003

à Paris 11 .


  • Résumé

    Le principe des systèmes de synthèse de la parole actuels est de sélectionner, dans une importante base de données de parole lue, des unités acoustiques de taille variable, et de les concaténer pour reconstruire un signal de parole le plus naturel possible. Cette sélection est réalisée en minimisant deux fonctions de coûts: le coût de cibles et le coût de concaténation. Le premier établi une distance entre la phrase cible (texte d'entrée) et ce qui est disponible dans la base, le second quantifie la qualité de la jonction entre deux unités étudiées. À l'aide de ces deux fonctions, toutes les combinaisons possibles sont parcourues, puis la meilleure est sélectionnée. Notre approche est de calculer chacune des fonctions selon différents critères de hauts niveaux. Le système est donc facilement adaptable à tous types de voix car peu dépendant de leurs caractéristiques physiques. Le système développé dans le cadre de cette thèse peut aussi être utilisé comme module de prédiction de la prosodie. Sans analyse syntaxique et sans règles, il est possible de calculer les valeurs de F0 et de durée à partir de la base de données. La partie segmentale de la synthèse est alors prise en charge par un synthétiseur acoustique à partir de diphones (MBROLA). Une évaluation montre que les résultats ainsi obtenus sont comparables avec la prosodie calculée à partir de règles. Pour finir, nous avons analysé les différences entre les voix de synthèse et leurs versions originales (naturelle). Cette étude a été réalisée pour 20 locuteurs (10 hommes et 10 femmes). Elle met en avant la difficulté de déterminer des paramètres mesurables permettant de prédire si une voix est appropriée à la synthèse. Ainsi, la qualité d'une voix de synthèse dépend pour beaucoup de la régularité de la prosodie et du timbre de la voix.

  • Titre traduit

    Study of the decays B eta-cK at the BABAR experiment


  • Résumé

    State of the art Text-to-Speech synthesis systems are based on the principle of variable length unit selection in significantly large databases of read speech. These acoustic units of variable sizes are then concatenated for speech synthesis. Unit selection is carried out by minimizing two cost functions: the target cost and the concatenation cost. The first cost computes a distance between the target sentence (input text) and what is available in the database, the second cost quantifies the quality of the junction between two particular units. With these two functions, the cost of all the possible combinations are estimated, and then the best candidate chain is selected. Our approach is to calculate each function according to various high level criteria. The system is well suited to all voice types because it is not very dependent on their physical characteristics. The selection/concatenation synthesis system developed in the framework of this thesis can also be used for prosodic prediction. Without any rules or syntactic analysis, the optimal selection algorithm is able to compute F0 and duration values according to a given speech database. This prosodic module can be associated to a diphone acoustic synthesizer. In our experiments, we used the MBROLA diphone system for comparing 4 different conditions for prosodic prediction (2 rule systems, natural copy prosody and selection based prosody). The last part of the thesis is devoted to analyses of the differences between synthetic voices and the original voices from which they originate. This study was performed for 20 synthetic speakers (10 men and 10 women). It proved difficult to determine efficient acoustic parameters for predicting the appropriateness of a particular voice for synthesis. However, it seems that the quality of synthetic voices depends for much on the prosodic regularity and one the voice quality.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 196 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.184-187

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris-Saclay. DIBISO. BU Orsay.
  • Disponible pour le PEB
  • Cote : M/Wg ORSA(2003)41

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Non disponible pour le PEB
  • Cote : 2003PA112041
  • Bibliothèque : Université Paris-Est Créteil Val de Marne. Service commun de la documentation. Section multidisciplinaire.
  • PEB soumis à condition
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.