Script optimization for TTS voice corpus design in audio-book generation

Meysam Shamsi

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Optimisation de script pour la conception de corpus vocaux de TTS dans la génération de livres audio

FR |

EN

Auteur / Autrice :	Meysam Shamsi
Direction :	Damien Lolive
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 16/10/2020
Etablissement(s) :	Rennes 1
Ecole(s) doctorale(s) :	École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche :	Laboratoire : Institut de recherche en informatique et systèmes aléatoires (Rennes) - EXPRESSION

Mots clés

FR |

EN

Mots clés contrôlés

Synthèse automatique de la parole

Mots clés libres

Sélection de script

Génération de livres audio expressifs

Réduction de voix

Évaluation de la qualité de voix de synthèse

Systèmes de synthèse de parole hybride

Plongements linguistiques et acoustiques

Résumé

FR |

EN

L'objectif de cette thèse est la génération d'un livre audio expressif, vocalisé à l'aide de signaux de parole synthétiques et naturels, avec une haute qualité et un coût d'enregistrement minimal. La stratégie consiste à sélectionner une partie du livre dont les signaux enregistrés issus de sa lecture forment une voix. Cette voix est utilisée pour vocaliser le reste du livre à l'aide d'un système de synthèse de parole. Plusieurs stratégies sont proposées successivement : une stratégie a posteriori reposant sur des techniques de réduction de corpus, l'utilisation d'un auto-encodeur basé sur un réseau neuronal (CNN) se concentrant sur les informations linguistiques, et enfin la sélection des phrases les plus courtes. Ces différentes approches sont évaluées de manière objective et subjective. Enfin, la qualité d'un livre audio mixant signaux de parole naturels et synthétiques est étudiée. Les évaluations montrent que le mélange de signaux synthétiques et naturels est préférable à une vocalisation entièrement synthétique à l'aide d'un système TTS par sélection d'unités. Ce résultat est contraire à ce qui a été rapporté dans la littérature.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Optimisation de script pour la conception de corpus vocaux de TTS dans la génération de livres audio

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Optimisation de script pour la conception de corpus vocaux de TTS dans la génération de livres audio

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses