Thèse de doctorat en Traitement du signal et télécommunications
Sous la direction de Samir Saoudi.
Soutenue en 2007
à Télécom Bretagne .
Lia segmentation de grands corpus est une tâche indispensable dans la réalisation de nombreux systèmes de communication Homme-Machine comme les systèmes de synthèse de la parole et de reconnaissance vocale. Cette segmentation se doit d'être la plus précise et la plus proche de la segmentation manuelle. Certaines techniques automatiques permettent d'acquérir une précision acceptable dans certaines applications. Parmi ces techniques, il existe une approche standard basée sur les modèles de Markov cachés (HMM). Cette approche est notre référence. Néanmoins, dans des applications comme la synthèse vocale, cette technique automatique reste insuffisante et ne garantit pas une très bonne qualité de la parole synthétique. Pour cette raison, des vérifications manuelles faites par des experts humains sont appliquées à la segmentation de la parole. Ces vérifications sont fastidieuses et très coûteuses. Ce travail de thèse propose des solutions pour réduire, voire éliminer ces vérifications et par conséquent faciliter la création de voix de synthèse. Dans un premier temps, nous proposons une solution générique et efficace pour la segmentation de grands corpus. Cette approche est basée sur la fusion de plusieurs segmentations et permet de réduire de presque 60\% le nombre d'erreurs par rapport à la segmentation standard par HMM lorsqu'on utilise une phonétisation correcte du corpus de parole. Ensuite, nous étudions la détection des erreurs de segmentation dans le but d'alléger la tâche de vérification manuelle. Cette détection des erreurs de segmentation est réalisée avec des mesures de confiance déduites de certains algorithmes utilisés pour fusionner les segmentations. Enfin, nous traitons le problème de la correction des erreurs de phonétisation. Cette étude est une première étape pour traiter le cas où notre système de segmentation basé sur la fusion utilise une phonétisation erronée.
Automatic segmentation of continous speech corpora dedicated to speech synthesid
Pas de résumé disponible.
This segmentation of large corpora is an essential task in several Human-machine interfaces in communication systems such as voice synthesis and voice recognition. This segmentation must be very accurate and close to manual segmentation. Some automatic techniques are able to achieve an acceptable accuracy in some applications. Among these techniques, the standard approach based on Hidden Markov Models (HMM) performs reasonably well. Nervetheless, for TTS synthesis systems, these automatic techniques remain insufficient and do not guarantee an acceptable synthetic voice quality. For this reason, a manual checking made by human experts is generally applied to the segmentation. This checking is lengthy and very expensive. This research is a contribution to TTS synthesis that aims at improving the automatic segmentation of speech signals in order to ease the creation of synthetic voices. In this document, we first propose a generic and efficient approach for the segmentation of large corpora. This approach is based in the fusion of several segmentations and makes it possible to reduce by around 60 % the number of errors produced by the standard HMM segmentation when a correct phonetic transcription of the speech corpus is used. Finally, within this framework, we address the correction of the phonetic transcription. This study can be regarded as a first step applicable to the case where the phonetic transcription at the input of our generic system of segmentation is not correct.