Segmentation automatique de parole en phones : Correction d'étiquetage par l'introduction de mesures de confiance

par Samir Nefti

Thèse de doctorat en Informatique

Sous la direction de Marc Guyomard.

Soutenue en 2004

à Rennes 1 .


  • Résumé

    Un système de synthèse de parole par concaténation d'unités acoustiques utilise un dictionnaire de ces unités, construit à partir d'un corpus de parole mono-locuteur segmentée en éléments acoustiques, généralement phonétiques. Pour atteindre une qualité de parole synthétique suffisante, ce dictionnaire doit être richement fourni, et par conséquent nécessite un corpus de plusieurs heures de parole. La segmentation manuelle d'un tel corpus de parole est fastidieuse, d'où l'intérêt de la segmentation automatique. À condition de disposer des transcriptions phonétiques réelles des énoncés, les méthodes automatiques produisent une segmentation de qualité approximativement équivalente à celle d'une segmentation manuelle. Cependant, la transcription manuelle du contenu phonétique du corpus de parole est également fastidieuse. Cette étude concerne la segmentation automatique de parole en phones qui utilise des transcriptions phonétiques automatiquement produites à partir du texte. Elle porte sur la détection et la correction des erreurs d'étiquetage phonétique que contiennent généralement ces transcriptions phonétiques automatiques. Les résultats obtenus dans cette étude sont significativement positifs.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 220 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. :184 p.

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rennes I. Service commun de la documentation. Section sciences et philosophie.
  • Disponible pour le PEB
  • Cote : TARENNES2004/141
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.