Thèse soutenue

Modélisation de la prosodie pour la synthèse de la parole arabe standard à partir du texte

FR  |  
EN
Auteur / Autrice : Ahmed Zaki
Direction : Mohamed Najim
Type : Thèse de doctorat
Discipline(s) : Sciences physiques et de l'ingénieur. Automatique, productique, signal et image
Date : Soutenance en 2004
Etablissement(s) : Bordeaux 1

Résumé

FR

Dans ce mémoire, nous proposons d'aborder le traitement de la prosodie afin d'améliorer le naturel d'un système de synthèse de la parole arabe standard à partir du texte. D'une manière générale, la qualité de synthèse est principalement mesurée par l'intelligibilité et le naturel de la parole. L'intelligibilité dépend essentiellement de la technique et de la méthode de synthèse utilisées. Le naturel est quant à lui il est associé en grande partie à l'aspect prosodique de la langue étudiée. De point de vue acoustique, la prosodie est définie par les variations de la fréquence fondamentale (intonation), la durée segmentale (rythme) et l'intensité. Ce mémoire traite de la modélisation des variations de la fréquence fondamentale et de la durée segmentale de la langue arabe standard. Nous avons proposé deux approches différentes pour la génération automatique de la prosodie. La première approche consistait en l'utilisation des réseaux de neurones pour l'apprentissage automatique. Deux modèles ont ainsi été élaborés. Le premier est dédié à la synthèse des contours intonatifs. Le deuxième est consacré à la prédiction de la durée segmentale. D'après les résultats expérimentaux, l'approche neuronale s'avère plus adaptée à la modélisation de la durée segmentale. C'est ainsi que nous avons proposé l'étude d'une autre approche pour la génération automatique des variations de la fréquence fondamentale. La deuxième approche proposée dans ce mémoire s'est articulée autour du développement d'un modèle intonatif fondé sur l'approche phonologique. Cette dernière permet la compréhension du mécanisme de génération de la prosodie à partir d'une représentation symbolique. Cette compréhension se manifeste par les règles employées sur le plan phonologique et sur le plan phonétique. Les règles utilisées dans le module phonologique sont fondées essentiellement sur un algorithme d'accentuation "standard". Ce dernier représente le noyau des règles tonales qui sont employées dans le module phonétique. Malgré l'aspect approximatif du modèle phonétique, les phrases de synthèse générées avec les contours intonatifs du modèle proposé ont été jugées perceptivement équivalentes aux phrases générées avec les contours intonatifs estimés de la parole naturelle.