Thèse soutenue

De l'utilisation d'informations acoustiques suprasegmentales en reconnaissance de la parole continue

FR
Auteur / Autrice : Vincent Pagel
Direction : Noëlle Carbonell
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 1999
Etablissement(s) : Nancy 1
Partenaire(s) de recherche : autre partenaire : Université Henri Poincaré Nancy 1. Faculté des sciences et techniques

Résumé

FR

Ce travail a pour but d'utiliser des indices acoustiques suprasegmentaux en reconnaissance de la parole continue, en exploitant notamment la régularité des accents venant conclure les groupes intonatifs en français. Nous avons d'abord mis au point avec J. Vaissière (professeur à Paris III) des conventions de marquage accentuel et intonatif du français que nous avons appliquées à un corpus monolocuteur. Pour reproduire automatiquement le marquage de l'expert, nous avons ensuite utilisé un classificateur connexioniste, puis un classificateur par arbre de décision, utilisant des indices acoustiques sur la syllabe et son contexte immédiat : durée, énergie acouqtique, valeur de la fréquence fondamentale. Les accents sont prédits avec une précision de 85% et on observe la forte corrélation de l'accent primaire et de l'émergence de la durée syllabique. Les indices d'énergie ne sont utilisés que pour la caractérisation de l'accent secondaire. Avec une précision de 74%, la prédiction des accents internes au groupe de souffle reste la principale difficulté. Dans un second temps nous avons utilisé une méthode de délexicalisation pour comparer les performances humaines à celles des classificateurs sur le même type de tâche. Les énoncés, dont on veut faire analyser l'accentuation par des auditeurs, sont réitérés à l'aide du synthétiseur vocal MBROLA, après modification des sons élémentaires pour masquer le sens, selon un paradigme original appelé Karaoke Prosodique. Les auditeurs sélectionnent les groupes prosodiques avec une précision étonnante, mais aussi avec prudence puisque le nombre d'accents internes détectés au sein des groupes de souffle est faible, confirmant ainsi les difficultés rencontrées avec les classificateurs. La méthode offre de nombreuses applications pour l'étude de la perception de la prosodie, et nous concluons que dans les études futures, les accents primaires au contact des prises de souffle devront systématiquement être placés dans des classes séparées.