De l'utilisation d'informations acoustiques suprasegmentales en reconnaissance de la parole continue

par Vincent Pagel

Thèse de doctorat en Informatique

Sous la direction de Noëlle Carbonell.

Soutenue en 1999

à Nancy 1 , en partenariat avec Université Henri Poincaré Nancy 1. Faculté des sciences et techniques (autre partenaire) .


  • Résumé

    Ce travail a pour but d'utiliser des indices acoustiques suprasegmentaux en reconnaissance de la parole continue, en exploitant notamment la régularité des accents venant conclure les groupes intonatifs en français. Nous avons d'abord mis au point avec J. Vaissière (professeur à Paris III) des conventions de marquage accentuel et intonatif du français que nous avons appliquées à un corpus monolocuteur. Pour reproduire automatiquement le marquage de l'expert, nous avons ensuite utilisé un classificateur connexioniste, puis un classificateur par arbre de décision, utilisant des indices acoustiques sur la syllabe et son contexte immédiat : durée, énergie acouqtique, valeur de la fre��quence fondamentale. Les accents sont prédits avec une précision de 85% et on observe la forte corrélation de l'accent primaire et de l'émergence de la durée syllabique. Les indices d'énergie ne sont utilisés que pour la caractérisation de l'accent secondaire. Avec une précision de 74%, la prédiction des accents internes au groupe de souffle reste la principale difficulté. Dans un second temps nous avons utilisé une méthode de délexicalisation pour comparer les performances humaines à celles des classificateurs sur le même type de tâche. Les énoncés, dont on veut faire analyser l'accentuation par des auditeurs, sont réitérés à l'aide du synthétiseur vocal MBROLA, après modification des sons élémentaires pour masquer le sens, selon un paradigme original appelé Karaoke Prosodique. Les auditeurs sélectionnent les groupes prosodiques avec une précision étonnante, mais aussi avec prudence puisque le nombre d'accents internes détectés au sein des groupes de souffle est faible, confirmant ainsi les difficultés rencontrées avec les classificateurs. La méthode offre de nombreuses applications pour l'étude de la perception de la prosodie, et nous concluons que dans les études futures, les accents primaires au contact des prises de souffle devront systématiquement être placés dans des classes séparées.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XIV-233 p.)
  • Annexes : Bibliographie p. 225-233

Où se trouve cette thèse ?

  • Bibliothèque : Université de Lorraine (Villers-lès-Nancy, Meurthe-et-Moselle). Direction de la Documentation et de l'Edition - BU Sciences et Techniques.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.