Une approche hiérarchique de la segmentation du signal de parole

par Jean-Luc Husson

Thèse de doctorat en Informatique

Sous la direction de Yves Laprie.

Soutenue en 1998

à Nancy 1 .


  • Résumé

    Dans cette thèse, nous reconsidérons le décodage acoustico-phonétique de parole sous un angle analytique. Pour ce faire, nous proposons un système de segmentation automatique du signal de parole continue et dans des conditions d'indépendance vis-à-vis du locuteur. Notre objectif consiste à transformer l'onde acoustique continue en une séquence discrète de segments temporels correspondant à des réalisations acoustiques de phonèmes. Le premier chapitre vise à présenter au lecteur non expert du domaine la problématique de la communication orale homme-machine et démontrer l'importance du niveau de traitement perceptif. Le second chapitre est dédié à l'étude de l'étape de segmentation et à la présentation de plusieurs systèmes de segmentation représentatifs de la diversité des approches possibles. Le chapitre III est dédié à la présentation de nos travaux concernant l'extraction coopérative de la fréquence fondamentale. Les bons résultats obtenus pour de la parole propre et bruitée nous permettent d'utiliser ce système pour présegmenter le signal en régions voisées et non-voisées. Le chapitre IV est consacré à la présentation de notre système hiérarchique. Nous proposons un algorithme permettant de retrouver dans les réseaux de segmentation multiniveaux (dendrogrammes) un ensemble réduit des solutions de segmentation phonétique les plus vraisemblables. Le coefficient de vraisemblance attribue à une segmentation candidate est calculée en fonction de critères de durée et d'homogénéité spectrale des segments acoustiques qui la composent. Nous montrons qu'une contrainte globale de durée (estimation sous la forme d'un intervalle de confiance du nombre de segments attendus compte tenu de la durée du signal) permet de réduire efficacement l'espace de recherche. Le chapitre V aborde le problème de l'évaluation des systèmes de segmentation en général et présente les résultats qualitatifs et quantitatifs obtenus par notre système sur des corpus du français.

  • Titre traduit

    A hierarchical approach of speech signal segmentation


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (276 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 132 références.

Où se trouve cette thèse ?

  • Bibliothèque : Université de Lorraine (Villers-lès-Nancy, Meurthe-et-Moselle). Direction de la Documentation et de l'Edition - BU Sciences et Techniques.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.