Mesures de confiance en traitement automatique de la parole et applications

par Julie Mauclair

Thèse de doctorat en Informatique

Sous la direction de Paul Deléglise.

Soutenue en 2006

à Le Mans .


  • Résumé

    Ce travail de thèse se place dans le contexte de la campagne d'évaluation ESTER (Evaluation des Systèmes de Transcription enrichie d'Emissions Radiophonique). L'objectif de ce travail de thèse consiste dans un premier temps à proposer des indicateurs ou mesures de confiance permettant de distinguer les zones correctes ou erronées au sein des hypothèses de reconnaissance fournies par un système de transcription automatique de la parole (STAP). Dans un second temps, deux types d'applications utilisant des mesures de confiance sont appréhendées : - la collecte de corpora de transcriptions automatiques fiables alignés sur de la parole enregistrée, par exemple pour augmenter la taille des corpora d'apprentissage disponibles pour l'estimation de modèles acoustiques ; - l'identification nommée automatique du locuteur, qui consiste à extraire des transcriptions automatiques des noms de locuteurs et à les associer aux étiquettes anonymes utilisées par un système d'indexation. Trois mesures de confiance seront proposées, une mesure de confiance dérivée des sorties acoustiques du STAP, une mesure de confiance basée sur le repli du modèle de langage et une mesure de confiance provenant de la probabilité a posteriori d'un mot. A l'aide de métriques d'évaluation de mesures de confiance, ces trois mesures sont comparées et la meilleure combinaison des trois est calculée. Cette combinaison permet d'accroître les performances de chacun des trois mesures dans la détection des zones erronées ou correctes. La première application vise à accroître les performances du STAP utilisé par le LlUM en augmentant de manière non supervisée les données d'apprentissage des modèles acoustiques. Ainsi, les zones de parole ayant un degré de confiance élevé dans un deuxième corpus transcrit automatiquement sont prélevées et ajoutées au corpus d'apprentissage initial transcrit manuellement. Grâce à cet ajout, les performances du SRAP sont significativement améliorées en termes de taux d'erreur sur les mots. Enfin, dans le cadre de l'identification du locuteur d'un document sonore, des scores de confiance sont utilisés pour déterminer le nom du locuteur directement à partir de la transcription. Environ 70% de la durée totale des émissions est correctement indexée en locuteur sur un corpus de test.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (142 p.)
  • Annexes : Bibliogr. p. 129-140

Où se trouve cette thèse ?

  • Bibliothèque : Université du Maine. Service commun de documentation. Section Sciences.
  • Non disponible pour le PEB
  • Cote : 2006LEMA1027
  • Bibliothèque : Université du Maine. Service commun de documentation. Section Sciences.
  • Non disponible pour le PEB
  • Cote : 2006LEMA1027
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.