Approche statistique pour la reconnaissance automatique du locuteur : informations dynamiques et normalisation bayesienne des vraisemblances

par Corinne Fredouille

Thèse de doctorat en Informatique

Sous la direction de Henri Méloni.

Soutenue en 2000

à Avignon .


  • Pas de résumé disponible.


  • Pas de résumé disponible.


  • Résumé

    Ce travail s'inscrit dans le cadre de la reconnaissance automatique du locuteur dont l'objectif principal est de reconnaitre une personne par l'analyse de sa voix. Le premier theme aborde dans ce travail concerne l'utilisation d'informations dynamiques, considerees comme une source potentielle d'informations pour caracteriser le locuteur. Les limites des approches proposees dans la litterature pour un tel traitement portent notamment sur l'incapacite de prendre en compte de larges fenetres temporelles necessaires a une exploitation correcte de ce type d'informations. Pour pallier ce probleme, nous proposons une approche dynamique originale qui repose sur la concatenation de trames successives de signal de parole et sur la selection de la part d'information utile specifique du locuteur. Des experiences menees sur deux bases de donnees de qualite differente ont revele l'interet et les limites de notre approche. Le deuxieme volet de cette these s'interesse au processus de decision en verification automatique du locuteur (val). Ce processus, qui permet de decider d'accepter ou de rejeter l'identite d'une personne a l'aide de sa voix, repose sur la comparaison d'une mesure de vraisemblance a un seuil de decision. Nous proposons dans cette these une nouvelle technique de normalisation des mesures de vraisemblances, appelee world+map. L'originalite de cette approche repose sur la projection des mesures de vraisemblance dans un espace probabiliste. Cette projection permet de doter le seuil de decision d'une signification directement interpretable. Par ailleurs, cette propriete de l'approche world+map facilite ostensiblement l'etape de fusion des scores produits par plusieurs reconnaisseurs dans le cadre d'une architecture multi-reconnaisseur

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (179 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 175-185

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Avignon et des Pays de Vaucluse. Bibliothèque universitaire.
  • Disponible pour le PEB
  • Cote : T 17.00.149
  • Bibliothèque : Centre de recherche INRIA Nancy - Grand Est (Villers les Nancy). Service Information et Edition Scientifiques.
  • PEB soumis à condition
  • Cote : FREDOUILLE a

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université d'Avignon et des Pays de Vaucluse. Bibliothèque universitaire.
  • Non disponible pour le PEB
  • Cote : T MF 145
  • Bibliothèque : Moyens Informatiques et Multimédia. Information.
  • Non disponible pour le PEB
  • Cote : MF-2000-FRE
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.