Réseaux bayésiens dynamiques pour la vérification du locuteur

par Eduardo Sánchez-Soto

Thèse de doctorat en Signal et images

Sous la direction de Gérard Chollet et de Marc Sigelle.

Soutenue en 2005

à Paris, ENST .


  • Résumé

    Cette thèse est concernée avec la modélisation statistique du signal de parole appliqué à la vérification du locuteur (VL) en utilisant des réseaux bayésiens (RBs). L'idée principale de ce travail est d'employer les RBs comme un outil mathématique afin de combiner plusieurs sources d'information obtenues à partir du signal de parole en gardant ses relations. Elle combine de travail théorique et expérimental. Une différence fondamentale entre les systèmes de VL et les humains est la quantité et la qualité de l'information utilisée ainsi que la relation entre les sources d'information employées pour prendre des décisions. L'identité d'un locuteur est codée dans plusieurs sources d'information qui peuvent être modélisées par des RBs. La première partie de cette thèse passe en revue les modules principaux des systèmes de VL, les sources possibles d'information aussi bien que les concepts de base des modèles graphiques. La deuxième partie de cette thèse aborde le module de modélisation du système de VL proposé. On propose une nouvelle façon d approcher les problèmes liés aux systèmes de VL. Il est décrit comment apprendre les relations d'indépendance conditionnelle parmi les variables directement à partir des données. Enfin, nous proposons une technique pour adapter les RBs basée sur certaines caractéristiques mathématiques des relations d'indépendance conditionnelles. Cette adaptation est basée sur une mesure entre les distributions de probabilité conditionnelles entre des variables discrètes, et de la même façon, sur la matrice de régression pour des variables continues. A l'issue de nos recherches, l'intérêt d'employer les RBs dans les systèmes de VL est clairement montré.

  • Titre traduit

    Dynamic bayesian networks for speaker verification


  • Résumé

    This thesis is concerned with the statistical modeling of speech signal applied to Speaker Verification (SV) using Bayesian Networks (BNs). The main idea of this work is to use BNs as a mathematical tool to model pertinent speech features keeping its relations. It combines theoretical and experimental work. The difference between systems and humans performance in SV is the quantity of information and the relationships between the sources of information used to make decisions. A single statistical framework that keeps the conditional dependence and independence relations between those variables is difficult to attain. Therefore, the use of BNs as a tool for modeling the available information and their independence and dependence relationships is proposed. The first part of this work reviews the main modules of a SV system, the possible sources of information as well as the basic concepts of graphical models. The second part deals with Modeling. A new approach to the problems associated with the SV systems is proposed. The problem of inference and learning (parameters and structure)in BNs are presented. In order to obtain an adapted structure the relations of conditional independence among the variables are learned directly from the data. These relations are then used in order to build an adapted BN. In particular, a new model adaptation technique for BN has been proposed. This adaptation is based on a measure between Conditional Probability Distributions for discrete variables and on Regression Matrix for continuous variables used to model the relationships. In a large database for the SV task, the results have confirmed the potential of use the BNs approach.

Autre version

Cette thèse a donné lieu à une publication en 2005 par École nationale supérieure des télécommunications à Paris

Réseaux bayésiens dynamiques pour la vérification du locuteur


Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (186 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.181-186

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
  • Disponible pour le PEB
  • Cote : 7.331 SANC
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.
Cette thèse a donné lieu à 1 publication .

Consulter en bibliothèque

Cette thèse a donné lieu à une publication en 2005 par École nationale supérieure des télécommunications à Paris

Informations

  • Sous le titre : Réseaux bayésiens dynamiques pour la vérification du locuteur
  • Dans la collection : ENST , 2005E032 , 0751-1353
  • Détails : 1 vol. (186 p.)
  • Notes : Texte en anglais. Résumé étendu en français.
  • Annexes : Bibliogr. p. 181-186. Résumé en français et en anglais
La version de soutenance de cette thèse existe aussi sous forme papier.

Où se trouve cette thèse ?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.