Surveillance de réseaux professionnels de communication par reconnaissance du locuteur

par Alexandre Preti

Thèse de doctorat en Informatique

Sous la direction de Jean-François Bonastre.

Soutenue en 2008

à Avignon .


  • Résumé

    Ce travail de thèse s'intéresse à la reconnaissance automatique du locuteur (RAL) dans les réseaux professionnels de communication (Private Mobile Radio networks : PMR). Plus précisément, nous nous intéressons à la surveillance des utilisateurs en cours de communication pour détecter un changement de locuteur, issu du vol ou du prêt d'un terminal de communication. Les systèmes « état de l'art » de RAL présentent aujourd'hui de très bonnes performances sur des signaux de conversations téléphoniques. Néanmoins, l'application envisagée entraine différentes contraintes liées au fonctionnement du réseau PMR et à l'ergonomie particulière d'une telle application. En effet, la RAL doit être effectuée en continue et les réseaux PMR offrent une qualité du signal de parole plus faible que les réseaux de téléphonie classique. Dans ce travail, nous évaluons l'impact de ces contraintes applicatives sur les performances d'un système de RAL et nous proposons des solutions pour pallier les différents problèmes énoncés. Plus particulièrement, nous nous intéressons à la phase de paramétrisation qui doit être réalisée en ligne et dans l'environnement des réseaux PMR, ainsi qu'à l'adaptation non supervisée des modèles de locuteurs. Cette technique permet d'utiliser des données de test pour améliorer les modèles de locuteur ; elle répond au problème des durées courtes d'apprentissage et permet de mieux modéliser les variabilités intra-locuteur et inter-session


  • Résumé

    This thesis work deals with automatic speaker recognition for professional telecommunication networks (PMR). More precisely, the targeted application is the online monitoring of communications on this kind of networks. State of the art speaker recognition systems show good performance on telephonic data. Therefore, the targeted application introduces specific constaints. We evaluate the impact of these constraints on a baseline speaker recognition system and propose solutions to limit their influence on recognition error rates. Firstly, we propose an optimised speech parameterization. Some technics are introduced to compensate the effects of noisy environments, low bitrate voice coding and channel transmission variations. Moreover, this parameterization is compliant with the online recognition processing needed by the targeted application. Then, we introduce a new approach for unsupervised speaker model adaptation to reduce the issue of the poor quantity of learning data. Unsupervised adaptation is also a way to reduce the impact of the intra-speaker and inter-session variabilities. We propose a continuous progressive speaker model adaptation able to take into account all the test data withdrawing threshold based data selection

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (197 p.)
  • Annexes : Bibliogr. p. 185-195

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Avignon et des Pays de Vaucluse. Bibliothèque universitaire.
  • Disponible pour le PEB
  • Cote : T 17.08.340
  • Bibliothèque : Université d'Avignon et des Pays de Vaucluse. Bibliothèque universitaire.
  • Non disponible pour le PEB
  • Cote : T AVI.08.339
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.