Reconnaissance vocale dans un contexte de voix sur IP : diagnostic et propositions

par Pedro Mayorga Ortiz

Thèse de doctorat en Signal, image, parole, télécoms

Sous la direction de Jean Caelen et de Laurent Besacier.

Soutenue en 2005

à Grenoble, INPG .

    mots clés mots clés


  • Résumé

    Ce travail de thèse a pour but de diagnostiquer les nouveaux défis posés à la reconnaissance vocale dans le contexte récent de la voix sur IP, et de proposer quelques solutions permettant d’y améliorer les performances d’un système de reconnaissance automatique. La première contribution de nos travaux a donc consisté à diagnostiquer le plus précisément possible les problèmes dûs à la compression et à la perte de paquets pour deux tâches de reconnaissance différentes : la reconnaissance automatique de la parole et la reconnaissance automatique du locuteur. A l’issu du diagnostic, nous avons constaté une dégradation plus importante due à la compression sur la tâche de vérification du locuteur. En ce qui concerne la reconnaissance automatique de la parole, la dégradation la plus importante a été provoquée par la perte de paquets. La seconde contribution de cette thèse correspond donc à la proposition de techniques de reconstruction afin d’améliorer la robustesse de systèmes soumis à des conditions de pertes de paquets. Nous proposons aussi d’autres alternatives comme l’adaptation d’un système de reconnaissance automatique de la parole en fonction des pertes de paquets. Les techniques de récupération ont été appliquées sur la base de l’émetteur et sur la base du récepteur. Par ailleurs, nos expérimentations confirment également les avantages d’une « architecture distribuée » où des vecteurs acoustiques transitent sur le réseau depuis le client jusqu’au serveur de reconnaissance, par rapport à une architecture plus classique type « serveur pur » où le signal (ou sa version compressée) transite depuis le terminal client sur le réseau jusqu’à un serveur de reconnaissance.


  • Pas de résumé disponible.

  • Titre traduit

    Vocal recognition in the context of the voice over the internet protocol : diagnostic and propositions


  • Résumé

    The purpose of This work of thesis is to diagnose the new challenges for the speech recognition in the recent context of the voice over IP, and to propose some solutions making it possible to improve the performances of the automatic recognition systems. The first contribution of our work consequently consisted in diagnosing most precisely possible the problems due to the compression and the packet losses for two different recognition tasks: the automatic speech recognition and automatic speaker recognition. From the diagnosis result, we noted a more important degradation due to the compression on the speaker verification task. With regard to the automatic speech recognition, the most important degradation was caused by the packet losses. The second contribution of this thesis thus corresponds to the proposal for recovering techniques in order to improve the robustness of systems under significant packet losses conditions. The recovery techniques were applied on the basis of transmitter and receiver. The experimental results show that the techniques of interleaving based on the transmitter combined with the interpolation based on the receiver, prove to be the most efficient. In addition, our experiments also confirm the advantages of a "distributed architecture" where acoustic vectors traveling on the network from the client to the recognition server (concept of "distributed speech recognition" proposed by the international organization ETSI), compared to an architecture more traditional type "server pure" where the signal (or its compressed version) travels from the client terminal on the network to the recognition server.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (177 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 167-177

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Non disponible pour le PEB
  • Cote : TS05/INPG/0014
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Cote : TS05/INPG/0014/D
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.