Multi-hypotheses feedback for robust speech recognition using a microphone array input

par Luca Giulio Brayda

Thèse de doctorat en Automatique, traitement du signal et des images

Sous la direction de Christian Wellekens.

  • Titre traduit

    Rétroaction à hypothèses multiples pour la reconnaissance robuste de la parole à l'aide d'un réseau de microphones d'entrée


  • Résumé

    Reconnaître la parole dans des environnements réels est d'autant plus difficile que le niveau de bruit augmente et que le locuteur est éloigné du microphone. Des études récentes ont montré que la qualité de la parole en termes de rapport signal/bruit (SNR) peut être augmentée en utilisant des réseaux de microphones. En exploitant la corrélation spatiale entre les signaux multicanaux, on peut orienter le réseau vers le locuteur (formation de faisceau). On peut réaliser cela en exploitant l'interférence destructive entre canaux de bruit à l'aide de la technique retards-et-somme où les retards entre senseurs sont estimés et appliqués au signal de chaque canal. Dans une autre méthode, on peut réaliser un filtre par canal (filtrage-et-somme): ces filtres sont fixes ou adaptatifs sur base du canal voire de la trame selon le critère choisi. Dans ce travail, nous traitons le problème observé que l'accroissement du SNR ne conduit pas automatiquement a celui des taux de reconnaissance et certainement pas dans la même proportion. Seltzer(2004) a proposé d'utiliser un formateur de faisceau filtrage-et-somme adaptatif selon le critère de la vraisemblance maximale (Limabeam) plutôt que selon le SNR. Dans cette méthode, les filtres sont adaptés de façon non-supervisée en utilisant des modèles de parole propre qui sont alignés au mieux sur les traits de parole bruitée. Ensuite le reconnaisseur utilise la somme des signaux filtrés pour générer une transcription finale. Dans cette thèse, nous montrons qu'en considérant en parallèle les N meilleures hypothèses au lieu de la seule meilleure, avant l'optimisation, on peut augmenter le taux de reconnaissance presque jusqu'à celui d'un algorithme supervisé: en fait après les optimisations parallèles, la liste des N meilleures hypothèses est automatiquement réordonnée et les erreurs de reconnaissance sont éliminées. Le cadre du Limabeam aux N-meilleures hypothèses a été testé en présence de bruit additif significatif. En outre, le potentiel du formateur de faisceau retards-et-somme, du Limabeam et du cadre proposé a été étudié dans une salle de réunion très réverbérante où la base de données collectée simule les différentes positions du locuteur et ses mouvements de tête: le but est d'estimer des filtres pour la reconnaissance ou d'exploiter l'information additionelle relative à l'environnement telle que les réponses impulsionnelles des salles.


  • Résumé

    Recognizing speech in real environments is as much difficult as the amount of noise increases and the speaker is far from the microphone. Recent studies showed that speech quality in terms of signal to noise ratio (SNR) can be increased using microphone arrays. By exploiting the spatial correlation among multi-channel signals, one can steer the array toward the speaker (beamforming). This can be done by simply exploiting inter-channel destructive interference of noise with a delay-and-sum technique, where inter-sensor delays are estimated and applied to each channel signal. Alternatively, per-channel filters (filter-and-sum) can be implemented: these filters can be fixed or adapted on a per-channel or per-frame basis, depending on the chosen criterion. In this work we address the problem that increasing the SNR does not imply increasing recognition performance to the same extent. Seltzer (2004) proposes to apply an adaptive filter-and-sum beamformer based on a Maximum Likelihood criterion (Limabeam) rather than on the SNR. In this method, filters are adapted in an unsupervised way using clean speech models which best align noisy speech features. Then the recognizer uses the sum of the filtered signals to generate a final transcription. In this thesis we show that considering in parallel N-best hypotheses instead of the best one, prior to optimization, can increase recognition performance close to that of a supervised algorithm: in fact after the parallel optimizations the N-best list is automatically re-ranked and recognition errors can be recovered. The framework of the N-best Limabeam was tested when significant additive noise is present. Furthermore, the potential of delay-and-sum beamforming, of Limabeam and of the proposed framework was studied in a very reverberant meeting room, where the collected database mimic different talker positions and head orientations: the purpose is to estimate recognition-oriented filters or exploiting additional information related to the environment such as the room impulse responses.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (xxxiv-164 p.)
  • Annexes : Bibliogr. p. 155-164. Résumés en anglais et en français

Où se trouve cette thèse ?

  • Bibliothèque : Université Nice Sophia Antipolis. Service commun de la documentation. Section Sciences.
  • Non disponible pour le PEB
  • Cote : 07NICE4022
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.