Détection automatique de langue par discrimination d'experts

par Sébastien Herry

Thèse de doctorat en Traitement du signal

Sous la direction de Jean-Luc Zarader.

Soutenue en 2007

à Paris 6 .


  • Pas de résumé disponible.


  • Résumé

    L'objectif du travail présenté dans ce mémoire est de détecter de façon automatique une langue dans un flux audio. Pour cela, nous proposons un modèle qui, à l’instar d’experts bilingues, effectue une discrimination par paires de langues avec pour information discriminante, l’information acoustique. Parmi les contraintes imposées, on notera que le système doit : être temps réel, utiliser des bases sans étiquetage, pouvoir intégrer de nouvelles langues avec un apprentissage minimal. Dans un premier temps nous avons mis en œuvre un système de Détection Automatique de Langue (DAL) reprenant l’état de l’art. Les résultats obtenus sur ce système de référence ont servi de comparaison avec ceux obtenus par les systèmes que nous avons développés. Dans un premier temps nous avons proposé un ensemble de discriminateurs, par paire de langue, basés sur des réseaux de neurones. Le traitement est effectué sur toute la durée du segment de parole. Les résultats obtenus sur ces discriminateurs sont ensuite fusionnés afin de réaliser la détection. Ce modèle a fait l’objet d’un brevet. Nous avons ensuite étudié plus précisément l'influence de différents paramètres tels que le nombre de locuteurs, les variations intra et inter corpus ou encore la robustesse. Puis nous avons comparé la modélisation proposée, c'est-à-dire discriminante, à d'autres modélisations auto-régressive et/ou prédictive. Ce système a ensuite été testé dans le cadre de la campagne d’évaluation internationale organisée par le NIST en décembre 2005. Suite à cette évaluation, à laquelle participaient 17 équipes internationales, nous avons proposé plusieurs améliorations basées sur : une normalisation de la base de données, une modification de la base de locuteurs en apprentissage uniquement, une prise en compte de la durée de la phrase en test En conclusion, le système proposé répond bien aux contraintes imposées puisqu'il est temps réel et n’utilise que l’information acoustique. Il est aussi plus performant que le modèle issu de l'état de l'art. Enfin, il est robuste au bruit, au changement de langue et de corpus d’évaluation.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (151 f.)
  • Annexes : Bibliogr. f. 123-129. 101 réf. bibliogr

Où se trouve cette thèse ?

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie. Section Biologie-Chimie-Physique Recherche.
  • Consultable sur place dans l'établissement demandeur
  • Cote : T Paris 6 2007 101
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.