Détection automatique de langue par discrimination d'experts

par Sébastien Herry

Thèse de doctorat en Traitement du signal

Sous la direction de Jean-Luc Zarader.

Soutenue en 2007

à Paris 6 .


  • Résumé

    L'objectif du travail présenté dans ce mémoire est de détecter de façon automatique une langue dans un flux audio. Pour cela, nous proposons un modèle qui, à l’instar d’experts bilingues, effectue une discrimination par paires de langues avec pour information discriminante, l’information acoustique. Parmi les contraintes imposées, on notera que le système doit : être temps réel, utiliser des bases sans étiquetage, pouvoir intégrer de nouvelles langues avec un apprentissage minimal. Dans un premier temps nous avons mis en œuvre un système de Détection Automatique de Langue (DAL) reprenant l’état de l’art. Les résultats obtenus sur ce système de référence ont servi de comparaison avec ceux obtenus par les systèmes que nous avons développés. Dans un premier temps nous avons proposé un ensemble de discriminateurs, par paire de langue, basés sur des réseaux de neurones. Le traitement est effectué sur toute la durée du segment de parole. Les résultats obtenus sur ces discriminateurs sont ensuite fusionnés afin de réaliser la détection. Ce modèle a fait l’objet d’un brevet. Nous avons ensuite étudié plus précisément l'influence de différents paramètres tels que le nombre de locuteurs, les variations intra et inter corpus ou encore la robustesse. Puis nous avons comparé la modélisation proposée, c'est-à-dire discriminante, à d'autres modélisations auto-régressive et/ou prédictive. Ce système a ensuite été testé dans le cadre de la campagne d’évaluation internationale organisée par le NIST en décembre 2005. Suite à cette évaluation, à laquelle participaient 17 équipes internationales, nous avons proposé plusieurs améliorations basées sur : une normalisation de la base de données, une modification de la base de locuteurs en apprentissage uniquement, une prise en compte de la durée de la phrase en test En conclusion, le système proposé répond bien aux contraintes imposées puisqu'il est temps réel et n’utilise que l’information acoustique. Il est aussi plus performant que le modèle issu de l'état de l'art. Enfin, il est robuste au bruit, au changement de langue et de corpus d’évaluation.


  • Résumé

    The purpose of the presented work in this memoir is to automatically detect language in audio stream. For this we suggest a model which, like bilingual expert, done an discrimination by language pair with only acoustic information. The system have constraint : Operating in real time, Use database without phonetic information, Able to add a new language without retrain all the model In a first time we have done an Automatic language detection system derived from the stat of the art. The results obtained by this system are used as reference for the rest of memoir, and we compare those results with the results obtained by the developed model. In a first time, we propose a set of discriminator, by pair of language, based on neural network. The treatment is done on the whole duration of speech segment. The results of these discriminators are fused to create de detection. This model has a patent. We have study more precisely the influence of different parameter as the number of locator, the variation intra and inter corpus or the hardiness. Next we have compared the proposed modelling based on discrimination, with modelling auto regressive or predictive. This system has been tested with our participation of the international campaign organised by NIST in December 2005. To conclude on this campaign where 17 international teams have participated, we have proposed several improvements as: A normalisation of database, A modification of speaker database for learning only, Increase scores with segment duration. To conclude, the system proposed fulfils the constraints because the system is real time, and use only acoustic information. More over the system is more efficient than the derived model from the stat of the art. At last the model is hardiness for noise, for unknown language, for new evaluation database.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (151 f.)
  • Annexes : Bibliogr. f. 123-129. 101 réf. bibliogr

Où se trouve cette thèse ?

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie. Section Biologie-Chimie-Physique Recherche.
  • Consultable sur place dans l'établissement demandeur
  • Cote : T Paris 6 2007 101
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.