Traduction automatique de la parole par méthodes statistiques

par Daniel Déchelotte

Thèse de doctorat en Informatique

Sous la direction de Holger Schwenk et de Jean-Luc Gauvain.

  • Titre traduit

    Automatic speech translation by statistical methods


  • Pas de résumé disponible.


  • Résumé

    Cette thèse porte sur la traduction de la parole reconnue automatiquement. La tâche retenue est la traduction des discours des députés européens aux sessions plénières du parlement européen, entre l'anglais et l'espagnol. Cette thèse repose sur deux systèmes de traduction statistique. Le premier a été entièrement développé au cours de cette thèse et met en œuvre le modèle IBM-4. Le second système emploie Moses, un décodeur libre par groupes de mots à l'état de l'art. Nous envisageons aussi une collaboration entre les deux décodeurs. Le modèle quadrigramme neuronal s'avère très performant dans les deux sens de traduction. Les systèmes de traduction mis en oeuvre dans cette thèse furent très compétitifs à l'évaluation TC-Star de février 2007. Nous proposons un algorithme inspiré de celui du Perceptron pour modifier de façon discriminante les scores de la table de traduction en observant les erreurs de traduction sur un ensemble de développement. Concernant l'interaction entre reconnaissance de la parole et traduction, nous mesurerons l'impact du taux de mots erronés de la reconnaissance sur les performances de la traduction, et évaluons séparément les impacts respectifs du modèle de langage source et du modèle acoustique. Nous menons également des expériences prenant en compte l'ambiguïté de la sortie de la reconnaissance automatique, c'est-à-dire les mots entre lesquels la reconnaissance « hésite ». Nous décrivons ensuite plusieurs traitements spécifiques à la parole qui interviennent après la reconnaissance et avant la traduction. Enfin, nous modifions le système de reconnaissance de manière à améliorer les performances de traduction de la parole.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (139 p.)
  • Annexes : Bibliogr. p. 129-139

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2007)244
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.