Approches neurales de bout-en -bout pour la traduction de la parole

par Manh ha Nguyen (Ha)

Projet de thèse en Informatique

Sous la direction de Laurent Besacier.

Thèses en préparation à Grenoble Alpes , dans le cadre de École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble) , en partenariat avec Laboratoire d'Informatique de Grenoble (laboratoire) et de GETALP - Groupe d'Etude en Traduction/Traitement des Langues et de la Parole (ancien labo Clips) (equipe de recherche) depuis le 18-02-2019 .


  • Résumé

    Le travail de ce projet visent à modifier les architectures actuelles des systèmes de traduction automatique de la parole, passant du pipeline traditionnel sophistiqué de différents modules entraînés avec différents objectifs à un réseau de neurones profonds de bout-en-bout entraînés avec un seul objectif. Différentes architectures de bout-en-bout seront étudiées, telles que encoder-decoder basé sur RNN, encoder-decoder basé sur la convolution et transformer. Les architectures de bout en bout devraient non seulement réduire la complexité du système et, par conséquent, réduire le temps de entraînment, mais également réduire le coût de la collection de données en atténuant le besoin de transcription en langue source. Pour cette raison, ce projet étudie également une nouvelle méthodologie de collection de données pour la traduction automatique de la parole, qui donne une priorité moindre à la transcription dans la langue source, voire élimine totalement la transcription dans cette langue. Ce projet applique toutes les approches mentionnées principalement à trois paires de langues: anglais-français, pachto-français et tamacheq-français.

  • Titre traduit

    End-to-End Neural Approaches for Speech Translation


  • Résumé

    The work of this project focuses on changing the current architectures of Automatic Speech Translation systems, from the traditional sophisticated pipeline of different modules trained with different objectives, to a single end-to-end deep neural network trained with only one objective. Different end-to-end architectures will be investigated, such as RNN-based encoder-decoder, Convolutional-based encoder-decoder, and transformer. End-to-end architectures are expected to not only reduce the complexity of the system, and consequently reduce the training time, but also reduce the cost of data collection by relaxing the need of source language transcription. For this reason, this project also investigates a new data collecting methodology for Automatic Speech Translation, which gives source language transcription less priority, or even eliminates source language transcription entirely in the data collecting process. This project applies all mentioned approaches mainly to three language pairs: English-French, Pashto-French, and Tamacheq-French.