Thèse soutenue

Approches neurales de bout-en -bout pour la traduction de la parole
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Manh Ha Nguyen
Direction : Yannick EstèveLaurent Besacier
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 03/06/2022
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Grenoble
Equipe de recherche : Groupe d'étude en traduction automatique - Traitement automatisé des langues et de la parole (Grenoble)
Jury : Président / Présidente : Catherine Berrut
Examinateurs / Examinatrices : Loïc Barrault
Rapporteurs / Rapporteuses : Satoshi Nakamura, Alexandre Allauzen

Résumé

FR  |  
EN

La disponibilité de corpus de traduction de la parole dont les signaux de parole sont alignés avec les textes traduits correspondants, couplée à l’augmentation constante de la capacité de calcul, rend désormais possible l'entraînement de systèmes automatiques de traduction parole-texte de bout-en-bout. L'objectif de cette thèse est d'explorer les approches neuronales pour cette tâche de traduction parole-texte, appelée traduction automatique de la parole, en se concentrant particulièrement sur deux types de systèmes de traduction de bout-en-bout: (1) Traduction de la parole hors ligne (offline speech translation) et (2) Traduction de la parole en ligne (online speech translation).En ce qui concerne la traduction hors ligne, nous développons des baselines solides pour deux paires de langues : anglais-portugais et anglais-allemand. Elles sont fondées sur des blocs de réseaux neuronaux convolutifs couplés à des couches récurrentes de type LSTM (Long Short-Term Memory) côté encodeur et à plusieurs couches LSTM côté décodeur. Nous étudions différentes techniques d'augmentation de données ainsi que différentes unités lexicales cibles (caractères, unités BPE de différentes tailles). Nous validons nos méthodes en participant à des campagnes internationales d’évaluation de traduction de la parole. Nous introduisons aussi, dans cette thèse, l’utilisation de représentations issues de l'apprentissage auto-supervisé (en utilisant un modèle de type wav2vec) et les comparons avec des représentations conventionnelles (dont les coefficients MFCCs et les coefficients en bancs de filtres) pour la tâche de traduction de la parole. Cette comparaison est effectuée en particulier dans des scénarios avec des ressources faibles ou moyennes (moins de 100 heures de données d'entraînement). Nous effectuons des analyses qui montrent que les représentations auto-supervisées améliorent les performances de nos modèles et sont aussi plus efficaces pour discriminer les phonèmes et aligner les séquences source et cible, ainsi que plus robustes à la variabilité des orateurs. Enfin, nous entraînons nos propres modèles d'apprentissage auto-supervisés à partir d'une grande quantité de données brute de parole en français. De tels modèles sont utiles pour un large éventail de tâches concernant la parole. Ces tâches sont incluses dans une suite d'évaluation open-source pour l'apprentissage auto-supervisé, nom mée ‘LeBenchmark'.Concernant la traduction de la parole en ligne, nous adaptons la stratégie wait-k, initialement proposée pour la traduction simultanée texte-texte, à la tâche de traduction de la parole. Pour la traduction simultanée de la parole, nous préconisons l'utilisation d'encodeurs LSTM unidirectionnels plutôt que bidirectionnels. Nous proposons une nouvelle stratégie d'encodage nommée 'Unidirectional Long Short-Term Memory Overlap-and-Compensate', qui permet aux encodeurs de parole LSTM unidirectionnels de fonctionner plus efficacement en ligne. Tout d'abord, nous évaluons nos stratégies de décodage et d'encodage sur la tâche de traduction en ligne. Après, nous proposons d’ajuster ces modèles pré-entraînés (par réglage fin) dans un mode d'apprentissage plus adapté à la traduction en ligne pour encore améliorer les performances. Enfin, d'autres aspects de la traduction en ligne de la parole sont étudiés, tels que l'impact de la segmentation des données en entrée, l'impact de la granularité de sortie ou encore différents scénarios de réglage fin.