Thèse soutenue

MModéliser la perception non-native en utilisant des modèles de traitement automatique de la parole

FR  |  
EN
Auteur / Autrice : Juliette Millet
Direction : Ewan DunbarIoana Chitoran
Type : Thèse de doctorat
Discipline(s) : Mathématiques et sciences informatiques
Date : Soutenance le 16/05/2022
Etablissement(s) : Université Paris Cité
Ecole(s) doctorale(s) : École doctorale Frontières de l'innovation en recherche et éducation (Paris ; 2006-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de linguistique formelle (Paris) (1972-....)
Jury : Président / Présidente : Emmanuel Dupoux
Examinateurs / Examinatrices : Emmanuel Dupoux, Jean-Luc Schwartz, Odette Scharenborg, Laurent Besacier, Laura Gwilliams
Rapporteurs / Rapporteuses : Jean-Luc Schwartz, Odette Scharenborg

Résumé

FR  |  
EN

Apprendre une nouvelle langue est une tâche ardue. Avant même de considérer le fait de se confronter à une nouvelle grammaire ou un nouveau vocabulaire, différencier les sons qui compose cette nouvelle langue est déjà une épreuve en soi. En effet, ces distinctions sont parfois très difficiles à réaliser. Les Japonais natifs, par exemple, quand ils apprennent l'anglais, présentent des difficultés à différencier le son /r/ (dans right) et le son /l/ (dans light). Ce genre de confusion (confondre deux sons dans une autre langue que la sienne) peut arriver à n'importe quel individu, avec n'importe quelle langue natale. Cette dernière biaise notre perception des sons, et cela transparaît notamment dans notre capacité (ou incapacité) à distinguer des sons non-natifs. Réussir à prédire ces biais, à comprendre leur origine nous informe sur les règles qui régissent notre processus de compréhension de la parole. De plus, ces problèmes de perception des sons non-natifs offrent une opportunité pour évaluer la similarité de modèles computationnels de perception de la parole aux humains. Dans ce manuscrit, nous comparons l'espace représentationnel de modèles de traitement automatique de la parole, développés au sein du domaine de recherche de l'apprentissage automatique, avec l'espace perceptuel humain. Nous réalisons cette comparaison en nous concentrant sur les biais de perception qui apparaissent lors de la perception de langues non-natives. Cette analyse est accomplie grâce à la construction d'une base de données contenant un nombre de résultats important de capacités de distinction de sons natifs et non-natifs pour des participants anglais et français. Ces données nous permettent dans un premier temps d'évaluer divers modèles récents, et de mesurer leur capacité à capturer des effets de langue native, en fonction de la façon dont leurs paramètres sont ajustés. Ceci nous permet par exemple d'établir que des modèles supervisés entraînés à produire des transcriptions orthographiques à partir d'enregistrements sonores ne semblent pas développer les mêmes biais que les humains quand à leur capacité de discriminations de sons natifs (obtenus à partir de leur langue d'entraînement) et non-natifs. Les données collectée nous permettent aussi de tester des théories précédemment énoncées quand à la manière dont les biais de perception des sons de langues non-natives peuvent être prédits. Ces théories accordent une grande importance aux catégories de sons de la langue native des auditeurs. Elles se basent sur l'identification des sons non-natifs comme appartenant à ces dernières pour établir la qualité de leur distinction. En utilisant ces données, nous testons d'abord le pouvoir de prédiction de ces théories, puis nous comparons leurs résultats avec ceux de prédicteurs qui eux n'utilisent pas ces catégories natives. Ces derniers sont extraits de modèles non-supervisés de représentations de la parole. Par ces comparaisons nous établissons que malgré le fait que les catégories semblent bien essentielles pour faire de bonnes prédictions, les informations non-catégorielles de ces prédicteurs semblent également cruciales. Pour compléter ces études basées sur des données comportementales de perception, nous observons la capacité d'un modèle de traitement automatique de la parole à prédire les activités cérébrales de participants de différentes origines lors de l'écoute passive d'une histoire. Cette dernière partie du manuscrit met en exergue la pertinence d'un entraînement non-supervisé pour modéliser nos processus cérébraux lors d'une tâche de perception auditive. Finalement, nous proposons plusieurs futures pistes de recherche, notamment pour tenter d'améliorer les modèles, et nous soulignons l'importance d'allier les efforts réalisés dans les domaines de la psycholinguistique et de l'apprentissage automatique.