Thèse en cours

Comprendre et évaluer les embeddings multilingues non supervisés dans les domaines général et clinique

FR  |  
EN

Accès à la thèse

Triangle exclamation pleinLa soutenance a eu lieu en 2023. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Felix Gaschi
Direction : Yannick Toussaint
Type : Projet de thèse
Discipline(s) : Informatique
Date : Soutenance en 2023
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES
Partenaire(s) de recherche : Laboratoire : LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Equipe de recherche : ORPAILLEUR
Jury : Président / Présidente : François Yvon
Examinateurs / Examinatrices : Yannick Toussaint, Asma Ben abacha, Annie Eun-Shiun Lee, Parisa Rastin, Anders Sogaard
Rapporteurs / Rapporteuses : François Yvon, Anders Sogaard

Résumé

FR  |  
EN

Les données labellisées et non labellisées sont plus souvent disponibles en anglais que dans d'autres langues. Dans le domaine clinique, les données non anglaises peuvent être encore plus rares. Les représentations, ou plongements lexicaux, multilingues peuvent avoir deux propriétés utiles dans cette situation. La première est l'alignement multilingue, où les représentations de différentes langues partagent le même espace latent. Plus concrètement, les mots qui sont la traduction l'un de l'autre doivent avoir des représentations similaires. La deuxième propriété est l'apprentissage par transfert cross-lingue : il permet à un modèle d'être entraîné sur une tâche supervisée dans une langue et de fournir de bons résultats pour la même tâche dans une autre langue, sans avoir besoin de données annotées dans cette langue. Cette thèse aborde certaines lacunes dans la littérature concernant la compréhension des représentations multilingues. Elle étudie notamment le lien entre l'alignement multilingue et le transfert cross-lingue, en montrant que les modèles, comme mBERT et XLM-R, qui peuvent effectuer ce transfert cross-lingue produisent des représentations qui ont une forme plus forte d'alignement multilingue que d'autres représentations qui ont été explicitement entraînés pour un tel alignement. Est également révélée la forte corrélation entre les capacités de transfert cross-lingue et l'alignement multilingue, ce qui suggère que ces deux propriétés multilingues sont liées. Ce lien permet d'améliorer le transfert cross-lingue pour les petits modèles en améliorant simplement l'alignement, ce qui peut leur permettre d'égaler les performances de grands modèles, mais seulement pour une tâche de bas niveau comme l'étiquetage POS, en raison de l'impact du fine-tuning lui-même sur l'alignement multilingue. Tout en se concentrant principalement sur le domaine général, cette thèse évalue finalement le transfert multilingue dans le domaine clinique. Elle montre que les méthodes basées sur la traduction peuvent atteindre des performances similaires à celles du transfert multilingue, mais qu'elles nécessitent plus de soin dans leur conception. Et bien qu'elles puissent tirer parti de modèles linguistiques cliniques monolingues, ceux-ci ne garantissent pas de meilleurs résultats que les larges modèles multilingues à usage général, que ce soit avec le transfert cross-lingue ou par traduction.