Apprentissage actif de représentation

par Juan manuel Coria

Projet de thèse en Informatique

Sous la direction de Sophie Rosset, Hervé Bredin et de Sahar Ghannay.

Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication , en partenariat avec Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (laboratoire) , ILES - Information, Langue Ecrite et Signée (equipe de recherche) et de Faculté des sciences d'Orsay (référent) depuis le 01-11-2019 .


  • Résumé

    L'objectif principal de cette thèse est de proposer des techniques d'apprentissage de représentation avares en données étiquetées : apprentissage non-supervisé, supervision distante, ou encore apprentissage actif sont autant de pistes qui pourront être étudiées. L'apprentissage non-supervisé est le cas extrême où les données non-étiquetées sont disponibles en abondance, mais aucune donnée étiquetée n'est disponible. L'appellation 'auto-supervisé' (self-supervised, en anglais) est de plus en plus utilisée pour décrire ce type d'approches car il s'agit généralement d'approches visant à reconstruire les données originales à partir d'une version altérée (BERT [Devlin et al., 2018], auto-encodeurs, etc.). On parle de supervision distante quand des étiquettes (parfois imparfaites) sont effectivement disponibles, mais pas pour la tâche visée. Par exemple, pour la tâche de vérification du locuteur, il est possible d'utiliser un système de transcription de la parole automatique pour obtenir des étiquettes phonétiques du signal de parole. Cette information orthogonale à la tâche principale doit permettre de démêler des signaux contradictoires pour améliorer la représentation des locuteurs [Zeghidour et al., 2016]). L'apprentissage actif est un modèle d'apprentissage semi-supervisé où un oracle (généralement, un humain) intervient au cours du processus. Plus précisément, à partir de données non-étiquetés, l'algorithme d'apprentissage détermine quelles données doivent être annotées par l'oracle pour obtenir les meilleures performances à moindre coût [Lowell et al., 2018, Drugman et al., 2019, Feyisetan et al., 2019, Settles and Craven, 2008, Duong et al., 2018, Kholghi et al., 2016,Settles, 2009].

  • Titre traduit

    Active representation learning


  • Résumé

    The main objective of this thesis is to propose representation learning techniques with little to no need for labeled data: unsupervised, distant or even active learning are all research pathways that could be explored. Unsupervised learning is an extreme case in which unlabeled data is abundantly available, but in which no labeled data is. The term 'self-supervised' is being increasingly used to describe this kind of approaches, as their task often consists on reconstructing the original data from an altered version of it (BERT [Devlin et al., 2018], auto-encoders, etc.). We talk about distant supervision when (sometimes inaccurate) labels are in fact available, but not for the specific targeted task. For instance, for speaker verification, it is possible to use an automatic transcription system in order to obtain phonetic labels for the voice signal. This information, orthogonal to the main task, must be able to disentangle contradictory signals to improve speaker representation [Zeghidour et al., 2016]. Active learning is a semi-supervised model where an oracle (generally a human) participates in the learning process. More precisely, starting from non-annotated data, the learning algorithm needs to determine what has to be annotated by the oracle, so as to get the best performance at the least cost [Lowell et al., 2018, Drugman et al., 2019, Feyisetan et al., 2019, Settles and Craven, 2008, Duong et al., 2018, Kholghi et al., 2016,Settles, 2009].