Thèse soutenue

Biais inductifs pour l'apprentissage automatique dans un contexte où les données sont limitées

FR  |  
EN
Auteur / Autrice : Grégoire Mialon
Direction : Alexandre d' AspremontJulien Mairal
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 19/01/2022
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre
Partenaire(s) de recherche : Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique
établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....)
Jury : Président / Présidente : Gabriel Peyré
Examinateurs / Examinatrices : Alexandre d' Aspremont, Julien Mairal, Gabriel Peyré, Alexandre Gramfort, Michael M. Bronstein, Anna Korba, Pascal Frossard
Rapporteurs / Rapporteuses : Gabriel Peyré, Alexandre Gramfort

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Apprendre à partir de données limitées est l’un des plus gros problèmes du deep learning. Les approches courantes et populaires de cette question consistent à entraîner un modèle sur d’énormes quantités de données, étiquetées ou non, avant de réentraîner le modèle sur un ensemble de données d’intérêt, plus petit, appartenant à la même modalité. Intuitivement, cette technique permet au modèle d’apprendre d’abord une représentation générale pour un certain type de données, telles que des images. Moins de données seront ensuite nécessaires pour apprendre une tâche spécifique pour cette modalité particulière. Bien que cette approche appelée « apprentissage par transfert » soit très efficace dans des domaines tels que la vision par ordinateur ou le traitement du langage naturel, elle ne résout pas les problèmes courants du deep learning tels que l’interprétabilité des modèles ou le besoin global en données. Cette thèse explore une réponse différente au problème de l’apprentissage de modèles expressifs dans des contextes où les données sont plus rares. Au lieu de s’appuyer sur de grands ensembles de données pour apprendre les paramètres d’un réseau de neurones, nous remplacerons certains de ces paramètres par des fonctions mathématiques connues reflétant la structure des données. Très souvent, ces fonctions seront puisées dans la riche littérature des méthodes à noyau. En effet, de nombreux noyaux peuvent être interprétés, et/ou permettre un apprentissage avec peu de données. Notre approche s’inscrit dans le cadre des « biais inductifs », qui peuvent être définis comme des hypothèses sur les données disponibles restreignant l’espace des modèles à explorer lors de l’apprentissage. Dans les deux premiers chapitres de la thèse, nous démontrons l’efficacité de cette approche dans le cadre de séquences, telles que des phrases en langage naturel ou des séquences protéiques, et de graphes, tels que des molécules. Nous soulignons également la relation entre notre travail et les progrès récents du deep learning. Le dernier chapitre de cette thèse se concentre sur les modèles d’apprentissage automatique convexes. Ici, plutôt que de proposer de nouveaux modèles, nous nous demandons quelle proportion des échantillons d’un jeu de données est vraiment nécessaire pour apprendre un « bon » modèle. Plus précisément, nous étudions le problème du filtrage sûr des échantillons, c’est-à-dire l’exécution de tests simples afin d’éliminer les échantillons non informatifs d’un ensemble de données avant même d’entraîner un modèle d’apprentissage automatique, sans affecter le modèle optimal. De telles techniques peuvent être utilisées pour compresser des jeux de données ou extraire des échantillons rares.