Thèse en cours

Vers une compréhension mathématique des réseaux de neurones convolutifs profonds

FR  |  
EN

Accès à la thèse

Triangle exclamation pleinLa soutenance a eu lieu le 29/08/2023. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Florentin Guth
Direction : Stéphane Mallat
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le
Soutenance le 29/08/2023
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre
Partenaire(s) de recherche : Laboratoire : DIENS - Département d'informatique de l'École normale supérieure
Equipe de recherche : DATA
établissement opérateur d'inscription : École normale supérieure (Paris ; 1985-....)
Jury : Président / Présidente : Francis Bach
Examinateurs / Examinatrices : Stéphane Mallat, Lorenzo Rosasco, Eric Vanden-eijnden, Giulio Biroli, Marylou GABRIé
Rapporteurs / Rapporteuses : Lorenzo Rosasco, Eric Vanden-eijnden

Résumé

FR  |  
EN

Les réseaux de neurones convolutifs profonds ont obtenu un succès considérable en vision par ordinateur, à la fois pour de l'apprentissage non-supervisé (i.e., génération d'image) et de l'apprentissage supervisé (i.e., classification d'image). Cependant, les principes fondamentaux qui expliquent ces résultats impressionnants ne sont pas bien compris. En particulier, l'apprentissage profond semble échapper à la malédiction de la dimensionalité, ce qui met en évidence une structure mathématique riche dans les problèmes d'apprentissage rencontrés en pratique. Cette structure est révélée par les interactions entre les données d'entraînement (sur quelles propriétés se repose-t-on implicitement ?), l'architecture (quel est le rôle fonctionnel rempli par ses composants ?) et l'algorithme d'optimisation (qu'est-ce que le réseau a appris ?). Cette thèse comporte des résultats sur ces trois questions. Premièrement, nous montrons qu'une factorisation multi-échelles des distributions d'images peut révéler des propriétés de régularité, des structures de dépendances markoviennes locales, et même de la log-concavité conditionnelle, alors que la distribution globale ne possède pas ces propriétés. Cela conduit à des algorithmes efficaces d'apprentissage et d'échantillonnage dont on peut contrôler toutes les sources d'erreurs. Deuxièmement, nous étudions le rôle de la non-linéarité en classification d'images, et montrons que sa fonction principale est de collapser la phase complexe des coefficients d'ondelettes des activations du réseau. En revanche, des modèles précédents reposant sur des seuillages et des hypothèses de parcimonie ne sont ni suffisants ni nécessaires pour expliquer la précision de classification des réseaux profonds. Troisièmement, nous introduisons un modèle probabiliste des poids appris dans les architecture profondes, en capturant les dépendances entre couches par un alignement des activations du réseau sur une représentation déterministe associée à un noyau reproduisant. Le modèle est spécifié à travers des distributions à chaque couche, dont les covariances sont de bas rang et réalisent une réduction de dimensionalité entre les plongements en haute dimension calculés par la non-linéarité. Dans certains cas, ces distributions sont approximativement gaussiennes, et les covariances capturent la performance et la dynamique d'entraînement du réseau.