Thèse soutenue

Modèles de Réseaux de Neurones Récurrents : inférence, représentations et rôle de la régularisation

FR  |  
EN
Auteur / Autrice : Arnaud Fanthomme
Direction : Rémi Monasson
Type : Thèse de doctorat
Discipline(s) : Physique
Date : Soutenance le 08/12/2021
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Physique en Île-de-France (Paris ; 2014-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de physique de l'ENS (Paris ; 2019-....)
établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....)
Jury : Président / Présidente : Sara A. Solla
Examinateurs / Examinatrices : Rémi Monasson, David Saad, Omri Barak, Surya Ganguli, Andrew Saxe
Rapporteurs / Rapporteuses : David Saad

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Au cours de la dernière décennie, les méthodes d'apprentissage par réseaux de neurones profonds ont connu un essor sans précédent, fournissant de nouveaux états de l'art dans de nombreux domaines de l'Intelligence Artificielle (vision, analyse de séries temporelles, contrôle continu, etc.). Malgré leur succès empirique évident, beaucoup reste à faire pour comprendre comment ces systèmes se comportent, de leur entraînement aux représentations qui émergent lorsqu'ils performent la tâche qui leur est confiée. Au cours de cette thèse, nous avons abordé ces questions en étudiant des réseaux récurrents de n ≫ 1 neurones, entraînés sur le problème de l'intégration en parallèle de D ≃ 1 signaux scalaires. Nous observons que, dans le cas de réseaux linéaires comme non-linéarires, l'état interne de la population récurrente évolue dans une variété de dimension D, faible devant la dimension de l'espace des états internes possibles n, et établissons un lien entre la forme de cette variété et la fonction d'activation des neurones. Ces observations nous permettent de proposer une fonction de coût qui, en imposant un ensemble continu de conditions sur la dynamique de l'état interne, permet d'entraîner des réseaux sur une tâche d'intégration arbitraire sans utiliser de données. Nous étudions également le problème d'intégration multimodale du déplacement d'un agent dans un environnement à partir d'images et de signaux proprioceptifs. En particulier, nous cherchons à étudier comment un réseau récurrent parvient à combiner ces deux sources d'information imparfaites (les images étant souvent indisponibles, le signal de vitesse étant bruité) en une représentation commune, qui peut ensuite être transférée vers d'autres tâches impliquant une compréhension de la structure spatiale de l'environnement (par exemple, de la navigation vers un objectif). Tout au long de ce manuscrit, nous établissons des analogies entre nos résultats et les concepts développés en neurosciences théoriques pour expliquer des comportements similaires observés sur des organismes vivants.