Self-supervised learning of deep visual representations - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

Self-supervised learning of deep visual representations

Apprentissage auto-supervisé de représentations visuelles avec des réseaux de neurones profonds

Résumé

Humans and many animals can see the world and understand it effortlessly which gives some hope that visual perception could be realized by computers and Artificial Intelligence. More importantly, living beings acquire such an understanding of the visual world autonomously, without the intervention of a superviser explicitly telling them what, where or who is to be seen. This suggests that visual perception can be achieved without too much explicit human supervision and simply by letting systems observe large amounts of visual inputs.In particular, this manuscript tackles the problem of self-supervised learning which consists in training deep neural network systems without using any human annotations. Typically, neural networks require large amounts of annotated data, which have limited their applications in fields where accessing these annotations is expensive or difficult. Moreover, manual annotations are biased towards a specific task and towards the annotator’s own biases, which can result in noisy and unreliable signals. Training systems without annotations could lead to better, more generic and robust representations. In this manuscript, we present different contributions to the fast-growing field of self-supervised visual representation learning.In particular, we will start by extending a promising category of self-supervised approaches, namely deep clustering, which trains deep networks while simultaneously mining groups of visually consistent images in a data collection. We then identify the limits of deep clustering methods such as their difficulty to scale to very large datasets or the fact that they are prone to trivial solutions. As a result, we propose improved self-supervised methods that outperform their supervised counterparts on several benchmarks and exhibit interesting properties. For example, the resulting self-supervised networks contain generic representations that transfer well to a different datasets and tasks. They also contain explicit information about the semantic segmentation of an image. Importantly, we also probe our self-supervised models in the wild, by training them on hundreds of millions of unlabeled images randomly selected from the Internet.
Les humains et de nombreux animaux peuvent voir le monde et le comprendre sans effort, ce qui laisse espérer que la perception visuelle pourrait être réalisée par les ordinateurs et l'intelligence artificielle. Plus important encore, les êtres vivants acquièrent une telle compréhension du monde visuel de manière autonome, sans l'intervention d'un superviseur externe leur disant explicitement quoi, où ou qui est à voir. Cela suggère que la perception visuelle peut être obtenue dans une certaine mesure sans supervision humaine explicite mais simplement en laissant les systèmes observer de grandes quantités de données visuelles.En particulier, ce manuscrit aborde le problème de l'apprentissage auto-supervisé qui consiste à entraîner des systèmes de réseaux de neurones profonds sans utiliser d'annotations humaines. En règle générale, les réseaux de neurones nécessitent de grandes quantités de données annotées, ce qui a limité leurs applications dans des domaines où l'accès à ces annotations est coûteux ou difficile. De plus, les annotations manuelles sont biaisées vers une tâche spécifique et vers les propres biais de l'annotateur, ce qui peut entraîner des signaux bruités et peu fiables. Entrainer des réseaux profonds sans annotations pourraient conduire à de meilleures représentations, plus génériques et plus robustes. Dans ce manuscrit, nous présentons différentes contributions au domaine en pleine croissance de l'apprentissage auto-supervisé de représentations visuelles.En particulier, nous commencerons par étendre une catégorie prometteuse d'approches auto-supervisées, à savoir le clustering profond, qui entraine des réseaux profonds tout en découvrant simultanément des groupes d'images visuellement cohérentes dans une base de données. Nous identifions ensuite les limites des méthodes de clustering profond telles que leur difficulté à s'adapter à de très grands ensembles de données ou le fait qu'elles sont sujettes à des solutions triviales. En conséquence, nous proposons des méthodes auto-supervisées améliorées qui surpassent leurs homologues supervisées sur plusieurs benchmarks et présentent des propriétés intéressantes. Par exemple, nos réseaux auto-supervisés ainsi obtenus contiennent des représentations génériques qui transfèrent bien vers différents ensembles de données et tâches. Ils contiennent également des informations explicites sur la segmentation sémantique d'une image. Surtout, nous évaluons également nos modèles auto-supervisés sur des données brutes en les entraînant sur des centaines de millions d'images non étiquetées sélectionnées aléatoirement sur Internet.
Fichier principal
Vignette du fichier
CARON_2021_archivage.pdf (61.94 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03675254 , version 1 (23-05-2022)

Identifiants

  • HAL Id : tel-03675254 , version 1

Citer

Mathilde Caron. Self-supervised learning of deep visual representations. Artificial Intelligence [cs.AI]. Université Grenoble Alpes [2020-..], 2021. English. ⟨NNT : 2021GRALM066⟩. ⟨tel-03675254⟩
984 Consultations
116 Téléchargements

Partager

Gmail Facebook X LinkedIn More