Making the most of available data : representation and adaptation for few-shot image classification

par Yann Lifchitz

Thèse de doctorat en Signal, image, vision

Sous la direction de Yannis Avrithis et de Sylvaine Picard.

Soutenue le 20-04-2021

à Rennes 1 , dans le cadre de MATHSTIC , en partenariat avec Institut national de recherche en informatique et en automatique (France). Unité de recherche (Rennes, Bretagne-Atlantique) (laboratoire) et de LinkMedia (laboratoire) .

Le président du jury était Élisa Fromont.

Le jury était composé de Frédéric Jurie, Élisa Fromont, Patrick Pérez.

Les rapporteurs étaient Nikos Komodakis, Stéphane Canu.

  • Titre traduit

    Exploiter au mieux les données disponibles : représentation et adaptation pour la classification few-shot d'images


  • Résumé

    Les réseaux de neurones profonds peuvent être entraînés pour produire des modèles de classification d'images très précis, à condition d'avoir accès à un grand nombre de données d'apprentissage. Dans le cas du few-shot learning, les données sont limitées à quelques images ce qui ne permet pas l'apprentissage complet. Dans un premier temps, une fonction de représentation indépendante de la tâche est apprise en résolvant une tâche distincte comme la classification des classes de base. Ensuite, la représentation est combinée avec des exemples des nouvelles classes pour résoudre la tâche few-shot. Pour les deux étapes, nous introduisons des solutions exploitant au mieux les données disponibles. Pour l'apprentissage de représentation, nous proposons la classification dense, qui étudie pour la première fois les activations locales pour le few-shot learning. De plus, nous proposons deux solutions pour adapter la fonction de représentation à la tâche few-shot. L'apprentissage est limité à quelques paramètres dans le cas de l'implantation, ou à quelques itérations. Nous étudions également des problèmes de few-shot learning pour lesquels l'accès à l'information est modifié. Dans le cas du few-shot transductif, plusieurs images doivent être classifiées en même temps. Nous proposons la propagation locale, utilisant les similarités entre représentations locales pour propager l'information de classe. Nous proposons également un nouveau problème, le few-shot few-shot learning, où peu ou aucunes données du domaine n'est accessible. On peut utiliser un réseau pré-entraîné en l'adaptant si possible avec des données du modèle. Pour le few-shot learning, il est important de se focaliser sur les régions pertinentes des images. Nous proposons deux solutions simples d'attention. Enfin, nous appliquons notre savoir dans le cas spécifique de la classification d'images aériennes.


  • Résumé

    Deep neural networks can be trained to create highly accurate image classification models, provided we have access to large datasets. In few-shot learning, data is limited to few images, so training from scratch is not feasible. First, a task-independent representation function is learned on abundant data by solving a distinct task such as multiclass classification on a set of base classes. Then, the learned representation is combined with new data of novel classes to solve the few-shot task. In both stages, we introduce solutions that aim at leveraging available data as much as possible. In particular, for representation learning, we propose dense classification training, which for the first time studies local activations in the domain of few-shot learning. We also propose two solutions to adapt the representation function to the few-shot task. Learning is limited to few parameters in implanting or to few gradient updates. Additionally, we study alternative few-shot learning settings, in which access to data is modified. In transductive learning, multiple images need to be classified at the same time. In this context, we propose local propagation, a method that uses similarities between local representations of images to propagate class information. We also introduce few-shot few-shot learning, a new setting, where only few or no in-domain data is accessible for representation learning. In this context, we take advantage of a classifier, pre-trained on a large-scale dataset of a different domain, which can still be adapted to the domain if data is available. In few-shot learning, because data is so scarce, we show that selecting relevant regions with an attention mechanism is important. We propose two simple solutions that successfully fulfill this role. Finally, we apply our knowledge of few-shot learning on the specific problem of classifying aerial images.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Rennes I. Service commun de la documentation. Bibliothèque de ressources en ligne.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.