De l'apprentissage de représentations visuelles robustes aux invariances pour la classification et la recherche d'images

par Mattis Paulin

Thèse de doctorat en Mathématiques, Sciences et technologies de l'information

Sous la direction de Cordelia Schmid et de Zaid Harchaoui.

Le président du jury était Vincent Lepetit.

Le jury était composé de Cordelia Schmid, Christian Wolf, Julien Mairal, Florent Perronnin.

Les rapporteurs étaient Josef Sivic, Matthieu Cord.


  • Résumé

    Ce mémoire de thèse porte sur l’élaboration de systèmes de reconnaissance d’image qui sont robustes à la variabilité géométrique. La compréhension d’une image est un problème difficile, de par le fait qu’elles sont des projections en deux dimensions d’objets 3D. Par ailleurs, des représentations qui doivent appartenir à la même catégorie, par exemple des objets de la même classe en classification, peuvent être visuellement très différentes. Notre but est de rendre ces systèmes robustes à la juste quantité de déformations, celle-ci étant automatiquement déterminée à partir des données. Nos deux contributions sont les suivantes. Nous montrons tout d’abord comment utiliser des exemples virtuels pour rendre les systèmes de classification d’images robustes et nous proposons ensuite une méthodologie pour apprendre des descripteurs de bas niveau robustes, pour la recherche d’image.Nous étudions tout d’abord les exemples virtuels, en tant que transformations de vrais exemples. En représentant une image en tant que sac de descripteurs transformés, nous montrons que l’augmentation de données, c’est-à-dire le fait de les considérer comme de nouveaux exemples iid, est la meilleure manière de les utiliser, pourvu qu’une étape de vote avec les descripteurs transformés soit opérée lors du test. Du fait que les transformations apportent différents niveaux d’information, peuvent être redondants, voire nuire à la performance, nous pro-posons un nouvel algorithme capable de sélectionner un petit nombre d’entre elles,en maximisant la justesse de classification. Nous montrons par ailleurs comment remplacer de vrais exemples par des virtuels, pour alléger les couts d’annotation.Nous rapportons de bons résultats sur des bancs d’essai de classification.Notre seconde contribution vise à améliorer les descripteurs de régions locales utilisés en recherche d’image, et en particulier nous proposons une alternative au populaire descripteur SIFT. Nous proposons un nouveau descripteur, appelé patch-CKN, appris sans supervision. Nous introduisons un nouvel ensemble de données liant les images et les imagettes, construit à partir de reconstruction3D automatique d’images récupérées sur Internet. Nous définissons une méthode pour tester précisément la performance des descripteurs locaux au niveau de l’imagette et de l’image. Notre approche dépasse SIFT et les autres approches à base d’architectures convolutionnelles sur notre banc d’essai, et d’autres couramment utilisés dans la littérature.

  • Titre traduit

    Of Learning Visual Representations Robust to Invariances for Image Classification and Retrieval


  • Résumé

    This dissertation focuses on designing image recognition systems which are robust to geometric variability. Image understanding is a difficult problem, as images are two-dimensional projections of 3D objects, and representations that must fall into the same category, for instance objects of the same class in classification can display significant differences. Our goal is to make systems robust to the right amount of deformations, this amount being automatically determined from data. Our contributions are twofolds. We show how to use virtual examples to enforce robustness in image classification systems and we propose a framework to learn robust low-level descriptors for image retrieval. We first focus on virtual examples, as transformation of real ones. One image generates a set of descriptors –one for each transformation– and we show that data augmentation, ie considering them all as iid samples, is the best performing method to use them, provided a voting stage with the transformed descriptors is conducted at test time. Because transformations have various levels of information, can be redundant, and can even be harmful to performance, we propose a new algorithm able to select a set of transformations, while maximizing classification accuracy. We show that a small amount of transformations is enough to considerably improve performance for this task. We also show how virtual examples can replace real ones for a reduced annotation cost. We report good performance on standard fine-grained classification datasets. In a second part, we aim at improving the local region descriptors used in image retrieval and in particular to propose an alternative to the popular SIFT descriptor. We propose new convolutional descriptors, called patch-CKN, which are learned without supervision. We introduce a linked patch- and image-retrieval dataset based on structure from motion of web-crawled images, and design a method to accurately test the performance of local descriptors at patch and image levels. Our approach outperforms both SIFT and all tested approaches with convolutional architectures on our patch and image benchmarks, as well as several styate-of-theart datasets.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Savoie Mont Blanc (Chambéry-Annecy). Service commun de la documentation et des bibliothèques universitaires. Bibliothèque électronique.
  • Bibliothèque : Service Interétablissement de Documentation. LLSH Collections numériques.
  • Bibliothèque : Service interétablissements de Documentation. STM. Collections numériques.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.