Apprentissage supervisé d’une représentation multi-couches à base de dictionnaires pour la classification d’images et de vidéos

par Stefen Chan wai tim

Thèse de doctorat en Signal image parole telecoms

Sous la direction de Michèle Rombaut et de Denis Pellerin.

Le président du jury était Atilla Baskurt.

Les rapporteurs étaient Stéphane Canu, Nicolas Thome.


  • Résumé

    Ces dernières années, de nombreux travaux ont été publiés sur l'encodage parcimonieux et l'apprentissage de dictionnaires. Leur utilisation s'est initialement développée dans des applications de reconstruction et de restauration d'images. Plus récemment, des recherches ont été réalisées sur l'utilisation des dictionnaires pour des tâches de classification en raison de la capacité de ces méthodes à chercher des motifs sous-jacents dans les images et de bons résultats ont été obtenus dans certaines conditions : objet d'intérêt centré, de même taille, même point de vue. Cependant, hors de ce cadre restrictif, les résultats sont plus mitigés. Dans cette thèse, nous nous intéressons à la recherche de dictionnaires adaptés à la classification. Les méthodes d'apprentissage classiquement utilisées pour les dictionnaires s'appuient sur des algorithmes d'apprentissage non supervisé. Nous allons étudier ici un moyen d'effectuer l'apprentissage de dictionnaires de manière supervisée. Dans l'objectif de pousser encore plus loin le caractère discriminant des codes obtenus par les dictionnaires proposés, nous introduisons également une architecture multicouche de dictionnaires. L'architecture proposée s'appuie sur la description locale d'une image en entrée et sa transformation grâce à une succession d'encodage et de traitements, et fournit en sortie un ensemble de descripteurs adaptés à la classification. La méthode d'apprentissage que nous avons développé est basée sur l'algorithme de rétro-propagation du gradient permettant un apprentissage coordonné des différents dictionnaires et une optimisation uniquement par rapport à un coût de classification. L’architecture proposée a été testée sur les bases de données d’images MNIST, CIFAR-10 et STL-10 avec de bons résultats par rapport aux autres méthodes basées sur l’utilisation de dictionnaires. La structure proposée peut être étendue à l’analyse de vidéos.

  • Titre traduit

    Supervised Multi-layer Dictionary learning for image and video classification


  • Résumé

    In the recent years, numerous works have been published on dictionary learning and sparse coding. They were initially used in image reconstruction and image restoration tasks. Recently, researches were interested in the use of dictionaries for classification tasks because of their capability to represent underlying patterns in images. Good results have been obtained in specific conditions: centered objects of interest, homogeneous sizes and points of view.However, without these constraints, the performances are dropping.In this thesis, we are interested in finding good dictionaries for classification.The learning methods classically used for dictionaries rely on unsupervised learning. Here, we are going to study how to perform supervised dictionary learning.In order to push the performances further, we introduce a multilayer architecture for dictionaries. The proposed architecture is based on the local description of an input image and its transformation thanks to a succession of encoding and processing steps. It outputs a vector of features effective for classification.The learning method we developed is based on the backpropagation algorithm which allows a joint learning of the different dictionaries and an optimization solely with respect to the classification cost.The proposed architecture has been tested on MNIST, CIFAR-10 and STL-10 datasets with good results compared to other dicitonary-based methods. The proposed architecture can be extended to video analysis.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Savoie Mont Blanc (Chambéry-Annecy). Service commun de la documentation et des bibliothèques universitaires. Bibliothèque électronique.
  • Bibliothèque : Service Interétablissement de Documentation. LLSH Collections numériques.
  • Bibliothèque : Service interétablissements de Documentation. STM. Collections numériques.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.