Apprentissage interactif et multi-classes pour la détection de concepts sémantiques dans les données multimédia

par Alexis Lechervy

Thèse de doctorat en STIC (sciences et technologies de l'information et de la communication) - Cergy

Sous la direction de Philippe-Henri Gosselin et de Frédéric Precioso.

Soutenue le 06-12-2012

à Cergy-Pontoise , dans le cadre de ED SI - Sciences et Ingénierie , en partenariat avec Equipes Traitement de l'Information et Systèmes (Cergy-Pontoise) (laboratoire) .

Le jury était composé de Philippe-Henri Gosselin, Matthieu Cord, Sébastien Lefèvre, Véronique Serfaty.

Les rapporteurs étaient Richard Nock, Stéphane Marchand-Maillet.


  • Résumé

    Récemment les techniques d'apprentissage automatique ont montré leurs capacité à identifier des catégories d'images à partir de descripteurs extrait de caractéristiques visuels des images. Face à la croissance du nombre d'images et du nombre de catégories à traiter, plusieurs techniques ont été proposées pour réduire à la fois le coût calculatoire des méthodes et l'investissement humain en terme de supervision. Dans cette thèse nous proposons deux méthodes qui ont pour objectif de traiter un grand nombre d'images et de catégories. Nous proposons tout d'abord une solution reposant sur le concepts de recherche interactive. Le protocole de recherche interactive propose d'établir un « dialogue » entre le système d'apprentissage et l'utilisateur afin de minimiser l'effort d'annotation. Nous avons voulu dans ces travaux proposer une solution de recherche interactive adaptée aux méthodes de boosting . Ces méthodes combinent des classifieurs faibles pour produire un classifieur plus fort. Nous avons proposé une méthode de boosting interactif pour la recherche dans les images qui fit l'objet de deux articles (RFIA 2010, ICPR 2010). Ces méthodes proposent notamment une nouvelle manière de construire l'ensemble des classifieurs faibles sélectionnables par le boosting. Dans un second temps nous nous sommes consacré plus particulièrement aux méthodes à noyaux dans un contexte d'apprentissage plus classique. Ces méthodes ont montré de très bon résultats mais le choix de la fonction noyau et son réglage reste un enjeux important. Dans ces travaux, nous avons mis en place une nouvelle méthode d'apprentissage de fonction noyau multi-classes pour la classification de grande base d'images. Nous avons choisie d'utiliser un frameworks inspiré des méthodes de boosting pour créer un noyau fort à partir d'une combinaison de noyau plus faible. Nous utilisons la dualité entre fonction noyau et espace induit pour construit un nouvelle espace de représentation des données plus adapté à la catégorisation. L'idée de notre méthode est de construire de manière optimale ce nouvel espace de représentation afin qu'il permette l'apprentissage d'un nouveau classifieur plus rapide et de meilleures qualités. Chaque donnée multimédia sera alors représentée dans cette espace sémantique en lieu et place de sa représentation visuelle. Pour reproduire une approche similaire à une méthode de boosting, nous utilisons une construction incrémentale où des noyaux faibles sont entraînés dans une direction déterminée par les erreurs de l'itération précédente. Ces noyaux sont combinés à un facteur de pondération près, calculé grâce à la résolution analytique d'un problème d'optimisation. Ces travaux se basent sur des fondements mathématiques et font l'objet d'expériences montrant son intérêt pratique par comparaison avec les méthodes les plus récentes de la littérature. Ceux-ci sont présentés dans deux articles à Esann 2012 et ICIP 2012 ainsi que dans une soumission à MTAP.

  • Titre traduit

    Interactive and multi-class Learning to detect semantic concepts in the multimedia data


  • Résumé

    Recent machine learning techniques have demonstrated their capability for identifying image categories using image features. Among these techniques, Support Vector Machines (SVM)present the best results, particularly when they are associated with a kernel function. However, nowadays image categorization task is very challenging owing to the sizes of benchmark datasets and the number of categories to be classified. In such a context, lot of effort has to be put in the design of the kernel functions and underlying high-level features. In this talk, we propose a new method to learn a kernel function for image categorization in large image databases. Our learning method is made of two steps :first, a kernel is built and semantic features are deduced ; then each class is learn thanks to a standard SVM. We adopt a Boosting framework to design and combine weak kernel functions targeting an ideal kernel. We propose a new iterative algorithm inspired from Boosting, to create a strong kernel. The weak kernels are learn thanks to the duality between the kernel space and the semantic feature space. We show that our method actually builds mapping functions which turn the initial input space to a new feature space where categories are better classified. Furthermore, our algorithm benefits from Boosting process to learn this kernel with a complexity linear with the size of the training set. Experiments are carried out on popular benchmarks and databases to show the properties and behavior of the proposed method. On the PASCAL VOC2006 database, we compare our method to simple early fusion, and on the Oxford Flowers databases we show that our method outperforms the best MKL techniques of the literature.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.