Apprentissage interactif et multi-classes pour la d?tection de concepts s?mantiques dans les donn?es multim?dia

par Alexis Lechervy

Thèse de doctorat en STIC (sciences et technologies de l'information et de la communication) - Cergy

Sous la direction de Philippe-Henri Gosselin et de Fr?d?ric Precioso.

Le jury était composé de Philippe-Henri Gosselin, Matthieu Cord, S?bastien Lef?vre, V?ronique Serfaty.

Les rapporteurs étaient Richard Nock, St?phane Marchand-Maillet.


  • Résumé

    R?cemment les techniques d'apprentissage automatique ont montr? leurs capacit? ? identifier des cat?gories d'images ? partir de descripteurs extrait de caract?ristiques visuels des images. Face ? la croissance du nombre d'images et du nombre de cat?gories ? traiter, plusieurs techniques ont ?t? propos?es pour r?duire ? la fois le co?t calculatoire des m?thodes et l'investissement humain en terme de supervision. Dans cette th?se nous proposons deux m?thodes qui ont pour objectif de traiter un grand nombre d'images et de cat?gories. Nous proposons tout d'abord une solution reposant sur le concepts de recherche interactive. Le protocole de recherche interactive propose d'?tablir un ? dialogue ? entre le syst?me d'apprentissage et l'utilisateur afin de minimiser l'effort d'annotation. Nous avons voulu dans ces travaux proposer une solution de recherche interactive adapt?e aux m?thodes de boosting . Ces m?thodes combinent des classifieurs faibles pour produire un classifieur plus fort. Nous avons propos? une m?thode de boosting interactif pour la recherche dans les images qui fit l'objet de deux articles (RFIA 2010, ICPR 2010). Ces m?thodes proposent notamment une nouvelle mani?re de construire l'ensemble des classifieurs faibles s?lectionnables par le boosting. Dans un second temps nous nous sommes consacr? plus particuli?rement aux m?thodes ? noyaux dans un contexte d'apprentissage plus classique. Ces m?thodes ont montr? de tr?s bon r?sultats mais le choix de la fonction noyau et son r?glage reste un enjeux important. Dans ces travaux, nous avons mis en place une nouvelle m?thode d'apprentissage de fonction noyau multi-classes pour la classification de grande base d'images. Nous avons choisie d'utiliser un frameworks inspir? des m?thodes de boosting pour cr?er un noyau fort ? partir d'une combinaison de noyau plus faible. Nous utilisons la dualit? entre fonction noyau et espace induit pour construit un nouvelle espace de repr?sentation des donn?es plus adapt? ? la cat?gorisation. L'id?e de notre m?thode est de construire de mani?re optimale ce nouvel espace de repr?sentation afin qu'il permette l'apprentissage d'un nouveau classifieur plus rapide et de meilleures qualit?s. Chaque donn?e multim?dia sera alors repr?sent?e dans cette espace s?mantique en lieu et place de sa repr?sentation visuelle. Pour reproduire une approche similaire ? une m?thode de boosting, nous utilisons une construction incr?mentale o? des noyaux faibles sont entra?n?s dans une direction d?termin?e par les erreurs de l'it?ration pr?c?dente. Ces noyaux sont combin?s ? un facteur de pond?ration pr?s, calcul? gr?ce ? la r?solution analytique d'un probl?me d'optimisation. Ces travaux se basent sur des fondements math?matiques et font l'objet d'exp?riences montrant son int?r?t pratique par comparaison avec les m?thodes les plus r?centes de la litt?rature. Ceux-ci sont pr?sent?s dans deux articles ? Esann 2012 et ICIP 2012 ainsi que dans une soumission ? MTAP.

  • Titre traduit

    Interactive and multi-class Learning to detect semantic concepts in the multimedia data


  • Résumé

    Recent machine learning techniques have demonstrated their capability for identifying image categories using image features. Among these techniques, Support Vector Machines (SVM)present the best results, particularly when they are associated with a kernel function. However, nowadays image categorization task is very challenging owing to the sizes of benchmark datasets and the number of categories to be classified. In such a context, lot of effort has to be put in the design of the kernel functions and underlying high-level features. In this talk, we propose a new method to learn a kernel function for image categorization in large image databases. Our learning method is made of two steps :first, a kernel is built and semantic features are deduced ; then each class is learn thanks to a standard SVM. We adopt a Boosting framework to design and combine weak kernel functions targeting an ideal kernel. We propose a new iterative algorithm inspired from Boosting, to create a strong kernel. The weak kernels are learn thanks to the duality between the kernel space and the semantic feature space. We show that our method actually builds mapping functions which turn the initial input space to a new feature space where categories are better classified. Furthermore, our algorithm benefits from Boosting process to learn this kernel with a complexity linear with the size of the training set. Experiments are carried out on popular benchmarks and databases to show the properties and behavior of the proposed method. On the PASCAL VOC2006 database, we compare our method to simple early fusion, and on the Oxford Flowers databases we show that our method outperforms the best MKL techniques of the literature.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.