Vers une description efficace du contenu visuel pour l'annotation automatique d'images

par Nicolas Hervé

Thèse de doctorat en Informatique

Sous la direction de Nozha Ben Hajel-Boujemaa.


  • Résumé

    Les progrès technologiques récents en matière d’acquisition de données multimédia ont conduit à une croissance exponentielle du nombre de contenus numériques disponibles. Pour l’utilisateur de bases d’images généralistes (agences photo, collections personnelles), l’annotation manuelle présente aujourd’hui un coût prohibitif. Nous présentons une approche générique de l’annotation automatique permettant de générer de nouvelles métadonnées. Elle est basée sur une stratégie d’apprentissage statistique utilisant des SVM à noyau triangulaire. La description visuelle du contenu et sa représentation sont sans doute les étapes les plus importantes puisqu’elles conditionnent l’ensemble du processus. Pour la représentation globale des images, nous proposons le nouveau descripteur de formes LEOH. D’autre part, nous utilisons une représentation par sacs de mots visuels pour décrire localement des images. Nous montrons de façon originale qu’un échantillonnage dense est préférable à l’utilisation des détecteurs de points d’intérêt pour la sélection de patches visuels. De plus, nous proposons d’inclure des contraintes géométriques souples, qui sont, par nature ignorées dans les sacs de mots, en utilisant des paires de mots visuels. Dans le contexte du bouclage de pertinence, nous proposons une nouvelle stratégie permettant de mixer les descriptions visuelles globales et par sac de mots. Tous ces travaux ont été évalués sur des bases d’images réalistes. Ces expérimentations ont mis en avant la pertinence des améliorations proposées. Certaines d’entre elles ont permis à notre approche d’obtenir les meilleures performances lors de la campagne d’évaluation ImagEVAL.

  • Titre traduit

    Towards an efficient visual content description for images automatic annotation


  • Pas de résumé disponible.


  • Résumé

    Recent technological advances in the acquisition of multimedia data have led to an exponential growth of digital content. For the end-user of generalist images databases (photo agencies, personal collections), manual annotation has become prohibitively expensive. We present a generic approach to automatic annotation that generates new metadata. It is based on statistical learning framework using SVM with triangular kernel. The description of visual content and its representation are perhaps the most important steps as they are used by the whole process. . For the global representation of images, we propose the new forms descriptor LEOH. In order to describe locally the images, we use bag of visual words. We show, in a original way, that dense sampling is preferable to the use of points of interest detectors for the selection of visual patches. In addition, we propose to include flexible geometric constraints, which are, by nature, ignored in the bag of words, by using pairs of visual words. In the context of active learning, we propose a new strategy to mix global visual description and bag of words. This work has been assessed with realistic images datasets. The experiments have highlighted the redevance of the proposed improvements. We obtain the best performances during the ImageEVAL benchmark campaing.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XVIII-173 p.)
  • Annexes : Bibliogr. p. 151-167

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2009)82
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.