Indexation et recherche d'images par fusion d'informations textuelles et visuelles

par Sabrina Tollari

Thèse de doctorat en Sciences. Informatique

Sous la direction de Hervé Glotin et de Jacques Le Maitre.


  • Résumé

    Du fait du nombre exponentiel d'images disponibles, les Systèmes de Recherche d'Images sur la recherche d'images (SRIin) doivent être echelonnables tout en réduisant le fossé sémantique. Les SRIm pour le web utilisent le texte associé, ce qui assure seulement l'échelonnabilité, et ceux basés sur le contenu mettent en défaut la similitude sémantique. Les SRIm robustes devraient extraire et fusionner les informations textuelles et visuelles des images généralement mal étiquetées et mal segmentées. Dans cette optique, nous, proposons deux méthodes echelonnables que nous testons sur COREL (images 10K, 150 mots). Premièrement, nous montrons qu'un système bayésien léger et rapide d'auto-annotation avec un index visuel de type "Vector Approximation-Files" améliore de +29% le score a priori. Puis, nous proposons pour ces images mal étiquetées une méthode de réduction adaptative du nombre de dimensions visuelles en fonction du concept, fondée sur l'hypothèse que ceux-ci sont présentés avec des contextes visuels suffisamment variables. Nous prouvons théoriquement et expérimentalement que l'approximation de l'analyse linéaire discriminante (ALDA) reste dans ces conditions efficace et qu'elle améliore les classifi¬cations hiérarchiques ascendantes de 59% en ne sélectionnant que 10% des dimensions visuelles. Puis nous la comparons à l'approximation de la diversité marginale maximale (AMMD), Cette thèse démontre l'intérêt de considérer des traits visuels en fonction du concepts, et donne des méthodes pour les extraire dans le cas réel de grandes bases d'images mal étiquetées, ouvrant de nouvelles perspectives pour des analyses textuo-visuelles du web

  • Titre traduit

    Image indexing and retrieval by combining textual and visual informations


  • Résumé

    Because of the exponential growing number of images, Image Retrieval Systems flmRS) must be scalable while reducing as much as possible the semantic gap. Usual web ImRS scan the associated text which only ensures scalability, on the other hand content based systems do not optimize semantic similarity. Robust ImRS may extract and merge textual arid visual informations from generally iniss-labeled and miss-segmented images. Therefore we propose two scalable approximation methods tested on COREL database (10K images, 150 words). We first train with miss-labeled images a simple bayesian image auto-annotation model using visual index based on Vector Approximation Files. This model is very fast and is better than priors (+29%). Second, we propose an adaptive reduction of the visual dimension for miss-labeled images. It relies on the hypothesis that each concept in a general image database is included in various visual contexts. We show theoritically under this weak assumption that we can approximate the Linear Discriminant Analysis (ALDA) and classification results using a simple ascendant hierarchical classification. Results demonstrate ALDA efficiency enhancing classification by 59% while selec¬ting only 10% of the visual dimensions. Approximation of Maximal Marginal Diversity (AMMD) is also proposed. This thesis demonstrates the interest of considering concept dependant visual features, and gives methods to extract them from real miss-labeled and miss-segmented large image databases, opening new perpectives for textuo-visual web analyses.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (206 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliographie p.189-202. Index

Où se trouve cette thèse ?