Accélération de la recherche dans les espaces de grande dimension : Application à l'indexation d'images par contenu visuel

par Nouha Bouteldja

Thèse de doctorat en Informatique

Sous la direction de Michel Scholl.

Soutenue en 2009

à CNAM .


  • Pas de résumé disponible.

  • Titre traduit

    Accelerating retrieval in high dimensional spaces : Application to CBIR systems


  • Résumé

    L'objectif des travaux de recherche présentés dans cette thèse est l'accélération de la recherche dans les grandes bases de données décrites par des vecteurs de grande dimension. Différentes structures ont déjà été proposées dans la littérature afin de réduire les temps de recherche mais plusieurs d'entre elles souffrent du problème de la malédiction de la dimension. Dans une première partie de cette thèse nous avons revisité le phénomène de la malédiction de la dimension avec les index classiques afin de déterminer à partir de quelle dimension ces index deviennent inefficaces. Cette première étude a montré que les index classiques fonctionnent bien avec des dimensions modérées (< 30) avec les bases réelles. Toutefois pour des dimensions plus importantes le problème de la malédiction de la dimension persiste. D'un autre coté avec l'augmentation des volumes des données ces dernières décennies vu la facilité de leur stockage, les besoins d'accélération de la recherche sont de plus en plus importants. Ces derniers points ont motivé la proposition de HiPeR notre principale contribution. HiPeR est un modèle hiérarchique qui assure la recherche exacte, progressive et approximative avec contrôle de précision. Elle est basée sur une hiérarchie d'espaces et d'index : la recherche commence par les espaces à faibles dimensions afin de réduire les effets de la malédiction de la dimension fournissant un premier résultat. Ce dernier sera amélioré progressivement en utilisant de plus grandes dimensions. Différentes stratégies sont proposées pour parcourir HiPeR en assurant la recherche exacte ou approximative. La qualité de la réponse approximative est fixée par l'utilisateur au moment de la recherche. Afin d'assurer la qualité escomptée, la méthode suit un modèle de précision probabiliste et non paramétrique. Les expériences, menées sur trois bases réelles de 4 millions de points, montrent qu'HiPeR améliore considérablement les index classiques en termes de temps CPU et d'accès I/O. Dans la dernière partie de cette thèse nous avons étudié le cas particulier des requêtes multiples où chaque entité de la base est décrite par plusieurs vecteurs. Afin d'accélérer la recherche dans une telle configuration, différentes stratégies ont été proposées et expérimentées avec les index classiques et HiPeR.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. ( 131 p.)
  • Annexes : Bibliogr. p. 123-131

Où se trouve cette thèse ?

  • Bibliothèque : Conservatoire national des arts et métiers (Paris). Bibliothèque Centrale.
  • Non disponible pour le PEB
  • Cote : Th A 628
  • Bibliothèque : Conservatoire national des arts et métiers (Paris). Bibliothèque Centrale.
  • Disponible pour le PEB
  • Cote : Th A 628 double
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.