Shared-Neighbours methods for visual content structuring and mining

par Amel Hamzaoui

Thèse de doctorat en Informatique

Sous la direction de Nozha Ben Hajel-Boujemaa.

Soutenue le 10-05-2012

à Paris 11 , dans le cadre de Ecole doctorale Informatique de Paris-Sud , en partenariat avec Institut national de recherche en informatique et en automatique (France) (laboratoire) et de IMEDIA (Le Chesnay) (équipe de recherche) .

  • Titre traduit

    Structuration et découverte de contenus visuels par des méthodes basées sur les voisins partagés


  • Résumé

    Cette thèse étudie les méthodes de regroupement basées sur le principe des plus proches voisins partagés (SNN). Comme la plupart des autres approches de clustering à base de graphe, les méthodes SNN sont effectivement bien adaptées à surmonter la complexité des données, l'hétérogénéité et la haute dimensionnalité. La première contribution de la thèse est de revisiter une méthode existante basée sur les voisins partagés en deux points. Nous présentons d'abord un formalisme basé sur la la théorie de décision à contrario. Cela nous permet de tirer des scores de connectivité plus fiable des groupes et une interprétation plus intuitive des voisinage selectionnés optimalement. Nous proposons également un nouveau algorithme de factorisation pour accélérer le calcul intensif nécessaire des matrices des voisins partagés. La deuxième contribution de cette thèse est une généralisation de la classification SNNau cas multi-source. La principale originalité de notre approche est que nous introduisons une étape de sélection des sources d'information optimales dans le calcul de scores de groupes candidats. Chaque groupe est alors associé à son propre sous-ensemble optimal des modalités. Comme le montre le expériences, cette étape de sélection de source rend notre approche largement robuste à la présence de sources locales aberrantes. Cette nouvelle méthode est appliquée à un large éventail de problèmes, y compris la structuration multimodale des collections d'images et dans le regroupement dans des sous-espaces basés sur les projections aléatoires.La troisième contribution de la thèse est une tentative pour étendre les méthodes SNNdans le contexte des graphes biparites. Nous introduisons de nouvelles mesures de pertinence SNNrevisitées pour ce contexte asymétrique et nous montrons qu'elles peuvent être utiliséespour sélectionner localement des voisinages optimales. En conséquence, nous proposons un nouveau algorithme de clustering bipartite SNN qui est appliqué à la découverte d'objets visuels.Les expériences montrent que cette nouvelle méthode est meilleure par rapport aux méthodes de l'état de l'art. Basé sur les objets découverts, nous introduisons également un paradigme de recherche visuelle, c.-à-d les objet basés sur la suggestion de requêtes visuel les.


  • Résumé

    This thesis investigates new clustering paradigms and algorithms based on the principle of the shared nearest-neighbors (SNN. As most other graph-based clustering approaches, SNN methods are actually well suited to overcome data complexity, heterogeneity and high-dimensionality.The first contribution of the thesis is to revisit existing shared neighbors methods in two points. We first introduce a new SNN formalism based on the theory of a contrario decision. This allows us to derive more reliable connectivity scores of candidate clusters and a more intuitive interpretation of locally optimum neighborhoods. We also propose a new factorization algorithm for speeding-up the intensive computation of the required sharedneighbors matrices.The second contribution of the thesis is a generalization of the SNN clustering approach to the multi-source case. Whereas SNN methods appear to be ideally suited to sets of heterogeneous information sources, this multi-source problem was surprisingly not addressed in the literature beforehand. The main originality of our approach is that we introduce an information source selection step in the computation of candidate cluster scores. As shown in the experiments, this source selection step makes our approach widely robust to the presence of locally outlier sources. This new method is applied to a wide range of problems including multimodal structuring of image collections and subspace-based clustering based on random projections. The third contribution of the thesis is an attempt to extend SNN methods to the context of bipartite k-nn graphs. We introduce new SNN relevance measures revisited for this asymmetric context and show that they can be used to select locally optimal bi-partite clusters. Accordingly, we propose a new bipartite SNN clustering algorithm that is applied to visual object’s discovery based on a randomly precomputed matching graph. Experiments show that this new method outperformed state-of-the-art object mining results on OxfordBuilding dataset. Based on the discovered objects, we also introduce a new visual search paradigm, i.e. object-based visual query suggestion.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud 11. Service commun de la documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.