Reconnaissance de catégories d'objets et d'instances d'objets à l'aide de représentations locales

par Éric Nowak

Thèse de doctorat en Informatique et mathématiques

Sous la direction de Frédéric Jurie, Roger Mohr et de Jean-Luc Maillart.

Soutenue en 2008

à Grenoble INPG .


  • Résumé

    La reconnaissance d'objets est l'un des domaines d'étude les plus actifs de la vision par ordinateur. Il faut distinguer la reconnaissance de catégories d'objets génériques (une voiture en général, un piéton en général) et la reconnaissance d'instances d'objets particuliers (la voiture de M. Dupont, M. Dupont lui-même). Cette thèse aborde les deux sujets. Nous utilisons pour cela des représentations d'objets par parties, ce qui signifie que l'image à analyser n'est pas considérée dans son ensemble de manière rigide, mais plutôt comme un ensemble de régions locales, ce qui apporte une grande robustesse à la reconnaissance. Nous nous intéressons spécifiquement à la reconnaissance d'objets décrits par sacs-demots. Cela signifie que les relations géométriques entre les régions locales décrivant une image sont ignorées. Nous étudions en particulier l'influence des différentes composantes de la classification d'images par sac-de-mots, et nous montrons que le facteur le plus influent est la quantité de régions locales sélectionnées, et pour cette raison nous proposons une sélection aléatoire et en grande quantité de régions locales dans les images à décrire. Dans le contexte de la thèse CIFRE effectuée en partenariat avec l'INRIA et Bertin Technologies, nous analysons la performance des méthodes sac-de-mots pour la reconnaissance des véhicules militaires en imagerie infra-rouge. Nous montrons que les paramètres algorithmiques se comportent comme en imagerie visible. Nous effectuons aussi une étude des paramètres opérationnels, telle que la distance cible-caméra, et montrons que les paramètres sensibles sont les occultations et la présence de fond texturé quand les cibles sont détourées avec une faible précision. Nous étudions aussi le compromis entre performance et temps de calcul, et proposons une méthode de sélection de primitives adaptées aux classifieurs hiérarchiquesmulti-classes, qui fournissent un meilleur compromis performance / temps de calcul que la selection de primitives pour classifieurs plats. Les trois études précédentes traitent de la reconnaissance de catégories d'objets. Nous nous intéressons aussi à la reconnaissance d'instances d'objets, et proposons une mesure de similarité destinée à des instances d'objets jamais vus lors d'une phase d'apprentissage. Cette mesure est basée sur la quantification par des arbres extrêmement aléatoires de paires de régions locales correspondantes sélectionnées dans les deux images à comparer. Toutes ces études sont validées par des expérimentations importantes sur des bases de données publiques, et nous obtenons à chaque fois des résultats aussi bons, sinon meilleurs, que ceux de l'état de l'art.

  • Titre traduit

    Local feature based object categories and object instances recognition


  • Résumé

    Object recognition is one of the most active fields of computer vision. In this thesis we consider two problems: recognition of object categories (a car, a pedestrian) and recognition of object instances (Mr Smith's car, Mr Smith himself). We use local object representations, which means that an image is considered as a set of local regions, which is more robust and more flexible that a global representation. We particularly focus on bag-of-words methods, that discard geometric information between local regions. We study the influence of each step of the algorithm, and show that the parameter the most influent on the accuracy is the amount of local regions sampled to describe the image. We thus propose to sample a large amount of random local regions to describe images. In the context of this CIFRE industrial PhD thesis, in partnership with INRIA and Bertin Technologies, we study how performant bag-of-words methods are for recognizing military vehicles on infrared images. We show that the algorithm parameters have the same behavior as the ones in the visible spectrum. We also study operation parameters, such as the distance between the camera and the target, and show that the most critical parameters are the occlusion rate and the amount of textured background in the region of interest when targets are poorly segmented. We also study the trade-off between accuracy and computation time, and we propose a feature selection scheme well suited for multiclass hierarchical classifiers, more interesting than standard feature selection for flat classifiers. The three previous studies focus on object category recognition. We also consider object instance recognition, and we propose a similarity measure for comparing objects never seen during a training phase. That measure is based on the quantization by extremely randomized clustering forests of matching pairs of local regions sampled from the two images to compare. All these studies are validated by many experiments on state of the art and our own datasets, and we always obtain results as good as the state of the art, if not better.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (185 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 179-185 (98 réf.)

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Cote : TS08/INPG/0022/D
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible sous forme de reproduction pour le PEB
  • Cote : TS08/INPG/0022
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.