Reconnaissance d'objets utilisant des histogrammes multidimensionnels de champs réceptifs

par Bernt Schiele

Thèse de doctorat en Informatique

Sous la direction de James L Crowley.

Soutenue en 1997

à Grenoble INPG , en partenariat avec Laboratoire d’informatique graphique, vision et robotique (Grenoble) (laboratoire) .


  • Résumé

    Au cours des dernières années, l'intérêt pour des algorithmes de reconnaissance fondés sur l'apparence à considérablement augmenté. Ces algorithmes utilisent directement des informations d'images. A partir des images d'objets ces approches construisent des "modèles fondés sur l'apparence", car chaque image représentée correspond à une apparence particulière d'un objet. La fiabilité, la vitesse et le taux de reconnaissance élevé de ces techniques en constituent les intérêts majeurs. Le succès de ces méthodes est considérable pour la reconnaissance de visages, dans le contexte de l'interface homme-machine et pour l'accès à des bases d'images par leurs contenus. Cette thèse propose une technique ou les objets sont représentés par des statistiques sur des opérateurs locaux et robustes. On veut montrer qu'une telle représentation fondée sur l'apparence est fiable et extrêmement discriminante pour la reconnaissance d'objets. La motivation initiale de cette étude était la reconnaissance rapide d'objets par la méthode des histogrammes de couleurs. Cette méthode utilise les statistiques de couleurs comme modèle d'objets. La première partie de la thèse généralise cette approche en modélisant des objets par les statistiques de leurs caractéristiques locales. La technique généralisée - que l'on appelle "histogrammes multidimensionnels de champs" réceptifs - permet de discriminer un grand nombre d'objets. Les faiblesses de cette approche sont liées aux "défis des modèles fondés sur l'apparence". Ces défis concernent la reconnaissance en présence d'occultation partielle, la reconnaissance d'objets 3D à partir des images 2D et la classification d'objets comme généralisation en dehors de la base d'objets. La deuxième partie de la thèse examine chacun de ces défis et propose une extension appropriée de notre technique. L'intérêt principal de cette thèse est le développement d'un modèle de représentation d'objets qui utilise les statistiques de vecteurs de champs réceptifs. Plusieurs algorithmes de l'identification et aussi de la classification d'objets sont proposés. En particulier, un algorithme probabiliste est defini : il ne dépend pas de la correspondance entre les images de test et les objets de la base de données. Des expériences obtiennent des taux de reconnaissance élevés en utilisant le modèle de représentation proposé. Dans un état de l'art on décrit brièvement des techniques qui ont étés sources d'inspiration : des techniques de histogrammes de couleurs, des algorithmes de reconnaissance fondée sur des descripteurs locaux et des approches de la représentation et reconnaissance statistique d'objet. Afin de généraliser la technique de la comparaison d'histogrammes de couleurs, des descripteurs locaux sont discutés. Différentes techniques de comparaison d'histogrammes sont proposées et leur robustesse par rapport au bruit et au changement de l'intensité d'éclairage est analysée. Dans des expérimentations de l'identification d'une centaine d'objets les différents degrés de liberté de la reconnaissance d'objets sont considérés : changements d'échelle et de la rotation d'image, variations du point de vue et occultation partielle. Un algorithme probabiliste est proposé, qui ne dépend pas de la correspondance entre les images de test et les objets de la base de données. Des expériences obtiennent des taux de reconnaissance élevés en utilisant seulement une petite partie visible d'objet. Enfin une extension de cet algorithme fondée sur une table de hachage dynamique est proposée pour la reconnaissance de plusieurs objets dans les scènes complexes. Deux algorithmes actifs de reconnaissance d'objets sont proposés. Un algorithme calcule des régions d'intérêt pour le contrôle de fixation d'une caméra en 2D. Le deuxième algorithme propose la planification de points de vue pour la reconnaissance des objets 3D à partir des apparence d'objets en 2D. Un dernier chapître propose le concept des classes visuelles définis par des similarites d'objets comme cadre général pour la classification d'objets. Une technique selon le maximum de vraisemblance est proposé pour la reconnaissance des classes visuelles et appliquée pour obtenir des images visuellement similaire d'une base d'images

  • Titre traduit

    Object Recognition using Multidimensional Receptive Field Histograms


  • Résumé

    During the last few years, there has been a growing interest in object recognition schemes directly based on images, each corresponding to a particular appearance of the object. Representations of objects, which only use information of images are called "appearance based" models. The interest in such representation schemes is due to their robustness, speed and success in recognizing objects. The thesis proposes a framework for the statistical representation of appearances of 3D objects. The representation consists of a probability density function over a set of robust local shape descriptors which can be extracted reliable from images. The object representation is therefore learned automatically from sample images. Multidimensional receptive field histograms are introduced for the approximation of the probability density function. A main result of the thesis is that such a representation scheme based on local object descriptors provides a reliable means for object representation and recognition. Different recognition algorithms are proposed and experimentally evaluated. The first recognition algorithm by histogram matching can be seen as the generalization of the color indexing scheme of Swain and Ballard. The second recognition algorithm calculates probabilities for the presence of objects only based on multidimensional receptive field histograms. The most remarkable property of the algorithm is that he does not rely neither on correspondence nor on figure ground segmentation. Experiments show the capability of the algorithm to recognize 100 objects in cluttered scenes. The third recognition algorithm incorporates several viewpoints in an active recognition framework in order to solve ambiguities inherent in single view recognition schemes. The thesis also proposes visual classes as a general framework for appearance based object classification. Classification has been proven difficult for arbitrary objects due to instabilities of invariant representations. The proposed concepts for extraction, representation and recognition of visual classes provide a general framework for object classification. The thesis aims, from an abstract point of view, to push the limits of the appearance based paradigm without using neither figure ground segmentation nor correspondence. The active object recognition allows the consistent recognition of objects in 3D and therefore overcomes the limits of single view recognition. The appearance based classification framework based on the concept of visual classes will serve for future research

Autre version

Cette thèse a donné lieu à une publication en 2004 par [CCSD] [diffusion/distribution] à Villeurbanne

Reconnaissance d'objets utilisant des histogrammes multidimensionnels de champs réceptifs

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (161 p.)
  • Annexes : 122 REF.

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire Joseph-Fourier.
  • Disponible pour le PEB

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire Joseph-Fourier.
  • Non disponible pour le PEB
  • Cote : IMAG-1997-SCH
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.