Modèles d'objets et codages invariants en vision artificielle : classification d'images et reconnaissance de contexte

par Nathalie Denquive

Thèse de doctorat en Informatique

Sous la direction de Philippe Tarroux.

Soutenue en 2004

à Paris 11 , en partenariat avec Université de Paris-Sud. Faculté des Sciences d'Orsay (Essonne) (autre partenaire) .


  • Résumé

    Nous proposons une méthode de codage fondée sur le contenu fréquentiel de l'image, inspirée des mécanismes de filtrage à l'œuvre dans les systèmes de vision naturels. Deux outils indépendants, successifs, ont été implémenté : un outil de recherche de code multi-échelle fondé sur des principes évolutionnistes et un outil de catégorisation. Les caractéristiques fréquentielles de la scène visuelle sont extraites en utilisant un banc d’ondelettes de Gabor. A partir de cette signature multi-fréquentielle, la classification a été abordée selon deux points de vue : indexer une base d’images, construire un outil de structuration de l’espace visuel en robotique. Dans le premier cas, l’apprentissage est supervisé. Deux techniques ont été comparées : fonctions à base radiales et K plus proches voisins. Dans le second cas, le système doit appréhender son environnement et se faire sa propre représentation de l’espace visuel. L’apprentissage est non supervisé. Les techniques mises en œuvre sont Kohonen et K-moyennes. Les résultats de reconnaissance obtenus jusqu’ici sur différentes classes d’images sont satisfaisants. Nous montrons que la méthode de codage actuelle peut être améliorée en affinant les gammes de fréquences spatiales nécessaires à la reconnaissance et en l’adaptant en fonction des caractéristiques de chaque classe. Contrairement aux approches conventionnelles, les catégories que nous envisageons ne sont pas toutes disjointes. Des approches permettant de prendre en compte une probabilité d’appartenance à une classe peuvent donc être employées. Par ailleurs certaines catégories peuvent être considérées comme caractéristiques du contexte global de la scène.

  • Titre traduit

    Models of objects and invariant codings in artificial vision : images classification and context recognition


  • Résumé

    We propose a coding method based on the frequency contents of the image, inspired from the filtering mechanisms observed within the natural vision systems. Two independent tools, both used subsequently, were implemented : a research tool for multi-scale codes based on evolutionary principles, and a categorization tool. The characteristics of the frequencies of the visual scene are extracted by using a bank of Gabor. On the basis of this multi-scale signature, the classification was approached from two different perspectives. The first perspective consisted in indexing an image database, while the second was focused on building a tool to structure the visual space in robotics. In the first case, the learning is supervised. Two techniques were compared: radial base functions and K nearest neighbours. In the second case, the system has to embrace its environment and make its own representation of the visual space. The learning is not supervised. Techniques implemented were the following: Kohonen and K-means. So far, results of recognition obtained are satisfactory. The current coding methodology can be improved by refining the ranges of spatial frequencies which are necessary to obtain recognition and by adapting this methodology according to the characteristics of every class. Contrary to conventional approaches, the categories which are under study are not all completely separated. Approaches allowing to take into account a probability for a category to belong to a class can thus be employed. Furthermore, categories can be considered as typical characteristics of the global context of the scene.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 166 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 161-166

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2004)282
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.