Cognitive vision : supervised learning for image and video segmentation

par Vincent Martin

Thèse de doctorat en Informatique

Sous la direction de Monique Thonnat.


  • Résumé

    Dans cette thèse, nous abordons le problème de la segmentation d'image et de vidéos par une approche cognitive de la vision. Plus précisément, nous étudions deux problèmes majeurs dans les systèmes de vision : la sélection d'un algorithme et le réglage de ses paramètres selon le contenu de l'image et les besoin de l'application. Nous proposons une méthodologie reposant sur des techniques d'apprentissage pour faciliter la configuration des algorithmes et adapter en continu la tâche de segmentation. Notre première contribution est une procédure d'optimization générique pour l'extraction automatiquement des paramètres optimaux des algorithmes. L'évaluation de la qualité de la segmentation est faite suivant une segmentation de référence. De cette manière, la tâche de l'utilisateur est réduite à fournir des données de référence pour des images d'apprentissage, comme des segmentations manuelles. Une seconde contribution est une stratégie pour le problème de sélection d'algorithme. Cette stratégie repose sur un jeu d'images d'apprentissage représentatif du problème. La première partie utilise le résultat de l'étape d'optimisation pour classer les algorithmes selon leurs valeurs de performance pour chaque image. La seconde partie consiste à identifier différentes situations à partir du jeu d'images d'apprentissage (modélisation du contexte) et à associer un algorithme paramétré avec chaque situation identifiée. Une troisième contribution est une approche sémantique pour la segmentation d'image. Dans cette approche, nous combinons le résultat des segmentations optimisées avec un processus d'étiquetage des régions. Les labels des régions sont données par des classificateurs de régions eux-même entrainés à partir d'exemples annotés par l'utilisateur. Une quatrième contribution est l'implémentation de l'approche et le développement d'un outil graphique dédié à l'extraction, l'apprentissage, et l'utilisation de la connaissance pour la segmentation (modélisation et apprentissage du contexte pour la sélection dynamique d'algorithme de segmentation, optimization automatique des paramètres, annotations des régions et apprentissage des classifieurs). Nous avons testé notre approche sur deux applications réelles : une application biologique (comptage d'insectes sur des feuilles de rosier) et une application de video surveillance. Pour la première application, la segmentation des insectes obtenue par notre approche est de meilleure qualité qu'une segmentation non-adaptative et permet donc au système de vision de compter les insectes avec une meilleure précision. Pour l'application de video surveillance, la principal contribution de l'approche proposée se situe au niveau de la modélisation du contexte, permettant d'adapter le choix d'un modèle de fond suivant les caractéristiques spatio-temporelles de l'image. Notre approche permet ainsi aux applications de video surveillance d'élargir leur champ d'application aux environnement fortement variables comme les très longues séquences (plusieurs heures) en extérieur. Afin de montrer le potentiel et les limites de notre approche, nous présentons les résultats, une évaluation quantitative et une comparaison avec des segmentations non-adaptatvie.

  • Titre traduit

    Cognitive vision : supervised learning for image and video segmentation


  • Résumé

    In this thesis, we address the problem of image and video segmentation with a cognitive vision approach. More precisely, we study two major issues of the segmentation task in vision systems: the selection of an algorithm and the tuning of its free parameters according to the image contents and the application needs. We propose a learning-based methodology to easily set up the algorithms and continuously adapt the segmentation task. Our first contribution is a generic optimization procedure to automatically extract optimal algorithm parameters. The evaluation of the segmentation quality is done w. R. T. Reference segmentation. In this way, the user task is reduced to provide reference data of training images, as manual segmentations. A second contribution is a twofold strategy for the algorithm selection issue. This strategy relies on a training image set representative of the problem. The first part uses the results of the optimization stage to perform a global ranking of algorithm performance values. The second part consists in identifying different situations from the training image set and then to associate a tuned segmentation algorithm with each situation. A third contribution is a semantic approach to image segmentation. In this approach, we combine the result from the previously (bootom-up) optimized segmentations to a region labelling process. Regions labels are given by region classifiers which are trained from annotated samples. A fourth contribution is the implementation of the approach and the development of a graphical tool currently able to carry out the learning of segmentation knowledge (context modelling and learning, automatic parameter optimization, region annotations, region classifier training, and algorithm selection) and to use this knowledge to perform adaptive segmentation. We have tested our approach on two real-world applications: a biological application (pests counting on rose leaves), and video surveillance applications. For the first one, the proposed adaptive segmentation approach over performs a non-adaptive segmentation in terms of segmentation quality and thus allows the vision system to count the pests with a better precision. For the video application, the main contribution of the proposed approach takes place at the context modelling level. By achieving dynamic background model selection based on spatio-temporal context analysis, our approach allows to enlarge the scope of surveillance applications to high variable environments (e. G. , outdoor sequences of several hours).

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (xvii-168 p.)
  • Annexes : Bibliogr. p. [157]-168. Résumés en français et en anglais

Où se trouve cette thèse ?

  • Bibliothèque : Université Nice Sophia Antipolis. Service commun de la documentation. Section Sciences.
  • Non disponible pour le PEB
  • Cote : 07NICE4067
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.