Distributed and higher-order graphical models : towards segmentation, tracking, matching and 3D model inference

par Chaohui Wang

Thèse de doctorat en Mathématiques appliquées aux systèmes

Sous la direction de Nikos Paragios.

Le président du jury était Henri Maître.

Le jury était composé de Nikos Paragios, Michael Black, Philipp Torr, Vladimir Kolmogorov, Patrick Bouthémy.

Les rapporteurs étaient Michael Black, Philipp Torr.

  • Titre traduit

    Modèles graphiques distribués et d'ordre supérieur : pour la segmentation, le suivi d'objet, l'alignement et l'inférence de modèle 3D


  • Résumé

    Cette thèse est dédiée au développement de méthodes à base de graphes, permettant de traiter les problèmes fondamentaux de la vision par ordinateur tels que la segmentation, le suivi d’objets, l’appariement de formes et l’inférence de modèles 3D. La première contribution de cette thèse est une méthode unifiée reposant sur un champ de Markov aléatoire (MRF) d’ordre deux permettant de réaliser en une seule étape la segmentation et le suivi de plusieurs objets observés par une caméra unique, tout en les ordonnançant en fonction de leur distance à la caméra. Nous y parvenons au moyen d’un nouveau modèle stratifié (2.5D) dans lequel une représentation bas-niveau et une représentation haut-niveau sont combinées par le biais de contraintes locales. Afin d’introduire des connaissances de haut niveau a priori, telles que des a priori sur la forme des objets, nous étudions l’appariement non-rigide de surfaces 3D. La seconde contribution de cette thèse consiste en une formulation générique d’appariement de graphes qui met en jeu des potentiels d’ordre supérieur et qui est capable d’intégrer différentes mesures de similarités d’apparence, de similarités géométriques et des pénalisations sur les déformations des formes. En tant que la troisième contribution de cette thèse, nous considérons également des interactions d’ordre supérieur pour proposer un a priori de forme invariant par rapport à la pose des objets, et l’exploitons dans le cadre d’une nouvelle approche de segmentation d’images médicales 3D afin d’obtenir une méthode indépendante de la pose de l’objet d’intérêt et de l’initialisation du modèle de forme. La dernière contribution de cette thèse vise à surmonter l’influence de la pose de la caméra dans les problèmes de vision. Nous introduisons un paradigme unifié permettant d’inférer des modèles 3D à partir d’images 2D monoculaires. Ce paradigme détermine simultanément le modèle 3D optimal et les projections 2D correspondantes sans estimer explicitement le point de vue de la caméra, tout en gérant les mauvaises détections et les occlusions.


  • Résumé

    This thesis is devoted to the development of graph-based methods that address several of the most fundamental computer vision problems, such as segmentation, tracking, shape matching and 3D model inference. The first contribution of this thesis is a unified, single-shot optimization framework for simultaneous segmentation, depth ordering and multi-object tracking from monocular video sequences using a pairwise Markov Random Field (MRF). This is achieved through a novel 2.5D layered model where object-level and pixel-level representations are seamlessly combined through local constraints. Towards introducing high-level knowledge, such as shape priors, we then studied the problem of non-rigid 3D surface matching. The second contribution of this thesis consists of a higher-order graph matching formulation that encodes various measurements of geometric/appearance similarities and intrinsic deformation errors. As the third contribution of this thesis, higher-order interactions were further considered to build pose-invariant statistical shape priors and were exploited for the development of a novel approach for knowledge-based 3D segmentation in medical imaging which is invariant to the global pose and the initialization of the shape model. The last contribution of this thesis aimed to partially address the influence of camera pose in visual perception. To this end, we introduced a unified paradigm for 3D landmark model inference from monocular 2D images to simultaneously determine both the optimal 3D model and the corresponding 2D projections without explicit estimation of the camera viewpoint, which is also able to deal with misdetections/occlusions


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : CentraleSupélec. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.