Optimisation de voisinages de superpixels pour la segmentation d'images

par Christophe Ribal

Projet de thèse en Traitement du signal et des images

Sous la direction de Sylvie Le Hégarat et de Nicolas Lerme.

Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) , en partenariat avec Systèmes et Applications des Technologies de l'Information et de l'Energie (laboratoire) , MOSS - Méthodes et outils pour les Signaux et Systèmes (equipe de recherche) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 01-10-2017 .


  • Résumé

    La vision par ordinateur est un domaine de recherche de plus en plus important pour comprendre et interpréter des images numériques avec des algorithmes informatiques. Les problèmes et applications associés couvrent un large spectre de niveaux d'abstractions, allant de l'extraction d'information par pixel (bas niveau) à la compréhension sémantique du contenu d'une image (haut niveau). Les problèmes bas niveau (sur lesquels cette thèse se concentre) incluent par exemple la segmentation, la classification, le débruitage, l'estimation de flot optique, l'inpainting, la super-résolution, la synthèse de textures, etc. Tous ces problèmes ont des points en commun : (i) ils requièrent d'estimer de l'information à partir de données bruitées, (ii) les modèles proposés ne permettent pas de capturer pleinement la complexité du processus de formation des images et (iii) les données mises à disposition sont souvent insuffisantes pour contraindre tous les aspects de la solution recherchée. Cela rend donc ces problèmes mal posés et nécessite l'introduction d'une connaissance a priori (ou régularisation) pour contraindre l'espace des solutions possibles. Par exemple, dans le cas de la segmentation, un a priori courant est de considérer que l'image varie continûment à l'intérieur des régions et discontinûment aux frontières. L'objectif de cette thèse est alors l'estimation automatique de formes de voisinages locales non nécessairement isotropes. Dès l'article fondateur [Geman and Geman, 1984], la nécessité de ne pas opérer de régularisation au bord des objets est apparue, avec pour solution proposée l'introduction de processus bord ‘désactivant' la pénalité en cas d'inhomogénéité (modèle de type Potts pour les potentiels des cliques d'ordre 2 sur le voisinage). Afin de préserver les structures fines et allongées, différentes formes de voisinages sont considérées dans [Descombes et al., 1998] en modélisant des interactions entre pixels via des cliques d'ordre 3. La solution retenue dans [Le Hégarat-Mascle et al., 2007] est de rechercher des voisinages les plus homogènes possibles en relâchant la contrainte sur leur forme mais en vérifiant des contraintes de connexité, de réciprocité et de cardinal constant. Cependant, le coût de calcul d'une telle approche est prohibitif et n'est pas adapté pour des applications de type vision robotique. [Roth and Black, 2009] propose d'apprendre les a priori des champs de Markov aléatoires à partir de données d'entraînement. Dans le cas de textures, des systèmes de voisinages complexes avec des relations multiples et distantes entre voisins apprises également à partir de données d'entraînement ont été proposés. Ils permettent de modéliser des propriétés spatiales complexes mais restent limités à certaines classes de textures. Enfin, des travaux plus récents sont également parus pour résoudre des champs de Markov aléatoires à l'aide de 'graph cuts' en utilisant des cliques d'ordre supérieur ou égal à 3 [Fix et al., 2011]. Malgré des résultats prometteurs dont la qualité est supérieure à ceux obtenus par des champs de Markov aléatoires classiques, ces approches demeurent encore complexes à mettre en oeuvre et coûteuses en terme d'usage mémoire et de temps de calcul. Une des pistes de cette thèse est d'envisager une approche générale pour rechercher des voisinages adaptatifs (localement) en introduisant un critère de régularité sur les formes des voisinages elles-mêmes. Pour valider l'approche qui sera proposée, différentes applications (de complexité croissante) seront successivement considérées. Tout d'abord, nous considèrerons le problème de la détection de structures fines (largeur allant de 1 à quelques pixels), de type cracks dans la chaussée ou les murs, sur des images classiques couleur ou niveau de gris. Ensuite, nous considèrerons le problème de la co-segmentation dans des scènes dynamiques. En effet, plus le nombre d'images considérées dans la co-segmentation devient grand (avec un ordre de grandeur de quelques dizaines), plus il est intéressant de travailler avec des superpixels. Cependant, dans le cas où les superpixels sont calculés indépendemment sur chaque image, leur non-coïncidence spatiale induira nécessairement le calcul de relations de voisinage complexes.

  • Titre traduit

    Optimization of SuperPixel Neighborhoods for Image Segmentation


  • Résumé

    Computer vision is an increasingly important area of research for understanding and interpreting digital images with computer algorithms. The handled problems range from information extraction per pixel (low level) to semantic understanding of the content of an image (high level). Low-level problems (on which this thesis focuses) include, for instance, segmentation, classification, denoising, optical flow estimation, inpainting, super-resolution, texture synthesis, etc. All these problems share the following points: (I) they require information to be estimated from noisy data, (ii) the proposed models do not fully represent the complexity of the image formation process, and (iii) the data provided are often insufficient to constrain the solution research. This makes these problems ill-posed and requires the introduction of an a priori knowledge (or regularization) to constrain the space of feasible possible. For example, in the case of segmentation, a common a priori is to consider that the image varies continuously within the regions and discontinuously at the borders. The objective of this thesis is then the automatic estimation of the geometric shape of local neighborhoods that are no longer necessarily isotropic. Since the seminal paper [Geman and Geman, 1984], the necessity not to operate regularization on the edges appeared, with as proposed solution the introduction of line processes deactivating the penalty in case of inhomogeneity (Potts model for the potentials of cliques of order 2). In order to preserve thin and elongated structures, different forms of neighborhoods are considered in [Descombes et al., 1998] by modeling interactions between pixels via cliques of order 3. The solution chosen in [Le Hégarat-Mascle et al. , 2007] is to seek the most homogeneous neighborhoods possible by relaxing the constraint on their shape but by maintaining constraints of connexity, reciprocity and constant cardinality. However, the cost of computing such an approach is prohibitive and is not suitable for robotic vision applications. [Roth and Black, 2009] proposes to learn the a priori of Markov random fields from training data. In the case of textures, complex neighborhood systems with multiple and remote relationships between neighbors also learned from training data have been proposed. It allows us to model complex spatial properties but remain limited to some classes of textures. Finally, recent work has been published to solve Markov random fields with 'graph cuts' using cliques of order 3 or higher [Fix et al., 2011]. Despite promising results whose quality is superior to those obtained by conventional Markov random fields, these approaches are still complex to implement and appear to be costly in terms of memory usage and computation time. The first attempt in this thesis will be to define a general approach to search for adaptive (locally) neighborhoods by introducing a criterion of regularity on the shapes of the neighborhoods themselves. To validate the approach that will be proposed, various applications (of increasing complexity) will be successively considered. First, we will consider the problem of detecting thin structures (width ranging from 1 to a few pixels), of cracks type in the road or in the walls, on classic color or grayscale images. Afterwards, we will consider the problem of co-segmentation in dynamic scenes. Indeed, the larger the number of images considered in the co-segmentation (about few tens), the more interesting it is to handle superpixels instead of pixels. However, in the case where the superpixels are calculated independently on each image, their spatial non-coincidence will necessarily require the computation of complex neighborhood relations.