Méthodes variationnelles pour la segmentation avec application à la réalité augmentée

par Pauline Julian

Thèse de doctorat en Spécialité Informatique

Sous la direction de Vincent Charvillat.

Le président du jury était Philippe Joly.

Le jury était composé de Vincent Charvillat, Xavier Descombes, Laurent Wendling, François Lauze, Christophe Dehais.

Les rapporteurs étaient Xavier Descombes, Laurent Wendling.


  • Résumé

    Dans cette thèse, nous nous intéressons au problème de la segmentation de portraits numériques. Nous appelons portrait numérique la photographie d’une personne avec un cadre allant grossièrement du gros plan au plan poitrine. Le problème abordé dans ce travail est un cas spécifique de la segmentation d’images où il s’agit notamment de définir précisément la frontière de la région « cheveux ». Ce problème est par essence très délicat car les attributs de la région « cheveux » (géométrie, couleur, texture) présentent une grande variabilité à la fois entre les personnes et au sein de la région. Notre cadre applicatif est un système d’« essayage virtuel » de lunettes à destination du grand public, il n’est pas possible de contrôler les conditions de prise de vue comme l’éclairage de la scène ou la résolution des images, ce qui accroît encore la diculté du problème. L’approche proposée pour la segmentation de portraits numériques est une approche du plus grossier au plus fin procédant par étapes successives. Nous formulons le problème comme celui d’une segmentation multi-régions, en introduisant comme « régions secondaires », les régions adjacentes à la région « cheveux » , c.-à-d. les régions « peau » et « fond ». La méthode est fondée sur l’apparence (appearance-based method) et a comme spécificité le fait de déterminer les descripteurs de régions les plus adaptés à partir d’une base d’images d’apprentissage et d’outils statistiques. À la première étape de la méthode, nous utilisons l’information contextuelle d’un portrait numérique — connaissances a priori sur les relations spatiales entre régions— pour obtenir des échantillons des régions « cheveux », « peau » et « fond ». L’intérêt d’une approche fondée sur l’apparence est de pouvoir s’adapter à la fois aux conditions de prises de vue ainsi qu’aux attributs de chaque régions. Au cours de cette étape, nous privilégions les modèles de forme polygonaux couplés aux contours actifs pour assurer la robustesse du modèle. Lors de la seconde étape, à partir des échantillons détectés à l’étape précédente, nous introduisons un descripteur prenant en compte l’information de couleur et de texture. Nous proposons une segmentation grossière par classification en nous appuyant à nouveau sur l’information contextuelle : locale d’une part grâce aux champs de Markov, globale d’autre part grâce à un modèle a priori de segmentation obtenu par apprentissage qui permet de rendre les résultats plus robustes. La troisième étape ane les résultats en définissant la frontière des « cheveux » comme une région de transition. Cette dernière contient les pixels dont l’apparence provient du mélange de contributions de deux régions (« cheveux »et « peau » ou «fond »). Ces deux régions de transition sont post-traitées par un algorithme de «démélange » (digital matting) pour estimer les coecients de transparence entre « cheveux » et « peau », et entre « cheveux » et « fond ». À l’issue de ces trois étapes, nous obtenons une segmentation précise d’un portrait numérique en trois « calques », contenant en chaque pixel l’information de transparence entre les régions « cheveux », « peau » et « fond ». Les résultats obtenus sur une base d’images de portraits numériques ont mis en évidence les bonnes performances de notre méthode.

  • Titre traduit

    Variational methods for segmentation with application to augmented reality


  • Résumé

    In this thesis, we are interested in the problem of the segmentation of digital portraits. We call digital portrait the photography of a person with a frame roughly ranging from the close-up to the chest plane. The problem addressed in this work is a specific case of the segmentation of images where it is especially necessary to define precisely the border of the "hair" region. This problem is inherently very delicate because the attributes of the "hair" region (geometry, color, texture) present an important variability between people and within the region. Our application is a system of "virtual fitting" of glasses for the general audience, it is not possible to control the shooting conditions such as stage lighting or image resolution, which increases the difficulty of the problem. The approach proposed for the segmentation of digital portraits is an approach « coarse to fine », proceeding in successive stages. We formulate the problem as a multi-region segmentation, introducing as "secondary regions" regions adjacent to the "hair" region, ie, the "skin" and "background" regions. The method is based on appearance-based method and has as a specificity the determination of the descriptors of regions most adapted from a database of learning and statistical tools. In the first step of the method, we use the contextual information of a Digital portrait - a priori knowledge about the spatial relations between regions - to obtain samples of the regions "hair", "skin" and "background". The value of an appearance-based approach is to be able to adapt to both the shooting conditions and the attributes of each region. During this stage, we prefer polygonal shape models coupled with active contours to ensure the robustness of the model. In the second step, from the samples detected in the previous step, we introduce a descriptor taking into account the color and texture information. We propose a rough segmentation by classification by relying on the contextual information: local on the one hand thanks to the Markov fields, global on the other hand thanks to an a priori model of segmentation obtained by learning which il allow to obtain robust results. The third stage refines the results by defining the border of "hair" as a transition region. This région contains the pixels whose appearance comes from the mixture of contributions of two regions ("hair" and "skin" or "background"). These two transition regions are post-processed by a digital matting algorithm to estimate the coefficients of transparency between "hair" and "skin", and between "hair" and "background". At the end of these three steps, we obtain a precise segmentation of a digital portrait into three "layers", containing in each pixel the information of transparency between the regions "hair", "skin" and "background". The results obtained on the basis of images of digital portraits have highlighted the good performance of our method.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.