Background reconstruction from multiple images

par Xiaoyi Yang

Thèse de doctorat en Traitement du signal et des images

Sous la direction de Henri Maître et de Yohann Tendero.

Soutenue le 18-12-2018

à Paris Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne) , en partenariat avec Télécom ParisTech (établissement opérateur d'inscription) et de Laboratoire traitement et communication de l'information (Paris) (laboratoire) .

Le président du jury était Liming Chen.

Le jury était composé de Henri Maître, Antoine Manzanera.

Les rapporteurs étaient Françoise Dibos, Valérie Gouet-Brunet.

  • Titre traduit

    Reconstruction d'une scène masquée à partir de multi-image


  • Résumé

    La problématique générale de cette thèse est de reconstituer la scène de fond à partir d’une séquence d’images en présence de masques d’avant-plan. Nous nous sommes intéressés aux méthodes pour détecter ce qui constitue le fond ainsi que les solutions pour corriger les parties cachées et les distor­sions géométrique et chromatique introduites lors de la photographie.Une série de processus est proposée, dont la mise en œuvre comporte dans l'ordre l’aligne­ment géométrique, le réglage chromatique, la fusion des images et la correction des défauts.Nous nous plaçons dans l’hypothèse où le fond est porté sur une surface plane. L'aligne­ment géométrique est alors réalisé par calcul de l'homographie entre une image quelconque et l’image qui sert de référence, suivi d’une interpolation bilinéaire.Le réglage chromatique vise à retrouver un même contraste dans les différentes images. Nous proposons de modéliser la mise en cor­respondance chromatique entre images par une approximation linéaire dont les para­mètres sont déterminés par les résultats de la mise en correspondance des points de contrôle (SIFT).Ces deux étapes sont suivies par une étape de fusion. Plusieurs techniques sont comparées.La première proposition est d’étendre la définition de la médiane dans l’espace vec­toriel. Elle est robuste lorsqu’il y a plus de la moitié des images qui voient les pixels d’arrière-plan. En outre, nous concevons un algorithme original basé sur la notion de clique. Il permet de détecter le plus grand nuage de pixels dans l'espace RGB. Cette approche est fiable même lorsque les pixels d’arrière-plan sont minoritaires.Lors de la mise en œuvre de ce protocole, on constate que certains résultats de fusion présentent des défauts de type flou dus à l’existence d’erreurs d’alignement géomé­trique. Nous proposons donc un traitement complémentaire. Il est basé sur une compa­raison entre le résultat de fusion et les images alignées après passage d'un filtre gaussien. Sa sortie est un assemblage des morceaux très détaillés d'image alignés qui ressemblent le plus au résultat de fusion associés.La performance de nos méthodes est éva­luée par un ensemble de données contenant de nombreuses images de qualités diffé­rentes. Les expériences confirment la fiabi­lisé et la robustesse de notre conception dans diverses conditions de photographie.


  • Résumé

    The general topic of this thesis is to reconstruct the background scene from a burst of images in presence of masks. We focus on the background detection methods as well as on solutions to geometric and chromatic distortions introduced during ph-otography. A series of process is proposed, which con­sists of geometric alignment, chromatic adjustment, image fusion and defect correction.We consider the case where the background scene is a flat surface. The geometric align­ment between a reference image and any other images in the sequence, depends on the computation of a homography followed by a bilinear interpolation.The chromatic adjustment aims to attach a similar contrast to the scene in different im­ages. We propose to model the chromatic mapping between images with linear approximations whose parameters are decided by matched pixels of SIFT .These two steps are followed by a discus­sion on image fusion. Several methods have been compared.The first proposition is a generation of typical median filter to the vector range. It is robust when more than half of the images convey the background information. Besides, we design an original algorithm based on the notion of clique. It serves to distinguish the biggest cloud of pixels in RGB space. This approach is highly reliable even when the background pixels are the minority.During the implementation, we notice that some fusion results bear blur-like defects due to the existence of geometric alignment errors. We provide therefore a combination method as a complementary step to ameli-orate the fusion results. It is based on a com-parison between the fusion image and other aligned images after applying a Gaussian filter. The output is a mosaic of patches with clear details issued from the aligned images which are the most similar to their related fusion patches.The performance of our methods is evaluated by a data set containing extensive images of different qualities. Experiments confirm the reliability and robustness of our design under a variety of photography conditions.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.