Active illumination for high speed image acquisition and recovery of shape and albedo

par Matis Hudon

Thèse de doctorat en Informatique

Sous la direction de Kadi Bouatouch et de Rémi Cozot.

  • Titre traduit

    Illumination active pour l'acquisition d'images à haute fréquence et reconstruction phométrique de l'apparence et de la forme


  • Résumé

    L'objectif de cette thèse est de tirer parti d'une illumination totalement ou partiellement contrôlée pour enrichir l'acquisition vidéo de contenus tel que la reconstruction de la forme et de l'apparence. Aujourd'hui de nombreux travaux ont tenté d'atteindre cet objectif. Certains utilisent une illumination contrôlée et séquentielle pour obtenir des reconstructions de haute qualité de la forme et de la réflectance. En revanche, ces méthodes requièrent des dispositifs coûteuses et/ou ne fonctionnent pas en temps réel. Dans cette thèse, nous visions un système d'acquisition à bas coût, rapide et mobile, qui se veut non-seulement le moins intrusif possible mais aussi simple d'utilisation. La première contribution présentée dans cette thèse est une application de la méthode bien connue, intitulée stéréo photométrie, à la vidéo. De plus, comme une fréquence de trame élevée est nécessaire à une telle application, nous proposons une méthode permettant l'utilisation d'une illumination séquentielle avec des caméras rapides de type "electronic rolling shutter". Malgré les résultats intéressants obtenus, la qualité des reconstructions de l'apparence et de la forme n'étaient pas à la hauteur de nos espérances. De plus, la stéréo photométrie est une méthode qui, de nature, n'est pas très adaptée aux applications visées dans cette thèse. Pour notre seconde contribution, nous proposons une méthode de reconstruction de la forme (géométrie) ainsi que de la réflectance diffuse à partir d'une image (d'une séquence) en utilisant un système de capture hybride composé d'un capteur de profondeur (Kinect), d'une caméra grand public et d'un flash. L'objectif est de montrer qu'en combinant une acquisition RGB-D (image couleur + profondeur) avec illumination séquentielle, on peut obtenir une reconstruction qualitative de la forme et de la réflectance d'une scène dans le cas où l'éclairage n'est pas connu. Un couple d'images est capturé : une image non flashée (image sous une illumination ambiante) et une image flashée. Une image dont l'illumination ne provient que du flash (image flash pure) peut être calculée en soustrayant l'image non flashée de l'image flashée. Nous proposons un nouvel algorithme temps réel, qui, basé sur un modèle local d'illumination de notre flash et de l'image flash pure, améliore l'information de forme fournie par le capteur de profondeur tout en retrouvant les informations de réflectance diffuse. Notre dernière contribution concerne la composition automatique d'éclairage. L'éclairage est un élément clé de la photographie. Les professionnels travaillent régulièrement avec des systèmes d'éclairage complexes afin de capturer directement des images esthétiques. Récemment, certains photographes ont tenté une nouvelle approche : plutôt que photographier une scène directement sous un éclairage complexe, ils capturent la scène sous plusieurs éclairages simples, permettant ainsi un post-traitement permettant combiner les différentes illuminations de la scène. Cette approche apporte une nouvelle dimensionnalité intéressante au post-traitement. Cependant la combinaison des images requiert des compétences en matière de photographie, et l'acquisition sous différentes conditions d'éclairage n'en est pas moins fastidieuse. Nous proposons une méthode totalement automatisée, qui, à partir d'un modèle 3D (forme et albedo) reconstruit à partir de capture d'une scène réelle, produit virtuellement les images correspondant aux différentes conditions d'éclairages. Ensuite, ces images sont combinées automatiquement, à l'aide d'un algorithme génétique, pour correspondre à un style d'éclairage fourni par l'utilisateur sous forme d'une image cible de son choix.


  • Résumé

    The objective of this thesis is to take advantage of controlled illumination to enrich a video acquisition with shape and reflectance reconstructions. Today, a lot of works have tried to meet this objective. Some of them take advantage of sequential controlled illumintation to recover high quality shape and reflectance, however they either require a costly and very cumbersome fixed setup, and/or do not run in real-time. Our aim is a low cost, fast, mobile and simple acquisition setup which has to be the less intrusive possible so as to provide a greater ease of use. The first contribution of this thesis focuses on the application of the well known photometric stereo method to a video acquisition. Moreover, as a high frame rate is required by such an application, a method using sequential illumination with high frame rate cameras (electronic rolling shutter cameras) is also considered. Despite the interesting results provided by photometric stereo, we found that this latter did not provide enough qualitative results. Moreover, by its nature, photometric stereo is not really suitable for the range of applications targeted. We propose, as a second contribution, a method for recovering the shape (geometry) and the diffuse reflectance from an image (or video) using a hybrid setup consisting of a depth sensor (Kinect), a consumer camera and a partially controlled illumination (using a flash). The objective is to show how combining RGB-D acquisition with a sequential illumination is useful for shape and reflectance recovery. A pair of two images are captured : one non flashed (image under ambient illumination) and a flashed one. A pure flash image is computed by subtracting the non flashed image from the flashed image. We propose a novel and near real-time algorithm, based on a local illumination model of our flash and the pure flash image, to enhance geometry (from the noisy depth map) and recover reflectance information. Finally, our last contribution concerns an automatic method for light compositing, using rendered images. Lighting is a key element in photography. Professional photographers often work with complex lighting setups to directly capture an image close to the targeted one. Some photographers reversed this traditional workflow. Indeed, they capture the scene under several lighting conditions, then combine the captured images to get the expected one. Acquiring such a set of images is a tedious task and combining them requires some skill in photography. We propose a fully automatic method, that renders, based on a 3D reconstructed model (shape and albedo), a set of images corresponding to several lighting conditions. The resulting images are combined using a genetic optimization algorithm to match the desired lighting provided by the user as an image.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.