Mise en relation d'images et de mod?les 3D avec des r?seaux de neurones convolutifs

par Francisco Vitor Suzano Massa

Thèse de doctorat en Signal, Image, Automatique

Sous la direction de Renaud Marlet et de Mathieu Aubry.

Soutenue le 09-02-2017

à Paris Est , dans le cadre de ?cole doctorale Math?matiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2015-....) , en partenariat avec Laboratoire d'informatique de l'Institut Gaspard Monge (laboratoire) et de Laboratoire d'Informatique Gaspard-Monge / LIGM (laboratoire) .

Le président du jury était Laurent Najman.

Le jury était composé de Renaud Marlet, Mathieu Aubry, Josef Sivic, Bryan Russell, Hugues Talbot.

Les rapporteurs étaient Florent Perronnin, Patrick P?rez.


  • Résumé

    La r?cente mise ? disposition de grandes bases de donn?es de mod?les 3D permet de nouvelles possibilit?s pour un raisonnement ? un niveau 3D sur les photographies. Cette th?se ?tudie l'utilisation des r?seaux de neurones convolutifs (CNN) pour mettre en relation les mod?les 3D et les images.Nous pr?sentons tout d'abord deux contributions qui sont utilis?es tout au long de cette th?se : une biblioth?que pour la r?duction automatique de la m?moire pour les CNN profonds, et une ?tude des repr?sentations internes apprises par les CNN pour la mise en correspondance d'images appartenant ? des domaines diff?rents. Dans un premier temps, nous pr?sentons une biblioth?que bas?e sur Torch7 qui r?duit automatiquement jusqu'? 91% des besoins en m?moire pour d?ployer un CNN profond. Dans un second temps, nous ?tudions l'efficacit? des repr?sentations internes des CNN extraites d'un r?seau pr?-entra?n? lorsqu'il est appliqu? ? des images de modalit?s diff?rentes (r?elles ou synth?tiques). Nous montrons que malgr? la grande diff?rence entre les images synth?tiques et les images naturelles, il est possible d'utiliser certaines des repr?sentations des CNN pour l'identification du mod?le de l'objet, avec des applications possibles pour le rendu bas? sur l'image.R?cemment, les CNNs ont ?t? utilis?s pour l'estimation de point de vue des objets dans les images, parfois avec des choix de mod?lisation tr?s diff?rents. Nous pr?sentons ces approches dans un cadre unifi? et nous analysons les facteur cl?s qui ont une influence sur la performance. Nous proposons une m?thode d'apprentissage jointe qui combine ? la fois la d?tection et l'estimation du point de vue, qui fonctionne mieux que de consid?rer l'estimation de point de vue de mani?re ind?pendante.Nous ?tudions ?galement l'impact de la formulation de l'estimation du point de vue comme une t?che discr?te ou continue, nous quantifions les avantages des architectures de CNN plus profondes et nous montrons que l'utilisation des donn?es synth?tiques est b?n?fique. Avec tous ces ?l?ments combin?s, nous am?liorons l'?tat de l'art d'environ 5% pour la pr?cision de point de vue moyenne sur l'ensemble des donn?es Pascal3D+.Dans l'?tude de recherche de mod?le d'objet 3D dans une base de donn?es, l'image de l'objet est fournie et l'objectif est d'identifier parmi un certain nombre d'objets 3D lequel correspond ? l'image. Nous ?tendons ce travail ? la d?tection d'objet, o? cette fois-ci un mod?le 3D est donn?, et l'objectif consiste ? localiser et ? aligner le mod?le 3D dans image. Nous montrons que l'application directe des repr?sentations obtenues par un CNN ne suffit pas, et nous proposons d'apprendre une transformation qui rapproche les r?presentations internes des images r?elles vers les repr?sentations des images synth?tiques. Nous ?valuons notre approche ? la fois qualitativement et quantitativement sur deux jeux de donn?es standard: le jeu de donn?es IKEAobject, et le sous-ensemble du jeu de donn?es Pascal VOC 2012 contenant des instances de chaises, et nous montrons des am?liorations sur chacun des deux

  • Titre traduit

    Relating images and 3D models with convolutional neural networks


  • Résumé

    The recent availability of large catalogs of 3D models enables new possibilities for a 3D reasoning on photographs. This thesis investigates the use of convolutional neural networks (CNNs) for relating 3D objects to 2D images.We first introduce two contributions that are used throughout this thesis: an automatic memory reduction library for deep CNNs, and a study of CNN features for cross-domain matching. In the first one, we develop a library built on top of Torch7 which automatically reduces up to 91% of the memory requirements for deploying a deep CNN. As a second point, we study the effectiveness of various CNN features extracted from a pre-trained network in the case of images from different modalities (real or synthetic images). We show that despite the large cross-domain difference between rendered views and photographs, it is possible to use some of these features for instance retrieval, with possible applications to image-based rendering.There has been a recent use of CNNs for the task of object viewpoint estimation, sometimes with very different design choices. We present these approaches in an unified framework and we analyse the key factors that affect performance. We propose a joint training method that combines both detection and viewpoint estimation, which performs better than considering the viewpoint estimation separately. We also study the impact of the formulation of viewpoint estimation either as a discrete or a continuous task, we quantify the benefits of deeper architectures and we demonstrate that using synthetic data is beneficial. With all these elements combined, we improve over previous state-of-the-art results on the Pascal3D+ dataset by a approximately 5% of mean average viewpoint precision.In the instance retrieval study, the image of the object is given and the goal is to identify among a number of 3D models which object it is. We extend this work to object detection, where instead we are given a 3D model (or a set of 3D models) and we are asked to locate and align the model in the image. We show that simply using CNN features are not enough for this task, and we propose to learn a transformation that brings the features from the real images close to the features from the rendered views. We evaluate our approach both qualitatively and quantitatively on two standard datasets: the IKEAobject dataset, and a subset of the Pascal VOC 2012 dataset of the chair category, and we show state-of-the-art results on both of them


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Communautés d’Universités et d'Etablissements Université Paris-Est. Bibliothèque universitaire.
  • Bibliothèque : École des Ponts ParisTech (Marne-la-Vallée, Seine-et-Marne). Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.