Utilisation d'images synthétiques photoréalistes pour l'apprentissage profond.

par Thibault Groueix

Projet de thèse en Signal, Image, Automatique

Sous la direction de Renaud Marlet.

Thèses en préparation à Paris Est , dans le cadre de MSTIC : Mathématiques et Sciences et Technologies de l'Information et de la Communication , en partenariat avec LIGM - Laboratoire d'informatique Gaspard-Monge (laboratoire) et de A3IS - Algorithme, Architecture, Analyse et Synthèse d'Image (equipe de recherche) depuis le 01-10-2016 .


  • Résumé

    Utilisation d'images synthétiques photo-réalistes pour l'apprentissage profond Thibault Groueix, co-encadrement par Mathieu Aubry et Renaud Marlet Contexte Les réseaux de neurones convolutifs (CNNs) ont récemment permi grâce à l'apprentissage profond (deep learning) une amélioration considérable des performances dans de nombreuses tâches de vision artificielle, en s'appuyant sur de très grands corpus d'images annotées ("big data"). La disponibilité de tels corpus reste cependant problématique pour des tâches complexes, telles que celles que l'on vise en informatique graphique. En effet, s'il est coûteux mais relativement facile d'annoter des millions d'images par le nom de leur objet dominant, il l'est beaucoup moins d'acquérir une telle quantité de scènes annotées pour des tâches plus avancées. Sujet L'objectif de la thèse de Thibault Groueix sera de développer des approches pour utiliser des images générées par ordinateur pour entrainer des réseaux de neurones convolutifs et apprendre à effectuer automatiquement des tâches complexes de photographie computationnelle. Il travaillera par exemple sur l'insertion d'objets 3D dans des image et sur la modification de textures sur des objets. Au delà des applications évidentes par exemple dans l'industrie du film ou dans la modélisation architecturale, un tel travail de manipulation d'images implique une comprehension implicite des objets et des scènes, en particulier une compréhension 3D, essentielle pour de très nombreuses tâches. L'utilisation dans ce contexte de données synthétiques et de réseaux neuronaux soulève plusieurs questions: Être capable d'apprendre une tâche à partir de données synthétique et de l'appliquer ensuite à des données réèles reste un problème ouvert. C'est aussi un enjeu important, puisqu'il est assicié à une réduction de coût, les données synthétiques étant plus aisément générées, et évite les question de protection de la vie privée dans l'utilisation des données. Par exemple apprendre à commander un robot demanderait des jours voir des mois de manipulations dans un espace contrôlé, l'apprendre à partir de données de simulation serait beaucoup plus efficace. Quel est le degré de réalisme nécessaire pour apprendre différentes tâches? En effet, le temps de génération d'une image par des algorithmes d'illumination globale peut être très important, et il n'est pas envisageable de générer une quantité illimité d'images avec une qualité optimale. Il faudra donc, en fonction des problèmes, utiliser des données de qualité moindre, ou un mélange de données de qualité différentes, et réfléchir à la manière dont ces données non-photoréalistes pourront être utilisées. comment les architectures des réseaux de neurones convolutifs, les fonction de coûts et en général les stratégies dominantes pour l'entrainement de réseaux de neurones peuvent-elles être adaptées pour effectuer ces nouvelles tâches? Les problématiques que nous allons rencontrer, où le but du réseau est de générer une image de très grande qualité, mais en utilisant en entrée une image extrêmement similaire, ont en effet été relativement peu explorées. Etat de l'art et premiers axes de recherche Récemment, plusieurs approches se sont développées pour apprendre des réseaux de neurones qui génèrent ou encodent de manière compacte des images. La qualités des résultats obtenus par ces méthodes se sont considérablement améliorés, notamment grâce à l'utilisation de réseaux génératifs adversaires [3] (Generative Adversarial Networks, ou GAN). Les applications à l'édition d'images restent cependant très balbutiantes, notamment à cause de la difficulté à obtenir des données d'apprentissage à très grande échelle pour des tâches tels l'insertion d'objets. Nous pensions cependant que des stratégies de réseaux adversaires efficaces pourraient être développées pour ces tâches. Un autre axe de recherche prometteur est l'utilisation de représentations factorisées des images [1,4]. Le but de ces représentations est de pouvoir contrôler indépendament plusieurs aspects d'une image, par exemple la texture et la forme d'un objet. Pour cela, on encourage l'indépendance de la distribution de différentes parties d'une représentation, par exemple en maximisant leur divergence de Kullback-Leibler, leur divergence de Jensen-Shannon. Nous pourrions par exemple, à l'aide d'une telle représentation apprise à partir de rendus d'un même objet 3D avec différentes textures, apprendre à modifier la texture d'un objet. Adéquation du candidat et de l'encadrement Le premier défi de la thèse sera de pouvoir générer automatiquement des images photo-réalistes à partir de modèles 3D de scènes. La première expérience de Thibault Groueix en rendu photoréaliste et la collaboration prévue sur cette thèse avec l'équipe GrahDeco de l'INRIA Sophia Antipolis, spécialiste de ce domaine, sera précieuse pour atteindre cet objectif. Le second défi, qui sera au centre du travail de la thèse, sera l'utilisation de ces données pour apprendre à effectuer des tâches sur des photographies. Le travail de Master 2 de Thibault Groueix sur l'analyse de textures avec des réseaux de neurones convolutionels (“Steerable Convolutional Neural Networks for Texture Classification”) et l'expertise de Mathieu Aubry [1,2,5,6 ]dans l'utilisation des données synthétiques et leur relation aux images naturelles formeront une base solide pour poursuivre ce travail. Références [1] M. Aubry, B. Russell, Understanding deep features with computer-generated imagery, ICCV, 2015 [2] M. Aubry, D. Maturana, B. Russell, A. Efros and J. Sivic, Seeing 3D chairs: exemplar part-based 2D-3D alignment using a large dataset of CAD models, CVPR, 2014 (oral) [3] Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., Bengio, Y.: Generative adversarial nets. In: NIPS 2015 [4] Kingma, D.P., Welling, M.: Auto-encoding variational bayes. ICLR 2015 [5] F. Massa, B. Russell and M. Aubry, Deep Exemplar 2D-3D Detection by Adapting from Real to Rendered Views, CVPR 2016

  • Titre traduit

    Photorealist Synthetic Images For Deep Learning.


  • Résumé

    Photorealist Synthetic Images For Deep Learning Convolutional Neural Networks are state-of-the-art in a range of applications such as computer vision, speech recognition, NLP etc. They discover intricate patterns in the data using the backpropagation algorithm which indicate how a network should adjust its internal parameters to make better predictions. Hence there are two phases. In the first one, the network learns those pattern using a dataset manually anotated with ground-truth predictions. Then we can use the network to make predictions on unlabelled datas. Hence the quality of the networks depends on the quality of the dataset it is trained on. Using synthetic images allows us to design datasets for new tasks, for which manual annotations were very complicated. The purpose of the thesis is to study and analyse the possibility of learning on synthetic data and applied the learned knowledge on real data. It poses a number of questions. For example, generating high-quality synthetic image can take up to a few hours which is long. What is the minimal quality of data necessary for the transfert to work ? How to think new architectures, error function and optimisers for the new tasks at hand ?