Etude statistique des modèles génératifs adversariaux pour l'échantillonnage

par Nicolas Schreuder

Projet de thèse en Mathématiques appliquées

Sous la direction de Arnak Dalalyan.

Thèses en préparation à l'Institut polytechnique de Paris , dans le cadre de École doctorale de mathématiques Hadamard , en partenariat avec CREST - Centre de recherche en économie et statistique (laboratoire) et de Laboratoire de Statistique (equipe de recherche) depuis le 01-11-2018 .


  • Résumé

    Les modèles génératifs sont utilisés pour le problème d'estimation d'une distribution de probabilité théorique à partir d'observations empiriques de celle-ci. Le but des modèles génératifs "explicites" est d'estimer la densité/loi de la distribution alors que celui des modèles génératifs "implicites" est de générer de nouveaux échantillons, proche de ceux qui ont été observés. Les récents progrès en apprentissage profond (voir Generative adversarial nets, Goodfellow et al., 2014) ont permis d'étendre la capacité des modèles génératifs explicites à générer de nouvelles données complexes, comme des images. Ces images synthétiques sont désormais quasiment indistinguables à l'oeil nu de vraies images. Néanmoins, du point de vue statistique, il n'existe pas à ce jour d'explication profonde de la qualité des échantillons générés. Les modèles génératifs modernes (GAN et VAE en sont les plus populaires) sont encore des boîtes noires, sans aucune garantie statistique, limitant ainsi les possibilités d'applications. Le but de cette thèse est de développement un cadre mathématique et statistique pour comprendre le type de problème résolu par les nouveaux modèles génératifs.

  • Titre traduit

    A statistical study of adversarial generative models for sampling


  • Résumé

    Generative models are used for the problem of estimation of theoretical probability distribution from empirical observations. The goal of explicit generative models is to estimate the density/law of the distribution whereas the goal of implicit generative models is to generate now samples, close to the observations at hand. Recent progress in deep learning (see Generative adversarial nets, Goodfellow et al., 2014) enabled generative models to generate new complex data such as images. The resulting synthetic images are now almost indistinguishable for the human eye from real images. However, from a statistical point of view, there is no clear explanation for the quality of the generated samples. Modern generative models (GAN and VAE are the most popular) are still black boxes, without any statistical guarantee, limiting the development of applications. The goal of this thesis is to develop a mathematical and statistical framework to understand the type of problem that is solved by modern generative models.