Thèse soutenue

Evaluation de la synthèse d'images au travers du prisme de la confidentialité

FR  |  
EN
Auteur / Autrice : Ryan Webster
Direction : Julien Rabin
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 10/07/2023
Etablissement(s) : Normandie
Ecole(s) doctorale(s) : École doctorale mathématiques, information et ingénierie des systèmes (Caen)
Partenaire(s) de recherche : Laboratoire : Groupe de recherche en informatique, image, automatique et instrumentation de Caen (1995-....)
établissement co-accrédité : Université de Caen Normandie (1971-....)
Jury : Président / Présidente : Nicolas Thome
Examinateurs / Examinatrices : Vincent Lepetit, Julie Digne, Hervé Jégou, Olivier Lézoray, Frédéric Jurie, Loïc Simon
Rapporteurs / Rapporteuses : Vincent Lepetit, Julie Digne

Résumé

FR  |  
EN

Les générateurs d'images modernes, tels que Stable Diffusion ou Midjourney, sont devenus des systèmes à grande échelle, complexes et généraux. À mesure que l'application et l'utilisation de ces systèmes se généralisent, leurs éventuels problèmes se multiplient. Dans cette thèse, nous étudions comment les modèles génératifs peuvent fuiter des informations sur leurs données d'entraînement et les problèmes que cela pose à la fois aux systèmes et aux utilisateurs. Des systèmes comme Midjourney sont entrainés avec des données collectées sur le web et des contenus protégés peuvent apparaître pendant la génération sans notification d'attribution. Comme les modèles génératifs ont également une application répandue dans le domaine médical, il est impératif pour l'utilité du modèle génératif de ne pas générer de données sous protection stricte de la vie privée. Nous présentons l'évaluation automatique des modèles génératifs, avec un accent sur ces problèmes. Nous présentons d'abord plusieurs mesures statistiques qui peuvent mesurer la qualité des images produites par de tels générateurs profonds, leur diversité et enfin mesurer leur capacité à surapprendre les échantillons d'entraînement. Pour le reste de la thèse, nous étudions le problème de l'inférence d'appartenance. Nous étudions un ensemble divers de facteurs qui conduisent à la vulnérabilité aux attaques d'appartenance. D'un autre côté, nous observons également de nombreuses configurations d'entraînement qui assurent empiriquement la robustesse et la confidentialité. Nous présentons plusieurs nouvelles attaques d'appartenance permettant des améliorations par rapport à l'état de l'art. Enfin, nous présentons une attaque de pointe pour l'extraction de données, capable de reconstruire des images d'entraînement à partir des systèmes de génération les plus largement utilisés.