Thèse soutenue

Production de données catégorielles respectant la confidentialité différentielle : conception et applications au apprentissage automatique

FR  |  
EN
Auteur / Autrice : Héber Hwang Arcolezi
Direction : Jean-François CouchotBechara Al BounaXiaokui Xiao
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 05/01/2022
Etablissement(s) : Bourgogne Franche-Comté
Ecole(s) doctorale(s) : École doctorale Sciences pour l'ingénieur et microtechniques (Besançon ; 1991-....)
Partenaire(s) de recherche : Laboratoire : FEMTO-ST : Franche-Comté Electronique Mécanique Thermique et Optique - Sciences et Technologies (Besançon) - Franche-Comté Électronique Mécanique- Thermique et Optique - Sciences et Technologies (UMR 6174) / FEMTO-ST
Site de préparation : Université de Franche-Comté (1971-....)
Jury : Président / Présidente : Stéphane Chrétien
Examinateurs / Examinatrices : Mario S. Alvim
Rapporteurs / Rapporteuses : Mathieu Cunche, Benjamin Nguyen

Résumé

FR  |  
EN

Les organisations privées et publiques collectent et analysent régulièrement des données numérisées sur leurs associés, volontaires, clients, etc. Cependant, comme la plupart des données personnelles sont sensibles, la conception de systèmes préservant la vie privée pour se conformer aux lois sur la confidentialité des données, par exemple le règlement général sur la protection des données, constitue un défi majeur. La confidentialité différentielle (DP) est une définition formelle qui permet de quantifier le compromis entre confidentialité et utilité. Avec le modèle de DP local (LDP), les utilisateurs peuvent sanitizer leurs données localement avant de les transmettre au serveur.L'objectif de cette thèse est donc double : O1) Améliorer l'utilité et la confidentialité des protocoles LDP pour l'estimation de fréquence, qui est fondamentale pour l'apprentissage statistique. Et O2) Proposer des systèmes préservant la vie privée pour les tâches de data mining avec des garanties DP.Pour O1, nous avons d'abord abordé le problème sous deux angles multiples, à savoir de multiples attributs et de multiples collections dans le temps (études longitudinales), tout en nous concentrant sur l'utilité. Ensuite, nous avons concentré notre attention sur l'aspect des attributs multiples uniquement, dans lequel nous avons proposé une solution axée sur la confidentialité tout en préservant l'utilité. Dans les deux cas, nous démontrons par des validations analytiques et expérimentales les avantages de nos solutions proposées par rapport aux protocoles de l'état de l'art.Pour O2, nous avons proposé des systèmes basés sur l'apprentissage automatique (ML) pour résoudre des problèmes du monde réel tout en assurant des garanties de DP. En effet, nous avons principalement utilisé le paramètre de perturbation des données d'entrée de la littérature sur l'exploration de données préservant la confidentialité. Il s'agit de la situation dans laquelle l'ensemble des données est perturbé indépendamment et, dès lors, nous avons mis en œuvre des algorithmes LDP du point de vue du propriétaire centralisé des données. Dans tous les cas, nous avons conclu que les modèles ML différentiellement privés atteignent presque les mêmes performances que les modèles non privés.