Production de données catégorielles respectant la confidentialité différentielle : conception et applications au apprentissage automatique
Auteur / Autrice : | Héber Hwang Arcolezi |
Direction : | Jean-François Couchot, Bechara Al Bouna, Xiaokui Xiao |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 05/01/2022 |
Etablissement(s) : | Bourgogne Franche-Comté |
Ecole(s) doctorale(s) : | École doctorale Sciences pour l'ingénieur et microtechniques (Besançon ; 1991-....) |
Partenaire(s) de recherche : | Laboratoire : FEMTO-ST : Franche-Comté Electronique Mécanique Thermique et Optique - Sciences et Technologies (Besançon) - Franche-Comté Électronique Mécanique- Thermique et Optique - Sciences et Technologies (UMR 6174) / FEMTO-ST |
Site de préparation : Université de Franche-Comté (1971-....) | |
Jury : | Président / Présidente : Stéphane Chrétien |
Examinateurs / Examinatrices : Mario S. Alvim | |
Rapporteurs / Rapporteuses : Mathieu Cunche, Benjamin Nguyen |
Mots clés
Résumé
Les organisations privées et publiques collectent et analysent régulièrement des données numérisées sur leurs associés, volontaires, clients, etc. Cependant, comme la plupart des données personnelles sont sensibles, la conception de systèmes préservant la vie privée pour se conformer aux lois sur la confidentialité des données, par exemple le règlement général sur la protection des données, constitue un défi majeur. La confidentialité différentielle (DP) est une définition formelle qui permet de quantifier le compromis entre confidentialité et utilité. Avec le modèle de DP local (LDP), les utilisateurs peuvent sanitizer leurs données localement avant de les transmettre au serveur.L'objectif de cette thèse est donc double : O1) Améliorer l'utilité et la confidentialité des protocoles LDP pour l'estimation de fréquence, qui est fondamentale pour l'apprentissage statistique. Et O2) Proposer des systèmes préservant la vie privée pour les tâches de data mining avec des garanties DP.Pour O1, nous avons d'abord abordé le problème sous deux angles multiples, à savoir de multiples attributs et de multiples collections dans le temps (études longitudinales), tout en nous concentrant sur l'utilité. Ensuite, nous avons concentré notre attention sur l'aspect des attributs multiples uniquement, dans lequel nous avons proposé une solution axée sur la confidentialité tout en préservant l'utilité. Dans les deux cas, nous démontrons par des validations analytiques et expérimentales les avantages de nos solutions proposées par rapport aux protocoles de l'état de l'art.Pour O2, nous avons proposé des systèmes basés sur l'apprentissage automatique (ML) pour résoudre des problèmes du monde réel tout en assurant des garanties de DP. En effet, nous avons principalement utilisé le paramètre de perturbation des données d'entrée de la littérature sur l'exploration de données préservant la confidentialité. Il s'agit de la situation dans laquelle l'ensemble des données est perturbé indépendamment et, dès lors, nous avons mis en œuvre des algorithmes LDP du point de vue du propriétaire centralisé des données. Dans tous les cas, nous avons conclu que les modèles ML différentiellement privés atteignent presque les mêmes performances que les modèles non privés.