Comprendre et optimiser le compromis entre vie privée et utilité d'un point de vue fondamental

par Sayan Biswas

Thèse de doctorat en Informatique, données, IA

Sous la direction de Catuscia Palamidessi.

Thèses en préparation à l'Institut polytechnique de Paris , dans le cadre de École doctorale de l'Institut polytechnique de Paris , en partenariat avec LIX - Laboratoire d'informatique (laboratoire) .


  • Résumé

    Avec les récentes avancées technologiques, les menaces de violation de la vie privée concernant les données personnelles des individus se multiplient comme jamais auparavant. Si la protection de la confidentialité des informations sensibles devient plus importante que jamais, il est également extrêmement crucial de préserver l'utilité des données, d'autant plus que celles-ci deviennent l'une des ressources les plus essentielles dans la société contemporaine basée sur l'information. La protection différentielle de la vie privée est considérée comme l'étalon-or des garanties formelles de protection de la vie privée. Son applicabilité étendue, ses techniques de mise en œuvre simples et ses propriétés formelles ont conduit à une croissance rapide de la popularité et de l'intérêt pour l'étude et l'application de la confidentialité différentielle à une variété de domaines, tant dans les universités que dans l'industrie. Au fil du temps, la communauté a exploré diverses variantes du DP pour répondre aux préoccupations en matière de protection de la vie privée dans différents contextes et dans le cadre de divers modèles de menace. Malgré l'acceptation prolifique du DP par la communauté, il est encore difficile d'interpréter la manière dont il interagit avec les données et affecte leur utilité. Par conséquent, il est nécessaire de répondre à des questions rudimentaires telles que la manière dont l'ajout de bruit DP affecte l'utilité des données partagées (par exemple, la qualité de service des propriétaires de données, l'utilité statistique des fournisseurs de services, la précision de l'analyse et de l'entraînement des modèles effectués, etc. L'objectif de cette thèse est de répondre à ces questions et, en particulier, d'établir une base théorique pour analyser de manière exhaustive le compromis entre la protection de la vie privée et l'utilité des données sensibles selon diverses perspectives et dans le contexte de différents cas d'utilisation. Outre la dissection de la bataille séculaire entre la vie privée et l'utilité, cette thèse étudie et développe également des mécanismes de préservation de la vie privée pour aller dans le sens de l'optimisation de la perte d'utilité avec des garanties formelles de protection de la vie privée dans divers domaines d'applicabilité.

  • Titre traduit

    Understanding and optimizing the trade-off between privacy and utility from a foundational perspective


  • Résumé

    With recent advancements in technology, the threats of privacy violations of individuals' personal data are surging like never before. While protecting the privacy of sensitive information is becoming more important than ever before, it is also extremely crucial to uphold the utility of the data especially as data is becoming one of the most essential resources in the contemporary information-based society. Differential privacy (DP) is considered to be the gold standard of formal privacy guarantees. Its widespread applicability, uncomplicated implementation techniques, and formal properties have led to a rapid growth in the popularity and interest to study and apply DP to a variety of domains in academia and industry alike. Over time, the community has explored various variants of DP addressing privacy concerns in different contexts and under a variety of threat models. Despite the prolific acceptance of DP by the community, it is still nebulous to interpret how it interacts with and affects the utility of data. Therefore, it escalates the need for answers to rudimentary questions like how adding DP noise affects the utility of the shared data (e.g., the quality of service of the data owners, the statistical utility of the service providers, the accuracy of the analysis and model training performed, etc.) and does there exist some optimal DP mechanism with respect to the usefulness of data in different realms and contexts. The objective of this thesis is to address these questions and, in particular, establish a theoretical foundation to comprehensively analyze the trade-off between privacy and the utility of sensitive data from a variety of perspectives and in the context of different use cases. Aside from dissecting the age-old battle between privacy and utility, this thesis also studies and develops privacy-preserving mechanisms to proceed in the direction of optimizing the utility loss with formal privacy guarantees in diverse domains of applicability.