Cryptography for privacy-preserving machine learning

Théo Ryffel

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

La cryptographie au service de l'apprentissage automatique respectueux de la vie privée

FR |

EN

Auteur / Autrice :	Théo Ryffel
Direction :	David Pointcheval, Francis Bach
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 23/06/2022
Etablissement(s) :	Université Paris sciences et lettres
Ecole(s) doctorale(s) :	École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche :	Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique
	Établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....)
Jury :	Président / Présidente : Renaud Sirdey
	Examinateurs / Examinatrices : David Pointcheval, Francis Bach, Renaud Sirdey, Yuval Ishai, Aurélien Bellet, Jonathan Passerat-Palmbach, Mariya Georgieva, Laurent Massoulié
	Rapporteurs / Rapporteuses : Yuval Ishai, Aurélien Bellet

Mots clés

FR |

EN

Mots clés contrôlés

Informatique

Mots clés libres

Intelligence artificielle

Apprentissage fédéré

Chiffrement fonctionnel

Calculs multipartites

Partage de secret fonctionnel

Confidentialité différentielle

Intégrité contextuelle

Résumé

FR |

EN

L’usage sans précédent du machine learning (ML) ou apprentissage automatique, motivé par les possibilités qu’il apporte dans un grand nombre de secteurs, interroge de plus en plus en raison du caractère sensible des données qui doivent être utilisées et du manque de transparence sur la façon dont ces données sont collectées, croisées ou partagées. Aussi, un certain nombre de méthodes se développent pour réduire son intrusivité sur notre vie privée, afin d’en rendre son usage plus acceptable, notamment dans des domaines tels que la santé, où son potentiel est encore très largement sous-exploité. Cette thèse explore différentes méthodes issues de la cryptographie ou plus largement du monde de la sécurité et les applique au machine learning afin d’établir des garanties de confidentialité nouvelles pour les données utilisées et les modèles de ML. Notre première contribution est le développement d’un socle technique pour implémenter et expérimenter de nouvelles approches au travers d’une librairie open-source nommée PySyft. Nous proposons une architecture modulaire qui facilite l’utilisation des briques de confidentialité ainsi que le développement et l’intégration de nouvelles briques. Ce socle sert de base à l’ensemble des implémentations proposées dans cette thèse. Notre seconde contribution consiste à mettre en lumière la vulnérabilité des modèles de ML en proposant une attaque qui exploite un modèle entraîné et permet de révéler des attributs confidentiels d’un individu. Cette attaque pourrait par exemple détourner un modèle qui reconnaît le sport fait par une personne à partir d’une image, pour détecter les origines raciales de cette personne. Nous proposons des pistes pour limiter l’impact de cette attaque. Dans un troisième temps, nous nous intéressons à certains protocoles de cryptographie qui permettent de faire des calculs sur des données chiffrées. Nous proposons un protocole de chiffrement fonctionnel qui permet de réaliser des prédictions sur des données chiffrées et de ne rendre public que la prédiction. Par ailleurs, nous optimisons un protocole de partage de secret fonctionnel, qui permet d’entraîner ou d’évaluer un modèle de ML sur des données de façon privée, c'est-à-dire sans révéler à quiconque ni le modèle ni les données. Ce protocole offre des performances suffisantes pour la réalisation de tâches non triviales comme la détection de pathologies dans les radiographies de poumons. Enfin, nous intéressons à la confidentialité différentielle qui permet de limiter la vulnérabilité des modèles de ML et donc l’exposition des données utilisées lors de l’entraînement, en introduisant une perturbation contrôlée. Nous proposons un protocole qui offre notamment la possibilité d’entraîner un modèle lisse et fortement convexe en garantissant un niveau de confidentialité indépendant du nombre d’accès aux données sensibles lors de l’entraînement.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

La cryptographie au service de l'apprentissage automatique respectueux de la vie privée

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

La cryptographie au service de l'apprentissage automatique respectueux de la vie privée

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses