DISSEC-ML : vers un apprentissage automatique (machine learning) distribué et sécurisé dans le cloud personnel

par Julien Mirval

Projet de thèse en Informatique

Sous la direction de Luc Bouganim.

Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication , en partenariat avec Données Algorithmes pour une ville intelligente et durable (laboratoire) , PETRUS - PErsonal TRUSted cloud (equipe de recherche) et de Université de Versailles-Saint-Quentin-en-Yvelines (référent) depuis le 02-11-2020 .


  • Résumé

    Les initiatives comme le Blue Button et les nouvelles réglementations comme le RGPD européen visent à permettre aux individus de récupérer leurs données personnelles auprès des entreprises ou des organismes qui les ont recueillies. Parallèlement, des plateformes, qu'on appelle Personal Data Management System (PDMS), PIMS ou Cloud Personnel se développent rapidement et permettent aux utilisateurs de regrouper tout leur patrimoine numérique. Le paradigme PDMS promet d'ouvrir la voie à de nouveaux usages innovants développés autour des données personnelles, et de réaliser notamment des calculs distribués sur un grand nombre de PDMS (e.g., classification automatique, recommandations, études participatives). De tels exemples nécessitent souvent la formation d'un modèle d'intelligence artificielle (IA) basé sur un grand volume de données des utilisateurs, soulevant également d'importants défis au niveau de la protection de la vie privée et de la performance d'un tel calcul. Ainsi, l'organisation d'un calcul distribué sécurisé et efficace entre un grand nombre de PDMS peut s'avérer complexe, surtout en présence d'un nombre potentiellement important de nœuds corrompus. Cette thèse CIFRE est réalisée avec la société Cozy Cloud qui propose une solution libre de cloud personnel, Cozy. L'objectif est de fournir une étude approfondie de ce problème nouveau et crucial et de proposer des solutions appropriées pour entrainer efficacement un modèle d'IA (e.g., un réseau neuronal profond) dans un système totalement distribué tout en offrant de solides garanties de sécurité aux nœuds participants. Les résultats, sous forme de protocoles et d'algorithmes d'exécution distribués et sécurisés seront appliqués à des cas pratiques fournis par la société Cozy Cloud.

  • Titre traduit

    DISSEC-ML: towards distributed and secured machine learning in the personal cloud


  • Résumé

    Initiatives such as the Blue/Green Button, MesInfos, MiData and new regulations such as the GDPR at the European level aim to enable individuals to retrieve their personal data from the companies or organisations that collected it. At the same time, platforms called Personal Data Management System (PDMS), PIMS or Personal Cloud are developing rapidly and allow users to store all their digital assets: data directly generated by their devices (e.g., connected objects, home automation, photos) and data from their interactions (e.g., preferences, social data, health, banking). Users can then use their PDMS for personal applications or for the benefit of the community. Thus, the PDMS paradigm promises to pave the way for new and innovative usage developed around personal data, including distributed computations across a large number of PDMS (e.g., automatic classification, recommendations, participatory studies). Such examples often require the formation of an artificial intelligence (AI) model based on a large volume of user data. However, this approach also raises significant challenges related to privacy protection and performance. The organization of secure and efficient distributed computing across a large number of PDMS can be complex, especially in the presence of a potentially large number of corrupted nodes. This CIFRE thesis is realized with the Cozy Cloud company which provides a Personal Cloud solution named Cozy. The objective is to make an in-depth study of this new and crucial problem and to propose appropriate solutions to effectively train an AI model (e.g., a deep neural network) in a fully distributed system while providing strong security guarantees to the participating nodes. The results, in the form of protocols and distributed and secure execution algorithms, will be applied to practical cases provided by the Cozy Cloud company, which offers a PDMS-type solution.