Thèse soutenue

Fiabilité et robustesse de l'apprentissage fédéré pour applications concrètes

FR  |  
EN
Auteur / Autrice : Yann Fraboni
Direction : Marco Lorenzi
Type : Thèse de doctorat
Discipline(s) : Automatique et traitement du signal et des images
Date : Soutenance le 11/05/2023
Etablissement(s) : Université Côte d'Azur
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Institut national de recherche en informatique et en automatique (France). Unité de recherche (Sophia Antipolis, Alpes-Maritimes)
Jury : Président / Présidente : Pietro Michiardi
Examinateurs / Examinatrices : Marco Lorenzi, Pietro Michiardi, Thrasyvoulos Spyropoulos, Sai Praneeth Karimireddy, Sébastien Ourselin, Sebastian Stich
Rapporteurs / Rapporteuses : Pietro Michiardi, Thrasyvoulos Spyropoulos

Résumé

FR  |  
EN

L'apprentissage fédéré a gagné en popularité ces dernières années car il permet à différents clients d'apprendre conjointement un modèle global sans partager leurs données respectives. FL se spécialise dans le problème classique de l'apprentissage distribué, pour tenir compte de la nature privée des informations des clients et de l'hétérogénéité potentielle des données et du matériel entre les clients, qui est généralement inconnue du serveur. Dans ce contexte, l'objectif principal de cette thèse est de présenter de nouveaux résultats théoriques et pratiques pour quantifier l'impact de l'hétérogénéité des données clients sur les garanties de convergence de l'apprentissage fédéré, tout en étudiant la faisabilité de composants critiques pour le déploiement de l'apprentissage fédéré dans des applications concrètes. Dans la première partie de la thèse, nous étudions la robustesse et la variabilité de l'apprentissage fédéré aux données hétérogènes. À cette fin, nous introduisons la notion de coefficients stochastiques d'agrégation pour généraliser le schéma d'agrégation proposé dans FedAvg, ainsi qu'une nouvelle théorie pour tenir compte asymptotiquement de l'impact d'une méthode de sélection de clients sur les garanties de convergence de l'apprentissage fédéré. Nous introduisons ensuite « clustered sampling », une nouvelle méthode de sélection de clients généralisant et surpassant les méthodes de l'état de l'art en améliorant la représentativité des clients et en réduisant leur variabilité de sélection. Nous fournissons une justification théorique de clustered sampling et montrons une convergence plus rapide et plus stable par rapport aux approches standard. Nous étendons davantage les coefficients stochastique d'agrégation de clustered sampling pour prendre en compte des contributions asynchrones de clients et fournissons l'expression des poids d'agrégation pour une optimisation fédérée juste des méthodes d'apprentissage standard, telles que l'apprentissage fédéré synchrone et asynchrone, FedFix ou FedBuff. Dans la deuxième partie de la thèse, nous étudions la fiabilité de l'apprentissage fédéré dans des applications concrètes. Nous introduisons IFU, un nouveau schéma de désapprentissage fédéré, permettant de supprimer (désapprendre) la contribution d'un client à un modèle fédéré, avec des garanties statistiques sur l'efficacité du désapprentissage. Enfin, nous proposons deux stratégies pour les attaques de « free-riding » et introduisons un nouveau cadre théorique pour prouver leur efficacité. Dans l'ensemble, les travaux présentés dans cette thèse mettent en évidence de nouvelles propriétés théoriques de l'apprentissage fédéré, qui permettent d'approfondir notre compréhension de la robustesse et de la fiabilité du processus d'optimisation fédérée dans des scénarios d'applications concrètes.