Thèse soutenue

Bidirectional compression for Federated Learning in a heterogeneous setting

FR  |  
EN
Auteur / Autrice : Constantin Philippenko
Direction : Aymeric DieuleveutÉric Moulines
Type : Thèse de doctorat
Discipline(s) : Mathématiques et informatique
Date : Soutenance le 18/09/2023
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : Centre de mathématiques appliquées (Palaiseau, Essonne) - Centre de Mathématiques Appliquées - Ecole Polytechnique / CMAP
Jury : Président / Présidente : Mikael Johansson
Examinateurs / Examinatrices : Aymeric Dieuleveut, Jérôme Malick, Martin Jaggi, Robert M. Gower, Kevin Scaman, Manon Costa
Rapporteurs / Rapporteuses : Mikael Johansson, Jérôme Malick

Résumé

FR  |  
EN

Les deux dernières décennies ont été marquées par une augmentation sans précédent de la puissance de calcul et du volume de données disponibles. En conséquence, les algorithmes d'apprentissage automatique ont évolué pour s'adapter à cette nouvelle situation. En particulier, beaucoup d'applications modernes utilisent désormais des réseaux de clients pour stocker les données et calculer les modèles : un apprentissage efficace dans ce cadre est plus difficile, en particulier en raison des contraintes de communication. C'est pourquoi, une nouvelle approche, l'apprentissage fédéré, a été développée au cours de ces dernières années : les données sont conservées sur leur serveur d'origine et un serveur central orchestre l'entraînement. Cette thèse vise à aborder deux aspects fondamentaux de l'apprentissage fédéré. Le premier objectif est d'analyser les compromis de l'apprentissage distribué sous contraintes de communication ; le but étant de réduire le coût énergétique et l'empreinte environnementale. Le second objectif est d'aborder les problèmes résultant de l'hétérogénéité des clients qui complexifie la convergence de l'algorithme vers une solution optimale. Cette thèse se concentre sur la compression bidirectionnelle et résume mes contributions à ce domaine de recherche.Dans notre première contribution, nous nous concentrons sur l'effet entremêlé de la compression et de l'hétérogénéité (statistique) des clients. Nous introduisons un framework d'algorithmes, appelé Artemis, qui s'attaque au problème des coûts de communication de l'apprentissage fédéré. Dans notre deuxième contribution, nous mettons l'accent sur les boucles de rétroaction afin de réduire l'impact de la compression. Nous introduisons un algorithme, MCM, qui s'appuie sur Artemis et propose un nouveau paradigme qui préserve le modèle central lors de la compression descendante. Ce mécanisme permet d'effectuer une compression bidirectionnelle tout en atteignant asymptotiquement des taux de convergence identiques à ceux de la compression unidirectionnelle. Dans notre troisième contribution, nous allons au-delà de l'hypothèse classique du pire cas sur la variance et fournissons une analyse fine de l'impact de la compression dans le cadre de la régression des moindres carrés. Dans cette configuration, nous mettons en évidence les différences de convergence entre plusieurs schémas de compression sans biais ayant pourtant la même variance.