Thèse soutenue

Simulation de Monte Carlo distribuée avec apprentissage statistique à grande échelle : Inférence bayésienne et prédiction conformelle

FR  |  
EN
Auteur / Autrice : Vincent Plassier
Direction : Éric MoulinesAlain Durmus
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 05/10/2023
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Centre de mathématiques appliquées (Palaiseau, Essonne) - Centre de Mathématiques Appliquées - Ecole Polytechnique / CMAP
Jury : Président / Présidente : Gersende Fort
Examinateurs / Examinatrices : Alain Durmus, Aurélien Bellet, Gareth E. Roberts, Sylvain Arlot, Christian P. Robert
Rapporteurs / Rapporteuses : Aurélien Bellet, Gareth E. Roberts

Résumé

FR  |  
EN

Centraliser les données est indésirable dans de nombreux scénarios, notamment lorsque des informations sensibles sont traitées. Dans de tels cas, la nécessité de méthodes alternatives devient évidente. Étant donné que les grands ensembles de données facilitent l'apprentissage de modèles efficaces, les méthodes distribuées se sont imposées comme un outil puissant pour surmonter les défis de la centralisation des données. Cette thèse présente des approches innovantes dans les secteurs de l'inférence bayésienne à grande échelle et la quantification des incertitudes, avec pour but de fournir des solutions à la centralisation des données. Les approches de Monte Carlo fédéré permettent à plusieurs agents/nœuds d'effectuer des calculs localement et en toute sécurité, tandis qu'un serveur central combine les résultats obtenus pour échantillonner selon la posteriori globale. Ces techniques d'échantillonnage a posteriori bayésiennes bénéficient de l'incorporation des connaissances antérieures, ce qui conduit à des résultats améliorés. De plus, l'incertitude associée aux paramètres et aux prédictions est naturellement quantifiée, cette capacité étant d'autant plus nécessaire en présence d'un petit nombre de données ou de données bruitées.La première partie de ce manuscrit se concentre sur les méthodes de Monte Carlo via les chaînes de Markov. En particulier, nous introduisons deux procédures, appelées DG-LMC et FALD, conçues pour cibler une distribution a posteriori tout en assurant la scalabilité. Chacune de ces méthodes reposent sur un serveur central pour orchestrer plusieurs entités locales. Celui-ci agrège l'information provenant de chaque agent afin de produire des solutions statistiques tout en limitant la quantité de données transférées. Cette approche réduit le nombre de communications entre participants, ce qui la rend particulièrement avantageuse dans les environnements fédérés avec une bande passante limitée. Étant donné la nature distribuée des ensembles de données d'aujourd'hui, des préoccupations concernant la confiance et la confidentialité se posent lors du transfert d'informations vers un serveur central. Les méthodes proposées non seulement abordent des applications pratiques, mais étendent également les algorithmes d'apprentissage existants aux problèmes d'inférence bayésienne. Les approches développées présentent des applications potentielles dans divers domaines, notamment l'épidémiologie et la finance, où l'inférence à grande échelle et la confidentialité des données sont des préoccupations majeures.La deuxième partie de la thèse se concentre sur la gestion de l'incertitude. Initialement, nous présentons l'approche bayésienne, qui consiste à définir une a priori et une vraisemblance. Cette première méthode se base sur des opérateurs de compression afin de résoudre les problèmes de bande passante. Dans la dernière partie, nous introduisons une méthode fréquentiste basée sur les prédictions conformelles. Contrairement aux méthodes précédentes, cette approche fonctionne avec n'importe quel modèle prédictif. Nommée DP-FedCP, cette méthode utilise la technique de régression quantile pour générer des ensembles de prédictions personnalisés et robustes. En outre, elle aborde efficacement l'hétérogénéité entre agents via la détermination de quantiles basés sur des pondérations d'importance. Un aspect crucial de notre approche reste la préservation de la confidentialité, nous veillons à protéger les informations sensibles de chaque utilisateur.