Monte Carlo Methods and Stochastic Approximation : Theory and Applications to Machine Learning - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2023

Monte Carlo Methods and Stochastic Approximation : Theory and Applications to Machine Learning

Méthodes de Monte Carlo et approximation stochastique : Théorie et applications au Machine Learning

Résumé

Across a breadth of research areas, whether in Bayesian inference, reinforcement learning or variational inference, the need for accurate and efficient computation of integrals and parameters minimizing risk functions arises, making stochastic optimization and Monte Carlo methods one of the fundamental problems of statistical and machine learning research. This thesis focuses on Monte Carlo integration and stochastic optimization methods, both from a theoretical and practical perspectives, where the core idea is to use randomness to solve deterministic numerical problems. From a technical standpoint, the study is mainly based on two standard concepts: variance reduction and adaptive sampling techniques. The first part of the thesis focuses on various control variates techniques for Monte Carlo integration. The study is based on mathematical tools coming from probability theory and statistics aiming to understand the behavior of certain existing algorithms and to design new ones with thorough analysis of the integration error. First, we present a LASSO-type procedure to allow the use of high-dimensional control variates. Then, a weighted least-squares estimate, called AISCV, is proposed to incorporate control variates within the adaptive importance sampling framework. Finally, a Monte Carlo method with control variates based on nearest neighbors estimates, called Control Neighbors, is provided. The second part of the thesis deals with stochastic optimization algorithms. First, we investigate a general class of stochastic gradient descent (SGD) algorithms, called conditioned SGD, based on a preconditioning of the gradient direction. Then we present a general framework to perform coordinate sampling for SGD algorithms. While classical forms of SGD algorithms treat the different coordinates in the same way, a framework allowing for adaptive (non uniform) coordinate sampling is developed to leverage structure in data. To emphazise the practical applications of the proposed methods, all algorithms are implemented and tested against state-of-the-art procedures and extensive numerical experiments are provided to allow reproducibility. All algorithms developed in this thesis are open-sourced and available online.
Dans de nombreux domaines de recherche, que ce soit l'inférence variationnelle, l'inférence Bayésienne ou l'apprentissage par renforcement, le besoin d'un calcul précis et efficace d'intégrales et de paramètres minimisant des fonctions de risque apparaît, faisant des méthodes d'optimisation stochastiques et de Monte Carlo l'un des problèmes fondamentaux de la recherche en statistique et en apprentissage automatique. Cette thèse se concentre sur des méthodes d'intégration par Monte Carlo et d'optimisation stochastique, tant d'un point de vue théorique que pratique, où l'idée centrale est d'utiliser l'aléatoire pour résoudre des problèmes numériques déterministes. D'un point de vue technique, l'étude se concentre sur la réduction de la variance et des techniques d'échantillonnage adaptatif. La première partie de la thèse se concentre sur diverses techniques de variables de contrôle pour l'intégration de Monte Carlo. L'étude est basée sur des outils mathématiques issus de la théorie des probabilités et des statistiques visant à comprendre le comportement de certains algorithmes existants et à en concevoir de nouveaux avec une analyse approfondie de l'erreur d'intégration. Nous présentons une procédure LASSO pour utiliser les variables de contrôle en grande dimension. Une estimation pondérée des moindres carrés est ensuite proposée pour incorporer les variables de contrôle dans le cadre de l'échantillonnage adaptatif par importance. Enfin, une méthode de Monte Carlo basée sur des estimateurs des plus proches voisins est proposée. La deuxième partie traite d' algorithmes d'optimisation stochastique. Nous étudions d'abord une classe d'algorithmes de descente de gradient stochastique (SGD) basée sur un préconditionnement de la direction du gradient. Nous présentons ensuite un cadre général pour effectuer un échantillonnage adaptatif des coordonnées. Alors que les formes classiques d'algorithmes SGD traitent les différentes coordonnées de la même manière, un cadre permettant l'échantillonnage adaptatif (non uniforme) des coordonnées est développé pour exploiter la structure des données. Tous les algorithmes sont implémentés et testés par rapport aux méthodes de l'état de l'art et des expériences numériques approfondies sont fournies pour permettre la reproductibilité. Tous les algorithmes développés dans cette thèse sont libres de droits et disponibles en ligne.
Fichier principal
Vignette du fichier
120037_LELUC_2023_archivage.pdf (8.29 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04059775 , version 1 (05-04-2023)

Identifiants

  • HAL Id : tel-04059775 , version 1

Citer

Rémi Leluc. Monte Carlo Methods and Stochastic Approximation : Theory and Applications to Machine Learning. Machine Learning [stat.ML]. Institut Polytechnique de Paris, 2023. English. ⟨NNT : 2023IPPAT007⟩. ⟨tel-04059775⟩
210 Consultations
118 Téléchargements

Partager

Gmail Facebook X LinkedIn More