Applications du transport optimal à l'apprentissage supervisé

par Ahmed Zaoui

Projet de thèse en Mathématiques

Sous la direction de Romuald Elie et de Mohamed Hebiri.

Thèses en préparation à Paris Est , dans le cadre de MSTIC : Mathématiques et Sciences et Technologies de l'Information et de la Communication , en partenariat avec Laboratoire d'Analyse et de Mathématiques Appliquées (laboratoire) depuis le 01-10-2018 .


  • Résumé

    Le transport optimal est une puissante boîte à outils mathématiques qui permet de comparer des mesures de probabilité de manière flexible, qu'elles soient discrètes ou continues. Au coeur de nombreux problèmes mathématiques théoriques, le transport optimal s'est récemment introduit dans la communauté du machine learning en démontrant sa pertinence dans des problèmes d'apprentissage complexes, incluant e.g. la prédiction d'histogrammes ou de nuages de points ainsi que l'entraînement de modèles génératifs dans des contextes particulièrement dégénérés ou de très grande dimension. Plus spécifiquement, dans de nombreuses applications en machine learning, l'usage de la distance de Wasserstein (distance entre distribution issue du transport optimal [Villani, 2009]) semble apporter des performances remarquables. Afin de mesurer l'entropie entre la distribution issue du modèle et celle des données, elle semble pertinente comme fonction de perte, lorsqu'il s'agit de prendre en compte la structure particulière de l'espace des données. Dans ce cadre, le travail aura pour objectif de développer des techniques d'agrégation d'algorithmes en utilisant comme métrique d'entropie la distance de Wasserstein, et de construire une théorie pour la construction d'ensemble de confiances dans ce cadre. En particulier, on recherche des contrôles de type oracles sur l'erreur des confidence sets évalué en terme de distance de Wasserstein. Il est important de noter que dans ce domaine, la complexité des données est telle qu'elle requiert un effort soutenu de la recherche en statistique et informatique pour proposer des méthodes de plus en plus efficaces. Dans le travail de Frogner et al. [2015], un algorithme de prédiction fondé sur la minimisation du risque empirique est étudié. En particulier, les auteurs prouvent l'optimalité du minimiseur du risque empirique et démontrent des vitesses de convergence pour cette procédure. Une partie de la thèse visera à généraliser ces résultats au cas de l'agrégation d'algorithmes de classification. Un des enjeux important sera d'obtenir des vitesses de convergences optimales, ce qui à notre connaissance n'a jamais été fait.

  • Titre traduit

    Applications of optimal transport to supervised learning


  • Résumé

    Optimal Transport is a powerful mathematical toolbox that allows one to compare probability measures in a flexible way, whether discrete or continuous. At the heart of many theoretical mathematical problems, optimal transport has recently entered the machine learning community by demonstrating its relevance in complex learning problems, including the prediction of histograms and scatterplots as well as the training of generative models in particularly degenerate or very large contexts. More specifically, in many applications in machine learning, the use of Wasserstein's distance (distance between distribution resulting from optimal transport [Villani, 2009]) seems to bring remarkable performances. In order to measure the entropy between the model and the empirical distribution, it seems relevant as a loss function when considering the particular structure of the data space. In this framework, the work aims at developing clustering algorithms using the distance of Wasserstein as entropy metric, and develop a theory for the construction of set of trusts in this framework. In particular, one looks for oracles-type checks on the error of the confidence sets evaluated in terms of Wasserstein's distance. It is important to note that in this area, the complexity of the data is such that it requires a sustained effort of research in statistics and computer science to propose more and more efficient methods. In the work of Frogner et al. [2015], a prediction algorithm based on empirical risk minimization is studied. In particular, the authors prove the optimality of the empirical risk minimizer and demonstrate convergence rates for this procedure. Part of the thesis will aim at generalizing these results in the case of the aggregation of classification algorithms. One of the important issues will be to obtain optimal convergences speeds, which to our knowledge has never been done.