Thèse de doctorat en Mathématiques
Sous la direction de Gabriel Peyre et de François Xavier Vialard.
Thèses en préparation à l'Université Paris sciences et lettres , dans le cadre de École doctorale Sciences mathématiques de Paris centre , en partenariat avec DMA - Département de Mathématiques et Applications (laboratoire) et de École normale supérieure (Paris ; 1985-....) (établissement opérateur d'inscription) .
De nombreux problèmes en sciences des données (par exemple en apprentissage automatique et en imagerie) requièrent d'approximer une distribution de données à l'aide d'un modèle. Une approche pour estimer le modèle consiste à minimiser une distance (ou plus généralement une divergence) entre les données et le modèle. Les propriétés de la distance ont un impact crucial sur le modèle issu de sa minimisation. Contrairement à d'autres approches très simples telles que la divergence de Kullback-Leibler ou les normes de noyau, les distances de transport optimal (TO) permettent d'obtenir de meilleurs résultats en tirant parti d'une information géométrique sous-jacente dans les données. Cependant, l'usage pratique des distances de transport optimal est difficile pour plusieurs raisons. Elles sont coûteuses à estimer numériquement, ce qui est restrictif pour des jeux de données de grande taille. Elles sont sensibles à la présence de bruit ou de valeurs aberrantes dans les données. Elles sont limitées à la comparaison de distributions qui ont la même masse (comme des probabilités de masse 1) et qui sont définies dans le même espace. Cela nuit à l'efficacité des distances TO dans des domaines tels que la biologie cellulaire, par exemple, où de grandes populations de cellules sont comparées via l'utilisation d'appareils de mesure différents. Dans cet exemple, le modèle doit tenir compte d'observations bruitées (voire erronées), et la comparaison de mesures biologiques d'origines distinctes impose une représentation des distributions dans des espaces différents. Par conséquent, l'utilisation directe des distances TO dans un tel cas pourrait donner des résultats non pertinents. Il est possible de résoudre chacune de ces difficultés à l'aide de différentes extensions du TO : la régularisation entropique (pour accélérer les calculs et combattre le fléau de la dimension), le transport non-équilibré (pour rendre le TO robuste aux variations de masse) et les distances de Gromov-Wasserstein (pour être invariant aux isométries et comparer des mesures définies dans des espaces différents). Les contributions de cette thèse fournissent des avancées théoriques et numériques afin de pouvoir fusionner ces différentes extensions dans un cadre cohérent. Un premier problème étudié est le calcul rapide des problèmes de TO non-équilibrés dans les chapitres 2 et 4. Les contributions des autres chapitres reposent sur ces algorithmes d'estimation du TO non-équilibré. Une combinaison du TO non-équilibré avec la régularisation entropique, appelée divergence de Sinkhorn, est étudiée au chapitre 3. Il est prouvé qu'elle conserve les bénéfices computationnels du TO régularisé, avec les propriétés métriques du TO non régularisé, de sorte qu'il est préférable en pratique de l'utiliser dans les tâches d'estimation de modèles. Deux combinaisons du TO non-équilibré avec les distances de Gromov-Wasserstein sont présentées dans les Chapitres 5 et 6. Celle du Chapitre 5 est une divergence qui exploite la régularisation entropique pour être estimée efficacement. Celle du Chapitre 6 vérifie l'inégalité triangulaire et est donc une distance.
Generalized Optimal Transport, computation and applications
Many problems in data science (such as in machine learning or imaging) require to approach a data distribution with a model, which is called density fitting. One approach to estimate the model distribution is to minimize a distance (or more generally a divergence) between the data and the model. The properties of the distance have a crucial impact on the model outputed by the minimization. Contrary to simpler approaches such as the Kullback-Leibler divergence or kernel norms, optimal transport (OT) distances output improved results, thanks to their ability to leverage an underlying geometric information in the data. However, the practical applicability of OT is challenging for several reasons. They are computationally expensive to estimate numerically, which is restrictive for large scale datasets. They are sensitive to the presence of noise or outliers in the data. They are limited to the comparison of distributions which have the same mass (such as probabilities with mass one) and are defined in the same space. It undermines the efficiency of OT distances in fields such as e.g. cell biology, where large populations of cells are compared via the use of distinct measurement modalities. In such setting the model must account for noisy (or even erroneous) observations, and it imposes a representation of the different modalities' measurements as distributions defined on distinct spaces. Hence the straightforward use of OT in such case might yield irrelevant results. It is possible to solve each one of theses limitations using various extensions of OT: entropic regularization (to accelerate computations and fight the curse of dimensionality), unbalanced OT (to make it robust to mass variations and outliers) and Gromov-Wasserstein distances (to be invariant to isometries and compare measures defined in distinct spaces). The contributions of this thesis provide theoretical and numerical advances on the combinations of these various extensions in a coherent framework. An important building block on which the contributions of other chapters rely on is the fast computation of unbalanced OT problems, treated in Chapters 2 and 4. A combination of unbalanced OT with entropic regularization called the Sinkhorn divergence, is studied in Chapter 3. It is proved to retain the computational advantages of regularized OT with the metric properties of unregularized OT, so that it is preferable to use it in density fitting tasks. Two combinations of unbalanced OT with Gromov-Wasserstein distances are introduced in Chapters 5 and 6. The first one in Chapter 5 is a divergence which leverages an entropic regularization to be estimated efficiently. The second one in Chapter 6 is proved to be a distance.