Thèse soutenue

Analyse statistique du problème du transport optimal

FR  |  
EN
Auteur / Autrice : Alberto Gonzalez Sanz
Direction : Jean-Michel LoubèsEustasio del Barrio
Type : Thèse de doctorat
Discipline(s) : Mathématiques et Applications
Date : Soutenance le 18/04/2023
Etablissement(s) : Toulouse 3 en cotutelle avec Universidad de Valladolid
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche : Laboratoire : Institut de mathématiques de Toulouse (2007-....)
Jury : Examinateurs / Examinatrices : Jean-Michel Loubès, Eustasio del Barrio, Gabriel Peyré, Johan Segers, Axel Munk
Rapporteurs / Rapporteuses : Gabriel Peyré, Johan Segers

Résumé

FR  |  
EN

Le transport optimal est un problème d'allocation de ressources que l'on retrouve dans des domaines tels que l'économie, la finance, la physique et l'intelligence artificielle. D'un point de vue probabiliste, le coût de transport optimal dote l'espace des mesures de probabilité d'une topologie métrique. Cela fait du coût de transport un outil approprié pour mesurer les écarts entre les distributions. D'autre part, la solution du problème de transport est connue comme le plan optimal. C'est-à-dire une manière non ambiguë de mettre en relation deux distributions suivant un critère d'optimalité. Ce plan optimal, lorsqu'il est déterministe, s'appelle une application de transport. Cependant, la distribution de probabilité est souvent une entité théorique, irréalisable. Elle n'est visible pour le praticien qu'à travers sa version empirique, c'est-à-dire un ensemble de données fini de taille n. Ce document examine le comportement asymptotique du coût de transport dans sa version empirique. En d'autres termes, nous étudions les limites du coût empirique et de le plan lorsque les données croissent à l'infini. Les travaux précédents ont montré que le coût de transport empirique converge vers le coût théorique. De plus, pour les mesures continues, elle le fait à un taux qui diminue avec la dimension. Dans cette thèse, nous démontrons la cohérence de l'application de transport en utilisant la topologie des applications qui prennent des valeurs dans un espace d'ensembles. Cela conduit, indirectement, à pouvoir affirmer que le taux auquel les fluctuations-différence entre l'espérance du coût empirique et le coût empirique lui-même se rapprochent de zéro est le paramètre n- 21. De plus, ces fluctuations multipliées par n 12 tendent vers une variable gaussienne. Dans les applications économiques, le problème du transport apparaît à de nombreuses reprises dans sa version semi-discrète, c'est-à-dire qu'une des distributions est discrète. Dans ce cas, nous montrons que la vitesse à laquelle le coût de transport empirique converge vers le coût de population ne dépend pas de la dimension. Nous montrons également que la régularisation entropique (ou régularisation de Sinkhorn), outre qu'elle simplifie le calcul du problème de transport en lui donnant une structure différentiable, possède des propriétés statistiques très satisfaisantes. En particulier, leur biais et la divergence que la régularisation définit convergent avec une vitesse supérieure à celle du paramétrique ; les plans régularisés empiriques convergent vers ceux de la population, avec une erreur gaussienne et décroissante à la vitesse n- 12. L'application du transport confère à une mesure de probabilité P un ordre par rapport à une référence donnée. Cette propriété permet de définir avec succès la fonction de répartition multivariée de M.Hallin en choisissant comme mesure de référence l'uniforme sphérique. Cette thèse fournit des conditions suffisantes pour lesquelles cette fonction définit un homéomorphisme entre le support de la mesure de probabilité P et la balle unitaire, c'est-à-dire le support de l'uniforme sphérique. Enfin, nous fournissons une version conditionnelle de la fonction de répartition multivariée, avec des applications à la régression quantile.