Thèse soutenue

Propriétés statistiques du barycentre dans l’espace de Wasserstein
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Elsa Cazelles
Direction : Jérémie BigotNicolas Papadakis
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées et calcul scientifique
Date : Soutenance le 21/09/2018
Etablissement(s) : Bordeaux
Ecole(s) doctorale(s) : École doctorale de mathématiques et informatique (Talence, Gironde ; 1991-....)
Partenaire(s) de recherche : Laboratoire : Institut de mathématiques de Bordeaux
Jury : Président / Présidente : Gérard Biau
Examinateurs / Examinatrices : Jérémie Bigot, Nicolas Papadakis, Gérard Biau, Eustasio del Barrio, Gabriel Peyré, Marco Cuturi, Claire Lacour
Rapporteurs / Rapporteuses : Eustasio del Barrio, Gabriel Peyré

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Cette thèse se concentre sur l'analyse de données présentées sous forme de mesures de probabilité sur R^d. L'objectif est alors de fournir une meilleure compréhension des outils statistiques usuels sur cet espace muni de la distance de Wasserstein. Une première notion naturelle est l'analyse statistique d'ordre un, consistant en l'étude de la moyenne de Fréchet (ou barycentre). En particulier, nous nous concentrons sur le cas de données (ou observations) discrètes échantillonnées à partir de mesures de probabilité absolument continues (a.c.) par rapport à la mesure de Lebesgue. Nous introduisons ainsi un estimateur du barycentre de mesures aléatoires, pénalisé par une fonction convexe, permettant ainsi d'imposer son a.c. Un autre estimateur est régularisé par l'ajout d'entropie lors du calcul de la distance de Wasserstein. Nous nous intéressons notamment au contrôle de la variance de ces estimateurs. Grâce à ces résultats, le principe de Goldenshluger et Lepski nous permet d'obtenir une calibration automatique des paramètres de régularisation. Nous appliquons ensuite ce travail au recalage de densités multivariées, notamment pour des données de cytométrie de flux. Nous proposons également un test d'adéquation de lois capable de comparer deux distributions multivariées, efficacement en terme de temps de calcul. Enfin, nous exécutons une analyse statistique d'ordre deux dans le but d'extraire les tendances géométriques globales d'un jeu de donnée, c'est-à-dire les principaux modes de variations. Pour cela nous proposons un algorithme permettant d'effectuer une analyse en composantes principales géodésiques dans l'espace de Wasserstein.