Apprentissage Statistique pour les données Spatiales: théorie et algorithmes

par Emilia Siviero

Projet de thèse en Mathématiques appliquées

Sous la direction de Stéphan Clémençon.

Thèses en préparation à l'Institut polytechnique de Paris , dans le cadre de École doctorale de mathématiques Hadamard , en partenariat avec Laboratoire de Traitement et Communication de l'Information (laboratoire) et de S2A - Statistique et Apprentissage (equipe de recherche) depuis le 01-09-2020 .


  • Résumé

    Dans l'ère du Big Data, nous sommes confrontés à des situations où les données, collectées dans divers domaines, tels que les sciences géo/environnementales, sont des données spatiales qui présentent une forte structure de dépendance. Dans ce contexte, il n'y a aucune garantie théorique d'une possible généralisation des méthodes théoriques habituelles pour l'apprentissage statistique. Des algorithmes heuristiques classiques, tels que les méthodes de moyenne locale, ont été étendues au cadre spatial (Bel et al., 2009). Mais l'implémentation est compromise par l'absence de théorie non paramétrique dans ce cadre. L'objectif de la thèse de doctorat est de développer un contexte pour le krigeage avec des garanties statistiques, basé sur une étude préliminaire non asymptotique de la performance d'un estimateur de covariance. L'estimation de la fonction de covariance est basée sur un grand nombre d'observations. La difficulté majeure réside donc dans la structure de dépendance des observations. Le but du krigeage est de construire un prédicteur sur un site non observé donné, basé sur l'observation du processus spatial en un nombre fini de points. La thèse de doctorat vise également à revisiter les approches classiques du Machine Learning afin d'exploiter pleinement les propriétés des processus spatiaux. Nous nous intéressons également à établir des résultats de cohérence pour les méthodes de partitionnement dans la configuration spatiale (voir (Devroye et al., 2013) pour le cas de classification standard).

  • Titre traduit

    Statistical Learning for Spatial data: theory and practice


  • Résumé

    In the Big Data era, we are facing situations where the datasets, collected in various domains, such as geo/environmental sciences, are of spatial nature and exhibit a strong dependence structure. In this context, no theoretical guarantees of the generalisation capacity of rules learnt from data are provided by the usual theory of statistical learning. Classic heuristics, such as local averaging methods have been extended to spatial setting (Bel et al., 2009). But, the implementation is compromised by the absence of non parametric theory. The aim of the PhD thesis is to develop a framework for ordinary kriging with statistical guarantees, based on a preliminary non asymptotic study of the performance of a covariance estimator. The estimation of the covariance function is based on a large number of observations and the major difficulty lies in the dependence structure of the observations. The goal of kriging is to build a predictor at a given unobserved site, based on the observation of the spatial process at a finite number of points. The PhD thesis also aims at revisiting classic approaches in Machine Learning in order to fully exploit the properties of the spatial processes. We also shall attempt to establish consistency results for partitioning methods in the spatial setup (from (Devroye et al., 2013) for the standard classification case).