Sélection de variables pour des processus ponctuels spatiaux

par Achmad Choiruddin

Projet de thèse en Mathématiques Appliquées

Sous la direction de Jean-françois Coeurjolly et de Frédérique Letue.

Thèses en préparation à Grenoble Alpes , dans le cadre de Mathématiques, Sciences et technologies de l'information, Informatique , en partenariat avec Laboratoire Jean Kuntzmann (laboratoire) et de Statistique et Modélisation Stochastique (equipe de recherche) depuis le 13-10-2014 .


  • Résumé

    De nos jours, les nouvelles technologies permettent d'une part l'acquisition de masses croissantes de données et d'autre part l'observation de phénomènes de plus en plus complexes, exhibant des interactions locales et des phénomènes d'auto-organisation. Cette problématique est devenue un champ de recherche important en théorie de l'information et apprentissage statistique par exemple pour le premier point et dans de nombreux domaines théoriques et appliqués qui rassemblent cette notion sous le terme de systèmes complexes (comme par exemple la propagation d'une épidémie dans un espace fragmenté, la dynamique des populations animales, la dynamique cellulaire, la connectivité du cerveau) pour le second point. La statistique et en particulier la sous-branche de la statistique spatiale n'échappe pas à ces questions. Dans de nombreuses applications impliquant les questionnements précédents, les données de base sont constituées de localisations spatiales de points ou plus généralement d'objets en interaction. Par points, nous pouvons penser à la localisation d'arbres sur une parcelle, la présence ou non d'un bioagresseur sur un arbre fruitier, la localisation de régions actives dans le cerveau, le positionnement de la rétine face à une image fixée. Ce type de données est modélisé par un processus ponctuel spatial (voir [1,2] pour une description générale) dont le modèle de référence modélisant les points sans interaction correspond au processus de Poisson spatial. Dans cette thèse le terme complexité est entendu au sens masse de données. On s'intéressera moins à la modélisation de la dépendance qu'à l'estimation de caractéristiques globales du processus : paramètre d'intensité ou fonction intensité (selon la nature homogène ou inhomogène de X), intensité d'ordre 2, quantité d'information contenue dans un processus ponctuel. A titre d'illustration, considérons des données fournies par le Center for Tropical Forest Institute dont l'objectif est l'étude de la répartition de plusieurs centaines d'espèces d'arbres dans le Barro Colorado Island (http://www.ctfs.si.edu/). Deux sortes d'information sont donc recueillies en masse : 1) 326 observations d'un processus ponctuel ayant chacun un nombre d'observations allant de 500 à plus de 5000 (il est aussi possible de voir ceci comme un unique processus ponctuel marqué par l'espèce de l'arbre). 2) Plus de 50 covariables spatiales sont observées telles que la carte du champ d'altitude, de son gradient, du niveau moyen d'hygrométrie. Une illustration est proposée ci-dessous. Partant de cette application, plusieurs objectifs sont envisageables. Par exemple 1) Si on ne se focalise que sur la distribution d'une seule espèce d'arbres sans l'observation d'informations auxiliaires, on peut alors s'intéresser à l'estimation non paramétrique de la fonction intensité. On peut alors envisager plusieurs modèles pour la fonction intensité : histogramme, décomposition sur une base d'ondelettes, . . . Dans ce cadre, le problème consistera à développer et étudier sur le plan théorique des procédures de sélection permettant parmi une large classe de modèles de sélectionner le meilleur d'entre eux (voir par exemple [3]). 2) Etant donnée la réalisation d'un seul processus ponctuel observé avec l'ensemble des covariables spatiales, l'objectif sera de sélectionner au mieux les covariables spatiales les plus influentes permettant d'expliquer au mieux la répartition spatiale en terme d'intensité d'un processus ponctuel. Plus précisément, le candidat aura à charge de se familiariser avec les techniques récentes de type Lasso [4], Lasso adaptatif [5], sélecteur de Dantzig [6] puis de les adapter au cadre spatial. Un volet important sera accordé à justifier l'utilisation de telles méthodes par l'obtention d'inégalités oracle. Ces points devront être abordés en faisant le minimum d'hypothèses sur le processus ponctuel sous-jacent. En particulier, ils ne devront pas se restreindre au processus de Poisson mais doivent pouvoir s'adapter à de large classes de processus déterminentaux, processus de Cox ou encore processus de Gibbs permettant de modéliser des motifs exhibant des clusters ou des motifs très réguliers. Au delà des aspects théoriques, le candidat aura à tache de valider sur simulation l'ensemble de ses procédures. Par ailleurs, les procédures développées devront s'intégrer au sein du paquet R spatstat (voir [7]) dédié pour l'essentiel à l'analyse de processus ponctuels planaires.

  • Titre traduit

    Feature selection for spatial point processes


  • Résumé

    Spatial point pattern data arise in many contexts where interest lies in describing the distribution of an event in space. Some examples include the locations of trees in a forest, gold deposits mapped in a geological survey, stars in a cluster star, animal sightings, locations of some specific cells in retina, or road accidents. Interest in methods for analyzing spatial point pattern data is rapidly expanding accross many fields of science, notably in ecology, epidemiology, biology, geosciences, astronomy, and econometrics. One of the main interests when analyzing spatial point pattern data is to estimate the intensity which characterizes the probability that a point (or an event) occurs in an infinitesimal ball around a given location. In practice, the intensity is often assumed to be a parametric function of some measured covariates. When the intensity is a function of many variables, covariates selection becomes inevitable. In this first part of the research, we propose the regularized versions of estimating equations based on Campbell formula derived from Poisson and logistic regression loglikelihood to estimate the intensity of the spatial point processes. We consider both convex and non-convex penalty functions. We provide general conditions on the penalty function to ensure an oracle property and a central limit theorem. The logistic regression method proposed by Baddeley et al. (2014) is as easy to implement as Poisson log-likelihood method, but is less biased since it does not require deterministic numerical approximation as in Poisson method. It is of interest to investigate the regularized version of logistic regression method. We prove that the estimates obtained by regularizing the logistic regression log-likelihood can also enjoy the asymptotic properties. Our procedure is straightforward to implement since we only need to combine spatstat package with glmnet and ncvreg package in R.