Modélisation de données partiellement agrégées par processus de Hawkes ; application à l'estimation de parts attribuables.

par Felix Cheysson

Projet de thèse en Santé publique - biostatistiques

Sous la direction de Laurence Watier et de Gabriel Lang.

Thèses en préparation à Paris Saclay , dans le cadre de Santé Publique , en partenariat avec B2PHI - Biostatistique, Biomathématique, Pharmacoépidémiologie et Maladies Infectieuses (laboratoire) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 01-10-2016 .


  • Résumé

    En épidémiologie, nombreux sont les jeux de données agrégés aux niveaux spatial et/ou temporel, par souci d'anonymat ou de commodité – e. g. recueil à l'échelle de zones administratives. Cependant, l'agrégation de données conduit à une perte d'information, et les modèles sur réseaux classiquement utilisés pour les analyses géographiques nécessitent la spécification arbitraire de voisinages. De plus, le découpage du territoire et la taille des zones d'intérêt – Modifiable Areal Unit Problem (MAUP) – (Openshaw 1984, Dark 2007), mais aussi l'agrégation temporelle de données (Cheng 2014), introduisent des biais statistiques dans l'analyse des données. La thèse s'attachera au développement de nouveaux modèles pouvant prendre en compte des jeux de données multi-échelles, à savoir en parties agrégée et non agrégée. S'appuyant sur les processus ponctuels, les modèles porteront une attention particulière au MAUP et à son homologue temporel, le MTUP, tout en tirant profit de la précision des données non agrégées. Laurence Watier, CR1 Inserm et directrice de thèse, et Gabriel Lang, enseignant-chercheur assimilé HdR, superviseront respectivement l'application aux données épidémiologiques et le développement théorique de nouveaux modèles.

  • Titre traduit

    Modelling partially aggregated Hawkes process; application to the estimation of attributable fractions.


  • Résumé

    Spatially and temporally aggregated data counts are commonplace in epidemiology, but require special care. Aggregation of data points induces a loss of information and parsimonious lattice models often require arbitrary neighbourhoods. Of less known impact, the zoning and scale effects, also known as the Modifiable Areal Unit Problem (MAUP) (Openshaw 1984, Dark 2007), create a statistical bias, and temporal aggregation has a similar effect (Cheng 2014). Lattice models thus fall short for aggregated datasets while point process have been thoroughly studied for non-aggregated ones. This thesis aims to develop new models to analyse mixed datasets, in parts aggregated and non-aggregated. Deriving from point processes, these models should take into account the statistical biases created by the MAUP and its temporal counterpart the MTUP, while maximizing the information contained in the non-aggregated data points. The doctoral student will be supervised by Laurence Watier, INSERM CR1 and thesis supervisor, and Gabriel Lang, university lecturer and researcher, respectively overseeing the applications to epidemiology and the theoretical framework.