Spatial statistics in discrete-choice models, application to UADT cancers in northern France

par Emad Aldeen Darwich

Thèse de doctorat en Mathématiques appliquées et applications des mathématiques

Sous la direction de Sophie Dabo et de Jérôme Foncel.

Le président du jury était Ahmed El Ghini.

Le jury était composé de Sophie Dabo, Jérôme Foncel, Ahmed El Ghini, Julie Le Gallo, Ghislain Geniaux, Olivier Torres.

Les rapporteurs étaient Julie Le Gallo, Ghislain Geniaux.

  • Titre traduit

    Statistiques spatiales dans les modèles à choix discrets, application aux cancers de l'UADT dans le nord de la France


  • Résumé

    Ce mémoire de thèse concerne l’identification des facteurs de risque d’une maladie spécifique présentant une hétérogénéité spatiale au sein d’une région donnée. Plus particulièrement,nous nous sommes intéressés aux cancers des voies aéro-digestives supérieures(VADS) dans la région Nord-Pas-de-Calais (NPDC) en France. Pour cela, une étude cas témoins a d’abord été réalisée à partir de la création d’un échantillon d’individus sains qui n’étaient pas affectés par des tumeurs cancéreuses (les témoins) et d’un échantillon d’individus atteints du cancer (les cas - ou patients), recrutés dans les centres de soins dans le cadre des projets de recherche DEREDIA et NOFARIS. Concernant la méthodologie,des modèles binaires spatiaux répondant à l’objectif ont été développés à partir de travaux issus des domaines de recherche en statistique/économétrie des comportements(analyse des décisions) ainsi qu’en statistique spatiale. Un des apports méthodologiques de la thèse repose sur la combinaison de techniques provenant de ces deux champs de recherche. Dans une première partie, nous avons utilisé un modèle spatial binaire paramétrique contenant une variable spatiale latente de choix dans le cadre d’un échantillonnage des données. Ce problème est connu sous le nom de "Choice-Based Sampling" (CBS) dans les modèles discrets. Contrairement à l’échantillon aléatoire où tous les éléments de la population ont la même probabilité d’être choisi, l’échantillonnage CBS dans le modèle discret est un type d’échantillonnage dans lequel la classification de la population est faite sous forme de sous-ensembles (strates) basés sur des choix alternatifs. Dans ce contexte,l’utilisation de la procédure d’estimation par maximum de vraisemblance standard (MLE)dans le CBS pourrait mener à des estimations incohérentes (asymptotiquement biaisées).Nous avons adopté ainsi le principe du maximum de vraisemblance auprès de l’étude de scas-témoins spatiaux. Nous avons également fourni un estimateur des moments généralisés(GMM), basé sur les résidus généralisés. Dans une seconde partie, un modèle spatial binaire semi-paramétrique a été considéré. Nous présentons dans ces parties, une simulation de Monte Carlo pour étudier la performance des méthodes d’estimation au sein d’un échantillon final, que nous avons ensuite appliqué aux données du cancer VADS dans la région Nord-Pas-de-Calais. La troisième partie est consacrée à l’étude d’une fonction de risque spatiale en présence de données entachées d’erreurs. En effet, dans le cadre des données cas-témoins considérées, nous supposons que certaines données de type déclarative ne soient pas correctes. Une application de cette méthode à la cartographie du risque de développer un cancer VADS dans la région Nord-Pas-de-Calais a été étudiée. La dernière partie est consacrée à un modèle de durée spatial et son application aux données considérées.


  • Résumé

    This thesis concerns the identification of risk factors for a certain type of diseasepresenting a certain spatial heterogeneity in a given region.. More specifically, we are interested in cancers of the upper aerodigestive tract (UADT) cancers in the Nord-Pasde-Calais region (NPDC), France. For this, a case-control study was first carried out bycreating a sample of healthy individuals who are not affected by cancerous tumors (thecontrols) and a sample of individuals with cancer (Cases or patients), recruited in healthcenters as part of DEREDIA and NOFARIS research projects. From a methodologicalpoint of view, spatial binary models which meet the objective have been developed onthe basis of studies in statistical/behavioral econometrics (decision analysis) and spatialstatistics. One of the methodological contributions of the thesis on this plan is the combinationof techniques from these two fields of research.In the first part, we used a spatial binary parametric models containing spatial latentchoice variable in a context of sampling data. This problem is known as Choice-BasedSampling (CBS) in discrete choice model. Unlike the random sample where all items in the population have the same probability of being chosen, the Choice-Based Sampling indiscrete choice model is a type of sampling where the classification of the population intosubsets to be sampled is based on the choices or outcomes. In this context, the use ofstandard Maximum likelihood estimation (MLE) procedure in CBS could lead to an inconsistent(asymptotically biased) estimation. Thus, we adapt the principle of maximumlikelihood in our context of spatial case-control studies. We also provide a GMM estimatorbased on the generalized residuals.In the second part, a spatial semi-parametric binary model was considered. We present inthese parts a Monte Carlo experiment to investigate the finite sample performance of theseestimation methods, then we apply to the (UADT) cancer data in the Nord-Pas-de-Calaisregion.The third part is devoted to the study of a spatial risk function in the presence of datacontaminated by measurement errors. Indeed, in the context of the considered case-controlstudy, it is very likely that certain data transmitted by the patients is not correct. Anapplication of this method to the mapping of the risk of having UADT cancer in the Nord-Pas-de-Calais region was studied. The last part is devoted to a spatial duration modeland its application to the real data was considered.



Le texte intégral de cette thèse n'est pas accessible en ligne.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université de Lille. Bibliothèque virtuelle.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.