Apprentissage statistique pour l'optimisation des poids des modèles structuraux marginaux dans le cadre de données longitudinales

par Camille Nevoret

Projet de thèse en Mathématiques appliquées

Sous la direction de Agathe Guilloux et de Sandrine Katsahian.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....) , en partenariat avec LaMME - Laboratoire de Mathématiques et Modélisation d'Evry (laboratoire) , Statistique pour la Génomique et la Génétique (equipe de recherche) et de Université d'Évry-Val-d'Essonne (établissement de préparation de la thèse) depuis le 05-11-2018 .


  • Résumé

    En recherche médicale, se pose fréquemment la question d'évaluer l'efficacité d'un traitement, et par la suite, d'identifier des sous-groupes de patients plus ou moins répondeurs. Il s'agit donc de démontrer un effet causal entre le traitement et la réponse. Les facteurs de confusion, variables qui sont liées à la fois aux covariables et à la réponse ("outcome"), peuvent induire des biais dans ces analyses. La randomisation est la meilleure méthode pour éviter ces biais mais elle ne peut pas toujours être mise en place. C'est notamment le cas des étude sur données observationnelles comme les bases médico-administratives françaises. Etant exhaustives sur les remboursements des soins médicaux en France, ces bases contiennent beaucoup de cofacteurs potentiels. Il est donc important d'utiliser des méthodes spécifiques à ce type de données tout en assurant la prise compte d'un grand nombre de cofacteurs. Cette thèse se propose de i) faire un état de l'art sur les méthodes permettant de s'affranchir de la randomisation dans l'analyse de données observationnelles longitudinales, ii) d'étudier un modèle prenant en compte à la fois les biais mesurés et non-mesurés et proposerons des algorithmes de machine learning pour optimiser le calcul des poids, iii) réaliser également une recherche de sous-groupes de patients répondeurs et non-répondeurs à un traitement en prenant en compte les éventuels les caractéristiques des patients et les traitements concomitants.

  • Titre traduit

    Optimisation of weight in marginal structural method using machine learning in longitudinal data.


  • Résumé

    Lots of studies in clinical research try to evaluate if a treatment is efficient and try to identify sub-groups of patients, responder or non-responder. The question is to demonstrate a causal link between the treatment and the response. Confounders, variables linked to covariates and outcome can introduce biases in these analyses. The best method to avoid these biases is the randomisation but it is not always possible to use this kind of method. This is the case of studies on observational database like French nationwide Health Insurance Database. Due to the completeness in medical care reimbursement these database contains a lot of potential confounders. That is why it is important to use specific methods to observational data lots of confounders. This thesis proposes i) a state-of-the-art report on methods which imitate randomisation with observational longitudinal data ii) studying a model which takes account of measured and non-measured biais and optimising weights using machine learning algorithme, iii) finding sub-groups of patients, responder and non-responders take into account of characteristics of patients and concomitant treatments.