Approches statistiques en pharmacoépidémiologie pour la prise en compte de facteurs de confusion indirectement mesurés dans les bases médico-administratives

par Chi hong Duong

Projet de thèse en Santé publique - épidémiologie

Sous la direction de Pascale Tubert-bitter et de Ismaïl Ahmed.

Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale Santé Publique , en partenariat avec Centre de recherche en Epidemiologie et Santé des Populations (laboratoire) , Biostatistique en grande dimension (equipe de recherche) et de Faculté de médecine (référent) depuis le 01-10-2020 .


  • Résumé

    L'ouverture des bases médico-administratives pour la recherche biomédicale a considérablement modifié le paysage de la pharmacoépidémiologie, cette dernière visant à étudier l'impact des médicaments dans la population. En France, le système national des données de santé (SNDS) contient pour la quasi-totalité de la population française l'ensemble des actes de soins remboursés (délivrance de médicaments, consultations etc.) et des hospitalisations. Malgré leur très grande richesse, ces bases de remboursement présentent un certain nombre de limites pour la conduite d'études pharmacoépidémiologiques. Une première est liée au fait qu'elles ne contiennent que des actes remboursés. Plus généralement, ces bases à visée administrative, ne contiennent que très peu d'informations “directes” concernant l'état de santé des individus ; en particulier des facteurs de risque aussi classiques que le tabagisme ou l'obésité ne sont pas directement accessibles. L'état de santé ou les facteurs de risque d'un patient doivent donc être inférés à partir des informations enregistrées dans la base tels que la délivrance de médicaments, les codes d'hospitalisation ou d'actes médicaux. Dans les études de pharmacoépidémiologie classiques, la confusion induite par des facteurs de risque mesurés sur une association [pathologie, exposition médicamenteuse] est généralement prise en compte au moyen de modèles de régression intégrant ces facteurs de risque ou de scores de propension, ces derniers modélisant la probabilité d'être exposé au médicament d'intérêt. Pour les études pharmacoépidémiologiques conduites sur les bases médico-administratives, la confusion induite par des facteurs de risque non mesurés peut être source de biais et il est donc nécessaire de proposer des stratégies d'analyse permettant d'amoindrir ce dernier autant que possible et de quantifier son impact. L'objectif général de ce projet de thèse est d'évaluer un certain nombre de méthodes qui ont été proposées ces dernières années pour appréhender cette confusion non directement mesurée. Le cadre d'application sera celui des bases médico-administratives. Nous nous intéresserons plus particulièrement à quatre stratégies : 1) les régressions multivariées pénalisées, 2) les scores en grande dimension, 3) le targeted maximum likelihood estimator (TMLE), 4) les e-values. Nous débuterons ce projet de recherche par une recherche bibliographique afin d'identifier d'éventuelles approches supplémentaires. Un premier axe de travail pourrait donc consister à évaluer sur une ou deux associations de référence un certain nombre de méthodes proposées classiquement dans la littérature telles que le score de propension en grande dimension ou les e-values. Un deuxième axe de recherche pourrait porter sur l'étude d'approches plus récentes telles que le TMLE ou les scores pronostiques en grande dimension. Il pourrait aussi consister à proposer certaines extensions des méthodes identifiées. Par exemple, il pourrait s'agir de proposer une extension de l'utilisation conjointe du score de propension et du score pronostique (Leacy and Stuart 2014) à la grande dimension. Concernant les e-values, il pourrait s'agir de s'intéresser à l'extension de ce type d'approches à plusieurs facteurs de risque. Dans un troisième axe, les méthodes retenues à l'issue des deux premiers axes de recherche pourraient être utilisées dans le cadre d'une pharmacoépidémiologique portant sur une association moins documentée. Il s'agira de venir en complément des analyses classiquement effectuées sur ce type de données.

  • Titre traduit

    Statistical approaches in pharmacoepidemiology for addressing indirectly measured confounding factors in medical-administrative databases


  • Résumé

    The opening up of the medico-administrative bases for biomedical research has considerably changed the landscape of pharmacoepidemiology, the latter aiming to study the impact of drugs in the population. In France, the national health data system (SNDS) contains for almost the entire French population all reimbursed health care procedures (dispensing of medicines, consultations, etc.) and hospitalisations. Despite their great wealth, these reimbursement bases present a certain number of limitations for the conduct of pharmacoepidemiological studies. The first is linked to the fact that they only contain reimbursed procedures. More generally, these administrative databases contain very little 'direct' information concerning the state of health of individuals; in particular, risk factors as common as smoking and obesity are not directly available. A patient's health status or risk factors must therefore be inferred from the information recorded in the database, such as the dispensing of medicines, hospitalisation codes or medical acts. In conventional pharmacoepidemiology studies, confusion induced by risk factors measured in a combination [pathology, drug exposure] is usually accounted for using regression models incorporating these risk factors or propensity scores, the latter modelling the probability of being exposed to the drug of interest. For pharmacoepidemiological studies conducted on a medico-administrative basis, the confusion induced by unmeasured risk factors may be a source of bias and it is therefore necessary to propose analytical strategies to reduce the latter as much as possible and to quantify its impact. The general objective of this thesis project is to evaluate a number of methods that have been proposed in recent years to deal with this confusion that is not directly measured. The framework of application will be that of medico-administrative bases. We will focus more particularly on four strategies: 1) penalized multivariate regressions, 2) scores in high dimension, 3) the targeted maximum likelihood estimator (TMLE), 4) e-values. We will also start this research project by making a bibliographical research in order to identify additional relevant approaches. A first line of research could thus consist in evaluating for one or two reference associations a certain number of methods classically proposed in the literature such as the propensity score in high dimension or the e-values. A second line of research could focus on the study of more recent approaches such as the TMLE or high dimensional prognostic scores. It could also consist in proposing certain extensions to the methods identified. For example, it could consist in proposing an extension of the joint use of the propensity score and the prognostic score (Leacy and Stuart 2014) in the high dimension setting. Concerning e-values, it could consist in extending this approach to several risk factors. In a third line of research, the selected methods could be used in a pharmacoepidemiology study on a less documented association. This will complement the analyses traditionally carried out on this type of data.