Sélection de variables et inférence statistique en grande dimension avec les régressions pénalisées : application aux données de notifications spontanées en pharmacovigilance

par Matthieu Pluntz

Projet de thèse en Biostatistiques et data sciences

Sous la direction de Pascale Tubert-bitter.

Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale Santé Publique , en partenariat avec Centre de recherche en Epidémiologie et Santé des Populations (laboratoire) , Biostatistique en grande dimension (equipe de recherche) et de Université de Versailles-Saint-Quentin-en-Yvelines (1991-....) (référent) depuis le 30-09-2019 .


  • Résumé

    Ces dernières années, la régression pénalisée et le lasso en particulier se sont révélés être des outils performants et rapides pour l'analyse des données de grande dimension avec des applications dans un grand nombre de domaines biomédicaux : génomique, imagerie, pharmacovigilance etc. Ces approches issues du domaine de l'apprentissage statistique ont été proposées initialement à des fins prédictives. Dans le cas du lasso, l'objectif était alors d'identifier des modèles avec de bonnes performances prédictives tout en permettant une interprétabilité du modèle en favorisant sa parcimonie. Néanmoins, leur utilisation s'est désormais étendue à des applications où se posent des problématiques de sélection de variables ou d'inférence statistique. Dans ce cadre, l'objectif principal devient d'identifier les variables significativement associées à la variable réponse. Plusieurs approches théoriques ont été proposées dans ce contexte, notamment des approches de type « screen » and « clean », qui utilisent une partie des observations pour identifier à l'aide de méthodes de régression pénalisées un sous ensemble lâche de variables potentiellement intéressantes et la seconde partie des observations afin de conduire l'étape d'inférence [2–4]. Par ailleurs, Lockhart et al [5] ont développé un test statistique (covTest) dans le cadre de la régression lasso dont les performances sur données réelles n'ont pas été évaluées et qui repose sur des résultats asymptotiques lorsque le nombre d'observations tend vers l'infini. Le domaine d'application de ce projet de thèse est la détection de signal en pharmacovigilance. La pharmacovigilance a pour objectif de détecter le plus précocement les effets indésirables de médicaments commercialisés. Elle repose le plus souvent sur l'exploitation de notifications spontanées, c'est-à-dire la déclaration par un professionnel de santé de la survenue d'un événement indésirable (EI) dont l'origine suspectée est médicamenteuse. Des travaux méthodologiques récents visent à proposer des méthodes permettant de prendre en compte simultanément tous les médicaments potentiellement associés à un EI donné, afin de prévenir certains biais liés à la co-prescription médicamenteuse, notamment des biais de confusion [6,7]. Ces méthodes sont appliquées directement aux données individuelles (et non plus aux données agrégées). Elles font appel à des modèles de régression logistique multiple pénalisée lasso dans la mesure où, pour chaque événement indésirable, le nombre de covariables (les médicaments) est très important. Il s'agit bien ici de développer des outils performants de sélection de variables dans la mesure où l'objectif est d'identifier les médicaments statistiquement associés à l'EI étudié. Le premier travail proposant l'utilisation du lasso en pharmacovigilance fixait arbitrairement la valeur du paramètre de régularisation à une valeur identique pour l'ensemble des EI [6]. L'approche « class-imbalanced subsampling lasso » [7], développée au sein de l'équipe d'accueil, proposait de combiner le lasso avec une stratégie de ré-échantillonnage afin de stabiliser les résultats et de prendre en compte le très grand déséquilibre observé de la variable à expliquer (peu de Y=1 par rapport au nombre de Y=0). Néanmoins le choix du seuil de détection restait empirique puisqu'il s'appuyait sur les résultats d'une étude de simulation. L'objectif général de ce travail est de développer, dans le contexte de la régression pénalisée et plus particulièrement pour le lasso, une stratégie de sélection de variables reposant sur des critères statistiques. Cette stratégie sera développée, dans un premier temps, dans le cas du modèle linéaire. Dans un second temps, il s'agira de l'adapter au contexte des données de pharmacovigilance caractérisées par leur nature binaire (que ce soit pour les expositions médicamenteuses ou pour les événements indésirables), creuse ainsi que par leur grande dimension. Enfin, d'autres pénalités seront considérées.

  • Titre traduit

    Variable selection and statistical inference with penalized regressions for high dimensional data: application to spontaneous reports in pharmacovigilance


  • Résumé

    In recent years, penalized regression and lasso in particular have proven to be powerful and fast tools for the analysis of large data with applications in a large number of biomedical fields: genomics, imaging, pharmacovigilance, etc. These approaches from the field of statistical learning were initially proposed for predictive purposes. In the case of the lasso, the objective was then to identify models with good predictive performance while allowing interpretability of the model by promoting its parsimony. Nevertheless, their use has now been extended to applications interested by variable selection or statistical inference. In this context, the main objective becomes to identify the variables significantly associated with the response variable. Several theoretical approaches have been proposed in this context, including screen and clean approaches, which use part of the observations to identify using penalized regression methods a loose subset of potentially interesting variables and the second part of the observations to conduct the inference step [2-4]. In addition, Lockhart et al [5] developed a statistical test (covTest) as part of the lasso regression whose performance on real data has not been evaluated and which is based on asymptotic results when the number of observations tends towards infinity. The scope of this thesis project is the detection of signals in pharmacovigilance. The objective of pharmacovigilance is to detect adverse reactions to marketed drugs as early as possible. It is most often based on the use of spontaneous reports, i.e. the reporting by a health professional of the occurrence of an adverse event (AE) whose suspected origin is drug-related. Recent methodological work aims to propose methods for simultaneously taking into account all drugs potentially associated with a given AE, in order to prevent certain biases related to co-prescribing, in particular confounding biases[6,7]. These methods are applied directly to individual data (and no longer to aggregate data). They use lasso penalized multiple logistic regression models since, for each adverse event, the number of covariates (drugs) is very large. The aim here is to develop efficient variable selection tools as the objective is to identify the drugs statistically associated with the AE studied. The first study proposing the use of lasso in pharmacovigilance arbitrarily set the value of the regulation parameter at an identical value for all Aes [6]. The 'class-imbalanced subsampling lasso'[7] approach, developed within the host team, proposed to combine the lasso with a resampling strategy in order to stabilize the results and to take into account the very large observed imbalance of the variable to be explained (little Y=1 compared to the number of Y=0). Nevertheless, the choice of the detection limit remained empirical since it was based on the results of a simulation study. The general objective of this work is to develop, in the context of penalized regression and more particularly for lasso, a strategy for selecting variables based on statistical criteria. This strategy will first be developed in the case of the linear model. In a second step, it will be necessary to adapt it to the context of pharmacovigilance data characterized by their binary nature (whether for drug exposures or adverse events), their sparsity nature and their large size. Finally, other penalties will be considered.