Détection automatisée de signaux en pharmacovigilance : exploitation conjointe de données de notifications spontanées et médico-administratives

par Emeline Courtois

Projet de thèse en Santé publique - biostatistiques

Sous la direction de Pascale Tubert-bitter et de Ismaïl Ahmed.

Thèses en préparation à Paris Saclay , dans le cadre de Santé Publique , en partenariat avec B2PHI - Biostatistique, Biomathématique, Pharmacoépidémiologie et Maladies Infectieuses (laboratoire) et de université de Versailles-Saint-Quentin-en-Yvelines (établissement de préparation de la thèse) depuis le 01-10-2016 .


  • Résumé

    La pharmacovigilance a pour objectif de détecter le plus précocement les effets indésirables de médicaments commercialisés. Elle repose le plus souvent sur l'exploitation de notifications spontanées, déclarations de la survenue d'un événement indésirable dont l'origine suspectée est médicamenteuse. A l'échelle nationale ou internationale, ces notifications spontanées représentent de grands ensembles de données. Il a donc été proposé depuis une quinzaine d'années un certain nombre de méthodes statistiques visant à détecter des associations statistiques suspectes entre médicaments et effets indésirables. On parle de détection de signaux, les signaux statistiques générés devant être évalués. Récemment, un intérêt croissant s'est porté sur l'exploitation d'autres sources de données pour la génération de signaux, avec aux Etats Unis, un projet de très grande envergure focalisé sur l'exploitation de grandes bases de données de remboursement. En France, le SNIIRAM (Système National d'Information Inter-régimes de l'Assurance Maladie) contient l'ensemble des remboursements de soins pour la quasi totalité de la population française, ces données étant chaînées au PMSI (Programme de Médicalisation des Systèmes d'Information), c'est-à-dire aux séjours hospitaliers. Il a également été créé à partir du SNIIRAM l'Echantillon Généraliste des Bénéficiaires (EGB), échantillon au 1/97ème.La difficulté dans l'exploitation de ces grandes bases de données médico-administratives réside dans le fait qu'elles n'ont pas été conçues pour répondre à des questions de santé. Par ailleurs les effets indésirables pouvant être étudiés sont nécessairement graves puisque requérant une hospitalisation. Enfin, malgré une taille très importante (environ 700000 personnes), l'exploitation de l'EGB n'est réalisable que pour des effets indésirables relativement fréquents. L'objectif général de ce projet de thèse est de proposer de nouveaux outils de détection automatisée de signaux en pharmacovigilance, tirant partie des complémentarités des sources d'information que sont les notifications spontanées et l'échantillon EGB. Que ce soit pour les notifications spontanées, ou pour les bases médico-administratives, les travaux récents visent à proposer des méthodes permettant de prendre en compte simultanément tous les médicaments potentiellement associés à un effet indésirable donné, afin de corriger certains biais de confusion. Pour leur efficacité computationnelle, les méthodes explorées sont basées sur des régressions multivariées pénalisées de type Lasso (Tibshirani, 1996): Caster et al, 2010 pour les bases de pharmacovigilance, Simpson et al, 2013 pour les bases médico-administratives. Une difficulté majeure concerne l'optimisation de la pénalité qui détermine directement dans ces approches le nombre de signaux générés (Ahmed et al. 2016). Enfin, si certains auteurs ont considéré les signaux détectés dans différentes bases de données, les procédures proposées pour la détection de signal consistent simplement soit à renforcer la règle de décision en exigeant que le signal soit généré dans chacune des bases (Harpaz et al 2013), soit à combiner des degrés de signification (Li et al, 2015). Deux axes de développement seront envisagés : d'une part, l'utilisation de l'échantillon EGB afin d'améliorer la constitution d'un groupe contrôle et d'autre part l'intégration de l'information issue de ces données dans les modèles d'analyse. Dans un premier temps, des approches appariées univariées seront considérées, qui devront aussi tenir compte du nombre important de tests réalisés par l'utilisation de critères statistiques tels que le False Discovery Rate (Benjamini & Hochberg 1995). Ensuite, seront explorées les méthodes multivariées autour des régressions pénalisées (Lasso et extensions) avec appariement, puis avec incorporation d'information en explorant plus largement les méthodes issues de l'apprentissage statistique. Les méthodes proposées seront implémentées en R. Les contraintes numériques concernent la grande dimension des données et la limitation des temps de calcul pour que la procédure proposée puisse tourner sur un large ensemble d'effets indésirables. L'évaluation de cette nouvelle méthodologie de détection sera conduite sur la base d'ensembles existants de signaux de référence établis par expertise humaine (Ahmed et al. 2012; Ryan et al. 2013). Les contributions attendues des travaux de thèse sont méthodologiques, sur les modèles d'analyse en grande dimension pour la sélection de variables en présence de sources de données multiples et complexes, y compris médico-administratives, et à terme en pharmacovigilance en participant à répondre, par une détection de signaux améliorée, à ses objectifs majeurs que sont l'identification et la prévention des effets indésirables médicamenteux

  • Titre traduit

    Automated signal detection in pharmacovigilance from large spontaneous reporting and medico-administrative databases


  • Résumé

    The pharmacovigilance aims to detect prematurely the unwanted effects of marketed medicine. It rests most of the time on the exploitation of spontaneous notifications, declarations of the arisen of an unwanted event which one suspects a medical origin. On a national or international scale, these spontaneous notifications represent of large sets of data. Thus it was proposed since about fifteen years a number of statistical methods to detect suspect statistical associations between medicine and unwanted effects. We talk about detection of signals, the statistical signals generated that must be estimated. Recently, an increasing interest concerned to other datas's sources exploitation in order to generate signals, with in the United States, a big project focused on the utilization of big databases of repayment. In France, the SNIIRAM (Système National d'Information Inter-régimes de l'Assurance Maladie)contains all the care's repayments for almost all of the French population, these data are chained with the PMSI Programme de Médicalisation des Systèmes d'Information), that is in the hospital stays. The EGB (Echantillon Généraliste des Bénéficiaires) was also created from the SNIIRAM, sample in the 1/97th. The difficulty fot the exploitation of these medical and administrative databases is that they were not designed to answer to health's questions. Besides, the unwanted effects which can be studied are inevitably grave because requiring a hospitalization. Finally, in spite of a very important size (approximately 700000 people), the exploitation of the EGB is practicable only for relatively frequent unwanted effects. The main goal of this thesis project is to propose new tools of automated signals 's detection in pharmacovigilance, firing left the complementarities of the information sources that are the spontaneous notifications and the EGB. For the spontaneous notifications, or for the medical and administrative bases , recent works aim at proposing methods allowing to take into account simultaneously all the medicine potentially associated to a given unwanted effect, to correct certain biases of confusion. For their computational efficiency, explored methods are based on multivariate regressions penalized of type Lasso (Tibshirani 1996, Caster and al 2010 Simpson and al 2013). A major difficulty concerns the optimization of the penalty which determines directly in these approaches the number of generated signals (Ahmed and al. 2016). Finally, if certain authors considered the signals detected in various databases, proposed procedures for the signal 's detection consist simply either in strengthening the decision rule by requiring that the signal is generated in each of the bases (Harpaz and al 2013), or to combine(organize) degrees of meaning (Li and al, on 2015). Two development axes will be envisaged: on one hand, the use of the sample EGB to improve the constitution of a control group and on the other hand the integration of the information stemming from these data in the models of analysis. At first, mated univariated approaches will be considered, which will also have to take into account the significant number of tests realized by the use of statistical criteria such as False Discovery Rate (Benjamini and Hochberg 1995). Then, we will explore multivariate methods like penalized regressions (Lasso and extensions) with matching, then with incorporation of information by exploring more widely the methods stemming from the statistical learning. The proposed methods will be implemented with R. The digital constraints concern the big dimension of the data and the limitation of the calculation time so that the proposed procedure can run on a wide set of unwanted effects. The evaluation of this new methodology of detection will be led on the basis of existing sets of reference signals established by human expertise (Ahmed and al. 2012; Ryan and al. 2013). The long-awaited contributions of this thesis work are methodological, on big dimension models and variables selections when datas sources are complex and multiple, and forward in pharmacovigilance by participating to answer, by an improved detection of signals, to its major objectives that are the identification and the prevention of the medicinal unwanted effects.