Etude des délais de survenue des effets indésirables médicamenteux à partir des cas notifiés en pharmacovigilance : problème de l'estimation d'une distribution en présence de données tronquées à droite

par Fanny Leroy

Thèse de doctorat en Santé Publique

Sous la direction de Jean-Yves Dauxois et de Jean-Yves Dauxois.

Soutenue le 18-03-2014

à Paris 11 , dans le cadre de École doctorale Santé publique (Paris ; 2000-2015) , en partenariat avec Centre de recherche en épidémiologie et santé des populations (Villejuif, Val-de-Marne ; 2010-....) (laboratoire) et de Centre de recherche en épidémiologie et santé des populations (laboratoire) .


  • Résumé

    Ce travail de thèse porte sur l'estimation paramétrique du maximum de vraisemblance pour des données de survie tronquées à droite, lorsque les délais de troncature sont considérés déterministes. Il a été motivé par le problème de la modélisation des délais de survenue des effets indésirables médicamenteux à partir des bases de données de pharmacovigilance, constituées des cas notifiés. Les distributions exponentielle, de Weibull et log-logistique ont été explorées.Parfois le caractère tronqué à droite des données est ignoré et un estimateur naïf est utilisé à la place de l'estimateur pertinent. Une première étude de simulations a montré que, bien que ces deux estimateurs - naïf et basé sur la troncature à droite - puissent être positivement biaisés, le biais de l'estimateur basé sur la troncature est bien moindre que celui de l'estimateur naïf et il en va de même pour l'erreur quadratique moyenne. De plus, le biais et l'erreur quadratique moyenne de l'estimateur basé sur la troncature à droite diminuent nettement avec l'augmentation de la taille d'échantillon, ce qui n'est pas le cas de l'estimateur naïf. Les propriétés asymptotiques de l'estimateur paramétrique du maximum de vraisemblance ont été étudiées. Sous certaines conditions, suffisantes, cet estimateur est consistant et asymptotiquement normal. La matrice de covariance asymptotique a été détaillée. Quand le délai de survenue est modélisé par la loi exponentielle, une condition d'existence de l'estimation du maximum de vraisemblance, assurant ces conditions suffisantes, a été obtenue. Pour les deux autres lois, une condition d'existence de l'estimation du maximum de vraisemblance a été conjecturée.A partir des propriétés asymptotiques de cet estimateur paramétrique, les intervalles de confiance de type Wald et de la vraisemblance profilée ont été calculés. Une seconde étude de simulations a montré que la couverture des intervalles de confiance de type Wald pouvait être bien moindre que le niveau attendu en raison du biais de l'estimateur du paramètre de la distribution, d'un écart à la normalité et d'un biais de l'estimateur de la variance asymptotique. Dans ces cas-là, la couverture des intervalles de la vraisemblance profilée est meilleure.Quelques procédures d'adéquation adaptées aux données tronquées à droite ont été présentées. On distingue des procédures graphiques et des tests d'adéquation. Ces procédures permettent de vérifier l'adéquation des données aux différents modèles envisagés.Enfin, un jeu de données réelles constitué de 64 cas de lymphomes consécutifs à un traitement anti TNF-α issus de la base de pharmacovigilance française a été analysé, illustrant ainsi l'intérêt des méthodes développées. Bien que ces travaux aient été menés dans le cadre de la pharmacovigilance, les développements théoriques et les résultats des simulations peuvent être utilisés pour toute analyse rétrospective réalisée à partir d'un registre de cas, où les données sur un délai de survenue sont aussi tronquées à droite.

  • Titre traduit

    Time to Onset of Adverse Drug Reactions : Spontaneously Reported Cases Based Analysis and Distribution Estimation From Right-Truncated Data


  • Résumé

    This work investigates the parametric maximum likelihood estimation for right-truncated survival data when the truncation times are considered deterministic. It was motivated by the modeling problem of the adverse drug reactions time-to-onset from spontaneous reporting databases. The families of the exponential, Weibull and log-logistic distributions were explored.Sometimes, right-truncation features of spontaneous reports are not taken into account and a naive estimator is used instead of the truncation-based estimator. Even if the naive and truncation-based estimators may be positively biased, a first simulation study showed that the bias of the truncation-based estimator is always smaller than the naive one and this is also true for the mean squared error. Furthermore, when the sample size increases, the bias and the mean squared error are almost constant for the naive estimator while they decrease clearly for the truncation-based estimator.Asymptotic properties of the truncation-based estimator were studied. Under sufficient conditions, this parametric truncation-based estimator is consistent and asymptotically normally distributed. The covariance matrix was detailed. When the time-to-onset is exponentially distributed, these sufficient conditions are checked as soon as a condition for the maximum likelihood estimation existence is satisfied. When the time-to-onset is Weibull or log-logistic distributed, a condition for the maximum likelihood estimation existence was conjectured.The asymptotic distribution of the maximum likelihood estimator makes it possible to derive Wald-type and profile likelihood confidence intervals for the distribution parameters. A second simulation study showed that the estimated coverage probability of the Wald-type confidence intervals could be far from the expected level because of a bias of the parametric maximum likelihood estimator, a gap from the gaussian distribution and a bias of the asymptotic variance estimator. In these cases, the profile likelihood confidence intervals perform better.Some goodness-of-fit procedures adapted to right-truncated data are presented. Graphical procedures and goodness-of-fit tests may be distinguished. These procedures make it possible to check the fit of different parametric families to the data.Illustrating the developed methods, a real dataset of 64 cases of lymphoma, that occurred after anti TNF-α treatment and that were reported to the French pharmacovigilance, was finally analyzed. Whilst an application to pharmacovigilance was led, the theoretical developments and the results of the simulation study may be used for any retrospective analysis from case registries where data are right-truncated.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris-Saclay. DiBISO. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.