Estimation de courbes ROC dépendantes du temps, ajustées en présence d'hétérogéneité

par Alessandra Meddis

Projet de thèse en Santé publique - biostatistiques

Sous la direction de Aurélien Latouche.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Santé Publique (Le Kremlin-Bicêtre, Val-de-Marne ; 2015-...) , en partenariat avec Cancer et Génome: Bioinformatique, Biostatistiques et Epidémiologie d'un système complexe (laboratoire) , Biostatistique clinique (equipe de recherche) et de Université de Versailles-Saint-Quentin-en-Yvelines (établissement de préparation de la thèse) depuis le 20-11-2017 .


  • Résumé

    Lors de l'analyse de la capacité pronostique d'un marqueur, la pratique courante est d'employer une méta analyse sur données individuelles (ou un essai multi-centrique) afin d'augmenter la taille d'échantillon et ainsi le niveau de preuve. Si lors de l'estimation de l'effet du marqueur , il est d'usage de prendre en compte la structure en grappe des données issues de chaque essai clinique ou de chaque centre; l'hétérogénéité est ignorée lors de l'estimation de la capacité de discrimination du marqueur vis à vis du critère de jugement censuré. La méthode de référence pour estimer la discrimination d'un marquer pronostique étant l'estimation d'une courbe ROC dépendant du temps puis son AUC pour avoir une estimation globale, il est important de pouvoir proposer une estimation prenant compte de hétérogénéité. Les travaux pionniers de Janes et Pepe (AJE, 2008) avaient illustrés l'impact de l'effet centre sur l'estimation d'un courbe ROC. Il est important de noter que James et Pepe ont considérés dans leur illustration 2 centres modélisés par une covariable binaire. Même si leur exemple illustre la nécessité de pouvoir ajuster l'estimation d'une courbe ROC sur des données catégorielles; leur exemple a surtout une portée didactique. Dans l'exemple fondateur de ce projet de thèse, nous disposerons de 16 centres repartis sur 21 essais clinique. Ce projet de thèse est motivé par l'étude internationale IMENEO (International MEta-analysis of breast cancer NEOadjuvant CTC studies) . Il s'agit à ce jour de la plus grande méta-analyse avec 2516 patientes réparties dans 16 centres. L'objectif de cette étude est d'étudier la capacité pronostique de la détection de CTC à différent instant sur la la survie globale et secondairement sur la rechute locorégional. L'objectif de ce travail de thèse est donc de développer des méthodes d'estimations de courbes ROC ajustées et dépendantes du temps, prenant en compte hétérogénéités (soit du marqueur considéré, soit du critère de jugements censurées). La décision d'ajuster sur un facteur explicatif sera guidé par l'évaluation de la quantité de confusion qui est nécessaire pour déterminer si un facteur spécifique doit ou non être ajusté statistiquement dans l'analyse

  • Titre traduit

    Estimating adjusted ROC curves from correlated censored data


  • Résumé

    The discovery of new biomarker is often promising to improve patient management. For some diseases such as cancer, it is helpful to measure reliable biomarkers to help clinicians with the prognostic of a patient. To be able to rely on a biomarker, clinicians want to know to which extend a biomarker can help predicting the outcome of a patient. For instance, clinicians are interested in knowing to which extend the measure of the count of circulating tumor cells can help predicting whether a patient with cancer will die within the next year (Bidard, 2015). The motivating exemple for this thesis arises from the International MEta-analysis of circulating tumor cell detection in early breast cancer patients treated by NEOadjuvant chemotherapy (IMENEO) (Bidard et al., 2016). The IMENEO data for 2156 patients from 21 studies and 16 centers were included in the meta-analysis. Data represented CTC counts for 1574 patients from before they began neoadjuvant chemotherapy and from 290 patients after chemotherapy, and 1200 patients from before surgery and 285 patients after surgery. Circulating tumor cells (CTCs) represent tumor cells deriving from the primary or secondary (i.e. metastases) tumor sites that can be identified and measured in the blood of patients. Technical advances in the early 2000's have rendered it easier to reproducibly and repeatedly sample this population of cells with a high degree of accuracy, and CTCs represent now an attractive biomarker(Bidard, 2015). The main objective of this meta-analysis is to evaluate the prognostic value of CTC detection at different time points on overall survival in early breast cancers treated by neoadjuvant therapy. One very popular (and useful) approach to start evaluating the potential of a new biomarker consist of estimating a ROC curve (Pepe, 2003). The ROC curve is a graphical plot that illus- trates the performance of a binary classifier system as its discrimination threshold is varied. The curve is created by plotting the true positive rate (TPR) against the false positive rate (FPR) at various threshold settings. Statistical methods to estimate ROC curves with many kind of data, including censored data, have already been introduced (Pepe, 2003; Blanche et al., 2013). Yet, methods to es- timate ROC curves from clustered censored data have so far not received a lot of attention. Recently, the c-index was extended to clustered data (White et al., 2015), but we will not fol- low this route notably because the c-Index suffers from known limitations with right censored data and it was recently proved that it is not a proper scoring rules to evaluate t-year pre- dicted risks (Blanche et al., 2016). In short, a model with the more accurate t-year prediction does not have the higher c-index. This lack of available tool is unfortunate since large multi-centric longitudinal studies and Individual Patient Data Meta-analyses about prognostic biomarkers exhibit such clustered structure.