Identification de sous-groupes à l'aide de biomarqueurs de grande dimension dans les essais randomisés

par Shaima Belhechmi

Projet de thèse en Santé publique - biostatistiques

Sous la direction de Stefan Michiels et de Federico Rotolo.

Thèses en préparation à Paris Saclay , dans le cadre de Santé Publique , en partenariat avec Centre de recherche en Epidemiologie et Santé des Populations (laboratoire) , Oncostat (Méthodologie et épidémiologie clinique en oncologie moléculaire) (equipe de recherche) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 30-09-2017 .


  • Résumé

    La médecine stratifiée ou de précision correspond à une approche thérapeutique dont l'objectif est de sélectionner les patients auxquels administrer un traitement en fonction d'un marqueur, afin de ne traiter que la sous-population susceptible de recevoir un bénéfice du traitement. Plus de 150 000 articles documentant plusieurs dizaines de milliers de biomarqueurs ont déjà été répertoriés jusqu'en 2011. Cependant, moins d'une centaine ont été validés dans la pratique clinique [4]. La simplicité et le coût relativement contenu de l'acquisition de données génomiques nous expose aujourd'hui à un risque de faux positifs très important avec des forts impacts scientifiques potentiels [6]. En oncologie, le critère de jugement est souvent un critère de type survie et le modèle de Cox est souvent utilisé pour évaluer l'efficacité d'un nouveau traitement dans les essais de phase III. La pénalisation lasso [8, 9] est couramment utilisée pour détecter les biomarqueurs de façon efficace dans le cadre de données de grande dimension, mais cette méthode est connue pour sélectionner un nombre élevé de faux positifs [10, 11]. Dans le cadre de la recherche d'interactions traitement–biomarqueurs, la puissance des méthodes de sélection est encore plus basse. Les contraintes méthodologiques sont encore plus strictes si l'on veut forcer dans le modèle l'effet propre d'un biomarqueur quand son interaction avec le traitement est incluse. Notre équipe a récemment démontré que l'utilisation de la méthode lasso adaptatif [14, 15] était la plus performante en termes de sélection et de prédiction. Le lasso groupé avait tendance à sélectionner un nombre important de fausses interactions pour des biomarqueurs ayant un effet pronostique. Bien et al [16] ont proposé une pénalisation lasso groupé pour des interactions biomarqueur-biomarqueur dans un modèle linéaire, tout en imposant explicitement une hiérarchie entre interactions et effets propres. L'objectif de la première partie de la thèse sera d'étendre cette méthode au contexte des interactions biomarqueur-traitement, éventuellement avec une composante adaptative. Dans une précédente comparaison de méthodes [13], nous avons utilisé la différence de statistique C [17] entre les deux bras comme mesure de la force de l'interaction entre les biomarqueurs et le traitement. Cette mesure sera utilisée dans la deuxième partie de la thèse pour tester la présence d'un signal global entre les biomarqueurs et le traitement. D'autres tests globaux d'interaction ont déjà été explorés dans le contexte de données à petite dimension [18] et de grande dimension [19, 20]. La plupart des méthodes de sélection de biomarqueurs se focalisent sur des données homogènes en termes de nature, de technique de mesure, et sans aucune information a priori concernant leur rôle. Pourtant, le problème d'intégrer des données génomiques de grandes dimensions de différentes natures est bien réel et les méthodes statistiques actuelles ne permettent pas d'incorporer les connaissances biologiques a priori, comme l'implication des gènes dans les voies de signalisation moléculaire connues. La troisième partie de la thèse se focalisera sur des méthodes de type lasso adaptatif pour le développement de modèles pronostiques/prédictifs à partir de sources différentes de données de grande dimension.

  • Titre traduit

    Subgroup identification using high-dimensional biomarkers in randomized clinical trials


  • Résumé

    Stratified medicine or precision medicine is a therapeutic approach aimed at selecting the patients to be administered a given therapy, based on a biomarker. The goal is to treat only the subpopulation which is likely to benefit from it. More than 150,000 papers presenting tens of thousands of biomarkers have been found in 2011. Nevertheless, less than a hundred were validated for clinical practice [4]. The simplicity and the relatively low cost needed to obtain genomic data provide us with a high risk of false positives, with potentially a huge impact on scientific research and clinical practice [6]. The main outcome in oncology is often a survival type one and the Cox model is often used to evaluate the efficacy of new treatments in phase III clinical trials. The lasso penalty [8, 9] is currently used to select the biomarkers efficiently in a high dimensional setting, but it is known to select a high number of false positives [10, 11]. The power of selection methods is further lowered when focusing on treatment–biomarker interactions. The methodology constraints are even stricter if the main effect of a biomarker is required to be included in the model whenever its interaction with the treatment is included, too. Our team recently found that the adaptive lasso was the method with the best selection and prediction performances [14, 15]. The group lasso usually selected several interactions for biomarkers which had only a prognostic role. Bien et al [16] have recently proposed a group lasso penalty for biomarker– biomarker interactions in the linear model, within which a hierarchy constraint was explicitly forced. The objective of the first part of the PhD project will be to extend this method to treatment–biomarker interactions, possibly with an additional adaptive component. In a previous comparison of selection methods [13], we used the between-arms difference of C-statistics [17] to quantify the strength of the interaction between the selected biomarkers and the treatment. This measure will be employed in the second part of the PhD project to test whether the whole set of biomarkers available yield any predictive signal of the treatment effect. Other interaction tests have been studied in a low-dimensional context [18] and the high-dimensional one [19, 20]. Most of the methods employed to select biomarkers focus on data which are homogeneous in terms of their nature and acquisition technique, and without any a priori knowledge of their biological role. Nevertheless, including high-dimensional genomic data from different sources is a real problem in applications and the currently used statistical methods does not allow including the a priori biological knowledge, such as the involvement of genes in well-known molecular pathways. The third part of the PhD project will focus on adaptive lasso methods to develop prognostic and predictive model from different sources of high-dimensional data.