Intégration de données omiques pour la modélisation de l'impact de l'hétérogénéité inter-tumorale dans la survie de patients atteints de cancer

par Sarah-laure Rincourt

Projet de thèse en Santé publique - biostatistiques

Sous la direction de Stefan Michiels.

Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale Santé Publique , en partenariat avec Centre de Recherche en épidémiologie et Santé des populations (laboratoire) , Oncostat (Méthodologie et épidémiologie clinique en oncologie moléculaire) (equipe de recherche) et de Faculté de médecine (référent) depuis le 30-09-2018 .


  • Résumé

    Pour des maladies complexes telles que le cancer, la médecine de précision vise à allouer à chaque patient le traitement qui lui apporterait le meilleur bénéfice, en fonction de son profile moléculaire. Le coût décroissant de l'acquisition de données génomiques et la démocratisation de l'analyse d'autres acteurs « omiques » (épigénomique, métabolomique, protéomique, radiomique,…) ont nourri l'espoir de développer une médecine de plus en plus personnalisée. Plusieurs dizaines de milliers de biomarqueurs ont été identifiés, mais très peu ont été validés soulevant la question du risque de faux positifs. Leur identification précise est en effet difficile de par leur effet souvent faible, et en interaction avec la présence et l'expression d'autres acteurs biologiques des différentes voies métaboliques dans lesquels ils sont impliqués. L'absence de prise en compte de ces interactions peut conduire à l'identification de faux positifs (facteurs de confusion), à la présence de faux négatifs et à une vision restreinte des mécanismes impliqués dans le développement et la résistance au traitement de la tumeur. Le développement de nouvelles approches innovantes prenant en compte ces interactions et la nature hétérogène des différentes données omiques est en plein essor. L'objectif de ce travail de thèse sera de proposer une approche pour l'identification de structures de corrélation latentes de différents biomarqueurs représentant de potentielles voies biologiques dans le cadre de données de survie. Le modèle qui sera développé, sera basé sur l'analyse de caractéristiques latentes. L'approche bayésienne non-paramétrique sera privilégiée pour faire face à l'inférence du nombre de caractéristiques latentes, inconnu a priori. La modélisation jointe de ces structures et de la survie des patients permettra d'identifier l'hétérogénéité des mécanismes biologiques impliqués dans la progression de la maladie, et ainsi identifier de potentielles nouvelles cibles thérapeutiques et d'évaluer leur interaction avec un traitement à partir de données d'essai clinique randomisé.

  • Titre traduit

    Omics integration to model the impact of inter-tumoral heterogeneity on the survival of patients with cancer


  • Résumé

    For complex diseases such as cancer, precision medicine aims to allocate to each patient the treatment that would bring him the best benefit, according to his molecular profile. The decreasing cost of genomic data acquisition and the democratization of the analysis of other "omics" (epigenomics, metabolomics, proteomics, radiomics, etc.) have raised the expectations of developing an increasingly personalized medicine. Several tens of thousands of biomarkers have been identified, but very few have been validated, bringing up the question of the risk of false positives. Their precise identification is indeed difficult due to their often weak effect, and in interaction with the presence and expression of other biological actors of the different metabolic pathways in which they are involved. Failure to take these interactions into account can lead to the identification of false positives (confounding factors), the presence of false negatives and a limited view of the mechanisms involved in tumor development and resistance to treatment. The development of new innovative approaches taking into account these interactions and the heterogeneous nature of the different omics data is in full swing. The objective of this thesis will be to propose an approach for the identification of latent correlation structures of different biomarkers representing potential biological pathways in the context of survival data. The model to be proposed will be based on the analysis of latent features. The non-parametric Bayesian approach will be favored to deal with the inference of the number of latent features, unknown a priori. The joint modeling of these structures and patient survival will allow to identify the heterogeneity of biological mechanisms involved in disease progression, and thus to identify potential new therapeutic targets and to evaluate their interaction with a treatment from randomized clinical trial data.