Intégration de données multi-omiques pour la modélisation de l'impact de l'hétérogénéité inter-tumorale dans la survie de patients atteints de cancer

par Sarah-laure Rincourt

Projet de thèse en Santé publique - biostatistiques

Sous la direction de Stefan Michiels et de Damien Drubay.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Santé Publique (Le Kremlin-Bicêtre, Val-de-Marne ; 2015-...) , en partenariat avec Centre de recherche en Epidemiologie et Santé des Populations (laboratoire) , Oncostat (Méthodologie et épidémiologie clinique en oncologie moléculaire) (equipe de recherche) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 30-09-2018 .


  • Résumé

    La médecine de précision vise à sélectionner, en fonction d'un biomarqueur, la sous-population susceptible de bénéficier du traitement. Le coût décroissant de l'acquisition de données génomiques et la démocratisation de l'analyse d'autres acteurs « omiques » (épigénomique, métabolomique, protéomique, radioomique,…) ont nourri l'espoir de développer une médecine de plus en plus personnalisée. Plusieurs dizaines de milliers de biomarqueurs ont été développés, mais très peu ont été validés soulevant la question du risque de faux positifs. Leur identification est d'autant plus difficile de par l'existence d'interactions entre ces différents acteurs, résultant des différentes voies métaboliques dans lesquels ils sont impliqués. L'absence de prise en compte de ces interactions peut conduire à l'identification de faux positifs (facteurs de confusion), à la présence de faux négatifs et à une vision restreinte des mécanismes impliqués dans le développement et la résistance au traitement de la tumeur. Le développement de nouvelles approches innovantes prenant en compte ces interactions et la nature hétérogène des différentes données omiques est en plein essor. Elles sont cependant le plus souvent limitées à un seul type de données omiques et peu prennent en compte les facteurs cliniques (ex : survie des patients). L'objectif de ce travail de thèse sera de proposer une approche pour l'identification de structures de corrélation latentes de différents biomarqueurs représentant de potentielles voies biologiques. Le modèle qui sera développé, basé sur l'analyse de caractéristiques latentes, sera défini par bloc afin de respecter la nature hétérogène des différentes données omiques. L'approche bayésienne non-paramétrique sera privilégiée pour faire face à la complexité de l'inférence de ce type de modèle. La modélisation supervisée de ces structures permettra d'identifier l'hétérogénéité des mécanismes biologiques influençant la survie des patients, et ainsi identifier de potentielles nouvelles cibles thérapeutiques et d'évaluer leur interaction avec un traitement à partir de données d'essai clinique randomisé.

  • Titre traduit

    Multi-omics integration to model the impact of inter-tumoral heterogeneity on the survival of patients with cancer


  • Résumé

    Precision medicine aims to select, according to a biomarker, a sub-group of the population likely to respond to a specific treatment. Decreasing cost of genomic data collection and the generalization of the other omic data technologies (epigenomic, metabolomic, proteomic, radioomic,...) gave the opportunity to develop a personalized medicine. Several thousands of biomarkers were developed, but only few were validated, suggesting the presence of a high proportion of false positive results. The difficulty of their detection is increased by the interactions between these different elements resulting of the complexity of the biological pathways they belong, potentially different across the individuals (inter-tumoral heterogeneity). Ignoring these interactions may lead to false positive detection (confounding factor), the presence of false negatives and a restricted vision of the mechanisms of growth and drug resistance of the tumor. There is growing interest of the interactions between the different omic elements to develop innovative therapies. They are however limited to one type of omic data (mainly gene expression) and none consider clinical factors (e.g. patient survival). The aim of this work is to develop new methods for the identification of latent correlation structures between different biomarkers of different types (multi-omic data), representing potential biological pathways. The model which will be developed during this work will be based on the latent feature model. This model will be defined by block in order to respect the heterogeneous nature of the different omics data. The nonparametric Bayesian approach will be favored to deal with the complexity of the inference of this type of model. The supervised modeling of these structures will allow to identify the heterogeneity of the underlying biological mechanisms impacting patient survival and therefore, identify new potential target for new drug and assess their interaction with the treatment in the context of a clinical trial.