Modélisation de réseaux biologiques appliquée à l'analyse de survie des patients atteints de cancer

par Jonas BÉAl

Projet de thèse en Génomique

Sous la direction de Emmanuel Barillot et de Aurélien Latouche.

Thèses en préparation à Paris Sciences et Lettres , dans le cadre de Complexité du vivant , en partenariat avec Cancer et Génome: Bioinformatique, Biostatistiques et Epidémiologie d'un système complexe (laboratoire) et de Institut Curie (établissement de préparation de la thèse) depuis le 11-09-2017 .


  • Résumé

    Le projet consiste à coupler deux approches que sont la modélisation de réseaux appliquée au cancer et l'analyse de survie de patients atteints de cette même maladie. Les modèles de réseaux biologiques (ou modèles de biologie des systèmes) sont basés sur le fait que de nombreux processus biologiques, impliqués dans des maladies telles que le cancer, sont des processus multi-acteurs. Leur comportement émerge de l'interaction de très nombreuses entités chimiques et biologiques, à travers des voies de signalisations cellulaires par exemple. Il est donc nécessaire de considérer les nombreuses espèces participant à ces voies ainsi que leurs interactions pour comprendre la dynamique générale et l'évolution de l'oncogenèse. Le formalisme logique (ou Booléen) permet de modéliser des réseaux comprenant de nombreuses variables en limitant le nombre de paramètres et en permettant l'intégration et l'analyse de données variées (mutations, transcriptomique, protéomique). Ces modèles facilitent la formalisation des connaissances liées au système étudié et fournissent un outil qui permet, entre autres, de prédire l'effet de certains médicaments. Afin d'interroger l'apport de ces modèles (en particulier des modèles logiques) et leur valeur prédictive, l'objectif est de les évaluer à l'aune de données cliniques, comme la récurrence de la maladie ou la survie des patients. L'utilisation de ce type de données requiert un formalisme qui prenne en compte leur spécificité (données censurées en temps par exemple). Ce formalisme s'inscrit dans le cadre des méthodes d'analyse de survie. Ces méthodes utilisent classiquement des variables explicatives de type clinique auquel nous chercherons donc à adjoindre des variables issues des modèles de réseaux, utilisés alors comme des sortes d'intégrateurs de données moléculaires. L'apport des modèles devra également être comparé à celui de gènes individuels ou même de combinaison de gènes afin d'évaluer l'apport de la modélisation en tant que telle.

  • Titre traduit

    Network modelling for cancer survival prediction


  • Résumé

    Predictive models of survival have always been a major issue of concern in medicine and especially in cancer research. Indeed, they are useful on more than one account. On the one hand, they are of course important prognostic tools; on the other hand, they enable to assess the respective influence of input variables, paving the way for the unravelling of mechanisms of cancer pathogenesis. One of the most important breakthrough results from high-throughput sequencing technologies. Large-scale genomic, epigenomic, transcriptomic and proteomic data opened up new horizons for prediction models, in particular to explain heterogeneity across patients and differences in therapeutic response. Various molecular signatures have ensued from this integration of high-dimensional datasets in survival analysis (Eschrich et al., 2005). Combination of conventional clinical factors and molecular data improved the ability of models to predict recurrence, metastasis or other cancer hallmarks. Nevertheless, classifying patients in few molecular subtypes is not enough and there is still a long way to go towards precision and personalized medicine. Adapting drugs and treatments requires a more precise knowledge of patient specific aberrations. This observation led some studies to focus on the particular nature of all those molecular data: all these genes, RNAs and proteins are not independent entities since they interact with each other within complex networks. Cancer is not only a genetic disease but also a pathway-based disease. There are many oncogenic pathways (Jones et al., 2008), themselves grouped in several cancer hallmarks (Hanahan and Weinberg, 2011). In order to incorporate these networks, pathway-based survival analyses have been proposed (Chen et al., 2010) (Eng et al., 2013) (Huang et al., 2014) (Zhang et al., 2016). The common idea is to use prior biological knowledge to reduce molecular data dimension, instead of selecting features in a naive way. Then, resulting pathway scores are added with clinical factors within survival prediction models. This PhD project aims to go further into this combination between conventional models of survival prediction based on clinical factors and integration of molecular data through modelling of relevant oncogenic pathways. To achieve the primary, accurate quantification of pathways activity, we will rely on the framework developed within the team (Martignetti et al., 2016). Then, we will take into account networks and interactions between entities instead of pathways activity only. It will require the definition and design of several models summarizing information (knowledge) about how the pathways are deregulated for the cancer under study. The mathematical formalism best suited for describing and integrating the diversity of patient data (transcriptomics, proteomics, copy number variations, mutation data, etc.) is the logical formalism for its parsimony and the possibility to account for a high number of variables. The team have already developed such approaches for the description of key oncogenic pathways or cancer hallmarks, like metastasis (Cohen et al., 2015). To strive towards personalized prediction we will further incorporate clinical patient data, which is the core of the current internship of the candidate. A major challenge will be to define the relevant pathways to model, together with the proper outputs of these logical models and relevant methods to quantify their contribution to the prediction of survival. Precise methods to couple network model outputs and survival analysis will have to be defined and optimized. This linkage to survival analysis will be performed and tested first with simpler gene- signature approaches instead of network approaches. Thus, the candidate will have to master survival analysis techniques and learn to work with clinical data, especially censored data.