Classification de patients atteints de cancer à partir des données publiques de séquençage et cliniques

par Rémy Jardillier

Projet de thèse en MBS - Modèles, méthodes et algorithmes en biologie, santé et environnement

Sous la direction de Laurent Guyon (edisce) et de Florent Chatelain.

Thèses en préparation à Grenoble Alpes , dans le cadre de École doctorale ingénierie pour la santé, la cognition, l'environnement (Grenoble) , en partenariat avec BCI - Biologie du Cancer et de l'Infection (laboratoire) depuis le 01-12-2017 .


  • Résumé

    La baisse des coûts du séquençage de ADN/ARNm a permis de mesurer à large échelle les profils moléculaires de nombreuses tumeurs. Ainsi, depuis seulement quelques années, des bases de données fournissent gratuitement le profil moléculaire de tumeurs et les données cliniques de suivi des patients associés sur plusieurs années (dont la survie du patient, la récidive éventuelle, etc.). Le nombre de patients ainsi caractérisés ne cesse d'augmenter. A titre d'exemple, la base de données américaine TCGA recueille plus de mille patients atteints de cancer du sein invasif et pour lequel à la fois les profils moléculaires et les données cliniques sont recueillis. Le nombre de patients caractérisés ayant drastiquement augmenté depuis les cinq dernières années, de nouvelles découvertes sont possibles à la fois en terme de biomarqueurs (diagnostiques et pronostiques) mais aussi de mécanisme en œuvre dans une sous-population de patients. Ces découvertes requièrent le développement de méthodes d'analyse de données en grande dimension adaptées à la prise en compte à la fois des caractéristiques cliniques (données censurées à droite) et des profils moléculaires (via le séquençage). L'objet principal de la thèse proposée consiste à proposer des méthodologies originales dans ce contexte.

  • Titre traduit

    Clustering of cancer patients using both gene sequencing data and clinical data together


  • Résumé

    Correlated to the fast decreasing of DNA/mRNA sequencing costs, there has been in the last years an increase of public available data for cancer. As an example, in the public American database TCGA, there are more than 1000 patients diagnose with invasive breast cancer for which both whole genome mRNA sequencing data are available for tumor tissues and also associated clinical data including survival. In the past, important genes were discovered in different laboratories, and further validated as prognostic gene markers in a validation cohort. Actually, both group of genes and patients are clustered separately through resemblance of their profile, and the prognostic values for each group of patients are inferred through Kaplan-Meier approach. Here we propose a data driven learning approach to take both sequencing and clinical data into account for the prediction of groups, and to validate the approach with another cohort. To develop the approach, we will start with kidney cancer data, for which large cohorts of patients are available and there is a urgent need of better prognostic markers.