Reconstruction de l'hétérogénéité intra-tumorale dans les cancers du sein triple négatifs

par Judith Abecassis

Projet de thèse en Bio-informatique

Sous la direction de Jean-Philippe Vert et de Fabien Reyal.

Thèses en préparation à Paris Sciences et Lettres , dans le cadre de SMI - Sciences des Métiers de l'Ingénieur , en partenariat avec Centre de Bio-informatique (laboratoire) et de École nationale supérieure des mines (Paris) (établissement de préparation de la thèse) depuis le 01-09-2016 .


  • Résumé

    Chez les femmes, le cancer du sein est le cancer le plus fréquemment observé et reste la première cause de décès par cancer. En 2012, on estime à 1.68 millions le nombre de nouveaux cas dans le monde, avec une incidence supérieure à 90 nouveaux cas pour 100 000 femmes par an en Europe Occidentale. Bien qu'en forte diminution depuis 1990, la mortalité reste importante : 552 000 décès ont été recensés par l'OMS en 2012. Le cancer du sein constitue donc un enjeu de santé publique majeur. Avec l'avènement de nouvelles techniques ces vingt dernières années, comme l'obtention de profils d'expression par puces et le séquençage à haut débit, il a été possible de mettre en évidence la grande hétérogénéité de cette pathologie et de définir trois grandes catégories : luminal, basal et HER2. Parmi les cancers de type basal, les cancers du sein triple négatifs (TNBC) sont définis par l'association de statuts d'expression du récepteur aux œstrogènes (ER) négatif, du récepteur à la progestérone (PR) négatif et d'HER2 négatif. Ce sous-groupe est caractérisé par une tumeur primaire agressive et un fort risque d'apparition précoce d'une maladie métastatique. L'utilisation de traitements néo-adjuvants, c'est-à-dire l'administration d'une chimiothérapie avant intervention chirurgicale permet de distinguer un sous-groupe de meilleur pronostic et d'adapter les stratégies thérapeutiques en conséquence. Aucun progrès dans la survie d'ampleur comparable à celui obtenu par l'utilisation de l'anticorps monoclonal trastuzumab dans le sous-groupe HER2 positif n'a été obtenu pour le cancer du sein triple négatif. Cela est peut-être en lien avec la forte diversité des cancers triple négatifs. Deux aspects importants de la mortalité liée aux cancers du sein triple négatifs sont la résistance à la chimiothérapie néo-adjuvante et l'apparition de métastases. Or ces deux phénomènes sont maintenant analysés et mieux compris en prenant en compte l'aspect évolutif de la population de cellules cancéreuses. En effet, il est maintenant accepté que certains cancers peuvent être constitués d'une mosaïque de populations résultant de phases d'expansion successives, liées à l'acquisition progressive de mutations oncogéniques. Celles-ci confèrent aux cellules porteuses un avantage sélectif, par exemple en favorisant leur prolifération, leur survie, leur caractère invasif ou leur échappement à la réponse immunitaire. Ces populations pourraient être sensibles ou résistantes à des traitements différents. Ainsi, il apparaît important de pouvoir établir le degré d'hétérogénéité d'une cohorte de tumeurs triple négatives, afin de pouvoir comprendre son importance pronostique dans ce sous-groupe, et pouvoir proposer des stratégies thérapeutiques adaptées. Les méthodes existantes pour établir l'hétérogénéité d'une tumeur reposent sur des analyses mathématiques et statistiques des données produites par séquençage à haut débit (séquençage complet de génomes ou d'exomes) d'échantillons globaux de tumeurs, comprenant plusieurs milliers de cellules. Cependant, des difficultés méthodologiques subsistent, liées au bruit de ces données, et à l'absence de technologies robustes et stables pour les analyser. Il existe à l'heure actuelle plus de vingt méthodes pour évaluer l'hétérogénéité intra-tumorale, publiées entre 2012 et 2016 ; cela illustre bien le manque de maturité technique du domaine, et le besoin d'une évaluation rigoureuse de ces méthodes. A notre connaissance, les méthodes existantes n'ont pas été décrites, comparées et évaluées de façon rigoureuse et systématique. Cela est très limitant dans l'établissement d'un pipeline robuste et consensuel dans la mesure de l'hétérogénéité. Une première partie de ce travail doctoral consistera donc à mettre en place ce pipeline, après avoir établi et mesuré la pertinence des différentes méthodes existantes. Pour cela la doctorante utilisera des données simulées et des jeux de données publics sur lesquels des analyses d'hétérogénéité ont été effectuées auparavant. Cela permettra une comparaison des différentes méthodes existantes entre elles sur des jeux de données de complexités différentes pour lesquels la vérité est connue, et sur des données réelles qui font référence dans le domaine. Ces jeux de données publics présentent une grande variété : différentes plateformes de séquençage, plusieurs profondeurs, en cellules uniques ou en échantillon tumoral global, nombre variable d'échantillons par patients. Cela devrait améliorer la pertinence de l'évaluation des méthodes, mais empêchera l'automatisation complète de la phase de test. Une seconde partie du travail doctoral consistera à appliquer ce pipeline préalablement construit à un grand nombre de patients et de développer un algorithme d'analyse statistique prédictive du pronostic de la maladie en fonction des nouvelles informations disponibles sur la tumeur, à savoir son degré d'hétérogénéité et le chemin évolutif de l'acquisition des mutations et variants structuraux, en plus des informations utilisées jusqu'à présent (profil mutationnel et transcriptome de la tumeur). Plus précisément, la doctorante bénéficie de l'accès à des bases de données publiques de séquençage de tumeurs, comme le TCGA et donc à plusieurs centaines de patients. De plus, le laboratoire de Fabien Reyal dispose d'une cohorte de seize patientes, avec deux échantillons disponibles en séquençage complet d'exome (profondeur 100X) et transcriptome (RNA Seq) de la tumeur avant et après thérapie néo-adjuvante. Il s'agit de la première analyse multi-omique de cette ampleur sur le cancer du sein triple négatif en pré et post-traitement. L'analyse de ces données pourra permettre de dégager une première tendance sur l'évolution de l'hétérogénéité et du pronostic au cours du traitement. Selon les résultats de cette dernière phase, la doctorante sera également amenée à conduire une analyse fonctionnelle plus poussée du rôle des mutations (ou associations de mutations) influençant fortement le pronostic, en s'appuyant sur les données fonctionnelles de transcriptome et sur les réseaux d'interactions biologiques connus afin de mieux décrire leur rôle dans l'évolution de la pathologie. L'aspect dynamique d'une telle étude, permis par l'élucidation de la clonalité conduira à établir de nouveaux gènes oncogéniques candidats importants dans les cancers triple négatifs. La validation de ces résultats sur d'autres jeux de données pourra aussi être envisagée.

  • Titre traduit

    Inference of intra-tumor heterogeneity in triple-negative breast cancer


  • Résumé

    Breast cancer is the most frequent cancer in women, and remains the leading cause of cancer death. In 2012, there were an estimated 1,680,000 new cases of female breast cancer over the world, with incidence greater than 90 new cases per 100,000 women per year in Western Europe. Although death rates have been falling since 1990, mortality remains high: WHO counted 552,000 deaths in 2012. Breast cancer is therefore important from a public health perspective. The introduction of new technologies, as microarray expression profiling and high-throughput sequencing, has unraveled the existence of distinct molecular subgroups, and three main cancer types have been defined: luminal, HER2-enriched and basal-like. Among basal-like tumors, triple-negative breast cancer (TNBC), defined by very low expression levels of estrogen receptor (ER), progesterone receptor (PR), and HER2, presents an aggressive primary tumor and high metastatic risk. Resorting to neoadjuvant therapy, that is a chemotherapy given before surgery, allows to identify a subgroup with better prognosis, and to adapt further therapeutic strategies. No survival increase of the magnitude of that achieved by monoclonal antibody trastuzumab in the HER2-enriched subgroup could be accomplished for TNBC. It might be due to the high diversity in TNBCs. There are two main causes of death by TNBC: chemotherapy resistance and metastases. But those two phenomena have been further studied and understood by accounting for the fact that a tumor is an evolving population. Indeed, it is now broadly acknowledged that some tumors exhibit multiple subpopulations arising from successive expansions, following the acquisition of mutations. Mutations can confer an advantage to cells, by enhancing proliferation, survival, ability to metastasize, or to escape the immune system. Those subpopulations might be sensitive or resistant to different treatments. Hence, it is important to be able to assess the level of heterogeneity of a cohort of triple negative tumors, to understand its importance in this subgroup, and to propose a relevant therapeutic strategy. Existing method to infer intra-tumor heterogeneity (ITH) rely on a mathematical and statistical analysis of data obtained by high-throughput sequencing (whole genome or exome sequencing) of bulk tumor samples, containing thousands of cells. However, there are still unresolved problems, related to a high amount of noise in the data, and to the absence of robust and stable technologies to analyze them. Over twenty methods to assess intra-tumor heterogeneity have been published between 2012 and 2016; this shows the lack of technological maturity of the field, and the necessity of a thorough evaluation of these methods. To the best of our knowledge, existing methods have not been comprehensively described, compared and rated, and this is very limiting in the development of a robust and consensual pipeline to measure ITH. Hence, a first part of this PhD work will consist in setting up this pipeline, after measuring the accuracy of existing methods. To that end, the PhD candidate will use simulated data, and public datasets in which heterogeneity has already been assessed. This will allow a rigorous comparison of existing methods of datasets of variable difficulty for which ground truth is known and on real datasets established as gold standards in the field. Public datasets are very diverse: different sequencing platforms, depth of sequencing, , bulk sample or single cells or multiple samples per patient. This should increase the relevance of our evaluation of methods, though preventing a full automation of the testing phase. A second part of this PhD work will consist in applying the finally-established pipeline to a large number of patients and devising an algorithm to carry out statistical and predictive analyses of the disease prognosis leveraging new available information, that is the level of heterogeneity and the evolution path of mutation occurrence, in addition to features already considered (mutations profile and transcriptome of the tumor). In particular, the PhD candidate has access to public databases of sequenced tumors, like the TCGA and hence to hundreds of patients. Moreover, Fabien Reyal's lab has carried out whole exome sequencing and RNA sequencing (transcriptome) of a cohort of sixteen TNBC patients at two time points: at diagnosis and after neoadjuvant chemotherapy. To the best of our knowledge, this is the biggest multi-omics dataset for this disease in a "pre- and post-treatment" setting. Exploitation of this dataset will unravel first trends of heterogeneity and prognosis evolution during treatment. Application on an independent cohort will be achieved to validate obtained results. Depending on the results of this latest phase, the PhD candidate will also perform a detailed functional analysis of the mutations (or groups of mutations) which strongly influence prognosis, integrating also expression data and biological prior knowledge of interaction and regulatory networks to gather material about their potential role in the evolution of the disease. The dynamical angle of such a study will allow the discovery of new candidate driver mutations in triple negative breast cancer. Application on an independent cohort will be achieved to validate obtained results.