Apprentissage non supervise pour l'epigenomique et la transcriptomique en cellules uniques dans le cadre du cancer du sein: heterogeneite tumorale et resistance a la chimioterapie.

par Felix Raimundo

Projet de thèse en Bio-informatique

Sous la direction de Jean-Philippe Vert et de Céline Vallot.

Thèses en préparation à Paris Sciences et Lettres , dans le cadre de Ecole doctorale Ingénierie des Systèmes, Matériaux, Mécanique, Énergétique , en partenariat avec Centre de Bio-informatique (laboratoire) et de École nationale supérieure des mines (Paris) (établissement opérateur d'inscription) depuis le 01-09-2019 .


  • Résumé

    L'emergence de resistance a la chimioterapie et aux therapies ciblees est un challenge majeur pour le traitement du cancer. L'heterogeneite genetique qu sein des tumeurs non traitees est a present consideree comme un facteur cle de resistance; les sous-populations cellulaires porteuses de mutations apportant une resistance peuvent survivre et etre selectionees dans un prcessus darwinien. De plus, il est anticipe que les mecanismes non genetiques, et en particulier transcriptomiques et epigenetiques, jouent un role dans l'adaptation des cellules cancereuses confrontees a une selection environementale, metabolique ou therapeutique. La modulation de la structure de la chromatine via modifications d'histones est un mechanisme majeur epigenetique et un regulateur cle de la regulation des genes. Cependant la contribution de l'heterogeneity de la chromatine envers l'evolution tumorale reste inconnue, principalement a cause du manque de methodes pour l'evaluer dans les tumeurs. Le laboratoire Vallot, en collaboration avec l'ESPCI, a maintenant développé et validé un flux de travail de microfluidique de gouttelettes pour le séquençage d'immunoprécipitation de chromatine unicellulaire (scChIP-seq), avec des outils d'analyse dédiés, pour analyser l'épigénome à résolution cellule unique de milliers de cellules avec une couverture supérieure à 10 000 loci/cellule. Grâce à une première série d'analyses, basées sur des modèles linéaires, nous avons étudié l'hétérogénéité des états chromatiniques dans des échantillons de tumeurs mammaires, résistantes ou non à la chimiothérapie. Nos analyses préliminaires ont révélé la présence d'un sous-groupe rare de cellules au sein d'une tumeur sensible présentant des caractéristiques épigénétiques similaires à celles des cellules de la tumeur résistante (Grosselin et al, en cours d'évaluation). Une telle observation pourrait suggérer qu'un'épi-clone' résistant préexiste dans la tumeur originale avant le traitement. L'analyse et la modélisation plus poussée des ensembles de données obtenus constituent un défi de taille et nécessitent des connaissances statistiques approfondies et une modélisation mathématique pour extraire l'information pertinente. Entre autres défis, ces ensembles de données sont de dimensions élevées (plus de 50 000 loci dans plus de 10 000 cellules), gonflés par zéro et contiennent un grand nombre de valeurs manquantes et de points de données faux négatifs. Nous souhaitons maintenant tirer parti des méthodes d'apprentissage en profondeur pour extraire les caractéristiques et les groupes les plus pertinents de ces ensembles de données uniques sur les omiques unicellulaires, caractérisant pour la première fois l'épigénome des cellules cancéreuses à résolution cellulaire unique. En collaboration avec Jean-Philippe Vert a Google Research, nous allons utiliser l'apprentissage non supervisé pour élaborer des algorithmes permettant (i) d'imputer les valeurs manquantes afin de contourner les limites technologiques de l'épigénomique en cellule unique, (ii) d'extraire les caractéristiques et de réduire leur dimensionnalité, (iii) de caractériser les groupes (c'est-à-dire de trouver les caractéristiques spécifiques de chaque groupe) et (iv) de reconstruire des trajectoires en pseudo-temps. Contrairement aux méthodes d'apprentissage profond supervisé, avec des étiquettes de données et des ensembles d'entrainement, nous souhaitons ici utiliser la structure des algorithmes d'apprentissage (couches cachées et neurones ) pour extraire l'information et interpréter ces composantes au niveau biologique. Notre objectif final est de caractériser l'hétérogénéité des états de chromatine dans le cancer du sein, d'origine naturelle ou en réponse à une chimiothérapie.

  • Titre traduit

    Unsupervised deep learning for single-cell epigenomics and transcriptomics data in breast cancer: tumor heterogeneity and resistance to chemotherapy


  • Résumé

    The emergence of resistance to chemotherapy and targeted therapies is a major challenge for the treatment of cancer. Genetic heterogeneity within untreated tumors is now considered to be a key determinant of resistance; sub-population of cells bearing a mutation conveying resistance can survive and be selected in a Darwinian process. In addition, non-genetic and particularly transcriptional and epigenetic mechanisms are anticipated to play a role in the adaptation of cancer cells confronted with environmental, metabolic or therapy-related stresses. Modulation of chromatin structure via histone modification is a major epigenetic mechanism and key regulator of gene expression, however, the contribution of chromatin heterogeneity to tumor evolution remains unknown, mostly due to the lack of methods to study it in tumors. The Vallot lab, in collaboration with ESPCI, has now developed and validated a droplet microfluidics workflow for single-cell chromatin immunoprecipitation sequencing (scChIP-seq), with dedicated analytical tools, to analyze the epigenome at single-cell resolution of thousands of cells with a coverage of more than 10,000 loci/cell. Thanks to a first set of analyses, based on linear models, we have studied the heterogeneity of chromatin states in breast tumor samples, resistant or not to chemotherapy. Our preliminary analyses revealed a rare subgroup of cells within a sensitive tumor that harbor epigenetic traits similar to the ones of cells from the resistant tumor (Grosselin et al, under evaluation). Such observation could suggest that a resistant ‘epi-clone' pre-exist in the original tumor prior to treatment. The analysis and further modeling of the obtained datasets are challenging and need thorough statistical insight and mathematical modeling to extract relevant information. Among others challenges, these datasets are of high dimensions (more than 50 000 loci in over 10 000 cells), zero-inflated and contain a high number of missing values and false negative data points. We now wish to take advantage of deep learning methods to extract the most relevant features and groups from these unique single-cell omics datasets, characterizing for the first time the epigenome of cancer cells at single cell resolution. Teaming up with Jean-Philippe Vert at the Google Lab, we will use unsupervised learning, to develop algorithms to perform (i) imputation of missing values to circumvent the technological limitations of single-cell epigenomics, (ii) features extraction and dimensionality reduction, (iii) group characterization (ie find features specific of each groups) and (iv) pseudo-time reconstruction. In contrast to supervised deep learning methods, with data labels and training sets, we wish here to dig into the structure of the learning algorithms (hidden layers and nodes) to extract information and interpret these components at the biological level. Our final aim is to characterize the heterogeneity of chromatin states in breast cancer, naturally occurring or in response to chemotherapy.