Analyse intégrative de données génétiques, transcriptomiques et épigénétiques pour déchiffrer et modéliser le réseau de régulation de gènes chez la Drosophile.

par Swann Floc'Hlay

Projet de thèse en Biologie cellulaire

Sous la direction de Denis Thieffry et de Eileen Furlong.

Thèses en préparation à Paris Sciences et Lettres , dans le cadre de Complexité du vivant , en partenariat avec Institut de Biologie de l'École Normale Supérieure (laboratoire) et de Ecole normale supérieure (établissement de préparation de la thèse) depuis le 01-09-2016 .


  • Résumé

    La régulation précise de l'expression de gène est essentielle pour la plupart des processus biologiques, et un acteur clé du développement, de l'évolution et des maladies. La production d'ARN messager (ARNm) est régulée via la communication entre les enhancers, les éléments cis-regulateurs qui recrutent les facteurs de transcription, et les promoteurs de gène, qui recrutent les premiers éléments de la machinerie transcriptionnelle. Chaque étape de la régulation trancriptionnelle peut être mesurée expérimentalement, à commencer par les régions ouvertes de la chromatine (ATAC-seq), le recrutement de facteurs de transcription au niveau des enhancers (ChIP-seq), jusqu'à l'activation des enhancers (en utilisant les mesures d'état de la chromatine), le recrutement de la machinerie de transcription au niveau des promoteurs (ChIP-seq), l'activation des promoteurs (en utilisant l'état de la chormatine), l'élongation de l'ARN polymerase, et la production d'ARN (RNA-seq). Tous ces niveaux de régulation sont hautement interconnectés et directionnels, et peuvent être utilisés pour modéliser la régulation transcriptionnelle. Des études récentes de séquençage à haut débit entre individus de la même espèce ont révélé une variation importante dans l'expression des gènes due à la ségrégation des variations génétiques au sein de la population. La plupart de ces variations de régulation génétique sont présentes dans des régions d'ADN non-codantes, affectant potentiellement la fonction des éléments enhancer. Cependant, comprendre et prédire comment les variants génétiques affectent la régulation transcriptionnelle reste encore peu compris. Le projet proposé cherche à obtenir une compréhension mécanique de l'impact d'une variation génétique naturelle sur plusieurs niveaux de régulation de la transcription, en utilisant des embryons hybrides génétiquement distincts de Drosophila isolés à partir d'une population sauvage. L'utilisation d'individus hybrides offre une approche puissante pour discerner les mutations cis des mutations trans-régulatoires en utilisant des informations allèle-spécifiques à travers plusieurs étapes de la régulation transcriptionnelle (e.g. données allèle-spécifique ATAC-seq, ChIP-seq, RNA-seq). Ceci amène également nombre de défis bioinformatiques intéressants, incluant le mapping des données allèle-spécifiques et l'intégration de plusieurs types de données (e.g. ChIP-seq et RNA-seq) avec des informations séquence-spécifiques sur les variants génétiques. Le laboratoire Furlong (EMBL, Heidelberg) a récemment réalisé la plus grande collection d'embryons F1 dont nous ayons connaissance pour toutes les espèces à ce jour: les embryons de F1 ont été collectés à partir de 10 croisement intra-espèce, à trois fenêtres de temps cruciales de l'embryogenèse, à une échelle suffisante pour tester plusieurs étapes de la transcription à partir du même groupe d'embryons. Le RNA-seq et les données d'accessibilité de la chromatine (ATAC-seq) ont déjà été générés et offrent un premier niveau de compréhension en apportant des indices sur l'impact de l'influence jointe des mutations sur l'accessibilité de la chromatine et l'expression des gènes à l'échelle du génome. Le but de ce projet de thèse est d'étendre substantiellement cette étude en intégrant de nouvelles données d'expériences de ChIP-seq ciblant divers facteurs de transcriptions et modifications de la chromatine à trois stages de l'embryogenèse. Ensemble, le jeu de données complet, couvrant plusieurs niveaux de régulation de la transcription à différentes étapes de développement, représente approximativement 400 échantillons, une échelle inédite. L'intégration de ces différents niveaux de régulation va nous permettre de déchiffrer l'influence des variations génétiques à différentes étapes de la régulation de la transcription et pourra souligner de nouveaux mécanismes de régulation durant le développement embryonnaire. Nous nous intéresseront plus spécifiquement à la régulation des premières étapes de la spécification du mésoderme et de la différentiation des cellules musculaires, au cours des stages 8 à 12 des embryons de Drosophile. The projet fera usage d'outils et de pipelines bioinformatiques pré existants pour l'analyse de données mRNA-seq (Eoulsan, cf. Jourdan et al, 2012) et pour l'analyse de données ChIP-seq (RSAT, cf. Medina-Rivera et el, 2015) développés à l'IBENS, qui seront étendus pour intégrer de nouveaux type de données (ATAC-seq, 4C-seq). Cette étude devrait nous apporter une vue plus extensive des bases génétiques impactant la régulation de la transcription en intégrant de manière simultanée des données d'expression de gène, d'activité de promoter/enhancer, d'occupation des facteurs de transcription et d'état de la chromatine. Finalement, les résultats seront utilisés pour améliorer notre modèle actuel de prédiction dynamique de la spécification du mésoderme et l'étendre, afin de prendre en compte les événement principaux contrôlant la différentiation et la diversification des cellules cardiaques et musculaires (cf. Mbodj et al, submitted). Ce projet sera développé en collaboration avec l'équipe d'Eileen Furlong à l'EMBL, Heidelberg, Allemagne. References Jourdren L1, Bernard M, Dillies MA, Le Crom S (2012). Eoulsan: a cloud computing-based framework facilitating high throughput sequencing analyses. Bioinformatics 28: 1542-3. Mbodj A, Gustafson H, Ciglar L, Junion G, Gonzalez A, Girardot C, Perrin L, Furlong EE, Thieffry D (submitted). Qualitative dynamical modelling can formally explain mesoderm specification and predict novel developmental phenotypes. Submitted to PLoS Computational Biology. Medina-Rivera A, Defrance M, Sand O, Herrmann C, Castro-Mondragon JA, Delerce J, Spinelli L, Jaeger S, Blanchet C, Vincens P, Caron C, Staines DM, Contreras-Moreira B, Artufel M, Charbonnier-Khamvongsa L, Hernandez C, Thieffry D, Thomas-Chollier M, van Helden J (2015). RSAT 2015: Regulatory Sequence Analysis Tools. Nucleic Acid Research 43: W50-6.

  • Titre traduit

    Integrative analysis of genetic, transcriptomic and epigenetic data to decipher and model gene regulatory networks in drosophila embryos.


  • Résumé

    Precise regulation of gene expression is essential for almost all biological processes, and a key driving force of development, evolution and disease. The production of messenger RNA (mRNA) is regulated via communication between enhancers, cis- regulatory elements that recruit transcription factors, and the gene's promoter, which recruits the basal transcriptional machinery. Each step of transcriptional regulation can be measured experimental, from open chromatin regions (ATAC-seq), specific transcription factor recruitment at enhancers (ChIP-seq), to activation of enhancers (using measurements of chromatin state), recruitment of the basal transcriptional machinery at promoters (ChIP-seq), activation of promoters (using chromatin state), elongation of RNA polymerase, and RNA production (RNA-seq) All these levels of regulation are highly interconnected and directional, and can be used to model transcriptional regulation. Recent high-throughput sequencing studies between individuals of a given species have revealed extensive variation in gene expression as a consequence of segregating genetic variation within the population. Most of this regulatory genetic variation is in non-coding DNA, presumably disrupting the function of enhancer elements. However, understanding and predicting how genetic variants disrupts transcriptional regulation remains very poorly understand. The proposed project aims to get a mechanistic understanding of how natural genetic variation affects multiple layers of transcriptional regulation, using hybrid embryos of genetically distinct Drosophila isolated from a wild population. The use of hybrid individuals offers a powerful approach to dissect cis versus trans-regulatory mutations by obtaining allelic specific information across multiple steps of transcriptional regulation (e.g. allelic specific ATAC-seq, ChIP-seq, RNA-seq data). This also introduces a number of interesting bioinformatics challenges, including mapping allelic specific data and integrating multiple kinds of data (e.g. ChIP-Seq and RNA-Seq) with sequence specific information on genetic variants. The Furlong lab (EMBL, Heidelberg) has recently performed the largest F1 embryo collections that we are aware of from any species to date: F1 embryos were collected from 10 different intra-species crosses, at three crucial windows of embryogenesis, at a scale that is sufficient to assay multiple steps of transcription from the same pool of embryos. RNA-seq and chromatin accessibility data (ATAC-seq) have already been generated and offers a first level of understanding by giving insight into the extent to which mutations jointly influence chromatin accessibility and gene expression on a genome-wide scale. The aim of this Ph.D. project is to substantially extend this study by integrating new data from several ChIP-seq experiments targeting diverse chromatin modifications and transcription factors across three stages of embryogenesis. Together, the combined datasets spanning multiple layers of transcriptional regulation at multiple stages of development represent approximately 400 samples, a scale that has never being available before. The integration of these various levels of regulation will permit us to disentangle the influence of genetic variation at different steps of transcription regulation and will highlight new regulatory mechanisms during embryonic development. We will particularly focus on the regulation of the early steps of mesoderm specification and muscle cell differentiation, occurring during stages 8 to 12 in fly embryos. This project will rely upon pre-existing computational tools and pipelines for mRNA-seq data analysis (Eoulsan, cf. Jourdan et al, 2012) and for ChIP-seq data analysis (RSAT, cf. Medina-Rivera et al, 2015) developed at IBENS, which will be extended to integrate novel data types (ATAC-seq, 4C-seq). The integration of these various levels of regulation will allow us to disentangle the influence of genetic variation on transcriptional regulation and should highlight novel interactions occurring during embryonic development. This should lead to a more extensive view of the genetic bases influencing transcriptional regulation by simultaneously integrating data from gene expression, enhancer/promoter activity, transcription factor occupancy and chromatin state. Ultimately, the resulting knowledge will be used to refine our current predictive dynamical model for mesoderm specification and extend it to account for the main events controlling the differentiation and diversification of muscle and heart cells (cf. Mbodj et al, submitted). This project will be developed in close collaboration with Furlong's team at EMBL, Heidelberg, Germany. References Jourdren L1, Bernard M, Dillies MA, Le Crom S (2012). Eoulsan: a cloud computing-based framework facilitating high throughput sequencing analyses. Bioinformatics 28: 1542-3. Mbodj A, Gustafson H, Ciglar L, Junion G, Gonzalez A, Girardot C, Perrin L, Furlong EE, Thieffry D (submitted). Qualitative dynamical modelling can formally explain mesoderm specification and predict novel developmental phenotypes. Submitted to PLoS Computational Biology. Medina-Rivera A, Defrance M, Sand O, Herrmann C, Castro-Mondragon JA, Delerce J, Spinelli L, Jaeger S, Blanchet C, Vincens P, Caron C, Staines DM, Contreras-Moreira B, Artufel M, Charbonnier-Khamvongsa L, Hernandez C, Thieffry D, Thomas-Chollier M, van Helden J (2015). RSAT 2015: Regulatory Sequence Analysis Tools. Nucleic Acid Research 43: W50-6.