Outils de biologie computationnelle pour l'étude des protéines de liaison à l'ARN à l'échelle du transcriptome

par Janio Paternina Osorio

Projet de thèse en Génomique

Sous la direction de Hervé Le hir.

Thèses en préparation à Paris Sciences et Lettres , dans le cadre de Complexité du vivant , en partenariat avec Institut de Biologie de l'École Normale Supérieure (laboratoire) et de Ecole normale supérieure (établissement de préparation de la thèse) depuis le 01-09-2017 .


  • Résumé

    Pendant la dernière décennie, l'expansion rapide des technologies de séquençage à haut débit a conduit au développement de méthodes computationnelles pour l'analyse des génomes et des transcriptomes. En plus de leur capacité à identifier des séquences génomiques ou à mesurer le niveau e transcription des gènes, les approches à large échelle permettent également d'étudier des empreintes protéiques sur l'ADN et l'ARN, ce qui révèle les mécanismes qui garantissent l'intégrité et la réplication du génome, ainsi que la régulation épigénomique et transcriptomique. Ces méthodes puissantes nécessitent du développement parallèle d'outils statistiques et computationnels pour manipuler et décrypter l'information générée par le séquençage. La régulation post-transcriptionnelle est sous le contrôle d'un vaste répertoire de protéines de liaison à l'ARN (RBPs). Chez les cellules humaines, plus de 800 RBPs différentes sont liées à des ARN messagers (mRNAs) afin de moduler leur transformation et leur destin (Singh, Moore 2015). Malgré leur implication dans différentes pathologies, la fonction précise de la plupart des RBPs est encore inconnue. Le développement de la méthode Cross-linking and Immunoprecipitation (CLIP) a constitué un pas décisif vers l'élucidation des fonctions des RBPs. Le principe de base de cette technique est la liaison covalente entres les RBPs et leur cibles ARN par irradiation de lumière UV suivie par une immunoprécipitation à forts lavages, ce qui permet l'identification des sites de liaison des RBPs. Couplé au séquençage à haut débit, CLIP-Seq présente un capture instantanée de la carte d'interactions des RBPs à l'échelle du transcriptome (Licatalosi et al. 2008). Depuis son introduction, nombre d'équipes ont amélioré cette méthode en termes d'efficacité, de spécificité et de précision. Notre équipe a récemment développé e meCLIP-Seq (monitored enhanced CLIP-Seq, article soumis), afin d'éliminer des lectures imprécises et de réduire encore la résolution de la détection des sites de liaison au nucléotide près. Nous avons utilisé meCLIP pour étudier plusieurs RBPs, y compris des composants du Complexe de la Jonction Exonique (EJC), un complexe multiprotéique qui détermine le destin des mRNAs (Le Hir et al. 2016). Cependant, il n'existe pas encore de méthodes d'analyse adaptées au signal du meCLIP-seq. Ce projet de thèse, basé sur trois tâches, a pour objectif de concevoir des approches et des outils bioinformatiques pour l'extraction des informations pertinents contenues dans les données issues des expériences du type CLIP-Seq. (i) À cause du signal particulier du meCLIP-Seq, qui forme des accumulations discrètes de lectures, une première tâche consistera à la définition d'approches statistiques robustes pour la détection de pics dans ce contexte. (ii) Grâce à cette méthode de détection optimisée, la deuxième tâche consistera au développement d'une approche qui, au delà d'une analyse différentielle classique, exploitera la précision du signal meCLIP pour décrypter les rôles locaux et conjoints des RBPs. Premièrement, un système qui établit des profils de sites de liaison sera définit. Ensuite, des techniques de clustering, des chaînes de Markov et des réseaux Bayésiens seront considérés pour l'extraction de l'information conjuguée de ces profils, et leur relation avec leurs configurations régionales selon leur distance physique, leur fréquence dans le transcriptome ou leur fonction génétique. (iii) Ces méthodes seront appliquées pour la caractérisation des mécanismes qui régulent l'assemblage de l'EJC. Pour ce faire, nous utiliserons des données meCLIP qui révèlent le positionnement de l'EJC dans deux étapes successives de la myogenèse. Les rendus de ce projet seront, globalement, l'avènement de méthodes quantitatives robustes pour la détection de pics dans le signal de meCLIP-Seq, ainsi que pour l'analyse locale des sites de liaison de multiples RBPs ; d'un autre côté, ces outils aideront à la compréhension du rôle de l'EJC et les RBPs associés à sa régulation dans la formation des complexes mRNA-protéine.

  • Titre traduit

    Computational biology for the transcriptome-wide study of RNA-binding proteins


  • Résumé

    Since almost a decade, the rapid expansion of efficient high-throughput sequencing technologies led to the development of computational methods to analysis both genomes and transcriptomes. In addition to their capability to identify genomic sequences or measure transcriptomic expression levels, large-scale approaches also allow to study specific protein marks onto DNA and RNA, shedding new light onto mechanisms ensuring genome integrity and replication, as well as epigenomic and transcriptomic regulation. All these powerful methods systematically require the development of statistical and computational tools to handle and dissect the information emanating from sequencing. Post-transcriptional gene regulation is governed by a vast repertoire of RNA binding proteins (RBPs). In human cells, more than 800 different RBPs are bound to messenger RNAs (mRNAs) to modulate their processing and their destiny (Singh, Moore 2015). Despite their implication in diverse pathologies, the precise function of most RBPs remains obscure. In this challenging quest, the development of the crosslinking and immunoprecipitation (CLIP) method constituted a pioneering step (Ule et al. 2003). The basic principle of this strategy is the covalent binding of RBPs with their direct RNA targets by ultraviolet light irradiation followed by stringent immunoprecipitation to identify RBP binding sites. Coupled to high-throughput sequencing, “CLIP-seq” offers a transcriptome-wide snapshot of the RBP interaction map (Licatalosi et al. 2008). Since, several groups have further improved this method in terms of efficiency, specificity and accuracy. Recently, our group developed the meCLIP-seq (monitored enhanced CLIP-seq, manuscript submitted), to eliminate false positive reads and to narrow-down the resolution of binding site assignment as meCLIP generates stacks of single-nucleotide signals. We applied meCLIP to study several RBPs including components of the Exon Junction Complex (EJC), a multiprotein complex governing mRNAs destiny (Le Hir et al. 2016). However today, useful analytical methods are not available to study meCLIP-seq data. This thesis project, organized around three tasks, aims to conceive bioinformatics approaches and tools to extract relevant and subtle information from CLIP-seq experiments and especially from meCLIP-seq datasets. (i) Due to the peculiar aspect of the meCLIP signal that forms discrete accumulation of reads, a first phase will be dedicated to the setup of robust statistical approaches for peak detection in this context. Importantly, all parameters should be estimated automatically based on quantitative properties computed from the considered data sets. (ii) Using this optimal peak detection tool, the next phase will consist in building an approach that, beyond a classical differential analysis, will take full advantage of the meCLIP precision to decipher local and joint function of RBPs. First an analysis framework that constructs relevant peak profiles across several RBP meCLIP samples will have to be defined. Then, clustering techniques, Markov chains and Bayesian inference networks will be considered in order to extract joint information from those profiles and study the relationships between regional configurations related either by their physical distance, their frequency in the transcriptome or their genetic function. (iii) Those methods will be applied to further characterize the mechanisms orchestrating the regulation of EJC assembly. For that purpose, we will use meCLIP datasets monitoring the positioning of the EJC during two successive stages of the differentiation process that governs muscle fiber formation. Overall, the project outputs should be, on one hand, the advent of robust and quantitative methods for the detection of peaks in meCLIP datasets and for the local analysis of multiple RBP samples and, on the other hand, a significant increase in our understanding of the role of EJC and related RBPs in the packaging of protein-RNA particles.