Nouvelles technologies à large échelle pour l'analyse transcriptomique à la précision du nucléotide

par Haoliang Xue

Projet de thèse en Génétique

Sous la direction de Daniel Gautheret.

Thèses en préparation à Paris Saclay , dans le cadre de Structure et Dynamique des Systèmes Vivants , en partenariat avec Institut de Biologie Intégrative de la Cellule (laboratoire) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 01-01-2019 .


  • Résumé

    L'étude du transcriptome par les technologies de séquençage d'ARN à haut débit (RNA-seq) vise à caractériser l'ensemble des transcrits présents dans un échantillon. Le succès de cette téchnologie a permis l'analyse des transcrits dans des centaines de milliers de tissus et de conditions expérimentales. L'analyse des données RNA-seq souffre toutefois de limitations, qui peuvent se résumer à un compromis entre vitesse d'execution et exhaustivité des ARN détectés. Soit les outils sont très lents (un journée de traitement pour quelques banques) et peuvent détecter tous les transcrits présents, soient ils sont rapides (centaines de banques par jour), mais ne peuvent analyser que les transcrits d'un transcriptome de référence, qui n'est qu'un vision simplifiée du transcriptome réél. Il n'existe pas d'outil capable de rechercher et quantifier dans un très grand nombre de banques RNA-seq (ordre de 100,000) des transcrits arbitraires. Transipedia est un projet de bioinformatique qui propose un nouveau concept d'analyse utilisant des sous-séquences (k-mers) sélectionnées pour représenter chaque variation des transcrits avec une grande précision (un nucléotide). Un nouvelle structure de données performante sera développée pour stocker et rechercher efficacement ces k-mers dans de grandes bases de données transcriptomiques. Ainsi, des transcrits nouvellement découverts impliqués par exemple dans une pathologie, pourront être rapidement recherchés dans de très grands jeux de données publiques, ouvrant la voie à une vaste gamme d'applications dans le diagnostic par RNA-seq ou l'analyse des réseaux de régulation perturbés dans les maladies. Le sujet de thèse est lié au projet ANR Transipedia, qui sera mené en collaboration avec l'INSERM IRMB Montpellier et le laboratoire Cristal, Université de Lille 1. Nos objectifs spécifiques seront les suivants: - Utiliser les outils développés pour découvrir de nouveaux évènements et signatures transcriptionnelles dans des jeux de données publiques et fournies par des collaborateurs. - Contribuer avec le partenaire 2 (Montpellier) à la conception d'outils pour la selection automatique de k-mers représentatifs (signatures) de transcrits, et de la première version d'une encyclopédie de transcrits.

  • Titre traduit

    New high throughput technologies for transcriptome analysis at nucleotide resolution


  • Résumé

    Study of transcriptome by high-throughput RNA sequencing technologies (RNA-seq) aims to characterize all transcripts present in a sample. The success of this technology allowed the analysis of transcripts in hundreds of thousands tissues and experimental conditions. However, current software for RNA-seq data analysis suffers from limitations, which can be summarized as a compromise between execution speed and completeness of detected RNAs. Either the tools are very slow (a day of processing for some libraries) and can detect all transcripts present, or they are fast (hundreds of libraries a day) but can only analyze the transcripts of a reference transcriptome which is merely a simplified vision of the real transcriptome. There is no tool capable of searching and quantifying in a very large number of RNA-seq libraries (order of 100,000) arbitrary transcripts. Transipedia is a bioinformatics project that proposes a new analysis concept using selected sub-sequences (k-mers) to represent each variation of transcripts with high precision (one nucleotide). A new, powerful data structure will be developed to efficiently store and search these k-mers in large transcriptomic databases. Tools will be developed to query any transcript of interes (for instance a new pathology-related transcript) in very large amount of public data. This development will pave the way for a wide range of applications in the diagnosis by RNA-seq or the analysis of regulatory networks altered in diseases. The thesis subject is related to the project ANR Transipedia, which will be conducted in collaboration with INSERM IRMB Montpellier and the Cristal laboratory, University of Lille 1. Our specific objectives will be: - Use the developed tools to discover new events and transcriptional signatures in public datasets and in those provided by collaborators. - Contribute with partner 2 (Montpellier) to design tools for the automatic selection of representative k-mers (signatures) of transcripts and the first version of an encyclopedia of transcripts.