Nouvelles stategies d'analyse de la diversite des sequences et des structures des transcriptomes et de leur relation aux maladies

par Thi ngoc ha Nguyen

Projet de thèse en Sciences de la vie et de la santé

Sous la direction de Daniel Gautheret.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Structure et Dynamique des Systèmes Vivants (Gif-sur-Yvette, Essonne) , en partenariat avec Institut de Biologie Intégrative de la Cellule (I2BC) (laboratoire) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 01-04-2017 .


  • Résumé

    Par sa capacité à capturer la diversité complète des transcrits produits par chaque cellule, la technologie de séquençage d'ARN à haut-débit (RNA-seq) a révolutionné notre vision de l'expression des gènes. Les données RNA-seq sont de plus en plus utilisées en médecine de précision afin d'établir les profils moléculaires des tumeurs, ou pour étudier des réseaux de gènes régissant l'adaptation d'une cellule à son environnement. Cependant, l'analyse RNA-seq qui classiquement se base sur la comparaison avec des séquences de référence, échoue dans l'identification de la fraction des ARN résultant d'altérations génomiques ou d'altérations dans leur maturation. De plus, les méthodes existantes n'arrivent pas à gérer les centaines de milliers d'échantillons engendrés par les études actuelles de transcriptome à grande échelle. Notre projet vise à développer un nouveau concept pour l'analyse du transcriptoe grâce à une base de données "d'étiquettes", ou k-mers, choisies pour représenter les variations spécifiques des ARN, ainsi qu'à un système d'indexation efficace permettant l'identification rapide, car sans mapping, des variants d'un échantillon transcriptionnel. Ce système présente deux avantages majeurs : d'une part il peut identifier et quantifier tout type de variation transcriptionnelle (variants d'épissage, fusions de gènes, ARN circulaires, ARN issus de régions répétées ou encore de pathogènes) aussi bien que des variations génomiques telles que des SNPs, agissant au niveau protéique (mutations non-synonymes) comme au niveau de la structure secondaire (mRNAs, UTR). D'autre part, il est suffisamment efficace pour rendre possible la réanalyse des grands jeux de données RNA-seq publiques. Ces propriétés nous permettront d'identifier de nouveaux biomarqueurs et des signatures (structurelles) qui ont échappé aux études précédentes. La classification moléculaire de sous-types de maladies est une tâche essentielle en médecine de précision. Les données transcriptomiques sont probablement les plus puissantes pour réaliser cette classification. Cependant, ces données sont le plus souvent synthétisées en des listes de gènes sur- et sous-exprimés. En utilisant notre approche en décompnsiton$d'étiquettes, nous montrons qu'une quantité importante d'informations génétiques et d'expression peut être récupérée et ainsi, contribuer fortement à enrichir les signatures des maladies et réaliser une classification plus précise des patients.

  • Titre traduit

    New computational strategies for analyzing the diversity of transcriptome sequence and structure, and their relationship to disease


  • Résumé

    The high-throughput RNA sequencing (RNA-seq) technology has revolutionized our view of gene expression through its ability to capture the full diversity of transcripts produced by each cell. RNA-seq data are increasingly used in precision medicine for establishing the molecular profiles of tumors, or for studying gene networks governing a cell's adaptation to its environment. However, computational analysis of RNA-seq, which generally relies on comparison with reference sequences, fails to identify a large fraction of RNAs resulting from genomic or RNA-processing alterations. Furthermore, existing methods do not scale well to hundreds to thousands of libraries generated by current large scale transcriptome studies. Our project aims to develop a new concept for transcriptome analysis, relying on a database of "tags", or k-mers, selected to represent specific RNA variation events, and an efficient indexing system enabling fast, mapping-free identification of these variants in any transcript library. This system has two major benefits: First it can identify and quantify any type of transcript form (splice variants, fusion transcripts, circular RNAs, RNAs from repeats or even RNA from pathogens) as well as genomics variations such as SNPs, either acting at the protein (non-synonymous mutations) or secondary structure (mRNAs, UTR) levels. Second, it is efficient enough to make possible the reanalysis of large public sets of RNA-seq data. These properties will enable us to identify new biomarkers and (structural) signatures that escaped all previous studies. The molecular classification of disease subtypes is an essential task in precision medicine. Transcriptome data is probably one of the most powerful method to achieve such classification. However, this data is most often summarized into a list of over- and under-expressed genes. Using our tag decomposition approach, we show that a vast amount of genetic and expression information can be recovered and strongly contribute to enrich disease signatures and achieve a more accurate classification of patients.