A l’assaut du puzzle transcriptomique : optimisations, applications et nouvelles méthodes d’analyse pour le RNA-Seq

par Jérôme Audoux

Thèse de doctorat en Biologie Santé

Sous la direction de Thérèse Commes-Maerten et de Christophe Grosset.

Le président du jury était Daniel Gautheret.

Le jury était composé de Thérèse Commes-Maerten, Christophe Grosset, Daniel Gautheret, Christine Gaspin, Thierry Lecroq, Nicolas Philippe.

Les rapporteurs étaient Christine Gaspin, Thierry Lecroq.


  • Résumé

    Depuis leurs apparitions, les technologies de séquençage à haut débit (NGS) ont permis de révolutionner notre connaissance du transcriptome. Le RNA-Seq ou séquençage à haut-débit des transcrits, permet la numérisation rapide d’un transcriptome sous forme de millions de courtes séquences d’ADN. Contenue dans ces données brutes, l’information des transcrits peut être analysée quantitativement sous forme de profils d’expression. Les séquences obtenues contiennent également une multitude d’informations qualitatives comme les jonctions d’épissage, les variants génomiques ou post-transcriptionnels, ainsi que de nouvelles formes de transcriptions moins conventionnelles comme les ARN circulaires, les gènes de fusions ou les longs ARN non-codants.Peu à peu, le RNA-Seq s’impose comme une technologie de référence dans la recherche en biologie, et, demain dans la médecine génomique.Mes travaux de thèse proposent une vue transversale de la technologie RNA-Seq avec comme point de départ l’optimisation des méthodes d’analyses actuelles dans un contexte donné - via des procédures de benchmarking systématiques s’appuyant sur la simulations de données. Ces optimisations sont ensuite exploitées, dans le cadre d’applications sur la biologie des cancer (Leucémies et Hépatoblastome), afin d’identifier de nouveaux biomarqueurs, ainsi qu’une nouvelle stratification des patients dans le but de proposer des pistes thérapeutiques personnalisées. Enfin, mes derniers travaux portent sur la proposition de deux nouvelles méthodes d’analyse du RNA-Seq par décomposition en k-mers. La première, TranSiPedia, propose un nouveau paradigme, ayant pour objectif d'intégrer les données du transcriptome à très large échelle, via l'indexation systématique de données expérimentales. La seconde méthode, DE-kupl, propose une analyse différentielle - sans apriori - des données RNA-Seq pour l’identification de nouveaux biomarqueurs et la caractérisation de nouveaux mécanismes du transcriptome.

  • Titre traduit

    Unraveling the transcriptomic puzzle : optimizations, applications and new analysis methods for RNA-Sequencing


  • Résumé

    Since their introduction, next generation sequencing technologies (NGS) have shaped our vision of the transcriptome. RNA-seq, or high throughput transcript sequencing, enables the fast digitization of a transcriptome in the form of million of short DNA sequences. The information available in the raw data can be used in a quantitative way to extract expression profiles. The obtained sequences also provides a wide range of qualitative information such as splicing junction, genomic or post-transcriptional variants, as well as new forms of less conventional transcription such as circular RNA, fusion genes or long non coding RNA. Gradually, RNA-Seq is becoming a gold standard in molecular biology and tomorrow in genomic medicine.My thesis work proposes a global vision of the RNA-Seq technology, starting with the optimisation of current analysis methods to a particular context through systematic benchmarking procedures relying on the simulation on synthetic data. These optimizations are later used as a part of a work on the biology of cancer in order to identify new biomarkers in leukemia as well as a new stratification of hepatoblastoma patients to propose personalized treatments. Finally, my last work is focused on the proposal of two new analysis methods for RNA-Seq data, both based on the principle of k-mer decomposition. The first method, TranSiPedia, is a new paradigm to integrate transcriptome data at a very large scale through the systematic indexation of experimental data. The second method, DE-Kupl, is a new strategy to perform differential analysis, without a priori knowledge about the transcriptome. DE-kupl is designed to help the discovery of new biomarkers as well as the characterization of new mechanisms of the transcriptome.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?