Analyses et méthodes pour les données transcriptomiques issues d’espèces non modèles : variation de l’expression des éléments transposables (et des gènes) et variants nucléotidiques

par Hélène Lopez-Maestre

Thèse de doctorat en Bio-informatique

Sous la direction de Cristina Vieira-Heddi et de Vincent Lacroix.

Soutenue le 15-02-2017

à Lyon , dans le cadre de École Doctorale Evolution Ecosystèmes Microbiologie Modélisation , en partenariat avec Université Claude Bernard (Lyon) (établissement opérateur d'inscription) et de Laboratoire de Biométrie et Biologie Evolutive (laboratoire) .

Le président du jury était Malika Ainouche.

Le jury était composé de François Sabot.

Les rapporteurs étaient Malika Ainouche, Eric Rivals.


  • Résumé

    Le développement de la seconde génération de séquenceurs haut débit a généralisé l'accès à l'étude du transcriptome via le protocole RNAseq. Celui-ci permet d'obtenir à la fois la séquence et l'abondance des transcrits d'un échantillon. De nombreuses méthodes bioinformatiques ont été et sont encore développées pour permettre l'analyse des données issues du RNAseq et en tirer le maximum d'information. Ce type d'analyse est notamment possible sans utiliser de génome de référence, et donc pour les espèces modèles ou non-modèles, grâce à des méthodes d'assemblage. Durant ma thèse, j'ai principalement travaillé à partir de données RNA-seq issues d'espèces non modèles. Je me suis intéressée dans un premier temps à l'impacte de l'hybridation inter spécifique sur la stabilité des génomes chez les hybrides issus des croisements réciproques de D. mojavensis et D. arizonae. Nos résultats ne montrent pas une dérégulation globale, mais plutôt quelques gènes et éléments transposables qui sont spécifiquement dérégulés. La pipeline d'analyse mis en place ici sera réutilisée pour l'étude des niveaux d'expression des transcrits chez les mâles ainsi que pour les croisements issus d'autres lignées de D. mojavensis avec D. arizonae, conduisant à une fertilité variable chez les hybrides.Dans un second temps, j'ai participé à la validation du logiciel KisSplice pour la détection de SNP dans des données RNA-seq sans génome de référence. Celui-ci permet de trouver différents types de variants (épissage, indels) directement dans le graphe de de Bruijn construit à partir des lectures séquencées. J'ai également participé au développement d'outils de post-traitement permettant de prédire l'impact des SNP sur les protéines

  • Titre traduit

    Analyses and methods for RNAseq data from non model species : variation in transposable elements (and genes) expression and detection of single nucleotide variants


  • Résumé

    Next-generation high throughput sequencing technologies provide efficient, rapid, and low cost access to sequencing. Its application to transcriptomes, called RNA-seq, enables the study of both the sequence and the expression of the transcripts. Many bio-informatics methods are still developed for RNA-seq data processing, trying to get the maximum out of it. Assembly methods allow us to study non-model species (no reference genome available) as well as model species. The work presented here is mostly related to RNA-seq data on non-model species.In the first study, to understand the initiation of hybrid incompatibility, we performed a genome-wide transcriptomic analysis on ovaries from parental lines and on hybrids from reciprocal crosses of \emph{D. mojavensis} and \emph{D. arizonae}. We didn't see a global deregerulation of genes or transposable element. Instead, we show that reciprocal hybrids presented specific gene categories and few transposable element families misexpressed relative to the parental lines. The analytical workflow developed for this project will be used to analyze transcriptomic data from the testis, but also to study the reciprocal crosses from other lines of D. mojavensis with D. arizonae leading to variable levels of sterility in hybrids. A second project tacked here is the identification and quantification of SNPs from RNA-seq data without a reference genome with KisSplice. Kissplice was developed to identified several type of variants (splicing events, indels) directly from the de Bruijn graph, build from the sequenced reads. We also developed other KisSplice-tools, for downstream analyses of the SNPs, including the prediction of their impact on the protein sequence


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Claude Bernard. Service commun de la documentation. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.