Non-coding RNA genes in eukaryotes genomes : computational identification and evolution

par Chun-Long Chen

Thèse de doctorat en Sciences biologiques

Sous la direction de Laurence Amar et de Liang Hu Qu.

Soutenue en 2007

à l'Université de Paris-Sud. Faculté des Sciences d'Orsay (Essonne) en cotutelle avec l'Université Sun Yat-Sen (Chine) .

  • Titre traduit

    Gènes d'ARN non-codant de génomes eucaryotes : identification informatique et évolution


  • Résumé

    Parmi les surprises nées de la confrontation des données génomiques et expérimentales figure l’identification de nombreux gènes d’ARN non-codant (ARNnc). Les ARNnc participent à de nombreux processus fondamentaux comme la régulation de l’expression des gènes (transcription, stabilité des ARN messagers) et la régulation de la synthèse protéique. Cependant, les gènes d’ARNnc restent rarement annotés dans les génome en raison de la faible conservation de leur séquences : la fonction des ARNnc repose essentiellement sur leurs structures. Dans un premier temps, j'ai travaillé à l’identification bioinformatique des petits ARNs nucléolaires (ARNsno) qui jouent un rôle fondamental dans la mise en place de ribosomes fonctionnels chez les eucaryotes. J’ai construit une plate-forme informatique, snoRMP, que j’ai utilisée pour identifier les ARNsno des génomes de Chlamydomonas reinhardtii, Drosophila melanogaster, Oryza sativa et Schizosaccharomyces pombe. J’ai également étudié les interactions moléculaires entre ARNsno et ARNr et observé leur co-évolution par comparaison entre gènes orthologues d’espèces phylogenétiquement éloignées. J’ai démontré que au moins 20% des unités de transcription des gène d’ARNr ont évolué sous la contrainte de leur interaction avec les ARNsno. Enfin, j’ai recherché les ARNncs dans le génome nouvellement séquencé de Paramecium tetraurelia et caractérisé leur évolution dans un contexte de duplication génomique globale (WGD). J’ai également utilisé la conservation de séquence entre segments paralogues de l’ADN pour caractériser ceux d’entre eux capables de coder un ARNnc de structure stable et évolutivement conservée.


  • Résumé

    It became clear that non-coding RNAs(ncRNA) participate in the control of gene expression at different levels of regulation. However, ncRNA genes are usually not annotated within genomes. Better understanding of genome functioning requires refined computational tools for ncRNA prediction, some are emerging in the nowadays genomic era. I developed a computational system, called snoRMP, to identify the box C/D snoRNAs that play a fundamental role in ribosome biogenesis. I applied it to the rice genome and identified 346 snoRNAs that grouped into 120 paralogous sets, sequence differences of which allowed to find clues about the mechanisms of duplication and evolution of snoRNAs. I also used the snoRMP to screen the genomes of Schizosaccharomyces pombe, Drosophila melanogaster and Chlamydomonas reinhardtii. In addition, I performed an extensive analysis of 415 rRNA and box C/D snoRNA complementary sequences involved in methylation of 124 rRNA sites from fungi, plants and animals. I could define snoRNA-rRNA duplex cores of 9 base pairs, over which single mutations had been severely counter-selected, and double compensatory mutations, retained. The Paramecium tetraurelia genome arose through at least three whole-genome duplications(WGD). In contrast with most genomes having evolved by WGDs that had lost a large fraction of the gene duplicates, the P. Tetraurelia genome had not. I used motif-based methods to recover extensive contents of P. Tetraurelia RNA genes, and analyzed their evolution in this specific WGD context. At last, I used a combination of comparative sequence analysis and structure predictions to analyze the whole amount of ncDNA and identify 137 ncRNA candidates.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XXI-191 p.)
  • Annexes : Bibliogr. p. 127-156

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2007)279
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.