Development of evolutionary models for non-coding RNAs

par José António Almeida Costa Da Cruz

Thèse de doctorat en Bioinformatique

Sous la direction de Eric Westhof.

Soutenue en 2011

à Strasbourg .

  • Titre traduit

    Développement de modèles évolutifs pour les ARN non-codants


  • Résumé

    [. . . ]Pour répondre à la nécessité d'un pipeline d'annotation d'ARNnc rapide et fiable dans le contexte des projets de séquençage génomique de grand envergure, tels que lesprojets Génolevures et Dikaryome, nous avons mis au point deux pipelines d'annotation automatique, intégrant des outils disponibles publiquement, de recherche d'ARNnc par homologie et de novo. Les deux pipelines ont été appliqués à 15 génomes de levures et ont permis de trouver et d'annoter 1051 gènes d'ARNnc, correspondant à plus de 80% des ARNnc attendus pour ces génomes – si on prend comme référence le nombre d'ARNnc chez S. Cerevisiae. En outre, plusieurs nouveaux ARNnc, encore inconnus chez les Saccharomycotinae, ont été détectés. De plus, nous avons mis en évidence un ensemble de nouvelles observations sur la synténie de gènes d'ARNnc et de nouveaux exemples de domaines supplémentaires dans certains ARNnc essentiels. Les résultats montrent la faisabilité de la recherche automatique des ARNnc dans les génomes complets et l'utilité de telles approches dans les grands projets de séquençage et d'annotation génomique. L'intégration complète, dans le pipeline de développement, de nouveaux outils tels que ceux de prédiction de gènes d'ARNnc de novo ainsi que la possibilité de traiter des données provenant d'autres sources, comme les expériences de séquençage profond, sont les prochains défis à court terme dans cette ligne de travail. La confirmation expérimentale de ces observations, qui est au-delà de l'approche bioinformatique, doit être le prolongement naturel du projet d'annotation. Dans le strict domaine bioinformatique, le développement de nouvelles approches pour détecter les gènes d'ARNnc insaisissables tels que la composante ARN de la télomerase seraient des ajouts utiles à notre pipeline. Enfin, j'ai développé un algorithme original pour détecter les modules structuraux d'ARN uniquement à partir des informations de séquence (RMDetect). L'algorithme a été conçu pour identifier les modules structuraux connus dans les séquences simples et dans les alignements multiples en l'absence de toute autre information. L'algorithme utilise un réseau bayésien pour la représentation des modules couplé à l'estimation de la probabilité conjointe des paires de bases Watson-Crick participant à des modules. Actuellement, quatre modules peuvent être recherchés : la boucle "G-bulge'', le"Kink Turn'', la boucle C et la boucle "tandem GA''. Dans des séquences de test de contrôle, nous avons trouvé l'ensemble des modules connus avec un taux de fausse découverte de 0. 23. En cherchant les 1444 alignements publiquement disponibles, nous avons identifié 21 modules encore non détectés et 141 modules connus. RMDetect est une étape utile pour combler le fossé entre l'analyse pure de séquences et l'étude structurale de l'ARN. De plus, il peut être utilisé dans l'affinement des structures 2D d'ARN, dans l'assemblage de modèles 3D, et dans la recherche et l'annotation de gènes d'ARN structurés dans les génomes. Nous espérons améliorer l'approche actuelle par l'ajout de nouveaux modèles structuraux. La recherche de modules structuraux dans des génomes complets serait la prochaine étape dans cette ligne de recherche.


  • Résumé

    [. . . ]To answer the need for a fast and reliable ncRNA annotation in the context of large scale genome sequencing projects (Génolevures and Dikaryome projects), I implemented two automatic annotation pipelines, integrating publicly available tools, for homology and \emph{de novo} ncRNA search in genomes. Both pipelines were applied to 15 yeast genomes and 1051 ncRNA genes were found, corresponding to more than 80% of the expected ncRNAs (assuming the number of ncRNAs from S. Cerevisiae as reference). Additionally I identified : (i) several new potential ncRNAs; (ii) several new synteny relationships between ncRNA loci; and (iii) new examples of extended structural domains in well known essential ncRNAs. These results show the feasibility of automatic search for ncRNAs in full genomes and the utility of such approaches in large genome annotation projects. Finally, I developed a new algorithm to detect structural RNA modules in sequences : RMDetect. It was designed to identify 3D structural modules in RNA sequences. It uses a Bayesian Network to represent the searched modules and the joint base pair probability estimation to select candidates. Four modules can be searched for: G-bulges, Kink-turns, C-loop and Tandem-GAs. In test sequences all of the known modules were found with a false discovery rate of 0. 23. In 1444 publicly available alignments 21 yet unreported and 141 known modules were identified. RMDetect is a step to bridge the gap between sequence analysis and 3D RNA studies. It can be used in the refinement of RNA 2D structures, the assembly of RNA 3D models, and the search of structured ncRNAs in genomic data.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XII-199 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 185-199

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Strasbourg. Bibliothèque du Studium.
  • Disponible pour le PEB
  • Cote : Th.Strbg.Sc.2011;1124

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Non disponible pour le PEB
  • Cote : 2011STRA6099
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.