Thèse de doctorat en Sciences biologiques. Gènes, génomes, cellules
Sous la direction de Daniel Gautheret.
Soutenue en 2010
à Paris 11 , en partenariat avec Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne) (autre partenaire) .
Les ARN non-codants (ARNnc) forment une classe hétérogène d’éléments transcrits mais non traduits qui participent, par l’intermédiaire de leur structure et/ou leur séquence, à une grande diversité de processus cellulaire selon de multiple modalités. Ces dernières années, un grand nombre d’ARNnc ont été détectés expérimentalement dans les génomes et aujourd’hui les ARNnc sont considérés comme des acteurs majeurs de la biologie des cellules eucaryotes, bactériennes et archaeénnes. Malgré ces récentes avancées, l’étape de détection expérimentale des ARNnc dans les génomes nécessite toujours un investissement important en temps et reste encore rarement suivie d’une caractérisation fonctionnelle des éléments ainsi identifiés. Partant de ces constatations, nous avons développé une méthode de détection in-silico des ARNnc dans les génomes bactériens que nous avons appelée NAPP pour « Nucleic Acid Phylogenetic Profiling ». NAPP est une adaptation du profilage phylogénétique, une méthode utilisée pour prédire la fonction de protéine de fonction inconnue. NAPP analyse la co-occurrence d’éléments codants et non-codants d’un génome de référence dans toutes les espèces bactériennes disponibles. Il construit ainsi des groupes d’éléments d’histoire phylogénétique similaire et donc probablement dépendants les uns des autres, contraints par la nécessité de conserver l’intégrité d’un processus cellulaire. Parmi ces groupes, certains présentent un enrichissement en ARNnc connus, ce qui nous a permis logiquement de faire de NAPP un outil de détection des ARNnc dans les génomes bactériens. En comparaison à d’autres outils bioinformatiques, les performances de notre programme ont été quantifiées et se sont avérées très favorables dans plusieurs espèces modèles. Mais notre validation a été également expérimentale, permettant la découverte de 7 nouveaux ARNnc chez S. Aureus. L’un de ces ARNnc, RsaOG, a particulièrement retenu notre attention. En effet, fortement exprimé et conservé uniquement dans le genre Staphylococcus, RsaOG pourrait présenter une structure en pseudo-noeud encore jamais observée à notre connaissance dans un ARNnc agissant en trans. Après une étape de prédiction de ses cibles putatives, nous recherchons actuellement à les valider expérimentalement et à intégrer RsaOG dans la physiologie des Staphylocoques. Mais la caractéristique la plus intéressante de NAPP est probablement sa capacité intrinsèque à fournir une indication fonctionnelle sur les éléments qu’il classifie. En effet, l’analyse de l’enrichissement en certaines fonctions des groupes d’éléments codants et non-codants peut, dans le meilleur des cas, constituer un indice sur la fonction des éléments de fonction inconnue contenus dans ces groupes. Ce type d’analyse nous a permis, chez B. Subtilis, d’observer qu’un nouvel ARNnc, que nous avons appelé CsfG, se regroupait phylogénétiquement avec quasiment la moitié des gènes impliqués dans la sporulation. Nous avons donc inféré que CsfG était potentiellement lui-même impliqué dans la sporulation et des études expérimentales et in-silico nous ont permis de confirmer l’implication de CsfG dans la sporulation en validant sa régulation par les facteurs Sigma F et G spécifiques de la formation de la préspore.
Studie of the co-evolution of the coding and non-coding RNAs in bacteria
Non-coding RNAs (ncRNA) form a heterogeneous group of transcribed, non-translated elements that play, through their structure, sequence and mechanistic diversity, an important role in many cellular processes. In recent years, thousands of ncRNA have been experimentally detected in genomes and ncRNAs are now accepted as key components of the cellular biology of Eukaryota, Prokaryota and Archaea. Despite these recent advances, the experimental detection of ncRNAs remains a timeconsuming task and is rarely followed by a functional analysis of the identified transcripts. To address this issue, we developed an in-silico method for ncRNA detection in bacterial genomes, named NAPP - Nucleic Acid Phylogenetic Profiling. This method derives from phylogenetic profiling, a method used to predict the function of unknown proteins. Based on a reference genome sequence, NAPP computes the co-inheritance of coding and non-coding elements in all available bacterial genomes and clusters elements that share a similar phylogenetic history. Several of these clusters are enriched in known ncRNAs, which enables using NAPP as an ncrNA classifier. Performance benchmarks indicate that NAPP predictive accuracy is equivalent to that of methods designed specifically for ncRNA detection. We further validate our predictions by the description of seven new ncRNAs in S. Aureus. We further studied RsaOG, one of the new S. Aureus small RNAs identified by NAPP. RsaOG is highly expressed and specifically conserved in the Staphylococcus genus. This RNA may involve a pseudoknotted structure, a new observation for a trans-acting ncRNA. After a round of computational target predictions, we are now trying to validate RsaOG targets to integrate this small RNA in Staphylococcus physiology. The most attractive feature of NAPP, however, is its intrinsic capacity to provide functional information on the classified elements. Indeed, functional enrichment of coding and non-coding clusters can, in favorable cases, provide clues about the function of unannotated elements in these clusters. Using this type of functional analysis in B. Subtilis, we focused on CsfG, an ncRNA detected by NAPP. Half of the genes in the CsfG cluster are involved in sporulation and we inferred that CsfG could be a sporulation-related RNA. Experimental and in-silico studies confirmed this prediction, demonstrating that CsfG is directly regulated by two Sigma factors sigG and sigF, that are specific to the prespore formation.