Multi-dimensional probing for RNA secondary structure(s) prediction

par Afaf Saaidi

Thèse de doctorat en Informatique

Sous la direction de Mireille Régnier et de Yann Ponty.

Le président du jury était Bruno Sargueil.

Le jury était composé de Mireille Régnier, Yann Ponty, Fabrice Leclerc, Ronny Lorenz, Pierre Peterlongo.

Les rapporteurs étaient Mathieu Giraud, Alain Laederach.

  • Titre traduit

    Analyse différentielle de données de sondage pour la prédiction des structures d'acides ribonucléiques


  • Résumé

    En bioinformatique structurale, la prédiction de la (des) structure(s) secondaire(s) des acides ribonucléiques (ARNs) constitue une direction de recherche majeure pour comprendre les mécanismes cellulaires. Une approche classique pour la prédiction de la structure postule qu'à l'équilibre thermodynamique, l'ARN adopte plusieurs conformations, caractérisées par leur énergie libre, dans l’ensemble de Boltzmann. Les approches modernes privilégient donc une considération des conformations dominantes. Ces approches voient leur précision limitées par l'imprécision des modèles d'énergie et les restrictions topologiques pesant sur les espaces de conformations.Les données expérimentales peuvent être utilisées pour pallier aux lacunes des méthodes de prédiction. Différents protocoles permettent ainsi la révélation d'informations structurales partielles via une exposition à un réactif chimique/enzymatique, dont l'effet dépend, et est donc révélateur, de la (les) structure(s) adoptée(s). Les données de sondage mono-réactif sont utilisées pour valider et complémenter les modèles d’énergie libre, permettant ainsi d’améliorer la précision des prédictions. En pratique, cependant, les praticiens basent leur modélisation sur des données de sondage produites dans diverses conditions expérimentales, utilisant différents réactifs ou associées à une collection de séquences mutées. Une telle approche intégrative est répandue mais reste manuelle, onéreuse et subjective. Au cours de cette thèse, nous avons développé des méthodes in silico pour une modélisation automatisée de la structure à partir de plusieurs sources de données de sondage.En premier lieu, nous avons établi des pipelines d’analyse automatisés pour l'acquisition de profils de réactivité à partir de données brutes produites à travers une série de protocoles. Nous avons ensuite conçu et implémenté une nouvelle méthode qui permet l'intégration simultanée de plusieurs profils de sondage. Basée sur une combinaison d'échantillonnage de l'ensemble de Boltzmann et de clustering structurel, notre méthode produit des conformations dominantes, stables et compatible avec les données de sondage. En favorisant les structures récurrentes, notre méthode permet d’exploiter la complémentarité entre plusieurs données de sondage. Ses performances dans le cas mono-sondage sont comparables ou meilleures que celles des méthodes prédictives de pointe.Cette méthode a permis de proposer des modèles pour les régions structurées des virus. En collaboration avec des expérimentalistes, nous avons suggéré une structure raffinée de l'IRES du VIH-1 Gag, compatible avec les données de sondage chimiques et enzymatiques, qui nous a permis d’identifier des sites d'interactions putatifs avec le ribosome. Nous avons également modélisé la structure des régions non traduites d'Ebola. Cohérents avec les données de sondage SHAPE et les données de covariation, nos modèles montrent l’existence d'une tige-boucle conservée et stable à l'extrémité 5', une structure typiquement présente dans les génomes viraux pour protéger l'ARN de la dégradation par les nucléases.L’extension de notre méthode pour l’analyse simultanée de variants, appliquée dans un premier temps sur des mutants produits par le protocole Mutate-and-Map et sondés par le DMS, a permis d'enregistrer une amélioration en précision de prédiction. Pour éviter la production systématique de mutants ponctuels et exploiter le protocole récent SHAPEMap, nous avons conçu un protocole expérimental basé sur une mutagenèse non dirigé et le séquençage, où plusieurs ARN mutés sont produits et simultanément sondés. Nous avons traité l’affectation des reads aux mutants de références à l'aide d'une instance de l'algorithme "Expectation-Maximization" dont les résultats préliminaires, sur un échantillon de reads réduit/simulé, ont montré un faible taux d’erreurs d'assignation par rapport à une affectation classique des reads aux séquences d'ARN de référence.


  • Résumé

    In structural bioinformatics, predicting the secondary structure(s) of ribonucleic acids (RNAs) represents a major direction of research to understand cellular mechanisms. A classic approach for structure postulates that, at the thermodynamic equilibrium, RNA adopts its various conformations according to a Boltzmann distribution based on its free energy. Modern approaches, therefore, favor the consideration of the dominant conformations. Such approaches are limited in accuracy due to the imprecision of the energy model and the structure topology restrictions.Experimental data can be used to circumvent the shortcomings of predictive computational methods. RNA probing encompasses a wide array of experimental protocols dedicated to revealing partial structural information through exposure to a chemical or enzymatic reagent, whose effect depends on, and thus reveals, features of its adopted structure(s). Accordingly, single-reagent probing data is used to supplement free-energy models within computational methods, leading to significant gains in prediction accuracy. In practice, however, structural biologists integrate probing data produced in various experimental conditions, using different reagents or over a collection of mutated sequences, to model RNA structure(s). This integrative approach remains manual, time-consuming and arguably subjective in its modeling principles. In this Ph.D., we contributed in silico methods for an automated modeling of RNA structure(s) from multiple sources of probing data.We have first established automated pipelines for the acquisition of reactivity profiles from primary data produced through a variety of protocols (SHAPE, DMS using Capillary Electrophoresis, SHAPE-Map/Ion Torrent). We have designed and implemented a new, versatile, method that simultaneously integrates multiple probing profiles. Based on a combination of Boltzmann sampling and structural clustering, it produces alternative stable conformations jointly supported by a set of probing experiments. As it favors recurrent structures, our method allows exploiting the complementarity of several probing assays. The quality of predictions produced using our method compared favorably against state-of-the-art computational predictive methods on single-probing assays.Our method was used to identify models for structured regions in RNA viruses. In collaboration with experimental partners, we suggested a refined structure of the HIV-1 Gag IRES, showing a good compatibility with chemical and enzymatic probing data. The predicted structure allowed us to build hypotheses on binding sites that are functionally relevant to the translation. We also proposed conserved structures in Ebola Untranslated regions, showing a high consistency with both SHAPE probing and evolutionary data. Our modeling allows us to detect conserved and stable stem-loop at the 5’end of each UTR, a typical structure found in viral genomes to protect the RNA from being degraded by nucleases.Our method was extended to the analysis of sequence variants. We analyzed a collection of DMS probed mutants, produced by the Mutate-and-Map protocol, leading to better structural models for the GIR1 lariat-capping ribozyme than from the sole wild-type sequence. To avoid systematic production of point-wise mutants, and exploit the recent SHAPEMap protocol, we designed an experimental protocol based on undirected mutagenesis and sequencing, where several mutated RNAs are produced and simultaneously probed. Produced reads must then be re-assigned to mutants to establish their reactivity profiles used later for structure modeling. The assignment problem was modeled as a likelihood maximization joint inference of mutational profiles and assignments, and solved using an instance of the "Expectation-Maximization" algorithm. Preliminary results on a reduced/simulated sample of reads showed a remarkable decrease of the reads assignment errors compared to a classic algorithm.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : École polytechnique. Bibliothèque Centrale.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.