Algorithmes multi-critères pour la prédiction de structures d'ARNs

par Louis Becquey

Projet de thèse en Informatique

Sous la direction de Fariza Tahi et de Eric Angel.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) , en partenariat avec IBISC - Informatique, Biologie Intégrative, & Systèmes Complexes (laboratoire) , AROBAS : Algorithmique, Recherche Opérationnelle, Bioinformatique et Apprentissage Statistique (equipe de recherche) et de Université d'Évry-Val-d'Essonne (établissement de préparation de la thèse) depuis le 01-10-2018 .


  • Résumé

    Un des grands défis en bioinformatique structurale est le développement Un des grands défis en bioinformatique structurale est le développement d'outils performants pour la prédiction des structures d'ARNs, notamment les structures tertiaires. Contrairement à la prédiction des structures secondaires, domaine où un grand nombre de méthodes et d'outils ont été développés (avec des performances relatives), il existe très peu d'outils pour la prédiction des structures tertiaires. Les structures tertiaires, structures 3D des molécules d'ARNs, sont pour le moment déterminées par des méthodes expérimentales coûteuse (en temps et en argent) telles que la cristallographie ou la RMC La structure secondaire est le repliement de la structure primaire (la séquence) suite à des appariements (ou interactions) entre les nucléotides composant la séquence, appariements de type Watson-Crick (A-U et G-C) et Wooble (G-U). Il s'agit d'interactions canoniques. Cette structure secondaire est ainsi une première étape vers la structure tertiaire, qui fait intervenir d'autres types d'interactions, qui sont non-canoniques. La structure tertiaire est composée de motifs 3D, dont certains ont été déterminés grâce notamment à des méthodes informatiques [1, 8], et répertoriés dans des bases de données [2]. Dans [3], les motifs 3D ont ainsi été utilisés dans la prédiction des structures secondaires. Ce travail a consisté à prédire dans un premier temps la structure secondaire par des outils classiques existants, puis à modifier la structure prédite de manière à pouvoir y insérer un maximum de motifs. En analysant sur de grands sets de données, il s'avère que l'outil ne permet pas d'améliorer de manière significative la précision des structures prédites, mais au contraire, celles-ci se retrouvent souvent détériorées. Néanmoins, d'autres analyses que nous avons effectuées montrent que dans les structures secondaires de référence (structures considérées réelles), une grande majorité d'entre elles peut inclure un ou plusieurs motifs. Nous proposons ainsi une autre approche pour l'amélioration de la prédiction de la structure secondaire : intégrer la possibilité d'occurrence d'un ou plusieurs motifs dans la structure comme un critère supplémentaire à celui de minimisation d'énergie libre, classiquement utilisé. En effet, la principale approche utilisée dans la prédiction de structure secondaire est la minimisation de l'énergie libre, mais il est maintenant admis que la structure réelle n'est pas forcément celle d'énergie minimale, l'environnement de la structure, notamment ses interactions avec d'autres ARNs et avec des protéines, influençant considérablement la structure. Pour cela, certains outils tels que Biokop [4], développé dans l'équipe, ainsi que pkiss [5] et RNAsubopt [6] génèrent plusieurs solutions possibles. Une analyse des résultats générés par ces différents outils montrent que dans la majorité des cas, la meilleurs solution (la plus proche de la structure réelle) présente un ou plusieurs motifs, et que lorsque la meilleurs solution n'est pas celle d'énergie minimale (et donc n'est pas la solution optimale), c'est parce qu'on n'a pu insérer aucun motif. La première partie de notre projet est donc de développer des méthodes algorithmique et/ou d'optimisation combinatoire pour la prédiction de structure secondaire d'ARN basée sur l'optimisation combinatoire pour combiner le critère d'énergie et le critère d'occurrence de motifs 3D. L'une des approches que nous considérons est l'approche de la programmation mathématique multi-objective. Dans un second temps, l'insertion des motifs 3D dans la structure secondaire nous permettra d'approcher la structure tertiaire, et d'aller ainsi vers la prédiction de structures tertiaires. La secondaire partie du projet consistera à l'utilisation des motifs 3D dans la prédiction de complexes d'ARNs. Un complexe d'ARNs est un ensemble d'ARNs structurés interagissant entre eux [9]. Des études récentes montrent que les motifs 3D interviennent dans les interactions ARN-ARN et ARN-protéines, et dans la fonction de ces ARNs, des mutations dans ces motifs pouvant ainsi altérer la fonction biologique [7]. Ce travail fait suite aux travaux menés dans l'équipe depuis plusieurs années dans le domaine de la bioinformatique des ARNs. Plusieurs algorithmes et outils ont été développés, publiés dans des journaux bioinformatiques et mis à disposition de la communauté scientifique via la plateforme EvryRNA (http://EvryRNA.ibisc.univ-evry.fr), plateforme labélisée Genopole.

  • Titre traduit

    Multi-criteria algorithms for RNA structures prediction


  • Résumé

    One of the big challenges in structural bioinformatics is the development of tools to performer the prediction of the structures of RNAs, in particular the tertiary structures. In contrast to the prediction of secondary structures, a domain where a large number of methods and tools have been developed, there are very few tools for predicting tertiary structures. The tertiary structures, 3D structures of the RNA molecules, are for the moment determined by expensive experimental methods (costly in time and money) such as crystallography or RMC. The secondary structure is the folding of the primary structure (the sequence) following pairings (or interactions) between the nucleotides composing the sequence, Watson-Crick pairings (A-U and G-C) and Wooble (G-U). These are canonical interactions. This secondary structure is a first step towards the tertiary structure, which involves other types of interactions, which are non-canonical. The tertiary structure is composed of 3D patterns, some of which have been determined by computational methods [1], and stored in databases [2]. In [3], 3D patterns were used in the prediction of secondary structures. This work consisted in first predicting the secondary structures through existing tools and then modifying the predicted structure in order to insert a maximum of patterns. By analyzing the results over a large data sets, it turns out that the tool does not significantly improve the accuracy of the predicted structures, but on the contrary, these are often found deteriorated. Nevertheless, other analyzes that we have carried out show that in the secondary reference structures (structures considered as real), a the vast majority of them may include one or more 3D patterns. We propose an alternative approach for improving the prediction of secondary structure: integrate the possibility of occurrence of one or more patterns in the structure as a further criterion to that of minimizing the energy classically used. Indeed, the main approach used in the prediction of secondary structure is the minimization of free energy, but it is now admitted that the real structure is not necessarily that of minimal energy, the environment of the structure, including its interactions with other RNAs and with proteins, greatly influencing the structure. For this reason, some tools such as Biokop [4], developed in the team, as well as pkiss [5] and RNAsubopt [6] generate several possible (suboptimal) solutions. An analysis of the results generated by these different tools shows that in the majority of cases, the best solution (the closest to the actual structure) presents one or more patterns, and that when the best solution is not that of energy minimal (and therefore not the optimal solution), it is because we could not insert no pattern. The first part of our project is therefore to develop an algorithmic method for the prediction of RNA secondary structure based on combinatorial optimization to combine the energy criterion and the criterion of occurrence of 3D patterns. In a second step, the insertion of 3D patterns in the secondary structure will enable us to approach the tertiary structure, and thus move towards the prediction of tertiary structures. The secondary part of the project will involve the use of 3D patterns in the prediction of RNA complexes. An RNA complex is a set of RNAs structured interacting with each other. Recent studies show that 3D patterns intervene in the RNA-RNA and RNA-protein interactions, and in the function of these RNAs, mutations in these motifs may thus alter the function biological [7].