Algorithmes multi-critères pour la prédiction de structures d'ARN

par Louis Becquey

Thèse de doctorat en Informatique

Sous la direction de Fariza Tahi et de Eric Angel.

Soutenue le 06-10-2021

à université Paris-Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication , en partenariat avec IBISC - Informatique, BioInformatique, Systèmes Complexes (laboratoire) , AROBAS : Algorithmique, Recherche Opérationnelle, Bioinformatique et Apprentissage Statistique (équipe de recherche) , Université d'Évry-Val-d'Essonne (référent) , Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....) (graduate school) et de Informatique- BioInformatique- Systèmes Complexes / IBISC (laboratoire) .

Le président du jury était Alain Denise.

Le jury était composé de Jérôme Waldispühl, François Major, Marie-Dominique Devignes, Samuela Pasquali.

Les rapporteurs étaient Jérôme Waldispühl, François Major.


  • Résumé

    Les méthodes informatiques de prédiction des structures d'ARN reposent sur deux étapes algorithmiques : proposer des structures (l'échantillonnage), et les trier par pertinence (l'évaluation). Une grande diversité de méthodes d'évaluation existe. Certaines reposent sur des modèles physiques, d'autres sur la similarité à des données déjà observées. Cette thèse propose des méthodes de prédiction de structure combinant deux ou plusieurs critères de tri des solutions, divers d'un point de vue de l'échelle de modélisation (structure secondaire, tertiaire), et du type (theory-based, data-based, compatibilité avec des données expérimentales de sondage chimique). Les méthodes proposées identifient le front de Pareto du problème d'optimisation multiobjectif formé par ces critères. Ceci permet d'identifier des solutions (structures) bien notées selon tous les modèles, et également d'étudier la corrélation entre critères. Les approches présentées exploitent les dernières avancées, comme l'identification de modules ou de réseaux d'interactions récurrents, ainsi que les algorithmes d'apprentissage profond. Deux architectures de réseaux de neurones (un RNN et un CNN) sont adaptées des protéines à l'ARN. Un jeu de données d'ARN est proposé pour entrainer ces réseaux : RNANet. Deux outils logiciels sont proposés : BiORSEO, qui prédit la structure secondaire des ARN sur la base de deux critères (l'un énergétique, l'autre relatif à la présence de modules connus). MOARNA, qui propose des structures 3D gros grains sur la base de 4 critères : l'énergie de la structure secondaire, l'énergie en 3D, la compatibilité avec des données expérimentales de sondage chimique, ou la forme d'une famille connue d'ARN si une famille est identifiée.

  • Titre traduit

    Multi-criteria algorithms for RNA structure prediction


  • Résumé

    Computational RNA structure prediction methods rely on two major algorithmic steps : a sampling step, to propose new structure solutions, and a scoring step to sort the solutions by relevance. A wide diversity of scoring methods exists. Some rely on physical models, some on the similarity to already observed data (so-called data based methods, or knowledge based methods). This thesis proposes structure prediction methods combining two or more scoring criterions, diverse regarding the modelling scale (secondary structure, tertiary structure), their type (theory-based, knowledge-based, compatibility with experimental chemical probing results). The methods describe the Pareto front of the multi-objective optimization problem formed by these criteria. This allows to identify solutions (structures) well scored on each criterion, and to study the correlation between criterions. The presented approaches exploit the latest progresses in the field, like the identification of modules or recurrent interaction networks, and the use of deep learning algorithms. Two neural network architectures (a RNN and a CNN) are adapted from proteins to RNA. A dataset is created to train these networks: RNANet. Two software tools are proposed: the first is called BiORSEO, which predicts the secondary structure based on two criterions (one relative to the structure’s energy, the other relative to the presence of known modules). The second is MOARNA, which predicts coarse-grained 3D structures based on four criterions: energy in 2D and 3D, compatibility with experimental probing results, and with the shape of a known RNA family if one has been identified.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Autre version

Algorithmes multi-critères pour la prédiction de structures d'ARN


Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université d'Evry-Val d'Essonne. Service commun de la documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.

Consulter en bibliothèque

à

Informations

  • Sous le titre : Algorithmes multi-critères pour la prédiction de structures d'ARN
  • Détails : 1 vol. (275 p.)
  • Annexes : Bibliogr. p. 235-262.
La version de soutenance de cette thèse existe aussi sous forme papier.

Où se trouve cette thèse\u00a0?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.