Algorithmes basés sur la programmation mathématique multi-objective pour la prédiction interactive de structures “quaternaires” d'ARNs

par Audrey Legendre

Projet de thèse en Informatique

Sous la direction de Fariza Tahi et de Eric Angel.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne) , en partenariat avec IBISC - Informatique, Biologie Intégrative, & Systèmes Complexes (laboratoire) , AROBAS : Algorithmique, Recherche Opérationnelle, Bioinformatique et Apprentissage Statistique (equipe de recherche) et de Université d'Évry-Val-d'Essonne (établissement de préparation de la thèse) depuis le 01-10-2016 .


  • Résumé

    Dans ce projet de thèse, nous proposons de développer un algorithme pour prédire les structures secondaires et “quaternaires” des ARNs grâce à la programmation linéaire. Les structures prédites incluront les pseudonœuds. Dans la nature, la structure n'est pas toujours la structure optimale d'un point de vue énergétique ou probabiliste. Notre algorithme prédira un ensemble des meilleures structures possibles en utilisant des méthodes spécifiques à la programmation linéaire. Il combinera plusieurs modèles (énergétique, probabiliste et comparatif) afin de tirer partie de chacun, nous utiliserons pour cela la programmation multi-objectif. L'algorithme prendra en compte des données expérimentales comme des données de SHAPE qui augmentent beaucoup la précision des prédictions. De plus, nous voudrions prédire les interactions entre les ARNs mais également entre les ARNs et les protéines. Enfin, l'algorithme sera implémenté sous forme d'une infrastructure interactive, afin que les experts du domaine, les biologistes puissent guider éventuellement la prédiction, le paramétrage ou choisir parmi plusieurs solutions possibles.

  • Titre traduit

    Algorithms based on multi-objective mathematical programming for interactive prediction of RNA 'quaternary' structures


  • Résumé

    In this thesis project we propose to develop an algorithm to predict secondary and "quaternary" RNA structures with linear programming. Predicted structures will include pseudoknots. In nature, the RNA's structures aren't always the best ones energetically or probabilistically. Our algorithm will predict a pool of the k best structures using linear programming specific methods. It will combine several models (energetic, probabilistic and comparative) to take advantage of each, to do that we will use multi-objective linear programming. The algorithm will be able to take as input experimental data like SHAPE data that highly raise the accuracy of the predicted structures. Furthermore, we would to predict RNA-RNA and RNA-protein interactions. Finally, the algorithm will be implemented as an interactive infrastructure, so that domain experts, i.e. biologists, can eventually guide the prediction, the settings or choose from several possible solutions.