Le couplage de méthodes expérimentales et informatiques pour modéliser avec précision les protéines intrinsèquement désordonnées (IDPs)

par Ilinka Clerc

Projet de thèse en Informatique et Télécommunications

Sous la direction de Juan Cortes et de Pau Bernado.

Thèses en préparation à Toulouse, INSA , dans le cadre de École doctorale Mathématiques, informatique et télécommunications , en partenariat avec LAAS - Laboratoire d'Analyse et d'Architecture des Systèmes (laboratoire) et de RIS - Robotique et Interactions (equipe de recherche) depuis le 01-11-2020 .


  • Résumé

    A la différence des protéines globulaires, largement étudiés en biologie structurale, certaines protéines dites IDPs (Intrinsically Disordered Proteins) n'adoptent pas une forme bien définie en solution. Ces protéines ont, du fait de leur flexibilité, des fonctionnalités complémentaires de celles de protéines structurées, et leur dysfonctionnement pourrait être impliqué dans la cause de certaines pathologies comme le cancer. En plus de représenter un intérêt biologique et médical, l'étude des protéines désordonnées pourrait avoir des applications dans les domaines des biotechnologies et des biomatériaux. La modélisation des IDPs est complexe et représente un challenge important. En effet, les protéines désordonnées ne peuvent pas être représentées par une seule conformation. Elles nécessitent des modèles d'ensembles de plusieurs milliers de conformations qui représentent une distribution d'états que la protéine peut adopter en solution. Ces dernières années, le LAAS-CNRS de Toulouse et le CBS de Montpellier ont collaboré sur ce problème et développé une nouvelle approche basée sur un couplage de méthodes expérimentales et informatiques pour générer des ensembles de conformations réalistes. Cette méthode repose sur la construction d'une base de données de tripeptides à partir de structures protéiques à haute résolution. Les modèles obtenus par cette méthode sont en accord avec les données expérimentales dont nous disposons (par NMR ou SAXS) et outrepassent ceux créés avec d'anciennes approches. L'objectif de cette thèse interdisciplinaire serait donc de poursuivre le travail méthodologie sous le co-encadrement de Juan Cortés au LAAS-CNRS et Pau Bernadó au CBS. Il s'agira d'une part d'affiner les modèles, en utilisant des techniques récentes en analyse statistique et apprentissage automatique, et d'autre part d'améliorer la performance, la robustesse et la généralité des outils informatiques. Le prototype logiciel sera testé sur deux IDPs étudiées au CBS, et qui sont importantes d'un point de vue biologique et médical. Suite à cette validation, les outils seront mis à disposition de la communauté scientifique. Globalement, l'objectif final de la thèse est d'obtenir une compréhension plus approfondie de la relation entre les séquences de polypeptides et les structures locales des IDPs, et donc d'accroitre nos connaissances sur ce type de protéines.

  • Titre traduit

    Coupling experimental data and computational methods to accurately model instrinsically disordered proteins (IDPs)


  • Résumé

    In contrast to globular proteins, widely studied in structural biology, IDPs (Intrinsically Disordered Proteins) don't adopt a properly defined structure in solution. The inherent plasticity of these proteins gives them complementary functionalities to structured proteins and their malfunction could be involved in severe pathologies like cancer. In addition to show a biological and medical interest, research on these disordered proteins could find applications in the biotechnology and biomaterial areas. Modeling IDPs is a challenging and complex task. Disordered proteins cannot be represented by only one conformation. Their models must be based on ensembles of thousands of conformations which represent a distribution of states that the protein could adopt in solution. In recent years, researchers at LAAS-CNRS (Toulouse) and CBS (Montpellier) have worked in cooperation on this problem. They have developed a new approach based on the pairing of experimental and computational methods to generate realistic conformational ensembles. The construction of a database of tripeptides conformations extracted from high-resolution experimentally solved protein structures is the key point of this method. Models obtained by this approach fit with experimental data from NMR or SAXS and outperform models achieved by previously existing methods. The goal of this interdisciplinary thesis is to make progress on the methodological work under the co-supervision of Juan Cortés at LAAS-CNRS and Pau Bernadó at CBS. Firstly, we will narrow the models with recent statistical techniques and machine learning methods. Then, we will improve the performance, robustness and generality of our informatic tools. The software prototype will be test on two IDPs studied at CBS which present a biological and medical interest. Following this validation, these tools will become available for the entire scientific community. Globally, the final aim of the thesis is to reach a deeper comprehension of the relationship between polypeptides sequences and the local structures of IDPs, and this way, to increase our knowledge of this type of proteins.