Computational protein design : un outil pour l'ing?nierie des prot?ines et la biologie synth?tique

par David Mignon

Thèse de doctorat en Biologie

Sous la direction de Thomas Simonson.

Soutenue le 20-12-2017

à Paris Saclay , dans le cadre de ?cole doctorale Approches interdisciplinaires : fondements, applications et innovation (Palaiseau, Essonne) , en partenariat avec Laboratoire de biochimie (Palaiseau, Essonne) (laboratoire) , ?cole polytechnique (Palaiseau, Essonne) (?tablissement op?rateur d'inscription) et de Laboratoire de Biochimie de l'Ecole polytechnique / BIOC (laboratoire) .

Le président du jury était Jean-François Gibrat.

Le jury était composé de Thomas Simonson, Alain Denise, Sophie Barbe, Julien Bigot.

Les rapporteurs étaient Yves-Henri Sanejouand.


  • Résumé

    Le ? Computational protein design ? ou CPD est la recherche des s?quences d?acides amin?s compatibles avec une structure prot?ique cibl?e. L?objectif est de concevoir une fonction nouvelle et/ou d?ajouter un nouveau comportement. Le CPD est en d?veloppement dans de notre laboratoire depuis plusieurs ann?es, avec le logiciel Proteus qui a plusieurs succ?s ? son actif.Notre approche utilise un mod?le ?nerg?tique bas? sur la physique et s?appuie sur la diff?rence d??nergie entre l??tat pli? et l??tat d?pli? de la prot?ine. Au cours de cette th?se, nous avons enrichi Proteus sur plusieurs points, avec notamment l?ajout d?une m?thode d?exploration Monte Carlo avec ?change de r?pliques ou REMC. Nous avons compar? trois m?thodes stochastiques pour l?exploration de l?espace de la s?quence : le REMC, le Monte Carlo simple et une heuristique con?ue pour le CPD, le ?Multistart Steepest Descent ? ou MSD. Ces comparaisons portent sur neuf prot?ines de trois familles de structures : SH2, SH3 et PDZ. En utilisant les techniques d?exploration ci-dessus, nous avons ?t? en mesure d?identifier la conformation du minimum global d??nergie ou GMEC pour presque tous les tests dans lesquels jusqu?? 10 positions de la cha?ne polypeptidique ?taient libres de muter (les autres conservant leurs types natifs). Pour les tests avec 20 positions libres de muter, le GMEC a ?t? identifi? dans 2/3 des cas. Globalement, le REMC et le MSD donnent de tr?s bonnes s?quences en termes d??nergie, souvent identiques ou tr?s proches du GMEC. Le MSD a obtenu les meilleurs r?sultats sur les tests ? 30 positions mutables. Le REMC avec huit r?pliques et des param?tres optimis?s a donn? le plus souvent le meilleur r?sultat lorsque toutes les positions peuvent muter. De plus, compar? ? une ?num?ration exacte des s?quences de faible ?nergie, le REMC fournit un ?chantillon de s?quences de grande diversit?.Dans la seconde partie de ce travail, nous avons test? notre mod?le pour la conception de domaines PDZ. Pour l??tat pli?,nous avons utilis? deux variantes d?un mod?le de solvant GB. La premi?re utilise une fronti?re di?lectrique prot?ine/solvant effective moyenne ; la seconde, plus rigoureuse, utilise une fronti?re exacte qui fluctue le long de la trajectoire MC. Pour caract?riser l??tat d?pli?, nous utilisons un ensemble de potentiels chimiques d?acide amin? ou ?nergies de r?f?rences. Ces ?nergies de r?f?rences sont d?termin?es par maximisation d?une fonction de vraisemblance afin de reproduire les fr?quences d?acides amin?s des domaines PDZ naturels. Les s?quences con?ues par Proteus ont ?t? compar?es aux s?quences naturelles. Nos s?quences sont globalement similaires aux s?quences Pfam, au sens des scoresBLOSUM40, avec des scores particuli?rement ?lev?s pour les r?sidus au c?ur de la prot?ine. La variante de GB la plus rigoureuse donne toujours des s?quences similaires ? des homologues naturels mod?r?ment ?loign?s et l?outil de reconnaissance de plis Super family appliqu? ? ces s?quences donne une reconnaissance parfaite. Nos s?quences ont ?galement ?t? compar?es ? celles du logiciel Rosetta. La qualit?, selon les m?mes crit?res que pr?c?demment, est tr?s comparable, mais les s?quences Rosetta pr?sentent moins de mutations que les s?quences Proteus.

  • Titre traduit

    Computational protein design : a tool for protein engineering and synthetic biology


  • Résumé

    Computational Protein Design, or CPD is the search for the amino acid sequences compatible with a targeted protein structure. The goal is to design a new function and/or add a new behavior. CPD has been developed in our laboratory for several years, with the software Proteus which has several successes to its credit. Our approach uses a physics-based energy model, and relies on the energy difference between the folded and unfolded states of the protein. During this thesis, we enriched Proteus on several points, including the addition of a Monte Carlo exploration method with Replica Exchange or REMC. We compared extensively three stochastic methods for the exploration of sequence space: REMC, plain Monte Carlo and a heuristic designed for CPD: Multistart Steepest Descent or MSD.These comparisons concerned nine proteins from three structural families: SH2, SH3 and PDZ. Using the exploration techniques above, we were able to identify the Global Minimum EnergyConformation, or GMEC for nearly all the test cases where up to10 positions of the polypeptide chain were free to mutate (the others retaining their native types). For the tests where 20positions were free to mutate, the GMEC was identified in 2/3 of the cases. Overall, REMC and MSD give very good sequences in terms of energy, often identical or very close to the GMEC. MSDperformed best in the tests with 30 mutating positions. REMCwith eight replicas and optimized parameters often gave the best result when all positions could mutate. Moreover, compared to an exact enumeration of the low energy sequences, REMC provided a sample of sequences with a high sequence diversity.In the second part of this work, we tested our CPD model forPDZ domain design. For the folded state, we used two variants ofa GB solvent model. The first used a mean, effective protein/solvent dielectric boundary; the second one, more rigorous, used an exact boundary that flucutated over the MCtrajectory. To characterize the unfolded state, we used a set of amino acid chemical potentials or reference energies. These reference energies were determined by maximizing a likelihoodfunction so as to reproduce the amino acid frequencies in naturalPDZ domains. The sequences designed by Proteus were compared to the natural sequences. Our sequences are globally similar to the Pfam sequences, in the sense of the BLOSUM40scores, with especially high scores for the residues in the core ofthe protein. The more rigorous GB variant always gives sequences similar to moderately distant natural homologues and perfect recognition by the the Super family fold recognition tool.Our sequences were also compared to those produced by the Rosetta software. The quality, according to the same criteria as before, was very similar, but the Rosetta sequences exhibit fewer mutations than the Proteus sequences.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : École polytechnique. Bibliothèque Centrale.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.