Contributions au développement d'outils computationnels de design de protéine : méthodes et algorithmes de comptage avec garantie

par Clement Viricel

Thèse de doctorat en Mathématiques Appliquées

Sous la direction de Thomas Schiex et de Sophie Barbe.

Soutenue le 18-12-2017

à Toulouse, INSA , dans le cadre de Mathématiques Informatique Télécommunications de Toulouse , en partenariat avec MIAT Mathématiques et Informatique Appliquées Toulouse (laboratoire) et de Mathématiques et Informatique Appliquées de Toulouse / MIAT (laboratoire) .

Le président du jury était Martin Cooper.

Le jury était composé de Thomas Schiex, Sophie Barbe, Raphael Guerois.

Les rapporteurs étaient Frederic Cazals, Christophe Lecoutre.


  • Résumé

    Cette thèse porte sur deux sujets intrinsèquement liés : le calcul de la constante de normalisation d’un champ de Markov et l’estimation de l’affinité de liaison d’un complexe de protéines. Premièrement, afin d’aborder ce problème de comptage #P complet, nous avons développé Z*, basé sur un élagage des quantités de potentiels négligeables. Il s’est montré plus performant que des méthodes de l’état de l’art sur des instances issues d’interaction protéine-protéine. Par la suite, nous avons développé #HBFS, un algorithme avec une garantie anytime, qui s’est révélé plus performant que son prédécesseur. Enfin, nous avons développé BTDZ, un algorithme exact basé sur une décomposition arborescente qui a fait ses preuves sur des instances issues d’interaction intermoléculaire appelées “superhélices”. Ces algorithmes s’appuient sur des méthodes issuse des modèles graphiques : cohérences locales, élimination de variable et décompositions arborescentes. A l’aide de méthodes d’optimisation existantes, de Z* et des fonctions d’énergie de Rosetta, nous avons développé un logiciel open source estimant la constante d’affinité d’un complexe protéine protéine sur une librairie de mutants. Nous avons analysé nos estimations sur un jeu de données de complexes de protéines et nous les avons confronté à deux approches de l’état de l’art. Il en est ressorti que notre outil était qualitativement meilleur que ces méthodes.

  • Titre traduit

    Contribution to protein design tools : counting methods and algorithms


  • Résumé

    This thesis is focused on two intrinsically related subjects : the computation of the normalizing constant of a Markov random field and the estimation of the binding affinity of protein-protein interactions. First, to tackle this #P-complete counting problem, we developed Z*, based on the pruning of negligible potential quantities. It has been shown to be more efficient than various state-of-the-art methods on instances derived from protein-protein interaction models. Then, we developed #HBFS, an anytime guaranteed counting algorithm which proved to be even better than its predecessor. Finally, we developed BTDZ, an exact algorithm based on tree decomposition. BTDZ has already proven its efficiency on intances from coiled coil protein interactions. These algorithms all rely on methods stemming from graphical models : local consistencies, variable elimination and tree decomposition. With the help of existing optimization algorithms, Z* and Rosetta energy functions, we developed a package that estimates the binding affinity of a set of mutants in a protein-protein interaction. We statistically analyzed our esti- mation on a database of binding affinities and confronted it with state-of-the-art methods. It appears that our software is qualitatively better than these methods.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Autre version

Cette thèse a donné lieu à une publication en 2017 par INSA Toulouse [diffusion/distribution] à Toulouse

Contributions au développement d'outils computationnels de design de protéine : méthodes et algorithmes de comptage avec garantie


Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Institut national des sciences appliquées. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.

Consulter en bibliothèque

Cette thèse a donné lieu à une publication en 2017 par INSA Toulouse [diffusion/distribution] à Toulouse

Informations

  • Sous le titre : Contributions au développement d'outils computationnels de design de protéine : méthodes et algorithmes de comptage avec garantie
  • Détails : 1 vol. (vi-162 p.)
  • Annexes : Bibliogr. p.139-161
La version de soutenance de cette thèse existe aussi sous forme papier.

Où se trouve cette thèse\u00a0?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.