Comparison of homologous protein sequences using direct coupling information by pairwise Potts model alignments

par Hugo Talibart

Thèse de doctorat en Informatique

Sous la direction de Jacques Nicolas et de François Coste.

Soutenue le 24-02-2021

à Rennes 1 , dans le cadre de MATHSTIC , en partenariat avec Institut de recherche en informatique et systèmes aléatoires (Rennes) (laboratoire) et de LinkMedia (laboratoire) .

Le président du jury était Guillaume Gravier.

Le jury était composé de Julien Martin, Thomas Schiex.

Les rapporteurs étaient Sean Eddy, Martin Weigt.

  • Titre traduit

    Comparaison de protéines homologues avec dépendances entre positions par alignement de modèles de Potts


  • Résumé

    Pour attribuer des annotations de structure et de fonction au nombre toujours croissant de protéines séquencées, la principale approche consiste à utiliser des méthodes de recherche d'homologues basées sur des alignements significatifs de séquences à des protéines ou familles de protéines déjà annotées. Bien que les méthodes existantes soient performantes, elles ne prennent pas en compte la co-évolution entre les résidus. Dans cette thèse, nous proposons de tirer parti d'avancées récentes dans le domaine de la prédiction de contact en représentant les protéines par des modèles de Potts, qui modélisent les couplages directs entre les positions en plus de la composition positionnelle, et de comparer les protéines en alignant ces modèles. Cette nouvelle utilisation des modèles de Potts nous a amenés à identifier de nouveaux critères pour leur construction dans un idéal de canonicité. Dû aux dépendances distantes, le problème d'alignement de deux modèles de Potts est NP-difficile. Nous avons introduit ici une méthode basée sur la formulation de l'alignement comme un problème de programmation linéaire en nombres entiers, dont la solution exacte peut être trouvée en temps raisonnable. Nos résultats suggèrent que prendre en compte les couplages directs permet d'améliorer la qualité de l'alignement d'homologues plus lointains et pourrait ainsi améliorer la détection d'homologie lointaine.


  • Résumé

    To assign structural and functional annotations to the ever increasing amount of sequenced proteins, the main approach relies on sequence-based homology search methods based on significant alignments of query sequences to annotated proteins or protein families. While powerful, existing approaches do not take coevolution between residues into account. Taking advantage of recent advances in the field of contact prediction, in this thesis we propose to represent proteins by Potts models, which model direct couplings between positions in addition to positional composition, and to compare proteins by aligning these models. This novel application of Potts models raised further requirements for their construction, and we identified several key points towards building more comparable Potts models, towards an ideal of canonicity. Due to non-local dependencies, the problem of aligning Potts models is NP-hard. Here, we introduced a method based on an Integer Linear Programming formulation of the problem which can be optimally solved in tractable time. Our first results suggest that taking pairwise couplings into account can improve the alignment of remote homologs and could thus improve remote homology detection.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Rennes I. Service commun de la documentation. Bibliothèque de ressources en ligne.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.