Thèse soutenue

Développement et applications de méthodes bioinformatiques pour l'identification des répétitions en tandem dans les structures des protéines

FR  |  
EN
Auteur / Autrice : Phuong Do Viet
Direction : Catherine Bonne-AndreaAndrey Kajava
Type : Thèse de doctorat
Discipline(s) : Biologie Santé
Date : Soutenance le 17/03/2016
Etablissement(s) : Montpellier en cotutelle avec Institut Polytechnique (Hanoï)
Ecole(s) doctorale(s) : Sciences Chimiques et Biologiques pour la Santé (Montpellier ; Ecole Doctorale ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Centre de Recherche de Biochimie Macromoléculaire (Montpellier)
Jury : Examinateurs / Examinatrices : Catherine Bonne-Andrea, Andrey Kajava, Alexandre de Brevern, Rumen Andonov
Rapporteurs / Rapporteuses : Alexandre de Brevern, Rumen Andonov

Résumé

FR  |  
EN

Les structures protéiques peuvent être divisées en répétitives et apériodiques, les structures apériodiques correspondant pour la plupart à des protéines globulaires. Les protéines répétitives (PRs) contiennent des unités de répétitions adjacentes, appelées séquences répétées en tandem (TRs). Les PRs sont abondantes et ont une importance fonctionnelle fondamentale. De plus de nombreuses études ont démontré l'implication des TRs dans les pathologies humaines. Ainsi, la découverte des PRs et la compréhension de leur relation séquence-structure-fonction, offrent des perspectives de recherche prometteuses.Le développement d’initiatives en génomique structurale, combiné à une meilleure adaptation des techniques de cristallographie et de RMN à l’étude des protéines non globulaires, a permis d’élucider la structure d’un nombre croissant de PRs, d’où la nécessité de mettre en place un système de classification. Les structures répétitives ont été réparties en cinq classes, principalement fondées sur la longueur des TRs: Classe I - agrégats cristallins; Classe II - structures fibreuses; Classe III - structures allongées, dont la stabilité dépend des interactions qui s’établissent entre les motifs répétés. Classe IV - structures répétitives fermées ; Classe V - structures en collier de perles. Les efforts de ces dernières années ont abouti au développement d’outils bioinformatiques utiles à la détection et l'analyse d'éléments répétitifs présents au sein des structures protéiques (3D TRs). En fonction des caractéristiques des répétitions, certaines méthodes fonctionnent mieux que d'autres, mais, jusqu’à présent, aucune ne permettait de couvrir toute la gamme des répétitions. Ce constat nous a incités à développer une nouvelle méthode, appelée détecteur de protéines en tandem (TAPO). TAPO exploite les périodicités des coordonnées atomiques ainsi que d'autres types de représentation structurale, comprenant les chaînes générées par un alphabet conformationnel, les cartes de contact entre résidus, et les arrangements en vecteurs d'éléments de structure secondaire. Actuellement, sept scores, issus des caractéristiques analysées par TAPO, sont combinés à l’aide d’une Machine à Vecteur Support pour produire un score final permettant de différencier les protéines renfermant ou non des 3D TRs. En atteignant 94% de sensibilité et 97% de spécificité pour la référence actuelle, TAPO présente des performances améliorées par rapport aux autres méthodes de pointe. Le développement de TAPO offre de nouvelles opportunités pour l’analyse à grande échelle des protéines renfermant des 3D TRs. Ainsi, notre analyse de la base de données PDB, à l’aide de TAPO, a montré que 19% des protéines contiennent des 3D TRs. L'analyse à grande échelle des structures 3D TRs dans PDB nous a également permis de découvrir plusieurs nouveaux types de structures répétitives, absents de la classification existante et dont certains sont décrits ici.Nous avons entrepris une analyse complète des 3D TRs constitutifs du Rossmann Fold (RF). Notre intérêt pour les RFs a été suscité par le fait que de nombreuses protéines RFs représentent un cas ambigüe vis à vis des structures répétitives et non répétitives. A priori, les unités hélice α - feuillet β des RFs devraient avoir une forte tendance à s’empiler et donc, à former des structures répétitives. Afin de déterminer la fréquence à laquelle les RFs forment de longues unités de répétition empilées, nous avons sélectionné, à l’aide de TAPO, des structures contenant des RFs et les avons classées. Notre analyse montre que les RFs typiques ne peuvent pas être clairement définis comme des structures répétitives mais plutôt comme des unités de structures globulaires, comptant au plus trois répétitions α-β. Des éléments de discussion seront proposés pour tenter d’expliquer cette observation surprenante.