Development of chemogenomic approaches for prediction of protein - ligand interactions

par Brice Hoffmann

Thèse de doctorat en Bio-informatique

Sous la direction de Véronique Stoven.

Soutenue en 2011

à Paris, ENMP .

  • Titre traduit

    Développement d'approches de chémogénomique pour la prédiction des interactions protéine - ligand


  • Résumé

    Cette thèse porte sur le développement de méthodes bioinformatiques permettant la prédiction des interactions protéine - ligand. L'approche employée est d'utiliser le partage entre protéines, des informations connues, à la fois sur les protéines et sur les ligands, afin d'améliorer la prédiction de ces interactions. Les méthodes proposées appartiennent aux méthodes dites de chémogénomique. La première contribution de cette thèse est le développement d'une méthode d'apprentissage statistique pour la prédiction des interactions protéines - ligands par famille. Elle est illustrée dans le cas des GPCRs. Cette méthode comprend la proposition de noyaux pour les protéines qui permettent de prendre en compte la similarité globale des GPCRs par l'utilisation de la hiérarchie issue de l'alignement des séquences de cette famille, et la similarité locale au niveau des sites de fixation des ligands de ces GPCRs grâce à l'utilisation des structures 3D connues des membres de cette famille. Pour cela un jeu de données a été créé afin d'évaluer la capacité de cette méthode à prédire correctement les interactions connues. La deuxième contribution est le développement d'une mesure de similarité entre deux sites de fixation de ligands provenant de deux protéines différentes représentés par des nuages d'atomes en 3D. Cette mesure implique la superposition des poches par rotation et la translation, avec pour but la recherche du meilleur alignement possible en maximisant le regroupement d'atomes ayant des propriétés similaires dans des régions proches de l'espace. Les performances de cette méthodes ont été mesurées à l'aide d'un premier jeu de donnés provenant de la littérature et de deux autres qui ont été créé à cet effet. L'ensemble des résultats de cette thèse montre que les approches de chémogénomique présentent de meilleures performances de prédiction que les approches classique par protéine.


  • Pas de résumé disponible.


  • Résumé

    This thesis focuses on the development of bioinformatics methods for the prediction of protein-ligand interactions. The approach used throughout this thesis is to share the known information, both on proteins and on ligands to improve the performance of predictions. The first contribution is the development of a statistical learning method for the prediction of protein - ligands interactions within a family, and is illustrated in then case of GPCRs. This method involves the proposal of new kernels for proteins which take into account the overall similarity of GPCRs based on a sequenced-based hierarchy, and the local similarity of the ligand binding sites of GPCRs based on known 3D structures of known members of this family. A dataset was created to assess the ability of this method to correctly predict the known interactions. The second contribution is the development of a similarity measure between two ligands binding sites from two different (and potentially unrelated) proteins represented by clouds of atoms in 3D. This measure requires pockets alignments using rotations and translations, with the aim of finding the best possible alignment by maximizing the gathering of atoms with similar properties in the nearby regions of space. The performance of this method were measured using a first dataset described in the literature and two others that were created for this purpose. Overall, the results show that chemogenomics approaches display better prediction performances than classical approaches by proteins.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (147 p.)
  • Annexes : Bibliographie p. 127-147

Où se trouve cette thèse ?

  • Bibliothèque : Mines ParisTech. Bibliothèque.
  • Disponible pour le PEB
  • Cote : EMP 160.677 CCL TH 1322
  • Bibliothèque : Mines ParisTech. Bibliothèque.
  • Non disponible pour le PEB
  • Cote : EMP 160.678 CCL TH 1322
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.