Méthodes à noyau pour l'annotation automatique et la prédiction d'interaction de structures de protéine

par Martial Hue

Thèse de doctorat en Analyse de génomes et modélisation moléculaire

Sous la direction de Emmanuel Barillot et de Jean-Philippe Vert.

Soutenue en 2011

à Paris 7 .

  • Titre traduit

    Kernel methods for automatic annotation and interaction prediction of protein 3D structures


  • Résumé

    De nombreuses structures de protéines sont désormais résolues à débit élevé, et donnent lieu à un besoin d'annotation automatique. Dans cette thèse, nous examinons plusieurs approches d'apprentissage statistique, basées sur les machines à vecteurs de support (SVM). En effet, la SVM offre plusieurs possibilités adaptées à la complexité des structures de protéines et de leurs interactions. Nous proposons de résoudre ces deux problèmes en examinant de nouveaux noyaux positifs. Dans une premième partie, une fonction noyau pour l'annotation de structures de protéines est présentée. Le noyau est basé sur une fonction de similarité appelée MAMMOTH. Les problèmes de classification correspondant à la classification d'enzymes EC, l'annotation structurelle SCOP, et l'annotation Gène Ontology, montrent que le noyau MAMMOTH renvoie de meilleurs résultats que d'autres choix de noyaux ou de classifieurs. Dans une seconde partie, nous implémentons un noyau dans le contexte de la prédiction supervisée d'objets ayant une structure particulière, à savoir des paires d'objets génériques. Le problème de l'inférence d'arêtes manquantes dans un réseau d'interaction de protéines se formule dans ce contexte. Nos résultats sur trois ensembles de données d'interaction entres structures de protéines montrent que le noyau pour paires basé l'apprentissage de métrique (MLPK), combiné avec le noyau MAMMOTH fournit une meilleure performance. Enfin, nous présentons une méthode nouvelle et efficace pour la prédiction supervisée d'interaction entre protéines. Un noyau pour paires est motivé par deux méthodes précédemment publiées, le noyaux pour paires basé sur le produit tensoriel, et le modèle local. Le lien entre les deux approches est explicité dans un cadre commun, qui fournit une généralisation par une interpolation.


  • Pas de résumé disponible.

  • Titre traduit

    = Kernel methods for automatic annotation and interaction prediction of protein 3D structures


  • Résumé

    As large quantities of protein 3D structures are now routinely solved, there is a need for computational tools to automatically annotate protein structures. In this thesis, we investigate several machine learning approaches for this purpose, based on the popular support vector machine (SVM) algorithm. Indeed, the SVM offers several possibilities to overcome the complexity of protein structures, and their interactions. We propose to solve both issues by investigating new positive definite kernels. First, a kernel function for the annotation of protein structures is devised. The kernel is based on a similarity measure called MAMMOTH. Classification tasks corresponding to Enzyme Classification (EC), Structural Classification of Proteins (SCOP), and Gene Ontology (GO) annotation, show that the MAMMOTH kernel significantly outperforms other choices of kernels for protein structures and classifiers. Second, we design a kernel in the context of binary supervised prediction of objects with a specific structure, namely pairs of general objects. The problem of the inference of missing edges in a protein-protein interaction network may be cast in this context. Our results on three benchmarks of interaction between protein structures suggest that the Metric Learning Pairwise Kernel (MLPK), in combination with the MAMMOTH kernel, yield the best performance. Lastly, we introduce a new and efficient learning method for the supervised prediction of protein interaction. A pairwise kernel method is motivated by two previous methods, the Tensor Product Pairwise Kernel (TPPK) and the local model. The connection between the approaches is explicited and the two methods are formulated in a new common framework, that yields to natural generalization by an interpolation.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (150 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 120 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris Diderot - Paris 7. Service commun de la documentation. Bibliothèque Universitaire des Grands Moulins.
  • PEB soumis à condition
  • Cote : TS (2011) 151
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.