Thèse soutenue

Kernel methods for automatic annotation and interaction prediction of protein 3D structures

FR  |  
EN
Auteur / Autrice : Martial Hue
Direction : Emmanuel BarillotJean-Philippe Vert
Type : Thèse de doctorat
Discipline(s) : Analyse de génomes et modélisation moléculaire
Date : Soutenance en 2011
Etablissement(s) : Paris 7

Résumé

FR  |  
EN

De nombreuses structures de protéines sont désormais résolues à débit élevé, et donnent lieu à un besoin d'annotation automatique. Dans cette thèse, nous examinons plusieurs approches d'apprentissage statistique, basées sur les machines à vecteurs de support (SVM). En effet, la SVM offre plusieurs possibilités adaptées à la complexité des structures de protéines et de leurs interactions. Nous proposons de résoudre ces deux problèmes en examinant de nouveaux noyaux positifs. Dans une premième partie, une fonction noyau pour l'annotation de structures de protéines est présentée. Le noyau est basé sur une fonction de similarité appelée MAMMOTH. Les problèmes de classification correspondant à la classification d'enzymes EC, l'annotation structurelle SCOP, et l'annotation Gène Ontology, montrent que le noyau MAMMOTH renvoie de meilleurs résultats que d'autres choix de noyaux ou de classifieurs. Dans une seconde partie, nous implémentons un noyau dans le contexte de la prédiction supervisée d'objets ayant une structure particulière, à savoir des paires d'objets génériques. Le problème de l'inférence d'arêtes manquantes dans un réseau d'interaction de protéines se formule dans ce contexte. Nos résultats sur trois ensembles de données d'interaction entres structures de protéines montrent que le noyau pour paires basé l'apprentissage de métrique (MLPK), combiné avec le noyau MAMMOTH fournit une meilleure performance. Enfin, nous présentons une méthode nouvelle et efficace pour la prédiction supervisée d'interaction entre protéines. Un noyau pour paires est motivé par deux méthodes précédemment publiées, le noyaux pour paires basé sur le produit tensoriel, et le modèle local. Le lien entre les deux approches est explicité dans un cadre commun, qui fournit une généralisation par une interpolation.