Thèse en cours

Annotation fonctionnelle du protéome d'Arabidopsis thaliana via l'analyse et la prédiction de son interactome
FR  |  
EN
Auteur / Autrice : Simon Gosset
Direction : Marie-Hélène Mucchielli-giorgi
Type : Projet de thèse
Discipline(s) : Sciences de la vie et de la santé
Date : Inscription en doctorat le 01/10/2020
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Structure et Dynamique des Systèmes Vivants
Partenaire(s) de recherche : Laboratoire : IPS2 - Institut de Sciences des Plantes de Paris-Saclay
référent : Université d'Évry Val d'Essonne
graduate school : Université Paris-Saclay. Graduate School Life Sciences and Health (2020-....)

Résumé

FR  |  
EN

Contexte Les interactions entre protéines sont des éléments essentiels des systèmes biologiques et leur analyse peut fournir des indications précieuses sur les fonctions des protéines. En particulier, si on représente les interactions entre toutes les protéines d'un organisme (interactome) sous la forme d'un réseau constitué de nœuds qui représentent les protéines et d'arêtes qui représentent leurs interactions, les protéines appartenant à un même processus biologique forment un sous-réseau de protéines très interconnectées. La recherche automatique de tels sous-réseaux permet ainsi d'annoter la fonction des protéines qui les composent. Méthode Nous avons donc développé depuis plusieurs années des approches permettant (i) de construire des réseaux d'interactions protéine-protéine (PPI) par une interrogation systématique de différentes bases de données dédiées aux PPIs et (ii) d'en extraire des sous-réseaux de protéines fortement interconnectées afin d'identifier de nouvelles protéines impliquées dans la biogenèse de complexes protéiques et de modéliser l'assemblage de ces complexes [1,2]. Ces réseaux contiennent des interactions provenant d'expériences de nature très différentes, notamment des méthodes à hauts-débits qui produisant beaucoup de faux positifs (e.g. le double-hybride) qui faussent nos modèles et que nous aimerions donc pouvoir filtrer automatiquement. Par ailleurs, nous avons montré que nos modèles pouvaient être fortement améliorés en introduisant dans les réseaux, des interactions prédites par alignement structural [3]. Nous voulons donc désormais y introduire des interactions prédites par docking moléculaire afin de s'affranchir de l'alignement structural qui ne fonctionne pas pour certaines protéines. Dans ce but, nous avons mis en place des méthodes pour caractériser (i) les interactions entre paires de protéines fonctionnelles et paires non fonctionnelles ainsi que (ii) la propension à l'interaction de l'ensemble de la surface protéique [4]. Objectifs Dans le cadre d'une collaboration avec la plateforme SPOmics (Saclay Plants Omics) de l'IPS2 (Institute of Plant Sciences paris-Saclay), nous disposons d'environ 10000 interactions entre 2700 protéines, identifiées chez Arabidopsis thaliana par la méthode de double hybride [5]. A partir de ces données, nous avons donc construit un réseau d'interactions que nous avons enrichi avec d'autres PPIs provenant de bases de données. Nous voulons désormais explorer ce réseau afin de prédire la fonction des protéines d'Arabidopsis thaliana. L'objectif de cette thèse est donc de mettre au point une méthode d'annotation fonctionnelle des protéines fondée sur la recherche de sous-réseaux de protéines fortement interconnectées dans un réseau où chaque arrête (chaque interaction) est pondérée par une probabilité d'interaction. Ces probabilités seront calculées (1) à partir du nombre de fois où chaque interaction aura été identifiée, en tenant potentiellement compte des scores de qualité associés et (2) grâce à une méthode de prédiction de partenaires fondée entre autre sur leurs propensions à l'interaction (collaboration avec A. Lopes à l'I2BC). Une nouvelle méthode de recherche des sous-réseaux devra donc être développée sous la forme d'un algorithme de partitionnement d'un graphe à arrêtes pondérées.