Etude fonctionnelle d'un centre d'interactions protéiques chez Bacillus subtilis par une approche intégrée

par Elodie, Sylviane, Germaine Marchadier

Thèse de doctorat en Sciences biologiques

Sous la direction de Philippe Noirot et de Vincent Fromion.


  • Résumé

    Le protéome qui est l’ensemble des protéines exprimées par un génome, est organisé en réseaux structurés d’interactions protéiques : l’interactome. Dans ces réseaux d’interactions, la plupart des protéines ont un petit nombre d’interactions alors que quelques protéines, appelées centres d’interactions ou hubs, ont un grand nombre de connexions. Cette thèse s’est concentrée sur une question biologique importante : comprendre la fonction biologique d’un cluster de hubs (CoH), découvert chez Bacillus subtilis, et qui se situe à l’interface de plusieurs processus cellulaires essentiels : la réplication de l’ADN, la division cellulaire, la ségrégation des chromosomes, la réponse au stress et la biogenèse de la paroi bactérienne. Les partenaires des protéines du cluster de hub ont tout d’abord été identifiés par la technique du double-hybride en levure, ce qui a permis de le définir de façon rigoureuse au sein d’un réseau composé de 287 protéines connectées par 787 interactions spécifiques. Ce réseau place de nombreuses protéines dans un contexte nouveau, facilitant ainsi l’analyse fonctionnelle des protéines individuelles et des liens entre les grands processus cellulaires. Après avoir réalisé une analyse du contexte génomique des gènes codant pour les protéines du CoH, une démarche de biologie intégrative a été amorcée en analysant des données transcriptomiques hétérogènes disponibles dans des bases de données publiques. L'analyse statistique de ces données a permis d’identifier des groupes de gènes co-régulés avec les gènes du CoH. En première approche, l’analyse des corrélations entre l’expression des gènes à travers diverses conditions a été menée sur la base de l’utilisation classique de la statistique telle que la classification non supervisée. Cette première analyse, nous a permis d'associer certains gènes du hub à des groupes fonctionnels, de valider et d'identifier des régulons. Elle nous a aussi permis de mettre en évidence les limites d’une telle approche et la nécessité de recourir à des méthodes permettant d’identifier les conditions dans lesquelles les gènes sont co-régulés. A cette fin, nous avons (i) généré des données transcriptomiques visant à favoriser l’expression différentielle des gènes codant pour les protéines du CoH et (ii) utilisé des méthodes de bi-clustering, qui permettent d’identifier des groupes de gènes co-exprimés dans un ensemble significatif de conditions. Ceci nous a conduit à identifier des associations d’expression spécifiques de certaines conditions parmi les gènes du CoH. Il nous a donc été possible de combiner deux approches : l'étude du transcriptome et celle de l'interactome, l'une comme l'autre ont été menées de façon systématique à l'échelle du génome complet. L'intégration de ces deux types de données nous permet d'éclairer le contexte fonctionnel de certains gènes de notre étude et d'émettre des hypothèses quant à la nature des interactions entre protéines du cluster de hub. Celui-ci apparaît finalement composé de quelques groupes de protéines co-exprimées (party hubs) capables d’interagir entre eux et avec les autres protéines du CoH exprimées de façon non corrélée (date hubs). Le CoH pourrait donc former un vaste groupe de date hubs dont la fonction pourrait être d’assurer la connexion entre processus cellulaires essentiels quelque soient les conditions environnementales auxquelles B. Subtilis pourrait être exposé. La génération et le traitement d'un tel jeu de données répond à des enjeux scientifiques majeurs, nécessitant la mobilisation des compétences, des connaissances, et des outils pour accéder à une compréhension plus globale du fonctionnement des organismes vivants. Le jeu de données constitué peut être utilisé pour mettre en œuvre d’autres méthodes statistiques ou informatiques. Tout cela nous permettra de disposer de méthodes permettant in fine d’extraire des informations de grands jeux de données en cours de production, ce qui constitue un enjeu majeur de la biologie intégrative.

  • Titre traduit

    Functional exploration of a centre of protein interaction in Bacillus subtilis by an integrative approach


  • Résumé

    The entire complement of proteins expressed by a genome forms the proteome. The proteome is organized in structured networks of protein interactions: the interactome. In these networks, most of the proteins have few interactions whereas a few proteins have many connections: these proteins are called centres of interactions or hubs. This thesis focused on an important biological question: understanding the biological function of a cluster of hubs (CoH), discovered in Bacillus subtilis, and which is located at the interface of several essential cellular processes: DNA replication, cell division, chromosome segregation, stress response and biogenesis of the bacterial cell wall. The partners of the protein of the cluster of hubs were first identified by the technique of two-hybrid in yeast, which helped us to define it rigorously in a network composed of 287 proteins connected by 787 interactions. This network shows many proteins in a new context, thereby facilitate functional analysis of individual proteins and links between the major cellular processes. After conducting a study of the genomic context of genes of the CoH, an integrative biology approach has been initiated by analyzing heterogeneous transcriptome data available in public databases. Statistical analysis of these data identified groups of genes co-regulated with the genes of the cluster of hubs. At first, the analysis of correlations between the expression of genes across various conditions has been performed on the basis of classical statistics such as the unsupervised classification. This first analysis allowed us to associate genes in the CoH to functional groups, to validate and to identify regulons. It also enabled us to highlight the limitations of this approach and the need to resort to methods allowing identification of the conditions in which genes are co-regulated. To this end, we have (i) generated transcriptome data to promote the differential expression of genes coding for proteins CoH and (ii) used bi-clustering methods, to identify groups of genes co -expressed in a wide range of conditions. This led us to identify associations of expression in specific conditions among the genes of the CoH. Therefore, it has been possible to combine two approaches: the study of the transcriptome and the interactome, both of them were conducted in a systematic manner in the whole genome. The integration of these two kinds of data allowed us to clarify the functional context of genes of interest and to make assumptions about the nature of interactions between proteins cluster hub. It appears finally composed of a few groups of co-expressed proteins (party hubs) which can interact together and other proteins expressed in an uncorrelated manner (date hubs). The CoH could form a large group of date hubs whose function could be to ensure the connection between basic cellular processes, whatever the environmental conditions B. Subtilis could be exposed. Generation and processing of such a data set is a major scientific challenge, it require the mobilization of skills, knowledge, and tools to access to a better understanding of living organisms. The constituted data set may be used to implement other statistical methods. All of this will provide methods to ultimately extract information from large data sets which are currently produced. This is the major issue of integrative biology.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (266 p.)
  • Annexes : Bibliogr. p. 189-203

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2009)47
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.