Découverte et exploration des modules conservés de transformations chimiques dans le métabolisme

par Maria Sorokina

Thèse de doctorat en Bioinformatique

Sous la direction de Claudine Médigue et de David Vallenet.

Soutenue le 03-02-2016

à Paris Saclay , dans le cadre de École doctorale Structure et Dynamique des Systèmes Vivants (Gif-sur-Yvette, Essonne) , en partenariat avec Université d'Évry-Val-d'Essonne (établissement opérateur d'inscription) .

Le président du jury était Jean-Loup Faulon.

Le jury était composé de Ludovic Cottret.

Les rapporteurs étaient Christine Froidevaux, Daniel Kahn, Fabien Jourdan.


  • Résumé

    La proportion de séquences protéiques dont la fonction est inconnue dans les bases de données publiques est encore très importante (42% de séquences dans UniProt sont étiquetées comme "hypothetical", "uncharacterized", "unknown" ou encore "putative"). D’autre part, de nombreuses d’activités enzymatiques (environ 30%) demeurent orphelines de séquences. L’identification de modules fonctionnels conservés dans le métabolisme est une piste pour améliorer l’annotation fonctionnelle des protéines par la découverte de nouvelles réactions enzymatiques et voies métaboliques. C’est dans ce contexte que s’inscrit mon travail de thèse qui propose une nouvelle représentation d’un réseau métabolique global où les réactions partageant le même type de transformation chimique sont regroupées en signatures moléculaires de réactions (RMS). La signature d’une réaction est la différence des descripteurs moléculaires de signatures stéréochimiques (Carbonell et al. 2013, http://molsig.sourceforge.net) des produits et des substrats qui interviennent dans celle-ci. Ces RMS sont calculées pour toutes les réactions présentes dans au moins une voie métabolique, bien équilibrées et dont substrats et les produits sont identifiés et possèdent une structure moléculaire. Les RMS permettent de classifier les réactions d’une façon automatique et expert-indépendante et ont une couverture plus importante de l’ensemble des réactions enzymatiques que la classification de la Commission Enzymatique (EC numbers).En partant d’un réseau orienté de réactions, les nœuds-réactions partageant la même RMS sont regroupés dans un seul nœud et les arêtes conservent la connectivité initiale entre les réactions. Plusieurs scores sont ensuite calculés pour chaque chemin dans le réseau de RMS dans le but d’évaluer la conservation des voies métaboliques connues et afin d’en découvrir des nouvelles. Le premier de ces scores, le scoreRea, est calculé en utilisant le nombre moyen de réactions par RMS, et représente la conservation chimique des chemins dans tout le métabolisme. Le deuxième, scoreProt, est basé sur le nombre de protéines associées à chaque RMS et reflète la conservation enzymatique du chemin au travers de l’arbre du vivant. Le score suivant, scoreTopo, est basé sur la centralité PageRank et illustre l’importance topologique d’un enchainement de RMS dans le réseau métabolique. La dernière métrique, le Pathway Conservation Index (PCI) est le nombre de chemins de réactions différents parmi les voies métaboliques connues regroupés dans un chemin de RMS et représente la conservation des transformations chimiques dans la partie connue du métabolisme. Les chemins de RMS les plus conservés sont ensuite identifiés pour comprendre le lien entre les différents types de conservation (chimique, enzymatique et topologique) et le type de processus des voies métaboliques (comme la biosynthèse ou la dégradation). Cette représentation du métabolisme possède un potentiel prédictif intéressant et peut être utilisée pour identifier les parties les plus conservées du métabolisme, ainsi que pour découvrir de nouveaux modules métaboliques. De plus, la combinaison des différents scores peut être utilisée pour prédire le rôle métabolique des nouvelles voies en utilisant des approches d’apprentissage artificiel. Associés aux données de contexte génomique comme les opérons, les chemins conservés de transformations chimiques seront un outil utile pour l’annotation fonctionnelle des gènes et de groupes de gènes de fonction inconnue.

  • Titre traduit

    Chemical transformation modules discovery and exploration in the metabolism


  • Résumé

    The proportion of protein sequences of unknown function in public databases stills very important (42% of UniProt sequences are labelled as "hypothetical", "uncharacterized", "unknown" or "putative"). On the other hand, a number of enzyme activities (about 30%) remain orphan (i.e. there is any known sequence that is linked to this activity). Conserved functional modules identification in the metabolism is one of the possible ways to improve protein functional annotation, by discovering new enzyme reactions and new metabolic pathways. It is in this context that has been developed my PhD thesis, proposing a new representation of the global metabolic network, where reactions sharing the same chemical transformation type are grouped in reaction molecular signatures (RMS). A reaction signature is the difference of its products and substrates stereo signatures molecular descriptors involved in this reaction (Carbonell et al. 2013, http://molsig.sourceforge.net). These RMS are computed for all well balanced reactions involved in at least one metabolic pathway, for which all substrates and products are identified and have an available structure. RMS allow reaction classification in an automatic and expert-independent way and a greater coverage of all enzymatic reactions that the classification of the Enzyme Commission (EC numbers).Starting from a directed reaction network, reaction nodes sharing the same RMS are grouped in a single node, and edges conserve the initial connectivity between reactions. Several scores are then computed for each path in the RMS network in order to assess known metabolic pathways conservation and to discover new ones. The first score, scoreRea, is computed using the average reaction number by RMS and represents the chemical conservation of the path in the whole metabolism. The second one, scoreProt, is based on the protein number associated to each RMS and reflects the enzyme conservation of the path through the tree of life. The next score, scoreTopo, is based on the PageRank centrality and depicts the topological importance of an RMS sequence in the metabolic network. The last metric, the Pathway Conservation Index (PCI) is the number of different reaction paths among known metabolic pathways grouped in a same RMS path. It represents the conservation of chemical transformation sequences in the known part of the metabolism. Most conserved RMS paths are next identified in order to understand the linkage between different conservation types (chemical, enzymatic and topologic) and the biological processes type of metabolic pathways (like biosynthesis or degradation).This metabolism representation has an interesting predictive potential and can be used to identify most conserved parts of the metabolism and to discover new metabolic modules. Moreover, combination of different scores can be used to predict the metabolic role of new pathways using machine learning approaches. Conserved paths of chemical transformations associated to genomic context data will be a useful tool for functional annotation of genes and groups of genes of unknown function.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Informations

  • Détails : 1 vol. (175 p.)
  • Annexes : Bibliogr. p. 158-174

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Evry-Val d'Essonne. Service commun de la documentation. Bibliothèque centrale.
  • Non disponible pour le PEB
  • Cote : 572.4 SOR dec
  • Bibliothèque : Université d'Evry-Val d'Essonne. Service commun de la documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.