Logique paracohérente pour l’annotation fonctionnelle des génomes au travers de réseaux biologiques

par Jonathan Mercier

Thèse de doctorat en Sciences de la vie et de la santé

Sous la direction de Claudine Médigue et de David Vallenet.

Soutenue le 15-05-2017

à Paris Saclay , dans le cadre de École doctorale Structure et Dynamique des Systèmes Vivants (Gif-sur-Yvette, Essonne) , en partenariat avec Génomique Métabolique (Evry, Essonne) (laboratoire) et de Université d'Évry-Val-d'Essonne (établissement opérateur d'inscription) .

Le président du jury était Olivier Lespinet.

Le jury était composé de Valérie De Crecy-Lagard, Alain Viari.

Les rapporteurs étaient Marco Pagni, Anne Siegel.


  • Résumé

    Face à l’augmentation des capacités de séquençage, on assiste à une accumulation de prédictions in silico dans les banques de séquences biologiques. Cette masse de données dépasse nos capacités d’expertise humaine et, malgré des progrès méthodologiques, ces analyses automatisées produisent de nombreuses erreurs notamment dans la prédiction de la fonction biologique des protéines. Par conséquent, il est nécessaire de se doter d’outils capables de guider l’expertise humaine par une évaluation des prédictions en confrontation avec les connaissances sur l’organisme étudié.GROOLS (pour “Genomic Rule Object-Oriented Logic System”) est un système expert capable de raisonner à partir d’informations incomplètes et contradictoires. Il a été développé afin de devenir l’assistant du biologiste dans un processus d’annotation fonctionnelle de génome intégrant une grande quantité d’information de sources diverses. GROOLS utilise une représentation générique des connaissances sous la forme d’un graphe de concepts qui est orienté et acyclique. Les concepts représentent les différents composants de processus biologiques (e.g. voies métaboliques) et sont connectés par des relations de différents types (i.e. “part-of”, “subtype-of”). Ces "Connaissances-a-priori" représentent des théories dont on souhaite élucider leur présence dans un organisme. Elles vont servir de socle au raisonnement afin d’être évaluées à partir d’observations de type “Prédiction” (e.g. activités enzymatiques prédites) ou “Expectation” (e.g. phénotypes de croissance). Pour cela, GROOLS met en œuvre une logique paraconsistante sur des ensembles de faits que sont les observations. Au travers de différentes règles, les valeurs de “Prédiction” et d’“Expectation” vont être propagées dans le graphe sous la forme d’ensembles de valeurs de vérité. A la fin du raisonnement, une conclusion sera donnée pour chaque "Connaissance-a-priori" en combinant leur valeurs de “Prédiction” et d' “Expectation”. Les valeurs de conclusion peuvent, par exemple, indiquer une “Présence-confirmée” (i.e. fonction prédite et attendue), une “Absence” (i.e. fonction non prédite mais attendue) ou une “Présence-non-attendue” (i.e. fonction prédite mais pas attendue dans l’organisme). Le raisonnement de GROOLS a été appliqué sur plusieurs organismes microbiens avec différentes sources de “Prédictions” (i.e. annotations d’UniProtKB ou de MicroScope) et de processus biologiques (i.e. GenomeProperties et UniPathway). Pour les “Expectations”, des données de phénotype de croissance et les voies de biosynthèse des acides aminés ont été utilisées. Les résultats obtenus permettent rapidement d’évaluer la qualité globale des annotations d’un génome et de proposer aux biologistes des annotations à compléter ou à corriger car contradictoires. Plus généralement, le logiciel GROOLS peut être utilisé pour l’amélioration de la reconstruction du réseau métabolique d’un organisme qui est une étape indispensable à l’obtention d’un modèle métabolique de qualité.

  • Titre traduit

    Functional genomic annotation with paraconsistent logic through biological network


  • Résumé

    One consequence of increasing sequencing capacity is the the accumulation of in silico predictions in biological sequence databanks. This amount of data exceeds human curation capacity and, despite methodological progress, numerous errors on the prediction of protein functions are made. Therefore, tools are required to guide human expertise in the evaluation of bioinformatics predictions taking into account background knowledge on the studied organism.GROOLS (for “Genomic Rule Object-Oriented Logic System”) is an expert system that is able to reason on incomplete and contradictory information. It was developed with the objective of assisting biologists in the process of genome functional annotation by integrating high quantity of information from various sources. GROOLS adopts a generic representation of knowledge using a directed acyclic graph of concepts that represent the different components of a biological process (e.g. a metabolic pathway) connected by two types of relations (i.e. “part-of” and “subtype-of”). These concepts are called “Prior Knowledge concepts” and correspond to theories for which their presence in an organism needs to be elucidated. They serve as basis for the reasoning and are evaluated from observations of “Prediction” (e.g. a predicted enzymatic activity) or “Expectation” (e.g. growth phenotypes) type. Indeed, GROOLS implements a paraconsistent logic on set of facts that are observations. Using different rules, “Prediction” and “Expectation” values are propagated on the graph as sets of truth values. At the end of the reasoning, a conclusion is given on each “Prior Knowledge concepts” by combining “Prediction” and “Expectation” values. Conclusions may, for example, indicate a “Confirmed-Presence” (i.e. the function is predicted and expected), a “Missing” concept (i.e. the function is expected but not predicted) or an “Unexpected-Presence” (i.e. the function is predicted but not expected in the organisms).GROOLS reasoning was applied on several organisms and with different sources of “Predictions” (i.e. annotations from UniProtKB or MicroScope) and biological processes (i.e. GenomeProperties and UniPathway). For “Expectations”, growth phenotype data and amino-acid biosynthesis pathways were used. GROOLS results are useful to quickly evaluate the overall annotation quality of a genome and to propose annotations to be completed or corrected by a biocurator. More generally, the GROOLS software can be used to improve the reconstruction of the metabolic network of an organism which is an essential step in obtaining a high-quality metabolic model.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.