Thèse soutenue

Logique paracohérente pour l’annotation fonctionnelle des génomes au travers de réseaux biologiques

FR  |  
EN
Auteur / Autrice : Jonathan Mercier
Direction : Claudine MédigueDavid Vallenet
Type : Thèse de doctorat
Discipline(s) : Sciences de la vie et de la santé
Date : Soutenance le 15/05/2017
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale Structure et dynamique des systèmes vivants (Gif-sur-Yvette, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Génomique métabolique (Evry, Essonne ; 2000-....)
établissement opérateur d'inscription : Université d'Évry-Val-d'Essonne (1991-....)
Jury : Président / Présidente : Olivier Lespinet
Examinateurs / Examinatrices : Valérie De Crecy-Lagard, Alain Viari
Rapporteurs / Rapporteuses : Marco Pagni, Anne Siegel

Résumé

FR  |  
EN

Face à l’augmentation des capacités de séquençage, on assiste à une accumulation de prédictions in silico dans les banques de séquences biologiques. Cette masse de données dépasse nos capacités d’expertise humaine et, malgré des progrès méthodologiques, ces analyses automatisées produisent de nombreuses erreurs notamment dans la prédiction de la fonction biologique des protéines. Par conséquent, il est nécessaire de se doter d’outils capables de guider l’expertise humaine par une évaluation des prédictions en confrontation avec les connaissances sur l’organisme étudié.GROOLS (pour “Genomic Rule Object-Oriented Logic System”) est un système expert capable de raisonner à partir d’informations incomplètes et contradictoires. Il a été développé afin de devenir l’assistant du biologiste dans un processus d’annotation fonctionnelle de génome intégrant une grande quantité d’information de sources diverses. GROOLS utilise une représentation générique des connaissances sous la forme d’un graphe de concepts qui est orienté et acyclique. Les concepts représentent les différents composants de processus biologiques (e.g. voies métaboliques) et sont connectés par des relations de différents types (i.e. “part-of”, “subtype-of”). Ces "Connaissances-a-priori" représentent des théories dont on souhaite élucider leur présence dans un organisme. Elles vont servir de socle au raisonnement afin d’être évaluées à partir d’observations de type “Prédiction” (e.g. activités enzymatiques prédites) ou “Expectation” (e.g. phénotypes de croissance). Pour cela, GROOLS met en œuvre une logique paraconsistante sur des ensembles de faits que sont les observations. Au travers de différentes règles, les valeurs de “Prédiction” et d’“Expectation” vont être propagées dans le graphe sous la forme d’ensembles de valeurs de vérité. A la fin du raisonnement, une conclusion sera donnée pour chaque "Connaissance-a-priori" en combinant leur valeurs de “Prédiction” et d' “Expectation”. Les valeurs de conclusion peuvent, par exemple, indiquer une “Présence-confirmée” (i.e. fonction prédite et attendue), une “Absence” (i.e. fonction non prédite mais attendue) ou une “Présence-non-attendue” (i.e. fonction prédite mais pas attendue dans l’organisme). Le raisonnement de GROOLS a été appliqué sur plusieurs organismes microbiens avec différentes sources de “Prédictions” (i.e. annotations d’UniProtKB ou de MicroScope) et de processus biologiques (i.e. GenomeProperties et UniPathway). Pour les “Expectations”, des données de phénotype de croissance et les voies de biosynthèse des acides aminés ont été utilisées. Les résultats obtenus permettent rapidement d’évaluer la qualité globale des annotations d’un génome et de proposer aux biologistes des annotations à compléter ou à corriger car contradictoires. Plus généralement, le logiciel GROOLS peut être utilisé pour l’amélioration de la reconstruction du réseau métabolique d’un organisme qui est une étape indispensable à l’obtention d’un modèle métabolique de qualité.