Amélioration de la précision de prédiction pan-génomique du phénotype par une approche de biologie des systèmes

par Abdou rahmane Wade

Projet de thèse en Sciences agronomiques

Sous la direction de Leopoldo Sanchez rodriguez, Vincent Segura et de Christophe Ambroise.

Thèses en préparation à Paris, Institut agronomique, vétérinaire et forestier de France , dans le cadre de École doctorale Agriculture, Alimentation, Biologie, Environnement, Santé (Paris ; 2015-....) , en partenariat avec BioForA - UMR Biologie intégrée pour la valorisation de la diversité des arbres et de la forêt - UMR0588 INRA Orléans (laboratoire) depuis le 05-02-2019 .


  • Résumé

    • Contexte Les interactions épistatiques constituent un phénomène omniprésent en biologie. Malgré leur contribution à la variation génétique des caractères quantitatifs, leur utilisation dans les modèles d'évaluation pan-génomique (GWE) demeure limitée. Le projet de thèse a pour objectif principal de contourner cette limitation et d'améliorer les prédictions phénotypiques pan-génomiques grâce à l'intégration d'informations contextuelles du système génétique sous-jacent inférées à partir des données ‘omiques' via notamment la construction de réseaux de gènes. Le défi sera donc de déchiffrer la complexité des caractères quantitatifs d'intérêt à l'aide de modèles explicatifs explicites, tout en conservant les qualités prédictives nécessaires pour une sélection opérationnelle. • Questions scientifiques La thèse comporte deux questions scientifiques complémentaires 1) comment formuler une nouvelle évaluation pan-génomique intégrant les couches d'information issues des approches ‘omiques', et quels bénéfices apporte une telle intégration pour la précision de prédiction ? et 2) dans quelle mesure des approches statistiques explicitant des interactions géniques peuvent-elles guider l'inférence des réseaux de gènes? • Plan de travail Cette thèse comportera trois volets, correspondant directement à des propositions d'articles scientifiques qui consistent en : 1) La constitution d'un état de l'art sur la méthodologie existante dédiée à l'inférence de réseaux de gènes et leur utilisation dans les modèles GWE. À notre connaissance, il n'existe pas de méthode unique de référence pour atteindre cet objectif, mais plutôt un ensemble d'approches souvent combinés de façon séquentielle. Parmi ces approches, nous pouvons citer des démarches holistiques sans modèle préalable, comme l'apprentissage machine, et des approches classiques en génétique plus orientées autour d'un modèle préalable, comme les modèles mixtes; 2) L'élaboration d'un pipeline méthodologique dédié aux objectifs du projet. Ce volet méthodologique sera fait en étroite collaboration avec des partenaires apportant une expertise en méthodologie mathématique (Christophe Ambroise, LaMME, Université d'Évry Val d'Essonne) et statistique (Zulma Vitezica, UMR GenPhySE, INRA Occitanie-Toulouse). 3) L'application du pipeline développé précédemment dans le cadre d'une étude sur l'amélioration du peuplier mais aussi de la tomate. Cette thèse s'inscrit dans le cadre du consortium EpiNet (placé dans l'axe SELGEN 'Méthodologie et optimisation de la sélection génomique') qui regroupe des généticiens et des améliorateurs impliqués activement dans la mise en œuvre de modèles GWE chez les espèces ciblées, ainsi que des statisticiens et modélisateurs ayant des compétences dans la construction de réseaux de gènes, la détection de l'épistasie et son utilisation ultérieure dans les modèles GWE.

  • Titre traduit

    Improved genome-based phenotypic predictions with a systems biology approach


  • Résumé

    • Background information Epistatic interactions are a pervasive phenomenon in biology. Despite their contribution to the genetic variation of quantitative traits, their use in pan-genomic evaluation (GWE) models remains limited. The main objective of the PhD project is to circumvent this limitation and improve pan-genomic phenotypic predictions by integrating contextual information from the underlying genetic system inferred from 'omics' data, in particular through the construction of gene networks. The challenge will therefore be to decipher the complexity of quantitative characteristics of interest using explicit explanatory models, while maintaining the predictive qualities necessary for operational breeding. • Scientific issues The thesis includes two complementary scientific questions: 1) how to formulate a new pan-genomic evaluation integrating the layers of information from 'omics' approaches, and what benefits does such integration bring to prediction accuracy? and 2) to what extent can statistical approaches that explain gene interactions guide the inference of gene networks? • Work plan This thesis will be organized in 3 consecutive work-packages corresponding directly to proposals for scientific articles consisting of: 1) The constitution of a state of the art on the existing methodology dedicated to the inference of gene networks and their use in GWE models. To our knowledge, there is no single reference method for achieving this objective, but rather a set of approaches that are often combined sequentially. These approaches include holistic approaches without a prior model, such as machine learning, and classical genetic approaches more oriented around a prior model, such as mixed models; 2) The development of a methodological pipeline dedicated to the objectives of the project. This methodological component will be carried out in close collaboration with partners providing expertise in mathematical methodology (Christophe Ambroise, LaMME, University of Evry Val d'Essonne) and statistics (Zulma Vitezica, UMR GenPhySE, INRA Occitanie-Toulouse). 3) The application of the pipeline previously developed as part of a study on the improvement of poplar but also tomato. This thesis is part of the EpiNet consortium (placed within the SELGEN axis “Methodology and optimization of genomic selection”), which brings together geneticists and breeders actively involved in the implementation of GWE models in targeted species, as well as statisticians and modellers with expertise in gene network construction, epistasis detection and its subsequent use in GWE models.