Inférences démographiques et historiques à partir de données génomiques sous des modèles spatialisés réalistes : vers une prise en compte du paysage

par Thimothée Virgoulay

Projet de thèse en Génétique et génomique

Sous la direction de François Rousset, Raphael Leblois et de Jean-Michel Marin.

Thèses en préparation à Montpellier , dans le cadre de Biodiversité, Agriculture, Alimentation, Environnement, Terre, Eau (Montpellier ; École Doctorale ; 2015-...) , en partenariat avec ISEM - Institut des Sciences de l'Evolution de Montpellier (laboratoire) depuis le 30-09-2018 .


  • Résumé

    L'analyse du polymorphisme génétique neutre permet d'estimer des paramètres démographiques et historiques des populations tels que des tailles ou des densités de population, des paramètres de dispersion, des temps de divergence ou des changements démographiques passés. Ces analyses reposent sur la combinaison (1) de modèles stochastiques de l'évolution des populations tels que le coalescent de Kingman (1982) pour des locus indépendants ou le graphe ancestral de recombinaison (Hudson 1983, Griffiths et Marjoram 1997) prenant en compte la recombinaison entre séquences ; et (2) des méthodes d'inférence statistique, dont les plus puissantes sont basées sur l'estimation de la vraisemblance pour les modèles d'évolution les plus simples (Kuhner 2009, Rousset et al. 2018), ou sur la comparaison de simulations avec les jeux de données réels (à travers un ensemble de statistiques résumées) pour les modèles plus complexes (méthodes « Approximate Bayesian Computation » ABC, Beaumont 2010, Marin et al. 2012). Ces méthodes d'inférences de génétique des populations ont énormément évolué ces 10 dernières années, notamment pour s'adapter au changement drastique du type et de la taille des jeux de données génétiques/génomiques dû au développement rapide des techniques de séquençage (« Next Generation Sequencing » NGS). L'enjeu de cette thèse est de développer et tester des outils inférentiels adaptés à une classe bien spécifique de modèles stochastiques de génétique des populations : les modèles démographiques spatialisés. En effet, chez de nombreuses espèces, la dispersion des individus est limitée dans l'espace: les individus se reproduisent préférentiellement avec des individus proches géographiquement. De plus, de nombreuses populations montrent une distribution spatiale des individus plutôt continue qu'agrégée en sous-populations panmictiques. Les modèles spatialisés d'isolement par la distance (IBD) en habitat continu prennent en compte ces caractéristiques, et permettent notamment d'estimer certaines caractéristiques de dispersion et de densité des populations. Cependant, malgré l'explosion récente des développements méthodologiques cités précédemment, le développement de nouvelles méthodes d'analyses spatialisées reste relativement limité, du fait certainement de la lourdeur de mise en œuvre des méthodes d'inférence sur des données démo-génétiques spatialisées et de la relative rareté des données génomiques individuelles géo-référencées disponibles encore récemment. Les principales méthodes d'inférence existantes sont encore basées sur l'utilisation des F-statistiques, et permettent uniquement l'estimation de la taille de voisinage, le produit de la densité par la dispersion (Rousset 1997, 2000). Une méthode d'inférence par maximum de vraisemblance, et utilisant donc toute l'information des données génétiques, a été développée plus récemment, mais ne peut considérer de façon complètement satisfaisante des populations continues ni un très grand nombre de marqueurs génétiques (Rousset & Leblois 2012). Cependant, la récente mise au point de nouvelle méthodes d'inférences basées sur la simulation ont permis de gagner un facteur 10 à 100 en terme de vitesse (« Approximate Bayesian Computation using Random Forest », ABC-RF, Pudlo et al. 2015, Marin et al. 2017 ; ou « the summary-likelihood method », SL, implémentée dans le package R Infusion, Rousset 2016) et les coûts d'obtention de génomes individuels en grand nombre a largement baissé. Ces deux avancées majeures permettent aujourd'hui de considérer des modèles spatialisés réalistes pour lesquels la simulation est relativement lente, ainsi qu'un très grand nombre de marqueurs, afin d'inférer avec plus de détails et de précision le fonctionnement démographiques des populations dans l'espace et dans le temps que ce qui est permis avec les méthodes actuelles. Le but de ce projet est donc de développer, tester et appliquer de nouvelles méthodes d'inférences de paramètres démographiques et historiques (dispersion, densités, barrières aux flux de gènes, changements démographiques passés, contacts secondaires, etc) sous des modèles spatialisés, en partant de modèles simples homogènes dans le temps et dans l'espace pour aller vers des modèles de plus en plus réalistes avec hétérogénéités spatiales et temporelles. En effet, l'explosion de la quantité des données disponibles, tant en termes de nombre de marqueurs qu'en nombre d'individus, laissent supposer que l'on pourra s'intéresser à des signaux génétiques faibles et complexes laissés par des processus démographiques et historiques de plus en plus fins. Nous pensons même qu'in fine, l'influence du paysage sur la structuration spatiale fine des populations pourra ainsi être prise en compte dans les inférences puis utilisée pour faire des prédictions sur l'évolution future de la biodiversité neutre, notamment dans le contexte des changements globaux que nous vivons. Cette thèse fera suite à deux projets de Master2 ayant lieu cette année, un portant sur une première phase de développement d'un nouveau simulateur de données génomique sous des modèles démographiques spatialisés de type IBD généralisés, et le second sur une première approche exploratoire de l'inférence de la dispersion et de la densité par ABC-FR et SL sous IBD simple. L'étudiant.e continuera donc ce travail préliminaire et travaillera en parallèle sur l'implémentation du simulateur, des statistiques résumées et l'adaptation des méthodes d'inférences, en faisant des tests approfondis sous différents modèles démographiques motivés par l'analyse de jeux de données réels (voir ci dessous). Le premier volet de cette thèse a pour objectif l'implémentation/l'enrichissement d'un nouveau simulateur de données génomiques basé sur des algorithmes de coalescence pouvant considérer des modèles spatialisés réalistes, dans le but de l'utiliser pour faire de l'inférence démographique et historique. Les techniques modernes d'inférence par simulation nécessitant des algorithmes efficaces, autant en terme de vitesse d'exécution des calculs que de l'espace mémoire nécessaire, un effort important sera mis sur le choix et les combinaisons possibles (1) des méthodes de stockage et d'indexation des graphes ancestraux de recombinaison, arbres de coalescence et des génomes simulés (e.g. Kelleher et al. 2016), (2) des algorithmes de coalescence (exacts en génération par génération, Leblois et al. 2009 ; approximations en temps exponentiels, Hudson 1990), (3) des algorithmes de de recombinaison (graphe ancestral de recombinaison exact, Griffiths et Marjoram 1997 ;approximation SMC' de Marjoram et Wall 2006) , et (4) des algorithmes de calculs des statistiques résumées (cf. volet 2 ci dessous). Le code développé sera constamment validé par des tests unitaires et par comparaison avec des résultats analytiques et de simulations issues d'autres programmes moins efficaces tels que IBDSim pour l'aspect spatial (Leblois et al. 2009) et msPrime pour l'aspect génomique et recombinaison (Kelleher et al. 2016). Cette partie du projet vise le développement d'un logiciel autonome, open source, collaboratif (Git) et développé en intégration continue. Il sera construit sur les principes de la programmation utilisant les nouveautés des standards C++11/14 voire 17, de manière à produire un code lisible, concis, et optimisé pour être facilement modifiable et réutilisable par quiconque. Cette partie comporte donc aussi bien de l'algorithmique, de l'architecture logiciel que du développement C++, le tout teinté d'optimisation et de parallélisation. Le second volet porte sur l'adaptation, le test et la comparaison de nouvelles méthodes d'inférences basées sur la simulation dans le cadre des modèles démographiques spatialisés et des donnée génomiques. A ce jour, nous pensons tester principalement deux approches ayant chacune leur intérêt et limites respectives : (1) la méthode ABC-RF, rapide et pouvant considérer des modèles avec un grand nombre de paramètres. Cette méthode a déjà été pas mal testée et utilisée depuis 2015, notamment dans nos équipes ; et (2) la méthode SL très récemment développée et dont les limites sont donc mal connues. Nous testerons en particulier une variante a priori moins limitée en nombre de paramètres que celle décrite dans la publication Rousset et al. 2017. Dans un objectif final de production et diffusion de méthodes d'analyse de données puissantes, robustes et faciles d'utilisation, l'étudiant.e explorera principalement trois grandes questions : (1) quelles statistiques résumées sont les plus pertinentes pour résumer au mieux l'information contenue dans les données génomiques, quelle est l'information apportée par la prise en compte du déséquilibre de liaison sur de longues séquences ADN et quels paramètres peuvent être estimés à partir de ces statistiques ; (2) que peut apporter l'utilisation de méthodes d'apprentissage automatisées telles que les réseaux de neurones pour réduire le nombre de statistiques résumées ou pour être directement utilisés dans les procédures d'inference par simulation (ABS et SL) sans passer par l'étape de calcul des statistiques résumées ; et (3) quelles sont les performances statistiques des méthodes ABC-RF et SL en fonction du nombre de paramètres des modèles et de leurs niveaux de corrélation, du nombre et types de statistiques résumées utilisées, de l'utilisation des réseaux de neurones et du type de problème posé (i.e. estimation des différents paramètres démographiques ou choix de modèles, voir ci dessous). Pour répondre à ces questions, l'étudiant.e développera une approche de tests par simulation semblable à celle utilisée dans nos précédentes publications (précision et robustesse des estimations, validité des intervalles de confiances/crédibilité et des choix de modèles), complétée par l'analyse de jeux de données réels pour définir des conditions de simulation réalistes. Le troisième volet de la thèse n'est pas une partie en tant que telle mais concerne les différentes questions biologiques visées et les types de modèles spatialisés qui seront utilisés pour y répondre, à travers les volets 1 et 2 décrit ci-dessus. Dans un premier temps, les questions porteront sur l'inférence de paramètres de dispersion, de densité et de tailles de populations dans des modèles homogènes dans le temps et dans l'espace. L'étudiant.e commencera par tester quels paramètres (la taille de voisinage, la forme de la distribution de dispersion, le taux d'émigration, la distance maximale de dispersion, la densité, la taille totale de la population/ de l'habitat, etc) peuvent être estimés, et si l'on peut avec certains types de données, notamment temporelles, séparer ou non les paramètres de dispersion / flux de gènes des densités et tailles de populations. Il/elle s'intéressera ensuite à l'analyse des hétérogénéités spatiales de densité et/ou de dispersion (potentiellement en lien avec le paysage) dans le but de caractériser les zones de l'habitat agissant par exemple comme barrières ou corridors de connectivité. Ces développements rejoignent complètement le champ la « génétique du paysage » (landscape genetics, Manel et al. 2003), domaine qui est resté assez descriptif ou corrélatif (Cushman et al. 2006) et pour lequel nous souhaitons apporter un aspect inférentiel et de choix de modèles. Enfin, dans un troisième temps et selon l'avancement de la thèse, les modèles pourront être étendus pour considérer des variations temporelles des paramètres démographiques. Cela permettra (1) d'inférer des changements démographiques historiques sous des modèles spatialisés, telles que des expansions ou contraction spatiales de populations pour l'étude de populations envahissantes ou menacées, ou encore des phénomènes de divergence par contraction suivis de d'expansion et de potentiels contacts secondaires dans le cadre d'études phylogéographiques ; et/ou (2) d'inférer puis prédire l'effet de changements du paysage sur les densités, taille et connectivité des populations. Ces divers développements possibles illustrent bien la généricité des approches développées puisqu'elles pourront s'appliquer à des échelles évolutives spatiales et temporelles très variées : du paysage local ou régional pour des processus agissant sur quelques dizaines/centaine de générations, au continent pour des processus pouvant agir sur des (dizaine de) milliers d'années.

  • Titre traduit

    Demographic and historical inferences from genomic data under realistic spatial models: towards a consideration of the landscape


  • Résumé

    Analysis of neutral genetic polymorphism allows to estimate demographic and historical population parameters such as population sizes or densities, dispersal parameters, divergence times, or past demographic changes. These analyses are based on the combination of (1) stochastic models of population evolution such as the Kingman Coalescent (1982) for independent loci or the ancestral recombination graph (Hudson 1983, Griffiths and Marjoram 1997) taking into account the recombination between sequences; and (2) statistical inference methods, the most powerful ones being based on the likelihood estimation for the simplest evolution models (Kuhner 2009, Rousset et al., 2018), or on the comparison between simulations and a real dataset (through a set of summary statistics) for more complex models ('Approximate Bayesian Computation' methods, ABC, Beaumont 2010, Marin et al., 2012). These methods of population genetics inference have deeply changed over the last 10 years, especially to adapt to the drastic change in the type and size of genetic / genomic datasets due to the rapid development of new sequencing techniques ('Next Generation Sequencing », NGS). The objective of this project is to develop and test inferential tools adapted to a very specific class of stochastic models of population genetics: spatial demographic models. In many species, the dispersal of individuals is limited in space: individuals reproduce preferentially with individuals geographically close to each other. In addition, many populations show a continuous spatial distribution of individuals rather than individuals aggregated into panmictic subpopulations. Spatial models of isolation by distance (IBD) in continuous habitat take these characteristics into account, and in particular make it possible to estimate some characteristics of dispersal and population density. However, despite the recent explosion of methodological developments mentioned above, the development of new spatial methods of analysis remains relatively limited, certainly due to the complexity of the implementation of inference methods on spatialized demo-genetic data and the relative scarcity of geo-referenced individual genomic data that was still observed recently. The main existing methods of inference are still based on the use of F-statistics, and only allow the estimation of the neighborhood size, the product of the density by some characteristic of the dispersal (Rousset 1997, 2000). A method of maximum likelihood inference, thus using all the information of the genetic data, has been developed more recently, but can not consider in a completely satisfactory way continuous populations nor a very large number of genetic markers (Rousset & Leblois 2012). However, the recent development of new simulation-based inference methods has resulted in a gain of a factor 10 to 100 in terms of speed ('Approximate Bayesian Computation using Random Forest', ABC-RF, Pudlo et al. Marin et al., 2017, or 'the summary-likelihood method', SL, implemented in the R Infusion package, Rousset 2016) and the cost of obtaining large numbers of individual genomes has dropped significantly. These two major advances make it possible today to consider realistic spatial models for which the simulation is relatively slow, as well as a very large number of markers, in order to infer the demographic functioning of populations in space and time in more details and with a better precision than what is allowed with current methods. The aim of this project is therefore to develop, test and apply new methods of inferences of demographic and historical parameters (dispersal, densities, barriers to gene flow, past demographic changes, secondary contacts, etc.) under spatial models, starting from simple homogeneous models in time and space to move towards more and more realistic models with spatial and temporal heterogeneities. Indeed, the explosion of the quantity of data available, both in terms of number of markers and number of individuals, suggests that we may now study weak and complex genetic signals left by more and more fine demographic and historical processes. We even think that, in fine, the influence of the landscape on the fine scale spatial population structure may soon be taken into account in the inferences and then used to make predictions on the future evolution of neutral biodiversity, in particular in the context of global changes we are experiencing. This PhD project will follow two Master2 projects taking place this year, one on a first development phase of a new genomic data simulator under generalized IBD-type spatial demographic models, and the second on a first exploratory approach of the inference of dispersal and density by ABC-FR and SL under simple homogenous IBD. The PhD candidate will thus continue this preliminary work and will work in parallel on the implementation of the simulator, the computation of summary statistics and the adaptation of inference methods, and regularly run extensive tests under different demographic models motivated by the analysis of real data sets (see below). The first part of this PhD project aims at the implementation / enrichment of a new genomic data simulator based on coalescent algorithms that can consider realistic spatial models, in order to use it to make demographic and historical inferences. Since modern simulation inference techniques require efficient algorithms, both in terms of computational execution speed and memory requirement, an important effort will be made on the choice and possible combinations of (1) storage and indexing method for ancestral recombination graphs, coalescence trees and simulated genomes (eg Kelleher et al., 2016), (2) coalescent algorithms (exact “generation by generation”, Leblois et al., 2009; with exponential time approximations , Hudson 1990), (3) recombination algorithms (exact ancestral recombination graph, Griffiths and Marjoram 1997, SMC approximation of Marjoram and Wall 2006), and (4) algorithms for calculating summary statistics (see part 2 below). The developed code will be constantly validated by unit tests and by comparison with analytical results and simulations from other less efficient programs such as IBDSim for the spatial aspects (Leblois et al., 2009) and msPrime for the genomic and recombination aspects (Kelleher et al., 2016). This part of the project aims to develop an autonomous software, open source, collaborative (Git) and developed in continuous integration. It will be built on the principles of programming based on the novelties of the C ++ 11/14 or even 17 standards, in order to produce a code that is readable, concise, and optimized to be easily modifiable and reusable by anyone. This part includes both algorithmic, software architecture and C ++ development, all tinged with optimization and parallelization. The second part focuses on the adaptation, testing and comparison of new simulation-based inference methods in the context of spatial demographic models and genomic data. To date, we intend to test two approaches, each with their respective interests and limits: (1) the ABC-RF method, which is fast and can consider models with a large number of parameters. This method has already been tested and used since 2015, especially in our research teams; and (2) the very recently developed SL method, whose limits are therefore poorly known. We will test in particular a variant a priori less limited in number of parameters than that described in the publication Rousset et al. 2017. With the ultimate goal of producing and disseminating powerful, robust and easy-to-use data analysis methods, the PhD candidate will explore three main questions: (1) which summary statistics are most relevant to best summarize the information contained in the genomic data, what is the information provided by linkage disequilibrium over long DNA sequences and what parameters can be estimated from these statistics; (2) what improvement may provide the use of machine learning methods such as neural networks to reduce the number of summary statistics or to be directly used in simulation inference procedures (ABC and SL) without summary statistics computation; and (3) what are the statistical performances of the ABC-RF and SL methods as a function of the number of model parameters and their correlation levels, the number and types of summary statistics used, the use of neural networks and the type of question asked (i.e. estimation of different demographic parameters or model choice, see below). To answer these questions, the PhD candidate will develop a simulation test approach similar to that used in our previous publications (precision and robustness of the estimates, validity of confidence / credibility intervals and model choice procedures), completed by the analysis of real datasets to define realistic simulation conditions. The third part of the project is not a part as such, but concerns the different biological questions involved and types of spatial models that will be used to answer them, through parts 1 and 2 described above. As a first step, the questions will focus on the inference of dispersal parameters, density and population sizes in homogeneous models in space and time. The PhD candidate will start by testing which parameters (neighbourhood size, shape of dispersal distribution, emigration rate, maximum dispersal distance, density, total population / habitat size , etc.) can be estimated, and if certain types of data, including temporal, may allow to separate the parameters of dispersion / gene flow from population densities and sizes. He / she will then start to consider moidels with spatial heterogeneities of density and / or dispersal (potentially related to the landscape) in order to characterize habitat areas acting for example as barriers or corridors of connectivity. These developments are completely in line with the field of 'landscape genetics' (Manel et al., 2003), a field that has remained rather descriptive or correlative (Cushman et al., 2006) and for which we wish to bring more inferential and model choice methods. Finally, in a third step and according to the progress of the previous work, the spatial models will be extended to consider temporal variations of the demographic parameters. This will allow (1) to infer historical demographic changes under spatial models, such as spatial expansions or contractions of populations for the study of invasive or threatened populations, or processes of divergence by population/habitat contraction followed by spatial expansions and potential secondary contacts often studied in phylogeography; and / or (2) to infer and then predict the effect of landscape changes on population densities, size and connectivity. All these various developments illustrate the genericity of the developed approaches as they can be applied to very different spatial and temporal scales of evolution: from the local or regional landscape for processes acting over a few tens / hundreds of generations, to the continent for processes that can act on tens of thousands of years.