Extraction de patrons de diversité génomique d'un jeu de données de re-séquençage de riz Asiatique

par Joao Garcia nolasco dourado santos (Santos)

Thèse de doctorat en Génétique et amélioration des plantes

Sous la direction de Jean Christophe Glaszmann.

Thèses en préparation à Montpellier, SupAgro , dans le cadre de Biodiversité, Agriculture, Alimentation, Environnement, Terre, Eau , en partenariat avec AGAP - Amélioration Génétique et Adaptation des Plantes (laboratoire) .


  • Résumé

    Oryza sativa, communément appelé riz asiatique, fait partie d'un genre d'herbe de la famille des poacées. C'est l'une des deux cultures céréalières les plus importantes, cultivée sur environ 3% des terres agricoles du monde et la principale source de calories pour plus de la moitié de la population mondiale. Le riz cultivé moderne comprend des milliers de cultivars présentant des couleurs, des tailles et des formes de grain différentes et adaptés à diverses conditions environnementales. En tant que groupe, il se caractérise par un ensemble d'adaptations morphologiques clés à sa culture par l'homme. Selon les informations dont on dispose actuellement, il s'agit d'un processus très complexe impliquant la sélection séparée de traits de domestication réunis par hybridation et introgression. On peut considérer que les génomes de riz cultivés modernes présentent une image enchevêtrée et incomplète du véritable arbre phylogénétique de l'espèce. Afin de combiner des données génétiques avec des preuves archéologiques, linguistiques et historiques dans un modèle cohérent de l'histoire du riz domestiqué, une description précise du fil évolutif constituant le génome du riz cultivé moderne doit être fournie. Dans le cas du riz, l'ensemble de données 3000 riz génomes (3K RGP 2014) offre une occasion de faire exactement cela. Nous commençons par passer en revue les principaux obstacles à la description de la diversité génomique du riz. Premièrement, les génomes du riz moderne, à l'intérieur et au-delà des grands groupes Indica, Japonica et cAus, consistent en un patchwork hétérogène de contributions de différentes sources. Deuxièmement, une description de travail doit pouvoir répondre à diverses questions de recherche spécifiques, telles que l'identification des origines hybrides et l'identification du matériel génétique sauvage introgressé. Nous avons trouvé que le meilleur chemin était une description en couches du génome du riz. Cela consiste en une caractérisation initiale des haplotypes génomiques locaux basée sur les distributions génétiques locales des échantillons de référence. Informés des mérites et limites de la méthode choisie, nous nous sommes appliqués à la caractérisation de la diversité génomique locale des variétés locales de riz. Des cas d'échanges génétiques probables entre les principaux groupes de riz sont mis en évidence. Des régions étendues de variations partagées entre les groupes et de matériaux étrangers à ces sources apparaissent décrites. À un niveau plus fin, cela nous a permis d'affiner notre compréhension des origines du groupe cBasmati. Nous utilisons ensuite les informations produites sur la proximité des haplotypes locaux avec différents groupes majeurs de riz le long du génome pour approfondir notre compréhension de la nature de ces relations. Ceci constitue la deuxième couche de notre analyse. Grâce à cela, nous obtenons une description plus fine de la composition génétique des structures génétiques Indica et Japonica, révélant ainsi des groupes qui n'avaient pas été décrits auparavant. Nous étendons cette analyse à la variation de Japonica le long des génomes de cBasmati. Nous y avons identifié les signatures de divers sous-taxons provenant de Japonica, des flux de matériaux différenciés qui couvrent des frontières taxonomiques et géographiques, indiquant des mouvements préhistoriques non documentés de ces variétés. Enfin, nous explorons la nature de la variation génétique en isolant plusieurs groupes cryptiques identifiés dans la deuxième couche d'analyse. Nous étudions les distributions des distances génétiques locales séparant ces matériaux d'autres sources domestiquées. Ceci constitue la troisième et dernière couche de notre description du 3K RG. Nous trouvons des preuves indiquant que cette variation est antérieure à la domestication, postulant son incorporation dans le pool de gènes domestiqué par introgression, probablement au cours de l'expansion des formes cultivées.

  • Titre traduit

    Extracting fine genomic patterns of crop diversity from a large sequence data set of Asian rice


  • Résumé

    Oryza sativa, commonly known as Asian rice, is part of a kind of grass of the family Poaceae. It is one of the two most important cereal crops, grown on about 3% of the world's agricultural land, and the main source of calories for more than half of the world's population. Modern cultivated rice includes thousands of cultivars with different colorus, sizes and grain shapes and is adapted to various environmental conditions. As a group, it is characterized by a set of key morphological adaptations to its culture by humans. Current knowledge is that this is the result of a complex process involving the separate selection of domestication traits brought together by hybridization and introgression. Modern cultivated rice genomes can be considered to present an entangled and incomplete picture of the true phylogenetic tree of the species. In order to combine genetic data with archaeological, linguistic and historical evidence in a consistent pattern of domestic rice history, a precise description of the evolutionary thread constituting the genome of modern cultivated rice must be provided. In the case of rice, the 3000 rice genome dataset (3K RGP 2014) provides an opportunity to do just that. We begin by reviewing the main obstacles to describing the genomic diversity of rice. First, modern rice genomes, within and beyond the major Indica, Japonica and cAus groups, consist of a heterogeneous patchwork of contributions from different sources. Second, a job description must be able to answer a variety of specific research questions, such as identification of hybrid origins and identification of introgressed wild genetic material. We found that the best way was a layered description of the rice genome. This consists of an initial characterization of local genomic haplotypes based on the local genetic distributions of the reference samples. Informed of the merits and limitations of the chosen method, we applied ourselves to the characterization of local genomic diversity of rice varieties. Cases of probable genetic exchange between the main rice groups are highlighted. Extensive regions of variation shared between groups and materials foreign to these sources are also describeddescribed. At a finer level, this allowed us to refine our understanding of the origins of the cBasmati group. We then use the information produced on the proximity of local haplotypes with different major rice groups along the genome to further our understanding of the nature of these relationships. This is the second layer of our analysis. With this, we obtain a finer description of the genetic composition of the Indica and Japonica genetic structures, thus revealing groups that had not been previously described. We extend this analysis Japonica variation along the genomes of cBasmati. We have identified the signatures of various sub-taxa from Japonica, differentiated material flows that cover taxonomic and geographical boundaries, indicating undocumented prehistoric movements of these varieties. Finally, we explore the nature of genetic variation by isolating several cryptic groups identified in the second layer of analysis. We study the distributions of local genetic distances separating these materials from other domesticated sources. This is the third and last layer of our description of 3K RG. We find evidence that this variation predates domestication, postulating its incorporation into the domesticated gene pool by introgression, probably during the expansion of the cultivated forms.