Développement d'un outil de visualisation pour les pangénomes chez les plantes

par Éloi Durant

Projet de thèse en Génétique et génomique

Sous la direction de François Sabot et de Mathieu Rouard.

Thèses en préparation à Montpellier , dans le cadre de Biodiversité, Agriculture, Alimentation, Environnement, Terre, Eau (Montpellier ; École Doctorale ; 2015-...) , en partenariat avec DIADE - Diversité, Adaptation et Développement des plantes (laboratoire) depuis le 01-05-2019 .


  • Résumé

    Avec l'essor des nouvelles technologies de séquençage, d'énormes quantités d'information génomique sont disponibles. L'obtention de plusieurs génomes séquencés pour différentes lignées d'une même espèce a démontré qu'une unique référence génomique n'était pas suffisante pour capturer l'ensemble des variations génomiques existantes (par exemple pour des Variations du Nombre de Copies d'un gène, CNV). Restreinte à une unique référence, la recherche de traits d'intérêt agronomique par l'analyse de la diversité génétique reste donc limitée. L'approche intégrative qu'est la pangénomique a pour but de donner accès à l'ensemble des variations génomiques possibles au sein d'un clade. Toutefois, si cette approche a été beaucoup utilisée chez les bactéries, elle commence tout juste à être exploitée chez les plantes. Par conséquent, de nombreuses avancées sont nécessaires concernant les méthodes, les formats de données, et les outils de visualisation. Ce manque de ressources est en partie lié à une notion assez large de ce qu'est un pangénome. Selon les études, la définition d'un pangénome peut se focaliser sur l'ensemble des gènes possibles au sein d'un groupe, alors que d'autres vont aussi considérer les blocs de séquences génomiques partagés ou non entre ces mêmes espèces. L'abstraction du concept influence également les outils de visualisation à disposition. Des ‘genome browsers' classiques prenant une espèce comme référence se montrent insuffisants pour une application aux pangénomes, et d'autres outils dédiés sont donc nécessaires. Les outils existants pour la pangénomique bactérienne, quand ils sont utilisables, se restreignent à une définition génique des pangénomes et ne permettent pas l'exploration structurale des pangénomes de plantes. Actuellement, deux types d'approches sont explorés. La première est une approche en graphs, où chaque génome constitutif est découpé en morceaux communs ou non aux autres génomes. Ces morceaux constituent les nœuds d'un réseau, reliés entre eux selon leurs agencements dans les génomes d'origine. Il y a alors autant de chemins entre les différents morceaux qu'il y a de génomes impliqués dans le pangénome. Le défi majeur d'une telle représentation est la lisibilité lorsque de nombreux génomes sont utilisés, et que les liens entre morceaux se superposent à outrance. La seconde approche est linéaire, dérivée des ‘genome browsers' existants. Une référence pangénomique est construite, et l'information de présence/absence des morceaux pour chaque génome est affichée. Entre autres avantages et inconvénients, cette représentation est plus lisible mais moins modulable, et nécessite d'avoir une pan-référence disponible. Des travaux préliminaires réalisés lors d'un stage de Master 2 ont mené à un prototype d'outil de visualisation suivant la seconde approche. Cette thèse a pour projet d'approfondir les travaux réalisés dans le cadre de ce stage afin de fournir un outil modulaire et applicable à différents travaux de pangénomiques, et de l'utiliser pour l'analyse de données réelles.

  • Titre traduit

    Development of a visualization tool for plant pangenomes


  • Résumé

    The latest generations of sequencing technologies enable the production of tremendous amounts of genomic data. Sequencing different individuals from a given species showed that a single genomic reference was not enough to grasp every existing genomic variation (such as Copy Number Variations of genes, CNV). Restraining to a single reference then stops the research of interesting agronomical features from reaching its full potential. Pangenomics is an integrative approach which aims to the assessment of every possible genomic variation within a clade. Although it has already often been applied to bacteria, its use with plants is quite recent. Therefore, many improvements are needed for its methods, file formats and visualization tools. This lack of resources is partly due to the abstraction of what is a pangenome. Depending on the studies, its definition can be focused on the whole repertoire of genes within a group or can include blocks of genomic sequences more or less shared between species. This also has an influence on available visualization tools. Usual genome browsers with a single species as reference are not enough to visualize pangenomes, and dedicated tools are needed. Existing and usable tools for bacterial pangenomics only focus on genes and do not enable any structural exploration of plant pangenomes. Nowadays, two main approaches of visualization for structural pangenomics are studied. The first one is graph-based, with genome sequences sliced into pieces that can be shared between genomes or specific to one. Those pieces are represented as nodes in a network, connected together depending on their order in the original genomes. Therefore there are as many paths connecting the nodes as genomes used to build the pangenome. The main challenge of such a visualization is how to maintain readability while there are many genomes, making plenty of connection overlaps. The second approach is a linear one, adapted from existing genome browsers. The information of presence and absence of genome parts is displayed along a pangenomic reference. Amongst different advantages or drawbacks, such a representation is more readable but harder to modify (for example by adding or removing a genome), and it implies that a pangenomic reference is available. Preliminary work done as part of an MSc 2 internship led to a prototype of a visualization tool based on this second approach. The project of this PhD is to go more in depth into this work in order to provide a modular tool that could be applied to different pangenomics projects, and to use it for real case studies and analyses.