Développement de structures compressées d'indexation pour l'analyse de collection de génomes similaires : application aux génomes du riz.

par Clément Agret

Projet de thèse en Génétique et amélioration des plantes

Sous la direction de Manuel Ruiz et de Alban Mancheron.

Thèses en préparation à Montpellier, SupAgro , dans le cadre de Biodiversité, Agriculture, Alimentation, Environnement, Terre, Eau (Montpellier ; École Doctorale ; 2015-...) , en partenariat avec AGAP - Amélioration Génétique et Adaptation des Plantes (laboratoire) et de Intégration des Données (equipe de recherche) depuis le 01-09-2016 .


  • Résumé

    L'indexation de génomes complets est une phase importante de l'exploration et la compréhension des données issues du vivant. L'arrivée de nouvelles technologies de séquençage à haut-débit (HTS) a engendré une multitude de projets visant à séquencer les génomes complets d'organismes vivants. Alors qu'il a fallu treize ans et plusieurs millions de dollars pour séquencer et assembler les 3 milliards de nucléotides composant le génome humain [1], un tel séquençage requiert actuellement quelques jours et à peine quelques milliers de dollars. De ce fait, de nombreux programmes ont vu le jour (projet Genome 10K, 10,000 Microbial Genomes, …) engendrant une importante masse de données à stocker et à analyser. Pour cela, il est nécessaire de représenter les génomes dans une forme permettant leur consultation rapide, tout en économisant le plus possible l'espace nécessaire à leur stockage. La structure de donnée qui fait actuellement le succès des méthodes d'analyse de génomes est le FM-index [4]. Il s'agit d'une structure compressée exploitant les propriétés de réorganisation des données de la transformée de BURROWS -WHEELER (BWT) [2] appliquées sur le génome à indexer. Cet index est par définition assez similaire à la table des suffixes et permet, étant donné l'index d'un génome (texte), de répondre rapidement aux questions suivantes : — Combien d'occurrences d'un motif donné apparaissent dans le génome ? — À quelles positions sont situées les occurrences d'un motif donné ? — Quel est le motif de longueur à la position i dans le génome ? Il est important de noter que la consultation d'un génome ne consiste pas uniquement en la récupération de sa séquence globale (en fait, c'est même assez rare), mais bel et bien de pouvoir répondre rapidement aux questions ci-dessus. L'avantage du FM -index (en comparaison de la table des suffixes) réside en sa complexité spatiale nettement inférieure à celle de la table des suffixes (qui n'est pas compressée) ; l'inconvénient principal réside en la complexité temporelle des requêtes. Pour le moment, ces structures sont utilisées pour indexer un génome à la fois. Il est possible d'indexer plusieurs génomes en créant l'index des génomes concaténés. Cependant, lorsque les génomes sont très similaires, i.e. ne diffèrent que par un nombre de différences petit proportionnellement à leur longueur, cette approche consomme un énorme espace mémoire alors que les séquences sont quasi identiques. Comment peut on comprimer un index de ces séquences ? De récents travaux tentent de compresser les collections de génomes en intégrant la proximité biologique des séquences, diminuant ainsi les coûts de stockage de ces masses de données [3]. Ces méthodes ne permettent cependant pas de répondre aux problème de l'indexation. En outre, cette structure d'indexation, bien qu'il en existe des implémentations efficaces diffusées sous licence libre, est généralement directement intégrée dans les outils d'analyse de données de séquençage, et ne permet pas leur consultation dynamique par les utilisateurs. L'objectif de la thèse est par conséquent d'étudier les structures d'index et les méthodes de compression pour répondre au problème de l'indexation d'une collection de génomes similaires. En effet, à ce jour aucune solution satisfaisante n'a été proposée et répondre à ce problème émergent est clairement un positionnement stratégique important dans la recherche internationale. Cela implique, outre l'étude bibliographique des structures d'indexation (table des suffixes, FM-index, techniques de compressions spécifiques aux données génomiques), la caractérisation des effets de variations structurales des génomes (mutation, translocation, inversion, duplication, …) sur les structures d'indexation. Enfin, les solutions proposées devront être testées sur des données simulées et des données réelles afin d'évaluer la pertinence et « l'utilisabilité » des solutions mises en œuvre. Du point de vue applicatif, les solutions mises en œuvres seront testées entre autres sur les génomes du riz. En effet, l'International Rice Research Institute (IRRI) a entamé un programme de séquençage de 10 000 variétés de riz (le génome du riz est d'environ 430Mpb). Or on sait que les différents sous-groupes du riz cultivé présentent des différences au niveau de leur structure génomique. Une prise en compte systématique des micro-réarrangements du génome entre variétés de riz est essentielle pour pouvoir projeter des résultats de reséquençage de variétés nombreuses et diverses dans différentes analyses : cartographie génétique haute résolution, GWAS (Genome-wide association study), sélection génomique, analyses de diversité, … Nous avons besoin d'organiser de manière optimisée en termes d'espace de stockage et de rapidité de requête, les zones communes à tous les génomes et l'information sur les variations structurales elles-mêmes. Notre travail contribuera grandement à l'exploitation de cette large ressource de séquençage, qui a été produite pour augmenter la productivité et la qualité nutritionnelle du riz cultivé, tout en réduisant l'impact environnemental de sa production.

  • Titre traduit

    Development of indexing compressed structures for analyzing collection of similar genomes: application to rice genomes.


  • Résumé

    The subject of my thesis concerns the study of index structures and compression methods to find a solution to the problem of indexing a collection of similar genomes. The ultimate goal is to apply these methods to the indexation of rice genomes and to facilitate the analysis of the impact of their structural variations on recombination rates, allele frequencies, GWAS studies, Other activities of GenomeHarvest. The indexation of complete genomes is an important stage in the exploration and understanding of data from living organisms. An index should provide a quick answer to the following questions: - How many times a given pattern appear in the genome? - Which are the positions of a given pattern? - What is the pattern length at the i position in the genome?