A la recherche de l'échafaudage parfait : efficace, de qualité, et garanti

par Tom Davot (Davot-Grangé)

Projet de thèse en Informatique

Sous la direction de Annie Chateau et de Rodolphe Giroudeau.

Thèses en préparation à Montpellier , dans le cadre de I2S - Information, Structures, Systèmes , en partenariat avec LIRMM - Laboratoire d'Informatique, de Robotique et de Micro-électronique de Montpellier (laboratoire) et de Département Informatique (equipe de recherche) depuis le 30-09-2017 .


  • Résumé

    Les masses de données de séquençage posent aujourd'hui des défis sensibles au niveau de la production des génomes. Il s'agit de déterminer des méthodes efficaces et rapides de construction des séquences génomiques, à partir de ces données de séquençage. L'un des verrous actuel concerne la qualité des génomes produits en terme de fragmentation. En effet, parmi les milliers de génomes actuellement disponibles dans les banques de données, très peu sont complètement assemblés, et se présentent sous la forme de contigs. La plupart du temps, ces contigs présentent suffisamment d'information pour procéder à des analyses pertinentes sur les génomes. Mais afin d'accéder à une vue d'ensemble des génomes, notamment d'étudier les réarrangements génomiques entre les espèces, il est nécessaire de procéder à la phase d'échafaudage de génome (ou scaffolding) permettant d'ordonner et d'orienter les contigs relativement les uns aux autres. L'échafaudage de génome peut s'exprimer sous la forme d'un problème complexe d'optimisation dans un graphe, ce qui donne lieu à toutes sortes de méthodes utilisant les outils classiques de la complexité et l'optimisation combinatoire appliquées à l'algorithmique dans les graphes. Les méthodes existantes sont basées sur des heuristiques non garanties en terme de performance sur l'optimisation. De plus, elles ne tiennent pas compte des perturbations liées aux répétitions dans les génomes. Des travaux préliminaires ont permis de mettre au point des algorithmes exacts ou approchés pour ce problème d'échafaudage, en se basant sur un modèle de graphe de scaffolding utilisant un couplage parfait pour représenter les contigs. Nous proposons dans ce sujet d'étendre les possibilités de ces algorithmes et modélisations pour rendre plus efficaces cet échafaudage de génome, tant en terme algorithmique qu'en puissance de modélisation de l'existant. Les objectifs de la thèse se résument donc en la mise au point, de bout en bout, d'un outil ou d'une suite d'outils dédiées à l'échafaudage de génome. Pour en savoir plus sur les objectifs détaillés et la méthodologie, voir à l'url : http://www.lirmm.fr/~chateau/sujet_these17.pdf

  • Titre traduit

    Towards perfect scaffolding: efficient, of good quality and guaranteed


  • Résumé

    Massive sequencing data pose today significant challenges in terms of genome production. This involves determining efficient and rapid methods of constructing genomic sequences from these sequencing data. One of the current locks concerns the quality of the produced genomes in terms of fragmentation. Indeed, of the thousands of genomes currently available in databases, very few are completely assembled, and present themselves in the form of contigs. Most of the time, these contigs provide sufficient information to carry out relevant genome analyzes. But in order to gain an overview of the genomes, in particular to study the genomic rearrangements between the species, it is necessary to proceed with the scaffolding phase, which allows us to order and guide The contigs relatively to each other. Genome scaffolding can be expressed as a complex optimization problem in a graph, which gives rise to all sorts of methods using classical tools of complexity and combinatorial optimization applied to algorithmic In the graphs. Existing methods are based on heuristics that are not guaranteed in terms of optimization performance. Moreover, they do not take into account the perturbations associated with repetitions in genomes. Preliminary work has helped to develop exact or approximate algorithms for this scaffolding problem, based on a scaffolding graph model using a perfect coupling to represent the contigs. We propose in this subject to extend the possibilities of these algorithms and modelings to make more efficient this scaffolding of genome, in algorithmic terms as well as power of modeling of the existing one. The objectives of the thesis can be summarized in the end-to-end development of a tool or suite of tools dedicated to genome scaffolding. To learn more about the detailed objectives and methodology, see: http://www.lirmm.fr/~chateau/sujet_these17.pdf