Algorithmes et structures de donn?es efficaces pour l?indexation de s?quences d?ADN

par Kamil Salikhov

Thèse de doctorat en Informatique

Sous la direction de Gregory Kucherov et de Nikolay Vereshchagin.

Soutenue le 17-11-2017

à Paris Est en cotutelle avec l'Universit? Lomonossov (Moscou) , dans le cadre de ?cole doctorale Math?matiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2015-....) , en partenariat avec Laboratoire d'informatique de l'Institut Gaspard Monge (laboratoire) et de Laboratoire d'Informatique Gaspard-Monge / LIGM (laboratoire) .

Le président du jury était St?phane Vialette.

Le jury était composé de Gregory Kucherov, Nikolay Vereshchagin, Rayan Chikhi, Mireille R?gnier.

Les rapporteurs étaient Alexander S. Kulikov, Pierre Peterlongo.


  • Résumé

    Les volumes des donn?es g?n?r?es par les technologies de s?quen?age haut d?bit augmentent exponentiellement ce dernier temps. Le stockage, le traitement et le transfertdeviennent des d?fis de plus en plus s?rieux. Pour les affronter, les scientifiques doivent ?laborer des approches et des algorithmes de plus en plus efficaces.Dans cette th?se, nous pr?sentons des structures de donn?es efficaces etdes algorithmes pour des probl?mes de recherche approch?e de cha?nes de caract?res, d'assemblagedu g?nome, de compression de s?quences d?ADN et de classificationm?tag?nomique de lectures d?ADN.Le probl?me de recherche approch?e a ?t? bien ?tudi?, avec un grandnombre de travaux publi?s. Dans ledomaine de bioinformatique, le probl?me d?alignement de s?quences peut ?tre consid?r? comme unprobl?me de recherche approch?e de cha?nes de caract?res. Dans notre travail, nous?tudions une strat?gie de recherche bas?e sur une structure d'indexation ditebidirectionnelle. D?abord, nous d?finissons un formalisme des sch?mas de recherche pour travailleravec les strat?gies de recherche de ce type, ensuite nous fixons une mesure probabiliste del?efficacit? de sch?mas de recherche et d?montrons quelques propri?t?s combinatoires de sch?masde recherche efficaces. Finalement, nous pr?sentons des calculs exp?rimentaux quivalident la sup?riorit? de nos strat?gies. L?assemblage du g?nome est un des probl?mes clefs en bioinformatique.Dans cette th?se, nous pr?sentons une structure de donn?es ? filtre de Bloom en Cascade? qui am?liore le filtre de Bloom standard et peut ?tre utilis? pour lar?solution de certains probl?mes, y compris pour l?assemblage du g?nome. Nousd?montrons ensuite des r?sultats analytiques et exp?rimentaux sur les propri?t?s du filtre deBloom en Cascade. Nous pr?sentons ?galement comment le filtre de Bloom en Cascade peut ?tre appliqu? au probl?mede compression de s?quences d?ADN.Un autre probl?me que nous ?tudions dans cette th?se est la classificationm?tag?nomique de lectures d?ADN. Nous pr?sentons une approche bas?e sur la transform?ede Burrows-Wheeler pour la recherche efficace et rapide de k-mers (mots de longueur k).Cette ?tude est centr?e sur les structures des donn?es qui am?liorent lavitesse et la consommation de m?moire par rapport ? l'index classique de Burrows-Wheeler, dans le cadre de notre application

  • Titre traduit

    Efficient algorithms and data structures for indexing DNA sequence data


  • Résumé

    Amounts of data generated by Next Generation Sequencing technologies increase exponentially in recent years. Storing, processing and transferring this data become more and more challenging tasks. To be able to cope with them, data scientists should develop more and more efficient approaches and techniques.In this thesis we present efficient data structures and algorithmic methods for the problems of approximate string matching, genome assembly, read compression and taxonomy based metagenomic classification.Approximate string matching is an extensively studied problem with countless number of published papers, both theoretical and practical. In bioinformatics, read mapping problem can be regarded as approximate string matching. Here we study string matching strategies based on bidirectional indices. We define a framework, called search schemes, to work with search strategies of this type, then provide a probabilistic measure for the efficiency of search schemes, prove several combinatorial properties of efficient search schemes and provide experimental computations supporting the superiority of our strategies.Genome assembly is one of the basic problems of bioinformatics. Here we present Cascading Bloom filter data structure, that improves standard Bloom filter and can be applied to several problems like genome assembly. We provide theoretical and experimental results proving properties of Cascading Bloom filter. We also show how Cascading Bloom filter can be used for solving another important problem of read compression.Another problem studied in this thesis is metagenomic classification. We present a BWT-based approach that improves the BWT-index for quick and memory-efficient k-mer search. We mainly focus on data structures that improve speed and memory usage of classical BWT-index for our application


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Communautés d’Universités et d'Etablissements Université Paris-Est. Bibliothèque universitaire.
  • Bibliothèque : École des Ponts ParisTech (Marne-la-Vallée, Seine-et-Marne). Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.