Locality-sensitive hashing de s ́equences d'ADN et applications

par Yoshihiro Shibuya

Projet de thèse en Informatique

Sous la direction de Gregory Kucherov.

Thèses en préparation à Paris Est , dans le cadre de MSTIC : Mathématiques et Sciences et Technologies de l'Information et de la Communication , en partenariat avec Laboratoire d'informatique de l'Institut Gaspard Monge (laboratoire) depuis le 01-10-2018 .


  • Résumé

    Ce travail de doctorat portera sur divers probl`emes d'application du LSH aux donn ́ees de s ́equen ̧cage d'ADN. Le leitmotiv de ce travail sera l'implementation efficace de techniques de LSH. Attention particuli`ere sera port ́ee au concept de minimiseurs, cas particulier de LSH, qui s'est av ́er ́e utile dans diverses applications (par exemple [3]). Dans ce travail, on ́etudiera des structures de donn ́ees pour la mise en œuvre de minimiseurs, ainsi que la conception de minimiseurs. Finalement, on travaillera sur l'application du LSH aux donn ́ees de pan-g ́enomique et m ́etag ́enomique. Le travail se fera au sein du groupe AlgoB du LIGM sp ́ecialis ́e dans les algorithmes efficaces pour la bioinformatique. Il profitera de la recherche sur la big data g ́enomique conduit dans le groupe ces derni`eres ann ́ees.

  • Titre traduit

    Locality-sensitive hashing of DNA sequences with applications.


  • Résumé

    The PhD work will focus on various problems of application of LSH to DNA sequencing data. The leitmotif of this work is the efficient implementation of LSH techniques. A particular attention will be given to the concept of minimizers which is a particular case of LSH proved useful in a range of applications (e.g. [3]). In this work, we will study efficient data structures for application of minimizers, as well as designing efficient minimizers. Finally, we will consider the application of LSH to pan-genomic and metagenomic datasets. The PhD work will be done in the AlgoB group of LIGM Lab specialized in efficient bioinfor- matics algorithms, it will benefit from the research on DNA big data algorithms conducted in the group for the last years.