Application du problème de sériation au séquençage de l'ADN et autres relaxations convexes appliquées en bioinformatique.

par Antoine Recanati

Projet de thèse en Mathématiques

Sous la direction de Alexandre D'aspremont.

Thèses en préparation à Paris Sciences et Lettres , dans le cadre de Sciences Mathématiques de Paris Centre , en partenariat avec DIENS - Département d'informatique de l'École normale supérieure (laboratoire) et de Ecole normale supérieure (établissement de préparation de la thèse) depuis le 01-10-2015 .


  • Résumé

    La technologie pour réaliser le séquençage de l'ADN ne permet d'en lire que des fragments courts. Pour séquencer un brin complet, on peut (méthode « shotgun ») dupliquer ce brin, puis découper aléatoirement chacun des duplicata en des fragments suffisamment petits pour être lus entièrement. Ces étapes permettent d'obtenir des chevauchements entre les fragments, information redondante grâce à laquelle on peut enfin reconstituer le génome entier en réordonnant ces fragments. Mathématiquement, il s'agit de trouver une permutation telle qu'une matrice de similarité (entre les fragments) ainsi réordonnée ait ses coefficients qui diminuent à mesure que les indices s'éloignent de la diagonale. C'est le problème dit de Sériation. De nouveaux algorithmes ont été proposés pour résoudre ce problème : un algorithme spectral déjà connu, efficace en l'absence de bruit, et des relaxations convexes du problème, qui permettent de le résoudre avec des programmes « standard » et de prendre en compte des contraintes structurelles. Par ailleurs, la technologie de lecture des fragments d'ADN est en train d'évoluer : il est désormais possible de lire des fragments plus longs qu'auparavant, mais avec un taux d'erreur plus élevé. Le but de la thèse est d'appliquer ces nouveaux algorithmes à des données d'ADN issues de ces nouvelles technologies et de les modifier ou d'en proposer de nouveaux pour répondre aux problèmes rencontrés. Pour citer quelques uns des problèmes rencontrés lors de l'application à ces données et des pistes de recherche qui en résultent : — « robust seriation » (idée similaire à « robust PCA ») : étant donnée une matrice de similarité bruitée, trouver une matrice modifiée qui diffère le moins possible de la matrice originale mais pour laquelle le problème de sériation a une solution (nettement) meilleure que pour la matrice originale. Il s'agit par exemple de minimiser un score qui est la somme d'un score « de sériation » sur la matrice modifiée et d'une distance entre la matrice modifiée et la matrice originale, simultanément en deux variables : une matrice/vecteur de permutation et une matrice de similarité modifiée. — « learning the similarity » (idée similaire au multiple kernel learning) : dans le cas où l'on a plusieurs matrices de similarité, on souhaite trouver une combinaison optimale de ces matrices pour résoudre le problème de sériation. — « agglomerative ordering » (variante du thème précédent) : plutôt que de chercher une solution (i.e., une permutation) résolvant le problème sur une combinaison de matrices de similarité, on peut le résoudre pour chacune d'entre elle et chercher à obtenir un consensus sur l'ordre obtenu dans ces différentes matrices. Ceci s'apparente au problème de ranking (classement), mais une difficulté supplémentaire provient du fait qu'il y a une dégénérescence dans notre problème : l'ordre (1,…,n) est aussi bon que l'ordre (n,…,1) pour le problème de sériation qui ne s'intéresse qu'à la distance entre deux points, alors que ce n'est évidemment pas le cas pour le problème de ranking, où on cherche à attribuer un classement absolu entre des équipes, par exemple. — «  clustering + ordering » : les organismes eukaryotes (dont les cellules ont un noyau) ont un ADN séparé en chromosomes distincts. Néanmoins, les données dont nous disposons sont constituées d'un « sac de brins », tous chromosomes confondus. Une première étape avant de reconstituer l'ADN est donc de séparer les brins en paquets provenants de chromosomes distincts (c'est une étape de clustering). C'est une étape non triviale pour laquelle les algorithmes de clustering « classiques » ne fonctionnent pas à partir de la matrice de similarité (qui peut être vue comme une représentation d'un graphe). Nous pouvons chercher à résoudre ce problème à partir du critère suivant : le problème de sériation doit avoir une « bonne » solution dans chacun des clusters.

  • Titre traduit

    Seriation for DNA Assembly and others applications of convex optimization to bioinformatics


  • Résumé

    My work has been focused on one main project, after which my thesis is named. The goal was to take optimization algorithms designed to solve an ordering problem called Seriation, and apply them to the task of de novo genome assembly. It follows the work of Fogel et al. [4], Lim and Wright [7], who explored new approaches to solve Seriation. Fogel et al. [4] had encouraging results in applying their algorithms to genome assembly with synthetic data, and set up a collaboration with a member of the Genoscope1, who provided real sequencing data. Specifically, the data was obtained with a new generation sequencing device (Oxford Nanopore long reads technology) that has spurred new momentum to the field of genome assembly and lead to development of dedicated tools for genome assembly in the last few years. I took over the project at this point and put emphasis on demonstrating the practical validity of our approach for de novo genome assembly. This lead to the method presented in our paper [9] (accepted in Bioinformatics), which we compare to state-of-the-art methods developed recently for this type of data [5, 6, 8, 10]. The related software is available on http://github.com/antrec/spectrassembler. Along the road, we have worked on several side projects, aiming at finding new algorithms adapted to the challenges we met when tackling the problem of genome assembly with real data. References [1] Atkins, J. E., Boman, E. G., and Hendrickson, B. (1998). A spectral algorithm for seriation and the consecutive ones problem. SIAM Journal on Computing, 28(1):297–310. [2] Cand`es, E. J., Li, X., Ma, Y., and Wright, J. (2011). Robust principal component analysis? Journal of the ACM (JACM), 58(3):11. [3] Cleary, B., Brito, I. L., Huang, K., Gevers, D., Shea, T., Young, S., and Alm, E. J. (2015). De- tection of low-abundance bacterial strains in metagenomic datasets by eigengenome partitioning. Nat Biotech, 33(10):1053–1060. [4] Fogel, F., Jenatton, R., Bach, F., and d'Aspremont, A. (2013). Convex relaxations for permu- tation problems. pages 1016–1024. [5] Koren, S., Walenz, B. P., Berlin, K., Miller, J. R., and Phillippy, A. M. (2016). Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation. bioRxiv. [6] Li, H. (2016). Minimap and miniasm: fast mapping and de novo assembly for noisy long sequences. Bioinformatics, page btw152. [7] Lim, C. H. and Wright, S. (2014). Beyond the birkhoff polytope: Convex relaxations for vector permutation problems. In Advances in Neural Information Processing Systems, pages 2168–2176. [8] Loman, N. J., Quick, J., and Simpson, J. T. (2015). A complete bacterial genome assembled de novo using only nanopore sequencing data. Nat Meth, 12(8):733–735. [9] Recanati, A., Bru ̈ls, T., and d'Aspremont, A. (2016). A spectral algorithm for fast de novo layout of uncorrected long nanopore reads. arXiv preprint arXiv:1609.07293. [10] Vaser, R., Sovic, I., Nagarajan, N., and Sikic, M. (2016). Fast and accurate de novo genome assembly from long uncorrected reads. bioRxiv, page 068122.