Application du problème de sériation au séquençage de l'ADN et autres relaxations convexes appliquées en bioinformatique.

par Antoine Recanati

Projet de thèse en Mathématiques

Sous la direction de Alexandre d' Aspremont.

Thèses en préparation à Paris Sciences et Lettres , dans le cadre de École doctorale de Sciences mathématiques de Paris Centre (Paris) , en partenariat avec LIENS - Laboratoire d'informatique de l'École normale supérieure (laboratoire) et de École normale supérieure (Paris ; 1985-....) (établissement de préparation de la thèse) depuis le 01-10-2015 .


  • Résumé

    La technologie pour réaliser le séquençage de l'ADN ne permet d'en lire que des fragments courts. Pour séquencer un brin complet, on peut (méthode « shotgun ») dupliquer ce brin, puis découper aléatoirement chacun des duplicata en des fragments suffisamment petits pour être lus entièrement. Ces étapes permettent d'obtenir des chevauchements entre les fragments, information redondante grâce à laquelle on peut enfin reconstituer le génome entier en réordonnant ces fragments. Mathématiquement, il s'agit de trouver une permutation telle qu'une matrice de similarité (entre les fragments) ainsi réordonnée ait ses coefficients qui diminuent à mesure que les indices s'éloignent de la diagonale. C'est le problème dit de Sériation. De nouveaux algorithmes ont été proposés pour résoudre ce problème : un algorithme spectral déjà connu, efficace en l'absence de bruit, et des relaxations convexes du problème, qui permettent de le résoudre avec des programmes « standard » et de prendre en compte des contraintes structurelles. Par ailleurs, la technologie de lecture des fragments d'ADN est en train d'évoluer : il est désormais possible de lire des fragments plus longs qu'auparavant, mais avec un taux d'erreur plus élevé. Le but de la thèse est d'appliquer ces nouveaux algorithmes à des données d'ADN issues de ces nouvelles technologies et de les modifier ou d'en proposer de nouveaux pour répondre aux problèmes rencontrés. Pour citer quelques uns des problèmes rencontrés lors de l'application à ces données et des pistes de recherche qui en résultent : — « robust seriation » (idée similaire à « robust PCA ») : étant donnée une matrice de similarité bruitée, trouver une matrice modifiée qui diffère le moins possible de la matrice originale mais pour laquelle le problème de sériation a une solution (nettement) meilleure que pour la matrice originale. Il s'agit par exemple de minimiser un score qui est la somme d'un score « de sériation » sur la matrice modifiée et d'une distance entre la matrice modifiée et la matrice originale, simultanément en deux variables : une matrice/vecteur de permutation et une matrice de similarité modifiée. — « learning the similarity » (idée similaire au multiple kernel learning) : dans le cas où l'on a plusieurs matrices de similarité, on souhaite trouver une combinaison optimale de ces matrices pour résoudre le problème de sériation. — « agglomerative ordering » (variante du thème précédent) : plutôt que de chercher une solution (i.e., une permutation) résolvant le problème sur une combinaison de matrices de similarité, on peut le résoudre pour chacune d'entre elle et chercher à obtenir un consensus sur l'ordre obtenu dans ces différentes matrices. Ceci s'apparente au problème de ranking (classement), mais une difficulté supplémentaire provient du fait qu'il y a une dégénérescence dans notre problème : l'ordre (1,…,n) est aussi bon que l'ordre (n,…,1) pour le problème de sériation qui ne s'intéresse qu'à la distance entre deux points, alors que ce n'est évidemment pas le cas pour le problème de ranking, où on cherche à attribuer un classement absolu entre des équipes, par exemple. — «  clustering + ordering » : les organismes eukaryotes (dont les cellules ont un noyau) ont un ADN séparé en chromosomes distincts. Néanmoins, les données dont nous disposons sont constituées d'un « sac de brins », tous chromosomes confondus. Une première étape avant de reconstituer l'ADN est donc de séparer les brins en paquets provenants de chromosomes distincts (c'est une étape de clustering). C'est une étape non triviale pour laquelle les algorithmes de clustering « classiques » ne fonctionnent pas à partir de la matrice de similarité (qui peut être vue comme une représentation d'un graphe). Nous pouvons chercher à résoudre ce problème à partir du critère suivant : le problème de sériation doit avoir une « bonne » solution dans chacun des clusters.

  • Titre traduit

    Seriation for DNA Assembly and others applications of convex optimization to bioinformatics


  • Pas de résumé disponible.