Heuristiques pour la résolution du problème d'alignement multiple

par Vincent Derrien

Thèse de doctorat en Informatique

Sous la direction de Jin-Kao Hao.

Soutenue en 2008

à Angers .


  • Résumé

    L'alignement multiple est une opération permettant de mettre en évidence la similarité entre plusieurs séquences. Il est notamment utilisé pour la reconstruction de phylogénies, la recherche de motifs et la prédiction de structures. Cette thèse s'intéresse au développement de nouveaux algorithmes pour ce problème particulièrement difficile, et introduit deux algorithmes progressifs ayant pour point commun de réaliser un alignement multiple par alignements successifs de groupes de séquences. Le premier algorithme, Plasma utilise une méthode de descente, dont chaque itération consiste à réaliser des insertions de colonnes de brèches dans deux alignements multiples à aligner. Le second algorithme, Plasma II , est basé sur le principe de la programmation dynamique. Nous généralisons ici l'algorithme utilisé pour l'alignement de deux séquences, et étendons le cadre de la programmation dynamique `a l'alignement de deux alignements multiples. Cet algorithme ainsi que plusieurs variantes sont intensivement évalués sur les jeux d'essais de Balibase, montrant des résultats encourageants, voire compétitifs, par rapport à certains algorithmes de référence comme Clustal W, tant sur la qualité de l'alignement que sur le temps de calcul.


  • Résumé

    Multiple alignment is one of the basic and central tasks in Bioinformatics which tries to higlight similarities between sequences. It is a prior to phylogeny reconstruction, pattern matching and protein structure prediction. This thesis aims to develop new algorithms to tackle this problem, and it introduces two new progressive algorithms that align alignments instead of profiles. The first algorithm, Plasma I, uses a descent where each iteration consists in gap insertions in one of the two multiple alignments. The second algorithm, Plasma II is based on the Dynamic Programming principle. We propose with this algorithm a generalization of the pairwise sequence alignment algorithm, and we extend the Dynamic Programming framework to align two multiple alignments. The performances of Plasma II are assessed on the well-known Balibase benchmarks, and compared with several algorithms. Plasma II provides results of quality with fast computation time.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (141 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 135-141

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Angers. Service commun de la documentation. Section Lettres - Sciences.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.