Détection de répétitions en tandem avec évolution : application aux séquences biologiques

par Richard Groult

Thèse de doctorat en Informatique. Bioinformatique

Sous la direction de Jean-Pierre Duval.

Soutenue en 2004

à Rouen .


  • Résumé

    Une répétition en tandem avec évolution consiste en une suite de copies plus ou moins contigue͏̈s où chaque copie est fortement similaire à celle qui la précède et à celle qui lui succède. Il n'existe pas de notion de modèle comme pour les répétitions en tandem "classiques" et la première et la dernière copie peuvent être complètement différentes. Ce "nouveau" type de répétition a été mis en évidence durant l'assemblage du génome humain. Dans ce manuscrit, je commence par définir, de façon formelle, les répétitions en tandem avec évolution à partir des observations effectuées dans les séquences biologiques. Après avoir effectué des tests sur des logiciels de recherche de répétitions, je conclus qu'il n'existe pas de logiciel capable de les détecter efficacement. J'ai alors conçu des algorithmes capables de détecter ce type de répétitions : un premier algorithme, quadratique en la longueur de la séquence, puis un algorithme linéaire. Ces algorithmes ont été implantés afin de mettre à disposition des biologistes des outils qui détectent efficacement ces répétitions dans de très grandes séquences génomiques, telles les chromosomes humains. Plusieurs méthodes de parallélisation sont également présentées. Les résultats des tests réalisés sur des chromosomes montrent la présence de ces répétitions dans plusieurs génomes.


  • Résumé

    An evolutive tandem repeat consists in a series of almost contiguous copies, such that each copy is strongly similar to its predecessor and its successor. There is no model and the first and the last copy can be completely different. It differs from a ``classical'' tandem repeat that considers a model and a radius around this model. This ``new'' type of repeat has been pointed out during the assembly of the human genome. In this manuscript, I first define, in a formal way, the evolutive tandem repeats from observations achieved in biological sequences. After having carried out tests using well known existing softwares, I conclude that no one was able to detect it correctly and that they are not part of the sequences that have been submitted to databanks. I therefore designed algorithms that are able to locate this specific type of repeats: a first algorithm, quadratric in the length of the sequence, then a linear one. These algorithms have been implemented in order to provide biologists with tools that detect efficiently these repeats in real large sequences, such as human chromosomes. Several parallelisation methods are presented too. The results of the carried out tests on chromosomes show the existence of such repeats in genomes.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : XVIII-172 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 44 réf. Index

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rouen. Service commun de la documentation. Section sciences site Madrillet.
  • Disponible pour le PEB
  • Cote : 04/ROUE/S014
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.