Méthodes et structures de données pour l’indexation et la détection de répétitions dans les séquences biologiques : les vecteurs de suffixes

par Elise Prieur

Thèse de doctorat en Informatique. Bioinformatique

Sous la direction de Thierry Lecroq.

Soutenue en 2007

à Rouen .


  • Résumé

    Les structures d'index sont utilisées pour résoudre des problèmes sur des mots. L'étude de longs mots, comme les séquences biologiques, nécessite une structure prenant un minimum d'espace mémoire et permettant d'extraire rapidement des informations. Nous présentons une structure d'index appelée vecteur de suffixes (Monostori, 2001). Nous en donnons une définition formelle puis nous montrons qu'elle est équivalente aux structures d'index classiques. Monostori construit le vecteur de suffixes compact en passant par le vecteur étendu. Nous donnons un algorithme linéaire pour construire directement le vecteur de suffixes compact. Nous proposons une optimisation du stockage des informations qu'il contient. Les résultats expérimentaux montrent le gain obtenu par notre implantation. Enfin, nous présentons deux applications utilisant les vecteurs de suffixes : une méthode de calcul du nombre de facteurs répétés dans une séquence et une méthode linéaire de détection des répétitions maximales.


  • Résumé

    Index data structures are used to solve problems on strings. The study of long strings, such as biological sequences, requires a structure using less memory space and enabling to extract quickly information. In this thesis, we present a data structure called suffix vector, introduced by Monostori in 2001. We give its first formal definition and we prove that it contains exactly the same information as classical index data structures. Monostori construct the compact suffix vector from the extended suffix vector. We give a linear algorithm to directly construct the compact suffix vector. We propose an optimisation to store the information contained in the suffix vector. The experimental results show the gain obtained with our implementation. At last, we present two applications using the suffix vector. The first one compute the number of repeated substrings in a sequence, the second one is a linear method to detect maximal repeats.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (142 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 63 réf

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rouen. Service commun de la documentation. Section sciences site Madrillet.
  • Disponible pour le PEB
  • Cote : 07/ROUE/S057(a)
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.