Algorithmes de recherche de motifs dans les séquences d'ADN

par Renaud Vérin

Thèse de doctorat en Informatique

Sous la direction de Maxime Crochemore.


  • Résumé

    Cette these, situee dans le cadre de la bio-informatique, presente des methodes permettant de detecter des regions dans les sequences d'adn ayant une faible entropie. On appelle ces regions des zones de dosdna. On definit ici l'entropie comme le nombre de facteurs distincts presents dans une region. Elle est mesuree en temps lineaire. Pour cela, les sequences d'adn sont vues comme des textes sur l'alphabet des nucleotides [somme de l'ensemble] = a,c,g,t et on cree un index de tous les facteurs presents dans le texte. D'un point de vue informatique, les arbres et les automates de suffixes sont les structures de donnees les mieux adaptees pour generer ces index. Ils ont une taille lineaire par rapport a la taille du texte et le temps d'acces a un facteur w du texte est de o (longueur (w)). On s'interesse ici aux automates compacts de suffixes (acs). Le gain d'espace memoire du a la compression permet de construire, en moyenne, des index de sequences deux fois plus grandes qu'avec des automates de suffixes, tout en les gardant en memoire vive. Nous avons developpe le premier algorithme lineaire de construction directe des acs. D'un point de vue biologique, grace a ces structures de donnees, nous avons adapte des methodes existantes, la creation de paysages de sequences et l'analyse statistique des valeurs de x#2 de portions de sequences, afin qu'ils puissent traiter efficacement les longues sequences. Nous avons developpe une nouvelle methode, base sur la mesure d'entropie de portions de sequences. Cette methode permet de detecter des zones contenant de longues repetitions ou un grand nombre de petites repetitions. Nous avons compare les regions remarquables en utilisant un indice de proximite, base sur l'indice de jaccard. Cette methode met en evidence des regions ayant des similarites qui n'auraient pas ete trouvees avec des methodes standards d'alignement. On applique cette methode sur des chromosomes de la levure saccharomyces cerevisiae

  • Titre traduit

    Pattern matching algorithms in dna sequences


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XIII-141 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 121-124 (60 réf.)

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Gustave Eiffel. Bibliothèque.
  • Consultable sur place dans l'établissement demandeur
  • Cote : 1998 VER 0029
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.