Un outil interactif de recherche de motifs dans les grandes sequences genetiques fonde sur l'arbre des suffixes

par ROBIN GRAS

Thèse de doctorat en Informatique

Sous la direction de Philippe Besnard.

Soutenue en 1997

à Rennes 1 .

    mots clés mots clés


  • Résumé

    Nous presentons dans cette these, forest, un outil de visualisation et d'analyse des grandes sequences biologiques. Cet outil est base sur la construction d'un arbre des suffixes sur la sequence analysee. Nous utilisons cet arbre a la fois comme structure de visualisation sous la forme d'un dictionnaire de toutes les repetitions exactes presentes dans la sequence et comme structure de donnees nous permettant des calculs d'attributs herits et synthetises associes aux mots de l'arbre. Nous utilisons l'algorithme de chen et seiferas pour construire l'arbre des suffixes en temps et en espace lineaire sur la taille de la sequence. L'utilisation de l'arbre des suffixes pour la visualisation des sequences permet de donner une vue des sequences basee sur leur composition globale en mots repetes et sert de fouineur pour parcourir l'espace des mots et se focaliser sur ceux qui possedent des caracteristiques remarquables. Nous avons couple la vision en arbre avec une vision plus classique en cartes de la distribution de mots ou de motifs dans la sequence ou dans un dictionnaire presente lineairement. Nous avons applique forest a l'analyse du genome de : bacillus subtilis et escherichia coli. Nous donnons ensuite un algorithme de recherche de motifs avec erreurs separes par des intervalles de distances donnes, base sur l'utilisation de l'arbre des suffixes. Nous utilisons le langage a de myers comme formalisme de representation des motifs. Notre algorithme se divise en trois parties : l'ordonnancement de la recherche des sous-motifs composant le motif, la recherche par l'algorithme de programmation dynamique de cobbs d'un sous-motif en utilisant l'arbre des suffixes pour elaguer la recherche et enfin, un masquage de certain nud de l'arbre en fonction de l'intervalle de distance autorise pour le prochain sous-motif. Cet algorithme permet, une fois l'arbre des suffixes construit, une recherche de motifs en temps independant de la taille de la sequence.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 272 P.
  • Annexes : 143 REF.

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rennes I. Service commun de la documentation. Section sciences et philosophie.
  • Disponible pour le PEB
  • Cote : TA RENNES 1997/217
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.