Thèse soutenue

Un outil interactif de recherche de motifs dans les grandes sequences genetiques fonde sur l'arbre des suffixes

FR  |  
EN
Auteur / Autrice : Robin Gras
Direction : Philippe Besnard
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 1997
Etablissement(s) : Rennes 1

Résumé

FR

Nous presentons dans cette these, forest, un outil de visualisation et d'analyse des grandes sequences biologiques. Cet outil est base sur la construction d'un arbre des suffixes sur la sequence analysee. Nous utilisons cet arbre a la fois comme structure de visualisation sous la forme d'un dictionnaire de toutes les repetitions exactes presentes dans la sequence et comme structure de donnees nous permettant des calculs d'attributs herits et synthetises associes aux mots de l'arbre. Nous utilisons l'algorithme de chen et seiferas pour construire l'arbre des suffixes en temps et en espace lineaire sur la taille de la sequence. L'utilisation de l'arbre des suffixes pour la visualisation des sequences permet de donner une vue des sequences basee sur leur composition globale en mots repetes et sert de fouineur pour parcourir l'espace des mots et se focaliser sur ceux qui possedent des caracteristiques remarquables. Nous avons couple la vision en arbre avec une vision plus classique en cartes de la distribution de mots ou de motifs dans la sequence ou dans un dictionnaire presente lineairement. Nous avons applique forest a l'analyse du genome de : bacillus subtilis et escherichia coli. Nous donnons ensuite un algorithme de recherche de motifs avec erreurs separes par des intervalles de distances donnes, base sur l'utilisation de l'arbre des suffixes. Nous utilisons le langage a de myers comme formalisme de representation des motifs. Notre algorithme se divise en trois parties : l'ordonnancement de la recherche des sous-motifs composant le motif, la recherche par l'algorithme de programmation dynamique de cobbs d'un sous-motif en utilisant l'arbre des suffixes pour elaguer la recherche et enfin, un masquage de certain nud de l'arbre en fonction de l'intervalle de distance autorise pour le prochain sous-motif. Cet algorithme permet, une fois l'arbre des suffixes construit, une recherche de motifs en temps independant de la taille de la sequence.