Recherche approchee de motifs - application a des sequences biologiques structurees

par NADIA EL - MABROUK

Thèse de doctorat en Sciences biologiques et fondamentales appliquées. Psychologie

Sous la direction de MAXIME CROCMEMOBE.

Soutenue en 1996

à Paris 7 .

    mots clés mots clés


  • Résumé

    Ce travail presente differentes methodes pour la recherche approchee, a erreurs pres, d'un motif p dans un texte t. Les erreurs considerees sont les substitutions de caracteres et les motifs sont, soit un mot, soit une classe de mots sur un alphabet. Deux des approches les plus efficaces, en theorie et en pratique, pour la recherche approchee sont les approches de type numerique qui se basent sur la manipulation de mots machine, et les approches de type boyer-moore. Nous avons concu une nouvelle methode de recherche qui tire profit, a la fois de l'efficacite de la demarche boyer-moore, et de la rapidite de programmation des algorithmes numeriques et en particulier de l'algorithme shift-add de baeza-yates et gonnet. Lorsque le mot n'est pas trop long, l'algorithme obtenu est lineaire dans le pire des cas. Si, de plus, l'alphabet est suffisamment grand, l'algorithme est sous-lineaire en moyenne. Une facon naturelle d'aborder le probleme de la recherche approchee consiste a construire un automate fini deterministe reconnaissant le langage l#p#,#k forme de tous les mots qui sont a une distance de p. Le probleme de cette approche par automate est que le temps de construction et la taille d'un tel automate sont importants. Nous montrons que, meme en considerant l'automate minimal reconnaissant l#p#,#k, l'espace memoire utilise reste grand. Nous nous interessons plus particulierement a appliquer les techniques de recherche approchee dans le cas de la prediction de motifs biologiques structures, et plus specialement des genes d'arnt. Notre nouvel algorithme fastrna est une amelioration de l'algorithme trnascan de fichant-burks du point de vue des resultats biologiques et de la rapidite d'execution. Le taux de reconnaissance obtenu pour differentes sequences biologiques est proche de 99%.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 180 P.
  • Annexes : 90 REF.

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris Diderot - Paris 7. Service commun de la documentation. Bibliothèque Universitaire des Grands Moulins.
  • Accessible pour le PEB
  • Cote : TS1996
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.