Etude asymptotique du nombre d'occurences d'un mot dans une chaine de markov et application a la recherche de mots de frequence exceptionnelle dans les sequences d'adn

by Sophie Schbath

Doctoral thesis in Statistique

Under the supervision of Élisabeth Lesquoy-de Turckheim.

defended on 1995

in Paris 5 .

  • Alternative Title

    Asymptotic study of the number of occurrences of a word in a markov chain and application to words with unexpected frequency in dna sequences


  • Abstract not available


  • Abstract

    Avec les multiples projets de sequencage de genomes, les biologistes disposent d'une abondance de sequences d'adn d'organisme divers. Il est necessaire de leur fournir des outils statistiques et informatiques pour les aider a analyser ces sequences. Un moyen d'en extraire de l'information est d'identifier des mots dont la frequence devie largement de celle predite par un modele. Les modeles de chaines de markov stationnaires ou 3-periodiques sont adaptes pour rendre compte de la succession des bases dans une sequence d'adn. Deux approximations de la loi du nombre d'occurrences d'un mot sont proposees, suivant que l'esperance du comptage dans le modele choisi tend vers l'infini lorsque l'on fait tendre la longueur de la sequence vers l'infini, ou au contraire qu'elle reste bornee. Dans la premiere partie, nous proposons des statistiques asymptotiquement gaussiennes centrees reduites construites sur l'ecart entre le comptage observe et une estimation du comptage. Le probleme delicat est la normalisation de cette difference avec notamment un calcul de variance. Dans la seconde partie, l'approximation de la loi du comptage d'un mot par une loi de poisson composee est demontree sous l'hypothese d'evenement rare, en utilisant la methode de chen-stein. Une etude soigneuse de la structure periodique des mots est necessaire pour tenir compte des chevauchements eventuels des mots. Dans la derniere partie, nous utilisons ces approximations pour identifier des mots de frequence exceptionnelle dans des sequences d'adn de e. Coli et b. Subtilis, et nous proposons quelques interpretations.

Consult library

Version is available as a paper

Informations

  • Details : 1 vol. (173 p.)
  • Annexes : Bibliogr. p. 171-173

Where is this thesis?

  • Library : Université Paris Descartes-Bibliothèque Saints-Pères Sciences (Paris). Service commun de la documentation. Bibliothèque Saints-Pères Sciences.
  • Available for PEB
See the Sudoc catalog libraries of higher education and research.