Etude asymptotique du nombre d'occurences d'un mot dans une chaine de markov et application a la recherche de mots de frequence exceptionnelle dans les sequences d'adn

par Sophie Schbath

Thèse de doctorat en Statistique

Sous la direction de Élisabeth Lesquoy-de Turckheim.

Soutenue en 1995

à Paris 5 .


  • Résumé

    Avec les multiples projets de sequencage de genomes, les biologistes disposent d'une abondance de sequences d'adn d'organisme divers. Il est necessaire de leur fournir des outils statistiques et informatiques pour les aider a analyser ces sequences. Un moyen d'en extraire de l'information est d'identifier des mots dont la frequence devie largement de celle predite par un modele. Les modeles de chaines de markov stationnaires ou 3-periodiques sont adaptes pour rendre compte de la succession des bases dans une sequence d'adn. Deux approximations de la loi du nombre d'occurrences d'un mot sont proposees, suivant que l'esperance du comptage dans le modele choisi tend vers l'infini lorsque l'on fait tendre la longueur de la sequence vers l'infini, ou au contraire qu'elle reste bornee. Dans la premiere partie, nous proposons des statistiques asymptotiquement gaussiennes centrees reduites construites sur l'ecart entre le comptage observe et une estimation du comptage. Le probleme delicat est la normalisation de cette difference avec notamment un calcul de variance. Dans la seconde partie, l'approximation de la loi du comptage d'un mot par une loi de poisson composee est demontree sous l'hypothese d'evenement rare, en utilisant la methode de chen-stein. Une etude soigneuse de la structure periodique des mots est necessaire pour tenir compte des chevauchements eventuels des mots. Dans la derniere partie, nous utilisons ces approximations pour identifier des mots de frequence exceptionnelle dans des sequences d'adn de e. Coli et b. Subtilis, et nous proposons quelques interpretations.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (173 p.)
  • Annexes : Bibliogr. p. 171-173

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris Descartes-Bibliothèque Saints-Pères Sciences (Paris). Service commun de la documentation. Bibliothèque Saints-Pères Sciences.
  • Accessible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.