Approximation de Poisson du nombre de répétitions dans des chaînes de Markov d'ordre m ≥1 : Application à l'étude de significativité dans des séquences d'ADN

par Narjiss Touyar

Thèse de doctorat en Mathématiques. Statistiques

Sous la direction de François Charlot.

Soutenue en 2006

à Rouen .


  • Résumé

    Les génomes sont des structures dynamiques et redondantes qui évoluent par mutation, inversion, élimination ou duplication de certaines de leurs parties. Pour mieux comprendre la structure des génomes et leur mode d'évolution, il est devenu très important d'effectuer des analyses statistiques des répétitions au sein de ces génomes. Le but principal de ce travail consiste à étudier la significativité statistique du nombre observé Nobst de répétitions de longueur t dans une séquence markovienne. Cette distribution permet alors de calculer la p-value, probabilité d'observer autant de répétitions dans le modèle choisi. Nous commençons par traiter le cas markovien d'ordre 1 avant de généraliser nos résultats à des modèles d'ordre supérieur. Nous approchons le nombre Nt par une loi de Poisson en utilisant la méthode Chen-Stein. Nous démontrons que l'erreur d'approximation tend vers zéro. Des simulations ont été effectuées pour valider l'approximation de Poisson. Le calcul de la p-value a été mis en œuvre sur plusieurs génomes.

  • Titre traduit

    Poisson approximation for the number of repeat in m-prder Markov chain model (m ≥1). Application to the study of statistical significance in DNA sequences


  • Résumé

    Genomes are dynamic and redondant structures which are regularly subject to mutations, deletions, duplications and inversions. In order to better understand the structure of genomes and their mecanism of evolution, it is important to make some statistical significance analyses of repeats. The goal of this thesis consists in studying the statistical significance of the number of repeats of by a given length t observed in a given sequence, denoted Nobst. This statistical study relies on the evaluation of the distribution of the random count Nt in some relevant random sequences. It will then allow to calculate the p-value. We start by studying the one-order Markov chain model and treat the general case of m-order Markov chain models m ≥1. We have used the Chen-Stein method to bound the approximation error when the number of repeats of length t is approximated by a Poisson variable. We show that this error converges to 0. To validate the Poisson approximation, some simulations were done. The calculation of the p-value has been implemented for several genomes.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 153p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr.42 réf

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rouen. Service commun de la documentation. Section sciences site Madrillet.
  • Disponible pour le PEB
  • Cote : 06/ROUE/S007(a)
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.