Emploi des chaînes de Markov dérivantes dans l'étude du génome

par Olivier Thébaud

Thèse de doctorat en Sciences biologiques fondamentales et appliquées

Sous la direction de Bernard Prum.

Soutenue en 2001

à Paris 5 .

Le président du jury était Bernard Prum.

Le jury était composé de Bernard Prum, Bernard Bru, Dominique Cellier, Jean-Noël Bacro, Élisabeth Lesquoy-de Turckheim.

Les rapporteurs étaient Jean-Noël Bacro, Élisabeth Lesquoy-de Turckheim.


  • Résumé

    Ce travail de recherche consiste à décrire des modèles statistiques capables d'expliquer au mieux l'hétérogénéité et tenter d'identifier des régions distinctes du génome. Nous travaillons dans trois directions : statistique en utilisant des chaines de Markov, biologique puisque nous appliquons notre modèle à des données réelles et informatique car l'un de nos buts est de créer des outils informatiques à partir de nos modèles statistiques. Depuis quelques années, au sein du laboratoire de statistique médicale de Paris V, un travail de thèse a été poursuivi par le maître de conférence Florence Muri, qui utilise des modèles de chaînes de Markov cachées pour délimiter les régions homogènes de la séquence d'ADN étudiée. Ces modèles supposent l'existence de plages homogènes dont on ignore a priori la taille et la position, et que l'on dispose d'un nombre fini de modèles (typiquement 2, 3 ou 4) qui s'ajustent de façon satisfaisante sur chacune de ces plages. Ici nous cherchons à établir la théorie mathématique et statistique qui permettra de faire évoluer de façon continue la chaine de Markov. On parle de chaines de Markov dérivantes. Pour donner un exemple simple du type de modèle, considérons une matrice de transition de départ 0, une d'arrivée 1 et une matrice de transition t évoluant tout au long de la séquence de taille n selon l'équation suivante : t = (1t/n) 0 + t/n 1. Ainsi nous éviterons les ruptures brutales observées entre deux plages successives dans l'optique chaines de Markov cachées en dérivant continument entre ces deux plages. Notre priorité est bien entendu la meilleure estimation possible de 0 et 1. Nous développons d'abord mathématiquement le modèle, puis nous procédons à des simulations pour assimiler son comportement et l'appliquons enfin sur les deux organismes e. Coli et le phage ou la comparaison de nos résultats avec ceux obtenus grâce aux chaines de Markov cachées a grand intérêt.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (196 p.)
  • Notes : Avis du jury non réceptionné. Pas de reproduction
  • Annexes : Bibliogr. p. 194-196

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris Descartes-Bibliothèque Saints-Pères Sciences (Paris). Service commun de la documentation. Bibliothèque Saints-Pères Sciences.
  • Consultable sur place dans l'établissement demandeur
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.