Comparaison d'algorithmes d'identification de chaînes de Markov cachées et application a la détection de régions homogènes dans les séquences d'ADN

par Florence Muri

Thèse de doctorat en Mathématique

Under the supervision of Bernard Prum.

Soutenue en 1997

à Paris 5 .


  • Résumé

    Avec les rapides projets de séquençage de génomes d'organismes divers, les biologistes disposent d'un nombre croissant de séquences d’ADN et sont à la recherche d'outils statistiques leur permettant d'analyser toute cette information. L'un des problèmes concerne la non prise en compte dans la modélisation de l'hétérogénéité observée dans une séquence d’ADN. Notre but est d'utiliser un modèle, expliquant au mieux cette hétérogénéité, pour délimiter les régions homogènes de la séquence étudiée. La détection de ces régions est importante d'un point de vue biologique car elle est susceptible de révéler des différences fonctionnelles ou structurelles à l'intérieur du génome. L'approche statistique que nous proposons s'appuie sur les modèles de chaines de Markov cachées. Ces modèles supposent que la séquence peut être découpée en plages homogènes, dont on ignore a priori la taille et la position, et que l'on dispose d'un nombre fini q de modèles qui s'ajustent de façon satisfaisante sur chacune de ces plages. La succession des plages est gérée par une chaine de Markov non observée à q états (la chaine de Markov cachée). Il s'agit alors de reconstruire ces plages à partir de la séquence observée et d'estimer les paramètres des q modèles régissant chacune d'entre elles. Le problème statistique est donc un problème à données manquantes et de mélange. Nous comparons différentes procédures d'identification des chaines cachées : l'algorithme em et ses deux versions stochastiques, sem et em à la Gibbs, pour une estimation par maximum de vraisemblance. Nous proposons également une estimation bayésiennes utilisant l'échantillonnage de Gibbs. Les performances de ces algorithmes sont comparées à l'aide de simulations. Ces méthodes sont finalement utilisées pour identifier des régions homogènes des séquences d’ADN des bactériophages lambda et bil67, du virus hiv1 et de la bactérie b. Subtilis.


  • Pas de résumé disponible.

Consult en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (241 p.)
  • Notes : Avis du jury non réceptionné. Pas de reproduction
  • Annexes : Bibliogr. p. 237-241

Où se trouve cette thèse ?

  • Library : Ecole Polytechnique de l’Université François Rabelais . Départements Electronique et Energie, Informatique, Mécanique et Systèmes. Centre de documentation.
  • Disponible pour le PEB
  • Odds : DI-TH-510
  • Bibliothèque : Université Paris Descartes-Bibliothèque Saints-Pères Sciences (Paris). Service commun de la documentation. Bibliothèque Saints-Pères Sciences.
  • Non disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.