Thèse soutenue

Comparaison d'algorithmes d'identification de chaînes de Markov cachées et application a la détection de régions homogènes dans les séquences d'ADN

FR
Auteur / Autrice : Florence Muri
Direction : Bernard Prum
Type : Thèse de doctorat
Discipline(s) : Mathématique
Date : Soutenance en 1997
Etablissement(s) : Paris 5
Jury : Président / Présidente : Bernard Prum
Examinateurs / Examinatrices : Bernard Prum, Élisabeth Lesquoy-de Turckheim, Christian P. Robert, Jean-Pierre Raoult, Dominique Cellier, Philippe Bessieres
Rapporteurs / Rapporteuses : Élisabeth Lesquoy-de Turckheim, Christian P. Robert

Résumé

FR

Avec les rapides projets de séquençage de génomes d'organismes divers, les biologistes disposent d'un nombre croissant de séquences d’ADN et sont à la recherche d'outils statistiques leur permettant d'analyser toute cette information. L'un des problèmes concerne la non prise en compte dans la modélisation de l'hétérogénéité observée dans une séquence d’ADN. Notre but est d'utiliser un modèle, expliquant au mieux cette hétérogénéité, pour délimiter les régions homogènes de la séquence étudiée. La détection de ces régions est importante d'un point de vue biologique car elle est susceptible de révéler des différences fonctionnelles ou structurelles à l'intérieur du génome. L'approche statistique que nous proposons s'appuie sur les modèles de chaines de Markov cachées. Ces modèles supposent que la séquence peut être découpée en plages homogènes, dont on ignore a priori la taille et la position, et que l'on dispose d'un nombre fini q de modèles qui s'ajustent de façon satisfaisante sur chacune de ces plages. La succession des plages est gérée par une chaine de Markov non observée à q états (la chaine de Markov cachée). Il s'agit alors de reconstruire ces plages à partir de la séquence observée et d'estimer les paramètres des q modèles régissant chacune d'entre elles. Le problème statistique est donc un problème à données manquantes et de mélange. Nous comparons différentes procédures d'identification des chaines cachées : l'algorithme em et ses deux versions stochastiques, sem et em à la Gibbs, pour une estimation par maximum de vraisemblance. Nous proposons également une estimation bayésiennes utilisant l'échantillonnage de Gibbs. Les performances de ces algorithmes sont comparées à l'aide de simulations. Ces méthodes sont finalement utilisées pour identifier des régions homogènes des séquences d’ADN des bactériophages lambda et bil67, du virus hiv1 et de la bactérie b. Subtilis.