Comparaison d'algorithmes d'identification de chaînes de Markov cachées et application a la détection de régions homogènes dans les séquences d'ADN

Florence Muri

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR

Auteur / Autrice :	Florence Muri
Direction :	Bernard Prum
Type :	Thèse de doctorat
Discipline(s) :	Mathématique
Date :	Soutenance en 1997
Etablissement(s) :	Paris 5
Jury :	Président / Présidente : Bernard Prum
	Examinateurs / Examinatrices : Bernard Prum, Élisabeth Lesquoy-de Turckheim, Christian P. Robert, Jean-Pierre Raoult, Dominique Cellier, Philippe Bessieres
	Rapporteurs / Rapporteuses : Élisabeth Lesquoy-de Turckheim, Christian P. Robert

Mots clés

FR

Mots clés contrôlés

ADN

Algorithmes EM

Markov, Processus de

Mots clés libres

Simulation statistique

Chaîne Markov

Algorithme EM

Echantillonnage GIBBS

Résumé

FR

Avec les rapides projets de séquençage de génomes d'organismes divers, les biologistes disposent d'un nombre croissant de séquences d’ADN et sont à la recherche d'outils statistiques leur permettant d'analyser toute cette information. L'un des problèmes concerne la non prise en compte dans la modélisation de l'hétérogénéité observée dans une séquence d’ADN. Notre but est d'utiliser un modèle, expliquant au mieux cette hétérogénéité, pour délimiter les régions homogènes de la séquence étudiée. La détection de ces régions est importante d'un point de vue biologique car elle est susceptible de révéler des différences fonctionnelles ou structurelles à l'intérieur du génome. L'approche statistique que nous proposons s'appuie sur les modèles de chaines de Markov cachées. Ces modèles supposent que la séquence peut être découpée en plages homogènes, dont on ignore a priori la taille et la position, et que l'on dispose d'un nombre fini q de modèles qui s'ajustent de façon satisfaisante sur chacune de ces plages. La succession des plages est gérée par une chaine de Markov non observée à q états (la chaine de Markov cachée). Il s'agit alors de reconstruire ces plages à partir de la séquence observée et d'estimer les paramètres des q modèles régissant chacune d'entre elles. Le problème statistique est donc un problème à données manquantes et de mélange. Nous comparons différentes procédures d'identification des chaines cachées : l'algorithme em et ses deux versions stochastiques, sem et em à la Gibbs, pour une estimation par maximum de vraisemblance. Nous proposons également une estimation bayésiennes utilisant l'échantillonnage de Gibbs. Les performances de ces algorithmes sont comparées à l'aide de simulations. Ces méthodes sont finalement utilisées pour identifier des régions homogènes des séquences d’ADN des bactériophages lambda et bil67, du virus hiv1 et de la bactérie b. Subtilis.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Comparaison d'algorithmes d'identification de chaînes de Markov cachées et application a la détection de régions homogènes dans les séquences d'ADN

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Comparaison d'algorithmes d'identification de chaînes de Markov cachées et application a la détection de régions homogènes dans les séquences d'ADN

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses