Estimation dans des modèles à variables cachées : alignement des séquences biologiques et modèles d'évolution

par Ana Arribas Gil

Thèse de doctorat en Mathématiques. Statistiques

Sous la direction de Elisabeth Gassiat.


  • Résumé

    Cette thèse est consacrée à l'estimation paramétrique dans certains modèles d'alignement de séquences biologiques. Ce sont des modèles construits à partir des considérations sur le processus d'évolution des séquences. Dans le cas de deux séquences, le processus d'évolution classique résulte dans un modèle d'alignement appelé pair-Hidden Markov Model (pair-HMM). Dans le pair-HMM les observations sont formées par le couple de séquences à aligner et l'alignement caché est une chaîne de Markov. D'un point de vue théorique nous donnons un cadre rigoureux pour ce modèle et étudions la consistance des estimateurs bayésien et par maximum de vraisemblance. D'un point de vue appliqué nous nous intéressons à la détection de motifs conservés dans les séquences à travers de l'alignement. Pour cela nous introduisons un processus d'évolution permettant différents comportements évolutifs à différents endroits de la séquence et pour lequel le modèle d'alignement est toujours un pair-HMM. Nous proposons des algorithmes d'estimation d'alignements et paramètres d'évolution adaptés à la complexité du modèle. Finalement, nous nous intéressons à l'alignement multiple (plus de deux séquences). Le processus d'évolution classique résulte dans ce cas dans un modèle d'alignement à variables cachées plus complexe et dans lequel il faut prendre en compte les relations phylogénétiques entre les séquences. Nous donnons le cadre théorique pour ce modèle et étudions, comme dans le cas de deux séquences, la propriété de consistance des estimateurs.

  • Titre traduit

    Estimation in hidden variable models : biological sequence alignment and evolution models


  • Résumé

    This thesis is devoted to parameter estimation in models for biological sequence alignment. These are models constructed considering an evolution process on the sequences. In the case of two sequences evolving under the classical evolution process, the alignment model is called a pair-Hidden Markov Model (pair-HMM). Observations in a pair-HMM are formed by the couple of sequences to be aligned and the hidden alignment is a Markov chain. From a theoretical point of view, we provide a rigorous formalism for these models and study consistency of maximum likelihood and bayesian estimators. From the point of view of applications, we are interested in detection of conserved motifs in the sequences. To do this we present an evolution process that allows heterogeneity along the sequence. The alignment under this process still fits the pair-HMM. We propose efficient estimation algorithms for alignments and evolution parameters. Finally we are interested in multiple alignment (more than two sequences). The classical evolution process for the sequences provides a complex hidden variable model for the alignment in which the phylogenetic relationships between the sequences must be taken into account. We provide a theoretical framework for this model and study, as for the pairwise alignment, the consistency of estimators.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (128 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 123-128

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2007)54
  • Bibliothèque : Bibliothèque Mathématique Jacques Hadamard (Orsay, Essonne).
  • Disponible sous forme de reproduction pour le PEB
  • Cote : ARRI
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.