Estimation Bayésienne du nombre d'états composant dans les modèles de mélanges et les modèles cachés de Markov : méthodes et applications

par Zoé Van Havre

Thèse de doctorat en Sciences

Sous la direction de Judith Rousseau et de Kerrie L. Mengersen.

Thèses en préparation à Paris Sciences et Lettres en cotutelle avec Queensland University of Technology. Brisbane, Australie , dans le cadre de Ecole doctorale de Dauphine (Paris) , en partenariat avec Ceremade, Laboratoire, Laboratoire (laboratoire) depuis le 17-01-2012 .


  • Résumé

    Cette thèse propose de nouvelles méthodologies et heuristiques pour le surapprentissage de modèles de mélange Bayésiens et les modèles cachés de Markov ayant un nombre inconnu d’états composants. Dans le cas des modèles de mélanges finis, la non-identifiabilité induite par le surapprentissage de nombre d’états est traitée comme un problème de modélisation sous contraintes en forme de restrictions sur certains priors. Une méthode basée sur le tempering parallèle qui permet l'estimation de postérieur multimodal avec des techniques “MCMC” est proposée. Une solution pour résoudre le problème de commutation d’étiquettes et aussi développée. Cette thèse inclut une application dans la recherche de la maladie d’Alzheimer où les méthodes développées explorent la possibilité d'identifier des facteurs qui indiquent potentiellement des symptômes préclinique dans une population composée de sujets sains. Une analyse de modèles de mélanges multivariés Gaussien est aussi incluse, sous la forme d'une étude sur la maladie de Parkinson. Pour permettre une certaine dépendance entre les observations, une nouvelle théorie asymptotique et des méthodologies expérimentales sont développées pour les modèles surapprentis de Markov cachés avec un nombre inconnu d'états, afin de réaliser la vidange postérieure d'états supplémentaires dans la pratique.

  • Titre traduit

    Bayesian estimation of the number of components in mixture and hidden Markov models: methods and applications


  • Résumé

    This thesis contributes new methodology and practical insights on the use of overfitting for the Bayesian estimation of finite mixture models (FMMs) and hidden Markov models (HMMs) with an unknown number of components. The non-identifiability induced by overfitting is cast as a modelling approach for such FMMs with the use of certain prior restrictions. Methodology which enables the MCMC estimation of the resulting multi-modal posterior surface is proposed based on parallel tempering, and a novel solution to resolving the label switching problem is developed for overfitted finite mixture models. An application in Alzheimer research is included where the developed methods explore the possibility of identifying clinically relevant clusters potentially indicative of pre-clinical symptoms in a population thought to be comprised of healthy controls. The results are combined in an aggregated posterior probability measure which quantifies a type of individual risk within the scope of the study. An application to unsupervised clustering of multivariate Gaussian mixtures is included in the form of a spike sorting experiment in Parkinson's disease research. This provides insights on the treatment of outliers and non-standard distributions by overfitted FMMs, by exploring such a model alongside a closely related non-parametric approach. In addition, to allow for some dependence between the observations, some new asymtptic theory and experimental methodology is developed for overfitting hidden Markov models with an unknown number of states in order to achieve posterior emptying of extra states in practice. All methodology developed in this thesis is available publicly in the form of an R package, which allows for the estimation of univariate and multivariate Gaussian mixture models and hidden Markov models (with known variances) with an unknown number of components.