Thèse soutenue

Classification bayésienne non supervisée de données fonctionnelles en présence de covariables

FR  |  
EN
Auteur / Autrice : Damien Juery
Direction : Christophe Abraham
Type : Thèse de doctorat
Discipline(s) : Biostatistique
Date : Soutenance le 18/12/2014
Etablissement(s) : Montpellier 2
Ecole(s) doctorale(s) : Information, Structures, Systèmes (Montpellier ; École Doctorale ; 2009-2014)
Partenaire(s) de recherche : Laboratoire : Mathématiques, Informatique et STatistique pour l'Environnement et l'Agronomie (Montpellier)
Jury : Examinateurs / Examinatrices : Christophe Abraham, Nicolas Chopin, Pierre Druilhet, Bénédicte Fontez, Jean-Michel Marin, Denys Pommeret
Rapporteurs / Rapporteuses : Nicolas Chopin, Pierre Druilhet

Résumé

FR  |  
EN

Un des objectifs les plus importants en classification non supervisée est d'extraire des groupes de similarité depuis un jeu de données. Avec le développement actuel du phénotypage où les données sont recueillies en temps continu, de plus en plus d'utilisateurs ont besoin d'outils capables de classer des courbes.Le travail présenté dans cette thèse se fonde sur la statistique bayésienne. Plus précisément, nous nous intéressons à la classification bayésienne non supervisée de données fonctionnelles. Les lois a priori bayésiennes non paramétriques permettent la construction de modèles flexibles et robustes.Nous généralisons un modèle de classification (DPM), basé sur le processus de Dirichlet, au cadre fonctionnel. Contrairement aux méthodes actuelles qui utilisent la dimension finie en projetant les courbes dans des bases de fonctions, ou en considérant les courbes aux temps d'observation, la méthode proposée considère les courbes complètes, en dimension infinie. La théorie des espaces de Hilbert à noyau reproduisant (RKHS) nous permet de calculer, en dimension infinie, les densités de probabilité des courbes par rapport à une mesure gaussienne. De la même façon, nous explicitons un calcul de loi a posteriori, sachant les courbes complètes et non seulement les valeurs discrétisées. Nous proposons un algorithme qui généralise l'algorithme "Gibbs sampling with auxiliary parameters" de Neal (2000). L'implémentation numérique requiert le calcul de produits scalaires, qui sont approchés à partir de méthodes numériques. Quelques applications sur données réelles et simulées sont également présentées, puis discutées.En dernier lieu, l'ajout d'une hiérarchie supplémentaire à notre modèle nous permet de pouvoir prendre en compte des covariables fonctionnelles. Nous verrons à cet effet qu'il est possible de définir plusieurs modèles. La méthode algorithmique proposée précédemment est ainsi étendue à chacun de ces nouveaux modèles. Quelques applications sur données simulées sont présentées.