Estimation and feature selection in high-dimensional mixtures-of-experts models

Bao Tuyen Huynh

Thèse Année : 2019

Estimation and feature selection in high-dimensional mixtures-of-experts models

Estimation et sélection de variables dans les modèles de mélange d’experts de grande dimension

(1)

Bao Tuyen Huynh

Fonction : Auteur

Laboratoire de Mathématiques Nicolas Oresme

Résumé

This thesis deals with the problem of modeling and estimation of high-dimensional MoE models, towards effective density estimation, prediction and clustering of such heterogeneous and high-dimensional data. We propose new strategies based on regularized maximum-likelihood estimation (MLE) of MoE models to overcome the limitations of standard methods, including MLE estimation with Expectation-Maximization (EM) algorithms, and to simultaneously perform feature selection so that sparse models are encouraged in such a high-dimensional setting. We first introduce a mixture-of-experts’ parameter estimation and variable selection methodology, based on l1 (lasso) regularizations and the EM framework, for regression and clustering suited to high-dimensional contexts. Then, we extend the method to regularized mixture of experts models for discrete data, including classification. We develop efficient algorithms to maximize the proposed l1 -penalized observed-data log-likelihood function. Our proposed strategies enjoy the efficient monotone maximization of the optimized criterion, and unlike previous approaches, they do not rely on approximations on the penalty functions, avoid matrix inversion, and exploit the efficiency of the coordinate ascent algorithm, particularly within the proximal Newton-based approach.

Cette thèse traite de la modélisation et de l’estimation de modèles de mélanges d’experts de grande dimension, en vue d’efficaces estimation de densité, prédiction et classification de telles données complexes car hétérogènes et de grande dimension. Nous proposons de nouvelles stratégies basées sur l’estimation par maximum de vraisemblance régularisé des modèles pour pallier aux limites des méthodes standards, y compris l’EMV avec les algorithmes d’espérance-maximisation (EM), et pour effectuer simultanément la sélection des variables pertinentes afin d’encourager des solutions parcimonieuses dans un contexte haute dimension. Nous introduisons d’abord une méthode d’estimation régularisée des paramètres et de sélection de variables d’un mélange d’experts, basée sur des régularisations l1 (lasso) et le cadre de l’algorithme EM, pour la régression et la classification adaptés aux contextes de la grande dimension. Ensuite, nous étendons la stratégie un mélange régularisé de modèles d’experts pour les données discrètes, y compris pour la classification. Nous développons des algorithmes efficaces pour maximiser la fonction de log-vraisemblance l1 -pénalisée des données observées. Nos stratégies proposées jouissent de la maximisation monotone efficace du critère optimisé, et contrairement aux approches précédentes, ne s’appuient pas sur des approximations des fonctions de pénalité, évitent l’inversion de matrices et exploitent l’efficacité de l’algorithme de montée de coordonnées, particulièrement dans l’approche proximale par montée de coordonnées.

Mots clés

Mixture models Mixture of experts Regularized estimation Feature selection Lasso L1 -regularization Sparsity EM algorithm MM Algorithm Proximal-Newton Coordinate Ascent Clustering Classification Regression Prediction

Modèles de mélange Mélange d’experts Estimation régularisée Sélection de variables Parcimonie Régularisation Algorithme MM Proximal-Newton Montée de coordonnées

Domaines

Analyse numérique [math.NA]

Fichier principal

sygal_fusion_28420-huynh-bao_tuyen.pdf (3.82 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-02469045

Soumis le : jeudi 6 février 2020-12:34:09

Dernière modification le : jeudi 21 mars 2024-03:09:31

Archivage à long terme le : jeudi 7 mai 2020-14:36:44

Dates et versions

tel-02469045 , version 1 (06-02-2020)

Identifiants

HAL Id : tel-02469045 , version 1

Citer

Bao Tuyen Huynh. Estimation and feature selection in high-dimensional mixtures-of-experts models. Numerical Analysis [math.NA]. Normandie Université, 2019. English. ⟨NNT : 2019NORMC237⟩. ⟨tel-02469045⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS STAR COMUE-NORMANDIE TDS-MACS THESES-NU UNICAEN LMNO

147 Consultations

230 Téléchargements

Estimation and feature selection in high-dimensional mixtures-of-experts models

Estimation et sélection de variables dans les modèles de mélange d’experts de grande dimension

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager