On unsupervised learning in high dimension

by Mehdi Sebbar

Doctoral thesis in Math?matiques appliqu?es

Under the supervision of Arnak S. Dalalyan.

defended on 12-12-2017

in Paris Saclay , under the authority of ?cole doctorale de math?matiques Hadamard (Orsay, Essonne) , in a partnership with ENSAE - X - Centre de recherche en ?conomie et statistique (CREST) (laboratoire) , Centre de recherche en ?conomie et statistique (France) (laboratoire) , Ecole nationale de la statistique et de l'administration ?conomique (Palaiseau, Essonne) (?tablissement de pr?paration de la th?se) and Centre de recherche en ?conomie et statistique (France) (laboratoire) .


  • Abstract

    In this thesis, we discuss two topics, high-dimensional clustering on the one hand and estimation of mixing densities on the other. The first chapter is an introduction to clustering. We present various popular methods and we focus on one of the main models of our work which is the mixture of Gaussians. We also discuss the problems with high-dimensional estimation (Section 1.3) and the difficulty of estimating the number of clusters (Section 1.1.4). In what follows, we present briefly the concepts discussed in this manuscript. Consider a mixture of K Gaussians in R^p. One of the common approaches to estimate the parameters is to use the maximum likelihood estimator. Since this problem is not convex, we can not guarantee the convergence of classical methods such as gradient descent or Newton's algorithm. However, by exploiting the biconvexity of the negative log-likelihood, the iterative 'Expectation-Maximization' (EM) procedure described in Section 1.2.1 can be used. Unfortunately, this method is not well suited to meet the challenges posed by the high dimension. In addition, it is necessary to know the number of clusters in order to use it. Chapter 2 presents three methods that we have developed to try to solve the problems described above. The works presented there have not been thoroughly researched for various reasons. The first method that could be called 'graphical lasso on Gaussian mixtures' consists in estimating the inverse matrices of covariance matrices Sigma (Section 2.1) in the hypothesis that they are parsimonious. We adapt the graphic lasso method of [Friedman et al., 2007] to a component in the case of a mixture and experimentally evaluate this method. The other two methods address the problem of estimating the number of clusters in the mixture. The first is a penalized estimate of the matrix of posterior probabilities Tau in R ^ {nK} whose component (i, j) is the probability that the i-th observation is in the j-th cluster. Unfortunately, this method proved to be too expensive in complexity (Section 2.2.1). Finally, the second method considered is to penalize the weight vector pi in order to make it parsimonious. This method shows promising results (Section 2.2.2). In Chapter 3, we study the maximum likelihood estimator of density of n i.i.d observations, under the assumption that it is well approximated by a mixture with a large number of components. The main focus is on statistical properties with respect to the Kullback-Leibler loss. We establish risk bounds taking the form of sharp oracle inequalities both in deviation and in expectation. A simple consequence of these bounds is that the maximum likelihood estimator attains the optimal rate ((log K)/n)^{1/2}, up to a possible logarithmic correction, in the problem of convex aggregation when the number K of components is larger than n^{1/2}. More importantly, under the additional assumption that the Gram matrix of the components satisfies the compatibility condition, the obtained oracle inequalities yield the optimal rate in the sparsity scenario. That is, if the weight vector is (nearly) D-sparse, we get the rate (Dlog K)/n. As a natural complement to our oracle inequalities, we introduce the notion of nearly-D-sparse aggregation and establish matching lower bounds for this type of aggregation. Finally, in Chapter 4, we propose an algorithm that performs the Kullback-Leibler aggregation of components of a dictionary as discussed in Chapter 3. We compare its performance with different methods: the kernel density estimator , the 'Adaptive Danzig' estimator, the SPADES and EM estimator with the BIC criterion. We then propose a method to build the dictionary of densities and study it numerically. This thesis was carried out within the framework of a CIFRE agreement with the company ARTEFACT.

  • Alternative Title

    Sur l'apprentissage non supervis? en haute dimension


  • Abstract

    Dans ce m?moire de th?se, nous abordons deux th?mes, le clustering en haute dimension d'une part et l'estimation de densit?s de m?lange d'autre part. Le premier chapitre est une introduction au clustering. Nous y pr?sentons diff?rentes m?thodes r?pandues et nous nous concentrons sur un des principaux mod?les de notre travail qui est le m?lange de Gaussiennes. Nous abordons aussi les probl?mes inh?rents ? l'estimation en haute dimension et la difficult? d'estimer le nombre de clusters. Nous exposons bri?vement ici les notions abord?es dans ce manuscrit. Consid?rons une loi m?lange de K Gaussiennes dans R^p. Une des approches courantes pour estimer les param?tres du m?lange est d'utiliser l'estimateur du maximum de vraisemblance. Ce probl?me n'?tant pas convexe, on ne peut garantir la convergence des m?thodes classiques. Cependant, en exploitant la biconvexit? de la log-vraisemblance n?gative, on peut utiliser la proc?dure it?rative 'Expectation-Maximization' (EM). Malheureusement, cette m?thode n'est pas bien adapt?e pour relever les d?fis pos?s par la grande dimension. Par ailleurs, cette m?thode requiert de conna?tre le nombre de clusters. Le Chapitre 2 pr?sente trois m?thodes que nous avons d?velopp?es pour tenter de r?soudre les probl?mes d?crits pr?c?demment. Les travaux qui y sont expos?s n'ont pas fait l'objet de recherches approfondies pour diverses raisons. La premi?re m?thode, 'lasso graphique sur des m?langes de Gaussiennes', consiste ? estimer les matrices inverses des matrices de covariance dans l'hypoth?se o? celles-ci sont parcimonieuses. Nous adaptons la m?thode du lasso graphique de [Friedman et al., 2007] sur une composante dans le cas d'un m?lange et nous ?valuons exp?rimentalement cette m?thode. Les deux autres m?thodes abordent le probl?me d'estimation du nombre de clusters dans le m?lange. La premi?re est une estimation p?nalis?e de la matrice des probabilit?s post?rieures dont la composante (i,j) est la probabilit? que la i-?me observation soit dans le j-?me cluster. Malheureusement, cette m?thode s'est av?r?e trop co?teuse en complexit?. Enfin, la deuxi?me m?thode consid?r?e consiste ? p?naliser le vecteur de poids afin de le rendre parcimonieux. Cette m?thode montre des r?sultats prometteurs. Dans le Chapitre 3, nous ?tudions l'estimateur du maximum de vraisemblance d'une densit? de n observations i.i.d. sous l?hypoth?se qu'elle est bien approxim?e par un m?lange de plusieurs densit?s donn?es. Nous nous int?ressons aux performances de l'estimateur par rapport ? la perte de Kullback-Leibler. Nous ?tablissons des bornes de risque sous la forme d'in?galit?s d'oracle exactes, que ce soit en probabilit? ou en esp?rance. Nous d?montrons ? travers ces bornes que, dans le cas du probl?me d?agr?gation convexe, l'estimateur du maximum de vraisemblance atteint la vitesse (log K)/n)^{1/2}, qui est optimale ? un terme logarithmique pr?s, lorsque le nombre de composant est plus grand que n^{1/2}. Plus important, sous l?hypoth?se suppl?mentaire que la matrice de Gram des composantes du dictionnaire satisfait la condition de compatibilit?, les in?galit?s d'oracles obtenues donnent la vitesse optimale dans le sc?nario parcimonieux. En d'autres termes, si le vecteur de poids est (presque) D-parcimonieux, nous obtenons une vitesse (Dlog K)/n. En compl?ment de ces in?galit?s d'oracle, nous introduisons la notion d?agr?gation (presque)-D-parcimonieuse et ?tablissons pour ce type d?agr?gation les bornes inf?rieures correspondantes. Enfin, dans le Chapitre 4, nous proposons un algorithme qui r?alise l'agr?gation en Kullback-Leibler de composantes d'un dictionnaire telle qu'?tudi?e dans le Chapitre 3. Nous comparons sa performance avec diff?rentes m?thodes. Nous proposons ensuite une m?thode pour construire le dictionnaire de densit?s et l??tudions de mani?re num?rique. Cette th?se a ?t? effectu? dans le cadre d?une convention CIFRE avec l?entreprise ARTEFACT.


It's available in the institution of thesis defence.

Consult library

Version is available

Where is this thesis?

  • Library : Ecole Nationale de la Statistique et de l'Administration Economique.
See the Sudoc catalog libraries of higher education and research.