Contributions to probabilistic non-negative matrix factorization - Maximum marginal likelihood estimation and Markovian temporal models

par Louis Filstroff

Thèse de doctorat en Signal, Image, Acoustique et Optimisation

Sous la direction de Cédric Févotte.

Le président du jury était Elisabeth Gassiat.

Le jury était composé de Cédric Févotte, Éric Gaussier, Pierre Alquier, Joseph Salmon.

Les rapporteurs étaient Éric Gaussier, Pierre Alquier.

  • Titre traduit

    Contributions à la factorisation en matrices non-négatives probabiliste — Estimation par maximum de vraisemblance marginale et modèles markoviens temporels


  • Résumé

    La factorisation en matrices non-négatives (NMF, de l’anglais non-negative matrix factorization) est aujourd’hui l’une des techniques de réduction de la dimensionnalité les plus répandues, dont les domaines d’application recouvrent le traitement du signal audio, l’imagerie hyperspectrale, ou encore les systèmes de recommandation. Sous sa forme la plus simple, la NMF a pour but de trouver une approximation d’une matrice des données non-négative (c’est-à-dire à coefficients positifs ou nuls) par le produit de deux matrices non-négatives, appelées les facteurs. L’une de ces matrices peut être interprétée comme un dictionnaire de motifs caractéristiques des données, et l’autre comme les coefficients d’activation de ces motifs. La recherche de cette approximation de rang faible s’effectue généralement en optimisant une mesure de similarité entre la matrice des données et son approximation. Il s’avère que pour de nombreux choix de mesures de similarité, ce problème est équivalent à l’estimation jointe des facteurs au sens du maximum de vraisemblance sous un certain modèle probabiliste décrivant les données. Cela nous amène à considérer un paradigme alternatif pour la NMF, dans lequel les taches d’apprentissage se portent sur des modèles probabilistes dont la densité d’observation est paramétrisée par le produit des facteurs non-négatifs. Ce cadre général, que nous appelons NMF probabiliste, inclut de nombreux modèles à variables latentes bien connus de la littérature, tels que certains modèles pour des données de compte. Dans cette thèse, nous nous intéressons à des modèles de NMF probabilistes particuliers pour lesquels on suppose une distribution a priori pour les coefficients d’activation, mais pas pour le dictionnaire, qui reste un paramètre déterministe. L'objectif est alors de maximiser la vraisemblance marginale de ces modèles semi-bayésiens, c’est-à-dire la vraisemblance jointe intégrée par rapport aux coefficients d’activation. Cela revient à n’apprendre que le dictionnaire, les coefficients d’activation pouvant être inférés dans un second temps si nécessaire. Nous entreprenons d’approfondir l’étude de ce processus d’estimation. En particulier, deux scénarios sont envisagées. Dans le premier, nous supposons l’indépendance des coefficients d’activation par échantillon. Des résultats expérimentaux antérieurs ont montré que les dictionnaires appris via cette approche avaient tendance à régulariser de manière automatique le nombre de composantes ; une propriété avantageuse qui n’avait pas été expliquée alors. Dans le second, nous levons cette hypothèse habituelle, et considérons des structures de Markov, introduisant ainsi de la corrélation au sein du modèle, en vue d’analyser des séries temporelles


  • Résumé

    Non-negative matrix factorization (NMF) has become a popular dimensionality reductiontechnique, and has found applications in many different fields, such as audio signal processing,hyperspectral imaging, or recommender systems. In its simplest form, NMF aims at finding anapproximation of a non-negative data matrix (i.e., with non-negative entries) as the product of twonon-negative matrices, called the factors. One of these two matrices can be interpreted as adictionary of characteristic patterns of the data, and the other one as activation coefficients ofthese patterns. This low-rank approximation is traditionally retrieved by optimizing a measure of fitbetween the data matrix and its approximation. As it turns out, for many choices of measures of fit,the problem can be shown to be equivalent to the joint maximum likelihood estimation of thefactors under a certain statistical model describing the data. This leads us to an alternativeparadigm for NMF, where the learning task revolves around probabilistic models whoseobservation density is parametrized by the product of non-negative factors. This general framework, coined probabilistic NMF, encompasses many well-known latent variable models ofthe literature, such as models for count data. In this thesis, we consider specific probabilistic NMFmodels in which a prior distribution is assumed on the activation coefficients, but the dictionary remains a deterministic variable. The objective is then to maximize the marginal likelihood in thesesemi-Bayesian NMF models, i.e., the integrated joint likelihood over the activation coefficients.This amounts to learning the dictionary only; the activation coefficients may be inferred in asecond step if necessary. We proceed to study in greater depth the properties of this estimation process. In particular, two scenarios are considered. In the first one, we assume the independence of the activation coefficients sample-wise. Previous experimental work showed that dictionarieslearned with this approach exhibited a tendency to automatically regularize the number of components, a favorable property which was left unexplained. In the second one, we lift thisstandard assumption, and consider instead Markov structures to add statistical correlation to themodel, in order to better analyze temporal data.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Institut national polytechnique. Service commun de la documentation.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.