Factorisation bayésienne de matrices pour le filtrage collaboratif

par Olivier Gouvert

Thèse de doctorat en Informatique et Télécommunications

Sous la direction de Cédric Févotte et de Thomas Oberlin.

Le président du jury était Jean-Michel Marin.

Le jury était composé de Cédric Févotte, Thomas Oberlin, Patrick Gallinari, François Caron, Josiane Mothe, Romain Hennequin.

Les rapporteurs étaient Patrick Gallinari, François Caron.


  • Résumé

    Ces quinze dernières années, les systèmes de recommandation ont fait l'objet de nombreuses recherches. L'objectif de ces systèmes est de recommander à chaque utilisateur d'une plateforme des contenus qu'il pourrait apprécier. Cela permet notamment de faciliter la navigation des utilisateurs au sein de très larges catalogues de produits. Les techniques dites de filtrage collaboratif (CF) permettent de faire de telles recommandations à partir des historiques de consommation des utilisateurs uniquement. Ces informations sont habituellement stockées dans des matrices où chaque coefficient correspond au retour d'un utilisateur sur un article. Ces matrices de retour ont la particularité d'être de très grande dimension mais aussi d'être extrêmement creuses puisque les utilisateurs n'ayant interagi qu'avec une petite partie du catalogue. Les retours dits implicites sont les retours d'utilisateurs les plus faciles à collecter. Ils peuvent par exemple prendre la forme de données de comptage, qui correspondent alors au nombre de fois où un utilisateur a interagi avec un article. Les techniques de factorisation en matrices non-négatives (NMF) consistent à approximer cette matrice de retour par le produit de deux matrices non-négatives. Ainsi, chaque utilisateur et chaque article présents dans le système sont représentés par un vecteur non-négatif correspondant respectivement à ses préférences et attributs. Cette approximation, qui correspond à une technique de réduction de dimension, permet alors de faire des recommandations aux utilisateurs. L'objectif de cette thèse est de proposer des méthodes bayésiennes de NMF permettant de modéliser directement les données de comptage sur-dispersées rencontrées en CF. Pour cela, nous étudions d'abord la factorisation Poisson (PF) et présentons ses limites concernant le traitement des données brutes. Pour pallier les problèmes rencontrés par la PF, nous proposons deux extensions de celle-ci : la factorisation binomiale négative (NBF) et la factorisation Poisson composée discrète (dcPF). Ces deux méthodes bayésiennes de NMF proposent des modèles hiérarchiques permettant d'ajouter de la variance. En particulier, la dcPF amène à une interprétation des variables spécialement adaptée à la recommandation musicale. Nous choisissons ensuite de travailler avec des données implicites quantifiées. Cette quantification permet de simplifier la forme des données collectées et d'obtenir des données ordinales. Nous développons donc un modèle de NMF probabiliste adapté aux données ordinales et montrons qu'il peut aussi être vu comme une extension de la PF appliquée à des données pré-traitées. Enfin, le dernier travail de cette thèse traite du problème bien connu de démarrage à froid qui affecte les méthodes de CF. Nous proposons un modèle de co-factorisation de matrices permettant de résoudre ce problème.

  • Titre traduit

    Bayesian matrix factorization for collaborative filtering


  • Résumé

    In recent years, a lot of research has been devoted to recommender systems. The goal of these systems is to recommend to each user some products that he/she may like, in order to facilitate his/her exploration of large catalogs of items. Collaborative filtering (CF) allows to make such recommendations based on the past interactions of the users only. These data are stored in a matrix, where each entry corresponds to the feedback of a user on an item. In particular, this matrix is of very high dimensions and extremly sparse, since the users have interacted with a few items from the catalog. Implicit feedbacks are the easiest data to collect. They are usually available in the form of counts, corresponding to the number of times a user interacted with an item. Non-negative matrix factorization (NMF) techniques consist in approximating the feedback matrix by the product of two non-negative matrices. Thus, each user and item is represented by a latent factor of small dimension corresponding to its preferences and attributes respectively. In recent years, a lot of research has been devoted to recommender systems. The goal of these systems is to recommend to each user some products that he/she may like, in order to facilitate his/her exploration of large catalogs of items. Collaborative filtering (CF) allows to make such recommendations based on the past interactions of the users only. These data are stored in a matrix, where each entry corresponds to the feedback of a user on an item. In particular, this matrix is of very high dimensions and extremly sparse, since the users have interacted with a few items from the catalog. Implicit feedbacks are the easiest data to collect. They are usually available in the form of counts, corresponding to the number of times a user interacted with an item. Non-negative matrix factorization (NMF) techniques consist in approximating the feedback matrix by the product of two non-negative matrices. Thus, each user and item is represented by a latent factor of small dimension corresponding to its preferences and attributes respectively. The goal of this thesis is to develop Bayesian NMF methods which can directly model the overdispersed count data arising in CF. To do so, we first study Poisson factorization (PF) and present its limits for the processing of over-dispersed data. To alleviate this problem, we propose two extensions of PF : negative binomial factorization (NBF) and discrete compound Poisson factorisation (dcPF). In particular, dcPF leads to an interpretation of the variables especially suited to music recommendation. Then, we choose to work on quantified implicit data. This pre- processing simplifies the data which are therefore ordinal. Thus, we propose a Bayesian NMF model for this kind of data, coined OrdNMF. We show that this model is also an extension of PF applied to pre-processed data. Finally, in the last chapter of this thesis, we focus on the wellknown cold-start problem which affects CF techniques. We propose a matrix co-factorization model which allow us to solve this issue


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Institut national polytechnique. Service commun de la documentation.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.