Thèse soutenue

Contributions à l'apprentissage de représentations à partir d'autoencodeurs de graphes et applications à la recommandation musicale

FR  |  
EN
Auteur / Autrice : Guillaume Salha-Galvan
Direction : Michalis VazirgiannisRomain Hennequin
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 08/03/2022
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : établissement opérateur d'inscription : École polytechnique (Palaiseau, Essonne ; 1795-....)
Laboratoire : Laboratoire d'informatique de l'École polytechnique (Palaiseau, Essonne)
Jury : Président / Présidente : Thomas Bonald
Examinateurs / Examinatrices : Michalis Vazirgiannis, Romain Hennequin, Patrick Gallinari, Markus Schedl, Michal Valko, Jie Tang
Rapporteurs / Rapporteuses : Patrick Gallinari, Yizhou Sun

Résumé

FR  |  
EN

Les autoencodeurs de graphes (GAE) et les autoencodeurs variationnels de graphes (VGAE) se sont imposés comme deux puissants groupes de méthodes permettant de construire des représentations vectorielles des nœuds d'un graphe de manière non-supervisée, avec des applications à divers problèmes d'apprentissage tels que la prédiction de liens manquants et la détection de communautés de nœuds. Néanmoins, au début de ce projet de thèse, les GAE et VGAE souffraient de limitations majeures. Ces dernières entravaient l'utilisation de ces modèles dans le cadre d'applications industrielles. Dans cette thèse, nous présentons plusieurs contributions permettant d'améliorer les GAE et VGAE afin de faciliter de telles utilisations.Tout d'abord, nous proposons deux stratégies permettant de surmonter les problèmes de passage à l'échelle des GAE et VGAE, et d'entraîner ces modèles sur des graphes ayant des millions de nœuds et d'arêtes. Ces stratégies exploitent respectivement des techniques de dégénérescence de graphes et de décodage stochastique de sous-graphes. Par ailleurs, nous présentons nos GAE et VGAE "inspirés de la gravité" (de l'anglais "Gravity-Inspired GAE and VGAE"), qui constituent les premières extensions de ces modèles destinées aux graphes dirigés, qui sont omniprésents dans les applications industrielles. Nous étudions également des extensions destinées aux graphes dynamiques. En outre, nous démontrons que les GAE et VGAE existants sont souvent inutilement complexes, et nous proposons donc de les simplifier en ayant recours à des encodeurs linéaires. Enfin, nous présentons nos GAE et VGAE "informés par la modularité'' (de l'anglais "Modularity-Aware GAE and VGAE"), qui permettent d'améliorer la détection de communautés de nœuds, tout en préservant de bonnes performances pour la prédiction de liens manquants.Dans la dernière partie de cette thèse, nous évaluons nos méthodes sur plusieurs graphes extraits du service de streaming musical Deezer. Nous nous concentrons sur des problèmes de recommandation musicale à partir de graphes. En particulier, nous montrons que nos méthodes permettent d'améliorer la détection de communautés d'entités musicales à recommander aux mêmes utilisateurs, mais aussi de mieux classer des artistes similaires dans un contexte de "démarrage à froid", et enfin de mieux modéliser la perception des genres musicaux à travers différentes cultures. Pour terminer, nous présentons également deux autres modèles, récemment déployés en production chez Deezer afin de recommander de la musique à des millions d'utilisateurs. Bien qu'étant moins directement liés aux GAE et VGAE, ils fournissent un point de vue complémentaire sur des sujets de recommandation musicale connexes à ceux étudiés précédemment.