Analyse multirésolution pour la statistique des données de préférence

par Anna Korba

Projet de thèse en Mathématiques appliquées

Sous la direction de Stephan Clemencon.

Thèses en préparation à Paris Saclay , dans le cadre de Mathématiques Hadamard , en partenariat avec Laboratoire de Traitement et Communication de l'Information (laboratoire) et de Télécom ParisTech (établissement de préparation de la thèse) depuis le 01-10-2015 .


  • Résumé

    Ordonner des objets est une tâche qui revient souvent dans les applications modernes du traitement de données. Les moteurs de recherche par exemple visent à présenter, pour un utilisateur qui a entré une requête donnée, la liste des résultats correspondants ordonnés du plus au moins pertinent. De même, les systèmes de recommandation (films, livres, musique, news, e-commerce, ...) cherchent à présenter des objets qui pourraient intéresser un utilisateur, dans l'ordre supposé correspondre le mieux à ses préférences. Dans le langage de l'apprentissage statistique, ces objectifs se formulent en termes de prédiction de rankings (ou pré-ordres) : pour chaque sous-ensemble d'objets d'un catalogue d'objets donnés, quel est le meilleur ranking sur ces objets (au sens de l'optimisation d'une certaine fonction de coût) ? Adoptant l'approche générale du filtrage collaboratif qui consiste à ne pas se fonder sur les caractéristiques éventuelles des objets à ordonner (chaque objet est donc représenté par son numéro), on est amené à analyser des données de préférences, sous la forme de comparaisons (i est préféré à j qui est préféré à k par exemple). Mathématiquement, un ordre total sur n objets peut être vu comme une permutation (qui envoie un objet sur son rang). Les modèles de prédiction de rankings reposent donc sur l'inférence de distributions de probabilités sur les permutations. La manipulation de données de préférences (leur agrégation en particulier) renvoie à une longue série de travaux en théorie sociale du choix initiés par Condorcet et la modélisation de telles distributions a commencé à être étudiée en 1951 par Mallows. Cependant, le cadre des applications modernes pose des problèmes nouveaux et requièrent de développer de nouveaux concepts et des méthodes d'analyse originales: le nombre n d'éléments à ordonner (e.g. liens html, objets/films d'un catalogue) est considérable et le nombre d'éléments ordonnés pour une observation (e.g. fims préférés d'un utilisateur) est en général très petit par rapport à n. Le nombre de permutations à n éléments étant égal à n!, l'analyse des données de préférences représente dans ce cadre un véritable défi sur le plan computationnel. En réalisant une analyse fine de la structure algébrique des fonctions sur les permutations, Stephan Clémençon, Eric Sibony et Jérémy Jakubowicz (Multiresolution Analysis of Incomplete Rankings, ArXiv e-prints, 2014) ont introduit un cadre d'analyse multi-résolution qui permet de construire des algorithmes de prédiction performants et efficaces, adapté à la nature des données de préférence. Par rapport au travaux précurseurs de P. Diaconis qui ont montré comment exploiter l'analyse harmonique du groupe symétrique (non commutatif pour la composition) pour l'analyse des données de rang, ce cadre d'analyse nouveau ouvre la voie à de nombreuses applications jusque-là inaccessibles. La représentation qu'il offre d'une distribution (et de toutes ses marginales) sur le groupe symétrique peut être comparée à ce que permet l'analyse par ondelettes d'un signal: elle permet d'exploiter des informations, éventuellement inter-dépendantes, à des niveaux de résolution variables (i.e. des ordonnancements de sous-ensembles différents). Sur le modèle des applications de l'analyse harmonique computationnelle par ondelettes en traitement statistique du signal, l'objectif de cette thèse est d'étudier comment appliquer ce cadre d'analyse à des problèmes de nature statistique: - estimation de distribution sur le groupe symétrique - prédiction - agrégation/consensus -débruitage -clustering. Mathématiquement, il s'agira de comprendre l'effet de certains opérateurs (e.g. bruit, mélange) sur la représentation proposée et dans quelle mesure ces opérateurs sont quasi-diagonaux dans les bases (non-orthonormales) associées à la représentation proposée. L'efficacité (i.e. 'sparsité') de la représentation devant être la clé de procédures statistiques efficaces.

  • Titre traduit

    Multi-Resolution Analysis -based statistical analysis of ranking data


  • Résumé

    Ordering objects is a task that is often used in modern applications of data processing. For example, search engines aim to present to a user who has entered a given query, the list of matching results ordered from most to least relevant. Similarly, recommendation systems (films, books, music, news, e-commerce, ...) aim to present objects that might interest an user, in an order that sticks best preferences. These objectives can be formulated in a machine learning rankings prediction problem (or orders) : for each subset of objects of a given object catalog, what is the best ranking on these objects (in the sense of optimizing some cost function)? Adopting the general approach of collaborative filtering which consists in not attributing any feature to objects (each object is represented by its number), it is necessary to analyze preference data, in the form of comparisons (i is preferred to j which is preferred to k for example). Ma- thematically, a total order on n objects can be seen as a permutation (which sends an object to its rank). The rankings prediction models are therefore based on the manipulation of probability distributions on permutations. Rankings prediction models are therefore based on the inference of probability distributions on permutations. Handling preference data (in particular to perform aggregation) refers to a long series of works in social choice theory initiated by Condorcet and modeling such distributions began to be studied in 1951 by Mallows. However, the framework of modern applications poses new problems and we need to develop new original concepts and methods of analysis : the number n to order items (html links, objects / movies from a catalog) is significant and the number of items ordered for an observation (preferred films a user) is generally very small compared to . The number of permutations of n elements being equal to n!, the analysis of preference data in this context is a computational challenge. By performing a detailed analysis of the algebraic structure of the functions on permutations, Stephan Cl ́emenc ̧on , Eric Sibony and Jeremy Jaku- bowicz (Multiresolution Analysis of Incomplete Rankings, arXiv e-prints, 2014) have introduced a multi-resolution analysis framework to build efficient and effective prediction algorithms, adapted to the nature of preference data. Compared to the pioneering work of P. Diaconis that showed how to use the harmonic analysis of the symmetric group (not commutative for composition) for the analysis of ranking data, this new framework opens the way for numerous applications pre- viously inaccessible. The representation that provides a distribution (and all its marginals) on the symmetric group can be compared to what wavelet analysis enables for a signal : it enables to exploit information, possibly interdependent at varying levels of resolution (that is to say different subsets of rankings). Following the model of the applications of computational harmonic wavelet analysis in sta- tistical signal processing, the objective of this thesis is to study how to apply this framework to statistical problems : — distribution estimation on the symmetric group — prediction — aggregation / consensus — denoising — clustering. Mathematically, the problem is to understand the effect of some operators (noise, mix) on the proposed representation and how these operators are almost-diagonal in the bases (not orthonor- mal) associated with the proposed representation. The effectiveness ('sparsity') of representation should be the key to perform effective statistical procedures.