La sélection de variables en apprentissage d'ordonnancement pour la recherche d'information : vers une approche contextuelle

par Léa Laporte

Thèse de doctorat en Image, information, hypermedia

Sous la direction de Josiane Mothe et de Sébastien Dejean.

Soutenue en 2013

à Toulouse 3 .


  • Résumé

    L'apprentissage d'ordonnancement, ou learning-to-rank, consiste à optimiser automatiquement une fonction d'ordonnancement apprise à l'aide d'un algorithme à partir de données d'apprentissage. Les approches existantes présentent deux limites. D'une part, le nombre de caractéristiques utilisées est généralement élevé, de quelques centaines à plusieurs milliers, ce qui pose des problèmes de qualité et de volumétrie. D'autre part, une seule fonction est apprise pour l'ensemble des requêtes. Ainsi, l'apprentissage d'ordonnancement ne prend pas en compte le type de besoin ou le contexte de la recherche. Nos travaux portent sur l'utilisation de la sélection de variables en apprentissage d'ordonnancement pour résoudre à la fois les problèmes de la volumétrie et de l'adaptation au contexte. Nous proposons cinq algorithmes de sélection de variables basés sur les Séparateurs à Vaste Marge (SVM) parcimonieux. Trois sont des approches de repondération de la norme L2, une résout un problème d'optimisation en norme L1 et la dernière considère des régularisations non convexes. Nos approches donnent de meilleurs résultats que l'état de l'art sur les jeux de données de référence. Elles sont plus parcimonieuses et plus rapides tout en permettant d'obtenir des performances identiques en matière de RI. Nous évaluons également nos approches sur un jeu de données issu du moteur commercial Nomao. Les résultats confirment la performance de nos algorithmes. Nous proposons dans ce cadre une méthodologie d'évaluation de la pertinence à partir des clics des utilisateurs pour le cas non étudié dans la littérature des documents multi-cliquables (cartes). Enfin, nous proposons un système d'ordonnancement adaptatif dépendant des requêtes basé sur la sélection de variables. Ce système apprend des fonctions d'ordonnancement spécifiques à un contexte donné, en considérant des groupes de requêtes et les caractéristiques obtenues par sélection pour chacun d'eux.

  • Titre traduit

    Feature selection in learning-to-rank for information retrieval : towards a context-aware approach


  • Résumé

    Learning-to-rank aims at automatically optimizing a ranking function learned on training data by a machine learning algorithm. Existing approaches have two major drawbacks. Firstly, the ranking functions can use several thousands of features, which is an issue since algorithms have to deal with large scale data. This can also have a negative impact on the ranking quality. Secondly, algorithms learn an unique fonction for all queries. Then, nor the kind of user need neither the context of the query are taken into account in the ranking process. Our works focus on solving the large-scale issue and the context-aware issue by using feature selection methods dedicated to learning-to-rank. We propose five feature selection algorithms based on sparse Support Vector Machines (SVM). Three proceed to feature selection by reweighting the L2-norm, one solves a L1-regularized problem whereas the last algorithm consider nonconvex regularizations. Our methods are faster and sparser than state-of-the-art algorithms on benchmark datasets, while providing similar performances in terms of RI measures. We also evaluate our approches on a commercial dataset. Experimentations confirm the previous results. We propose in this context a relevance model based on users clicks, in the special case of multi-clickable documents. Finally, we propose an adaptative and query-dependent ranking system based on feature selection. This system considers several clusters of queries, each group defines a context. For each cluster, the system selects a group of features to learn a context-aware ranking function.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (203 p.)
  • Annexes : Bibliogr. p. 190-203

Où se trouve cette thèse ?

  • Bibliothèque : Université Paul Sabatier. Bibliothèque universitaire de sciences.
  • Disponible pour le PEB
  • Cote : 2013 TOU3 0240
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.