Sequential prediction for budgeted learning : Application to trigger design

par Djalel Benbouzid

Thèse de doctorat en Informatique

Sous la direction de Balázs Kégl.

Soutenue le 20-02-2014

à Paris 11 , dans le cadre de Ecole doctorale Informatique de Paris-Sud , en partenariat avec Laboratoire de l'accélérateur linéaire (Orsay, Essonne) (laboratoire) et de Laboratoire de l'Accélérateur Linéaire (laboratoire) .

  • Titre traduit

    Prédiction séquentielle pour l'apprentissage budgété : Application à la conception de trigger


  • Résumé

    Cette thèse aborde le problème de classification en apprentissage statistique sous un angle nouveau en rajoutant une dimension séquentielle au processus de classification. En particulier, nous nous intéressons au cas de l'apprentissage à contraintes de budget (ou apprentissage budgété) où l'objectif est de concevoir un classifieur qui, tout en apportant des prédictions correctes, doit gérer un budget computationnel, consommé au fur et à mesure que les différents attributs sont acquis ou évalués. Les attributs peuvent avoir des coûts d'acquisition différents et il arrive souvent que les attributs les plus discriminatifs soient les plus coûteux. Le diagnostic médical et le classement de pages web sont des exemples typiques d'applications de l'apprentissage budgété. Pour le premier, l'objectif est de limiter le nombre de tests médicaux que le patient doit endurer et, pour le second, le classement doit se faire dans un temps assez court pour ne pas faire fuir l'usager. Au cours de cette thèse, nous nous sommes intéressés à des contraintes de budget atypiques, que la conception de trigger nous a motivés à investiguer. Les triggers sont un type de classifieurs rapides, temps-réel et sensibles aux coûts qui ont pour objectif de filtrer les données massives que les accélérateurs de particules produisent et d'en retenir les événements les plus susceptibles de contenir le phénomène étudié, afin d'être enregistrés pour des analyses ultérieures. La conception de trigger impose des contraintes computationnelles strictes lors de la classification mais, surtout, exhibe des schémas complexes de calcul du coût de chaque attributs. Certains attributs sont dépendants d'autres attributs et nécessitent de calculer ces derniers en amont, ce qui a pour effet d'augmenter le coût de la classification. De plus, le coût des attributs peut directement dépendre de leur valeur concrète. On retrouve ce cas de figure lorsque les extracteurs d'attributs améliorent la qualité de leur sortie avec le temps mais peuvent toujours apporter des résultats préliminaires. Enfin, les observations sont regroupées en sacs et, au sein du même sac, certaines observations partagent le calcul d'un sous-ensemble d'attributs. Toutes ces contraintes nous ont amenés à formaliser la classification sous un angle séquentiel.Dans un premier temps, nous proposons un nouveau cadriciel pour la classification rapide en convertissant le problème initial de classification en un problème de prise décision. Cette reformulation permet d'un part d'aborder la séquentialité de manière explicite, ce qui a pour avantage de pouvoir aisément incorporer les différentes contraintes que l'on retrouve dans les applications réelles, mais aussi d'avoir à disposition toute une palette d'algorithmes d'apprentissage par renforcement pour résoudre le nouveau problème. Dans une seconde partie, nous appliquons notre modèle de classification séquentielle à un problème concret d'apprentissage à contraintes de budget et démontrant les bénéfices de notre approche sur des données simulées (à partir de distributions simplifiées) de l'expérience LHCb (CERN).


  • Résumé

    Classification in machine learning has been extensively studied during the pastdecades. Many solutions have been proposed to output accurate classifiers and toobtain statistical grantees on the unseen observations. However, when machinelearning algorithms meet concrete industrial or scientific applications, new computationalcriteria appear to be as important to satisfy as those of classificationaccuracy. In particular, when the output classifier must comply with a computationalbudget needed to obtain the features that are evaluated at test time, wetalk about “budgeted” learning. The features can have different acquisition costsand, often, the most discriminative features are the costlier. Medical diagnosis andweb-page ranking, for instance, are typical applications of budgeted learning. Inthe former, the goal is to limit the number of medical tests evaluate for patients,and in the latter, the ranker has limited time to order documents before the usergoes away.This thesis introduces a new way of tackling classification in general and budgetedlearning problems in particular, through a novel framework lying in theintersection of supervised learning and decision theory. We cast the classificationproblem as a sequential decision making procedure and show that this frameworkyields fast and accurate classifiers. Unlike classical classification algorithms thatoutput a “one-shot” answer, we show that considering the classification as a seriesof small steps wherein the information is gathered sequentially also providesa flexible framework that allows to accommodate different types of budget constraintsin a “natural” way. In particular, we apply our method to a novel type ofbudgeted learning problems motivated by particle physics experiments. The particularityof this problem lies in atypical budget constraints and complex cost calculationschemata where the calculation of the different features depends on manyfactors. We also review similar sequential approaches that have recently known aparticular interest and provide a global perspective on this new paradigm.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud. Service commun de la documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.