Machine learning under budget constraints

par Gabriella Contardo

Thèse de doctorat en Informatique

Sous la direction de Thierry Artières et de Ludovic Denoyer.

Soutenue le 10-07-2017

à Paris 6 , dans le cadre de École doctorale Informatique, télécommunications et électronique (Paris) , en partenariat avec Laboratoire d'Informatique de Paris 6 (laboratoire) .

Le président du jury était Anne Doucet.

Le jury était composé de Balàzs Kegl, Nicolas Usunier.

Les rapporteurs étaient Olivier Pietquin, Marc Sebban.

  • Titre traduit

    Apprentissage statistique sous contraintes de budget


  • Résumé

    Cette thèse propose de s'intéresser au problème de la prédiction en apprentissage statistique sous contrainte de coût, notamment du coût de l'information utilisée par le système de prédiction. Les approches classiques d'apprentissage statistique utilisent généralement le seul aspect de la performance en prédiction pour évaluer la qualité d'un modèle, ignorant le coût potentiel du modèle, par exemple en quantité de données utilisées en apprentissage (nombre d'exemples, nombre d'étiquette, mémoire) ou en inférence (quantité de features -ou caractéristiques-). Nous proposons plus particulièrement dans ce manuscrit plusieurs approches pour l'inférence sous contrainte de coût en terme de caractéristiques. Nous développons trois modèles qui intègrent pendant l'apprentissage une notion du coût de l'information utilisée pour la prédiction, avec pour objectif de contraindre le coût de la prédiction en inférence. Nous présentons un modèle de sélection de features appliqué au démarrage à froid en recommendation, puis deux méthodes adaptatives d'acquisition de caractéristiques, qui permettent un meilleur compromis coût/prédiction, dans un cadre plus général. Nous utilisons des méthodes d'apprentissage de représentations avec des architectures type réseau de neurones récurrents et des algorithmes par descente de gradient pour l'apprentissage. La dernière partie du manuscrit s'intéresse au coût lié aux étiquettes, usuellement dénommé apprentissage actif dans la littérature. Nous présentons nos travaux pour une approche nouvelle de ce problème en utilisant le méta-apprentissage ainsi qu'une première instanciation basée sur des réseaux récurrents bi-directionnels.


  • Résumé

    This thesis studies the problem of machine learning under budget constraints, in particular we propose to focus on the cost of the information used by the system to predict accurately. Most methods in machine learning usually defines the quality as the performance (e.g accuracy) on the task at hand, but ignores the cost of the model itself: for instance, the number of examples and/or labels needed during learning, the memory used, or the number of features required to predict at test-time. We propose more specifically in this manuscript several methods for cost-sensitive prediction w.r.t. the quantity of features used. We present three models that learn to predict under such constraint, i.e that learn a strategy to gather only the necessary information in order to predict well but with a small cost. The first model is a static approach applied on cold-start recommendation. We then define two adaptive methods that allow for a better trade-off between cost and accuracy, in a more generic setting. We rely on representation learning techniques, along with recurrent neural networks architecture and gradient descent algorithms for learning. In the last part of the thesis, we propose to study the problem of active-learning, where one aims at constraining the amount of labels used to train a model. We present our work for a novel approach of the problem using meta-learning, with an instantiation using bi-directional recurrent neural networks.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Sorbonne Université. Bibliothèque de Sorbonne Université. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.