Multi-armed bandits with unconventional feedback | Theses.fr

Pratik Gajane

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Bandits multi-armés avec rétroaction partielle

FR |

EN

Auteur / Autrice :	Pratik Gajane
Direction :	Philippe Preux
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 14/11/2017
Etablissement(s) :	Lille 3
Ecole(s) doctorale(s) :	École doctorale Sciences pour l'ingénieur (Lille)
Partenaire(s) de recherche :	Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille
Jury :	Président / Présidente : Gábor Lugosi
	Examinateurs / Examinatrices : Gábor Lugosi, Aurélien Garivier, Maarten de Rijke, Alexandra Carpentier, Emilie Kaufmann, Tanguy Urvoy, Richard Combes
	Rapporteurs / Rapporteuses : Aurélien Garivier, Maarten de Rijke

Mots clés

FR |

EN

Mots clés contrôlés

Algorithmes

Mots clés libres

Bandits Multi-Bras

Retour D’information Partielle

Dueling Bandits

Corrupt Bandits

Évaluation du Ranker

Vie Privée Différentielle

Résumé

FR |

EN

Dans cette thèse, nous étudions des problèmes de prise de décisions séquentielles dans lesquels, pour chacune de ses décisions, l'apprenant reçoit une information qu'il utilise pour guider ses décisions futures. Pour aller au-delà du retour d’information conventionnel tel qu'il a été bien étudié pour des problèmes de prise de décision séquentielle tels que les bandits multi-bras, nous considérons des formes de retour d’information partielle motivées par des applications pratiques.En premier, nous considérons le problème des bandits duellistes, dans lequel l'apprenant sélectionne deux actions à chaque pas de temps et reçoit en retour une information relative (i.e. de préférence) entre les valeurs instantanées de ces deux actions.En particulier, nous proposons un algorithme optimal qui permet à l'apprenant d'obtenir un regret cumulatif quasi-optimal (le regret est la différence entre la récompense cumulative optimale et la récompense cumulative constatée de l’apprenant). Dans un second temps, nous considérons le problème des bandits corrompus, dans lequel un processus de corruption stochastique perturbe le retour d’information. Pour ce problème aussi, nous concevons des algorithmes pour obtenir un regret cumulatif asymptotiquement optimal. En outre, nous examinons la relation entre ces deux problèmes dans le cadre du monitoring partiel qui est un paradigme générique pour la prise de décision séquentielle avec retour d'information partielle.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Bandits multi-armés avec rétroaction partielle

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Bandits multi-armés avec rétroaction partielle

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses