Thèse soutenue

Quelques contributions à des problèmes de décisions
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Frédéric Logé
Direction : Erwan Le Pennec
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 04/03/2021
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : École polytechnique (Palaiseau, Essonne ; 1795-....)
Laboratoire : Centre de mathématiques appliquées (Palaiseau, Essonne)
Jury : Président / Présidente : Mathilde Mougeot
Examinateurs / Examinatrices : Erwan Le Pennec, Aurélien Garivier, Sébastien Gadat, Karim Lounici, Emmanuelle Claeys
Rapporteurs / Rapporteuses : Aurélien Garivier, Sébastien Gadat

Résumé

FR  |  
EN

Cette thèse, motivée par des applications des secteurs de l'industrie et de la santé, est un recueil d'études sur différents problèmes de décision.Dans la première partie, nous nous concentrons sur des problèmes de prise de décision en une seule étape, où un modèle prédictif est utilisé en amont de la prise de décision, et où un retour d'information explicite est reçu. Nous proposons de laisser à l'utilisateur final la tâche de définir la fonction de perte associée au modèle prédictif, de façon à encoder le coût réel de l'utilisation d'une prévision pour prendre une décision. Comme approche algorithmique, nous considérons les arbres de décisions, optimisés avec la fonction de perte ajustée, et des méthodes d'approximation de fonction, liée à l'apprentissage des Q-valeurs dans l'apprentissage par renforcement, dans le cas où seule la récompense immédiate est d'intérêt. Trois applications sont étudiées : le calibrage d'un système d'alarme pour lutter contre l'errance médicale ; le problème de la nomination sur un marché de l'électricité, du point de vue d'un fournisseur d'énergies renouvelables ; l'optimisation de la production dans l'incertitude de la demande des clients.Dans la deuxième partie, nous nous intéressons essentiellement à deux problèmes spécifiques de prise de décision séquentielle, que nous abordons à l'aide d'un cadre de processus décisionnel de Markov et d'algorithmes d'apprentissage par renforcement. Dans la première application, nous essayons d'optimiser les moment de repas et la gestion de l'insuline pour les personnes souffrant de diabète de type I et qui comptent sur les auto-injections. Pour ce faire, nous nous appuyons sur un simulateur de patient, lequel est basé sur la connaissance médicale de l'interaction entre glucose et insuline et sur des paramètres physiologiques propres aux patients. Dans la seconde application, nous essayons de construire un questionnaire prédictif adaptatif pour des interactions lisses avec les utilisateurs. Pour des données binaires, le questionnaire ressemble à un arbre de décision, optimisé de façon bottom-up. Pour des données non-binaires, ce nouveau questionnaire ne redemande des questions déjà posées, se souvient des valeurs observées précédemment, et les exploite pleinement une fois arrivé dans un noeud terminal, où une fonction de prédiction spécifique est disponible.Dans notre dernière partie, nous nous intéressons à trois processus de décision qui, par construction, n'exigent pas que l'agent explore l'environnement. Par exemple, nous considérons un système dont la dynamique est suffisamment stochastique pour que, quelle que soit notre action, nous explorions l'espace d’état, tout en ayant une certaine influence par nos actions. Nous considérons également un système où certaines actions sont indisponibles aléatoirement en fonction des epochs. Outre les résultats théoriques trouvés, cette partie met l'accent sur l'importance de concentrer l'exploration là où elle est nécessaire.