Thèse soutenue

Apprentissage automatique séquentiel pour les systèmes éducatifs intelligents

FR  |  
EN
Auteur / Autrice : Julien Seznec
Direction : Michal ValkoAlessandro Lazaric
Type : Thèse de doctorat
Discipline(s) : Informatique et applications
Date : Soutenance le 15/12/2020
Etablissement(s) : Université de Lille (2018-2021)
Ecole(s) doctorale(s) : École doctorale Sciences pour l'ingénieur (Lille)
Partenaire(s) de recherche : Laboratoire : Centre Inria de l'Université de Lille - Centre de Recherche en Informatique, Signal et Automatique de Lille - Inria Lille - Nord Europe - inria scool
Jury : Président / Présidente : Mathilde Mougeot
Examinateurs / Examinatrices : Jonathan Banon, Steffen Grünewälder, Manuel Lopes
Rapporteurs / Rapporteuses : Gilles Stoltz, Aurélien Garivier

Résumé

FR  |  
EN

Proposer des séquences adaptatives d’exercices dans un Environnement informatique pourl’Apprentissage Humain (EIAH) nécessite de caractériser les lacunes de l’élève et d’utilisercette caractérisation dans une stratégie pédagogique adaptée. Puisque les élèves ne fontque quelques dizaines de questions dans une session de révision, ces deux objectifs sonten compétition. L’apprentissage automatique appelle problème de bandits ces dilemmesd’exploration-exploitation dans les prises de décisions séquentielles. Dans cette thèse,nous étudions trois problèmes de bandits pour une application dans les systèmes éducatifsadaptatifs.Les bandits décroissants au repos sont un problème de décision séquentiel dans lequel larécompense associée à une action décroît lorsque celle-ci est sélectionnée. Cela modélisele cas où un élève progresse quand il travaille et l’EIAH cherche à sélectionner le sujetle moins maîtrisé pour combler les plus fortes lacunes. Nous présentons de nouveauxalgorithmes et nous montrons que pour un horizon inconnu T et sans aucune connaissancesur la décroissance des K bras, ces algorithmes atteignent une borne de regret dépendantedu problème O(logT); et une borne indépendante du problème Oe(pKT). Nos résultatsaméliorent substantiellement l’état de l’art, ou seule une borne minimax Oe(K1=3T2=3) avaitété atteinte. Ces nouvelles bornes sont à des facteurs polylog des bornes optimales sur leproblème stationnaire, donc nous concluons : les bandits décroissants ne sont pas plus dursque les bandits stationnaires.Dans les bandits décroissants sans repos, la récompense peut décroître à chaque tour pourtoutes les actions. Cela modélise des situations différentes telles que le vieillissementdu contenu dans un système de recommandation. On montre que les algorithmes conçuspour le problème "au repos" atteignent les bornes inférieures agnostiques au problèmeet une borne dépendante du problème O(logT). Cette dernière est inatteignable dans lecas général où la récompense peut croître. Nous concluons : l’hypothèse de décroissancesimplifie l’apprentissage des bandits sans repos.Viser le sujet le moins connu peut être intéressant avant un examen, mais pendant lecursus - quand tous les sujets ne sont pas bien compris - cela peut mener à l’échec del’apprentissage de l’étudiant. On étudie un Processus de Décision Markovien PartiellementObservable (POMDP, selon l’acronyme anglais) dans lequel on cherche à maîtriser le plusde sujets le plus rapidement possible. On montre que sous des hypothèses raisonnablessur l’apprentissage de l’élève, la meilleure stratégie oracle sélectionne le sujet le plusconnu sous le seuil de maîtrise. Puisque cet oracle optimal n’a pas besoin de connaîtrela dynamique de transition du POMDP, nous proposons une stratégie apprenante avecdes outils "bandits" classiques, en évitant ainsi les méthodes gourmandes en données del’apprentissage de POMDP.