Apprentissage automatique séquentiel pour les systèmes éducatifs intelligents

Julien Seznec

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Julien Seznec
Direction :	Michal Valko, Alessandro Lazaric
Type :	Thèse de doctorat
Discipline(s) :	Informatique et applications
Date :	Soutenance le 15/12/2020
Etablissement(s) :	Université de Lille (2018-2021)
Ecole(s) doctorale(s) :	École doctorale Sciences pour l'ingénieur (Lille)
Partenaire(s) de recherche :	Laboratoire : Centre Inria de l'Université de Lille - Centre de Recherche en Informatique, Signal et Automatique de Lille - Inria Lille - Nord Europe - inria scool
Jury :	Président / Présidente : Mathilde Mougeot
	Examinateurs / Examinatrices : Jonathan Banon, Steffen Grünewälder, Manuel Lopes
	Rapporteurs / Rapporteuses : Gilles Stoltz, Aurélien Garivier

Mots clés

FR |

EN

Mots clés contrôlés

Prise de décision (statistique)

Apprentissage par renforcement (intelligence artificielle)

Éducation et informatique

Plateformes d'apprentissage en ligne

Environnement d'apprentissage personnel

Mots clés libres

Environnement informatique pour l’apprentissage humain

Modèle du bandit à plusieurs bras

Bandits décroissants

Processus de décision markovien partiellement observable

Résumé

FR |

EN

Proposer des séquences adaptatives d’exercices dans un Environnement informatique pourl’Apprentissage Humain (EIAH) nécessite de caractériser les lacunes de l’élève et d’utilisercette caractérisation dans une stratégie pédagogique adaptée. Puisque les élèves ne fontque quelques dizaines de questions dans une session de révision, ces deux objectifs sonten compétition. L’apprentissage automatique appelle problème de bandits ces dilemmesd’exploration-exploitation dans les prises de décisions séquentielles. Dans cette thèse,nous étudions trois problèmes de bandits pour une application dans les systèmes éducatifsadaptatifs.Les bandits décroissants au repos sont un problème de décision séquentiel dans lequel larécompense associée à une action décroît lorsque celle-ci est sélectionnée. Cela modélisele cas où un élève progresse quand il travaille et l’EIAH cherche à sélectionner le sujetle moins maîtrisé pour combler les plus fortes lacunes. Nous présentons de nouveauxalgorithmes et nous montrons que pour un horizon inconnu T et sans aucune connaissancesur la décroissance des K bras, ces algorithmes atteignent une borne de regret dépendantedu problème O(logT); et une borne indépendante du problème Oe(pKT). Nos résultatsaméliorent substantiellement l’état de l’art, ou seule une borne minimax Oe(K1=3T2=3) avaitété atteinte. Ces nouvelles bornes sont à des facteurs polylog des bornes optimales sur leproblème stationnaire, donc nous concluons : les bandits décroissants ne sont pas plus dursque les bandits stationnaires.Dans les bandits décroissants sans repos, la récompense peut décroître à chaque tour pourtoutes les actions. Cela modélise des situations différentes telles que le vieillissementdu contenu dans un système de recommandation. On montre que les algorithmes conçuspour le problème "au repos" atteignent les bornes inférieures agnostiques au problèmeet une borne dépendante du problème O(logT). Cette dernière est inatteignable dans lecas général où la récompense peut croître. Nous concluons : l’hypothèse de décroissancesimplifie l’apprentissage des bandits sans repos.Viser le sujet le moins connu peut être intéressant avant un examen, mais pendant lecursus - quand tous les sujets ne sont pas bien compris - cela peut mener à l’échec del’apprentissage de l’étudiant. On étudie un Processus de Décision Markovien PartiellementObservable (POMDP, selon l’acronyme anglais) dans lequel on cherche à maîtriser le plusde sujets le plus rapidement possible. On montre que sous des hypothèses raisonnablessur l’apprentissage de l’élève, la meilleure stratégie oracle sélectionne le sujet le plusconnu sous le seuil de maîtrise. Puisque cet oracle optimal n’a pas besoin de connaîtrela dynamique de transition du POMDP, nous proposons une stratégie apprenante avecdes outils "bandits" classiques, en évitant ainsi les méthodes gourmandes en données del’apprentissage de POMDP.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Apprentissage automatique séquentiel pour les systèmes éducatifs intelligents

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Apprentissage automatique séquentiel pour les systèmes éducatifs intelligents

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses