Mise à l'échelle de l'apprentissage par renforcement multi-agent grâce aux jeux à champ moyen et vice-versa

Sarah Perrin

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Sarah Perrin
Direction :	Olivier Pietquin, Romuald Elie
Type :	Thèse de doctorat
Discipline(s) :	Informatique et applications
Date :	Soutenance le 08/12/2022
Etablissement(s) :	Université de Lille (2022-....)
Ecole(s) doctorale(s) :	Ecole doctorale Mathématiques, sciences du numérique et de leurs interactions (Lille)
Partenaire(s) de recherche :	Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille
Jury :	Président / Présidente : François Charpillet
	Examinateurs / Examinatrices : Emilie Kaufmann, Matthieu Geist, Gergely Neu
	Rapporteurs / Rapporteuses : François Delarue, Marcello Restelli

Mots clés

FR |

EN

Mots clés contrôlés

Processus décisionnels de Markov relationnels

Itération (mathématiques)

Programmation dynamique

Intelligence artificielle répartie

Jeux non coopératifs (mathématiques)

Apprentissage par renforcement (intelligence artificielle)

Mots clés libres

Jeux à champ moyen

Résumé

FR |

EN

De la propagation d'une épidémie à l'optimisation du trafic routier, en passant par l'étude des environnements biologiques, les systèmes multi-agent sont omniprésents dans la nature et en ingénierie. Cependant, si les progrès en intelligence artificielle et en particulier en apprentissage par renforcement ont permis de résoudre des jeux complexes tels que le Go, Starcraft et le Poker, les méthodes récentes ont toujours du mal à s'attaquer à des applications de plus d'une douzaine de joueurs. Cette difficulté est connue sous le nom de la malédiction des nombreux agents : quand le nombre d'agents augmente, le jeu devient bien plus difficile à résoudre car le nombre d'interactions à étudier entre les joueurs devient intraitable.Dans cette thèse, nous étudions comment l'apprentissage par renforcement et les jeux à champ moyen peuvent bénéficier mutuellement l'un de l'autre. D'un côté, les jeux à champ moyen peuvent permettre à l'apprentissage par renforcement multi-joueurs de passer à l'échelle en termes de nombre d'agents, étant donné qu'ils comportent par définition une infinité de joueurs. De l'autre côté, l'apprentissage par renforcement s'est avéré efficace pour résoudre des jeux stochastiques et complexes et pourraient ainsi permettre de trouver des équilibres de Nash dans des jeux à champ moyen compliqués, sans avoir à connaître le modèle ou à résoudre un système forward-backward d'équations stochastiques ou aux dérivées partielles.Au cours de cette dissertation, nous définissons précisément les jeux à champ moyen, les processus décisionnels de Markov et l'apprentissage par renforcement, avant de détailler les différentes configurations que le lecteur peut rencontrer en cherchant à entremêler l'apprentissage par renforcement avec les jeux à champ moyen. Puis, nous présentons une approche unifiée des algorithmes, aussi appelés méthodes itératives, servant à résoudre des jeux à champ moyen, soit à l'aide de la programmation dynamique quand le modèle est connu, soit avec de l'apprentissage par renforcement lorsqu'il ne l'est pas.Puis, nous zoomons sur deux méthodes itératives : Fictitious Play (FP) et Online Mirror Descent (OMD). Nous prouvons leur convergence vers l'équilibre de Nash sous la condition de monotonicité dans le cas exact, avec ou sans bruit commun, dans des jeux à champ moyen à une ou plusieurs populations. Nous démontrons numériquement leur convergence dans un large set d'exemples et soulignons qu'OMD converge plus rapidement.Dans la dernière partie, nous proposons trois contributions démontrant que l'apprentissage par renforcement profond peut résoudre des jeux à champ moyen. La première présente comment des agents qui utilisent ce paradigme apprennent à se regrouper ensemble, dans un environnement continu et multi-dimensionnel. Puis, nous nous attaquons à la généralisation par rapport à la distribution initiale, et démontrons que l'apprentissage par renforcement profond permet le calcul de politiques population-dépendantes. Enfin, nous proposons deux algorithmes permettant à FP et OMD de passer à l'échelle, ne requérant pas de sommer ou moyenner des réseaux de neurones.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Mise à l'échelle de l'apprentissage par renforcement multi-agent grâce aux jeux à champ moyen et vice-versa

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Mise à l'échelle de l'apprentissage par renforcement multi-agent grâce aux jeux à champ moyen et vice-versa

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses