Prise de décision dans les systèmes multi-agents : délais, adaptabilité et apprentissage dans les jeux

par Yu-Guan Hsieh

Thèse de doctorat en Mathématiques et Informatique

Sous la direction de Jerome Malick et de Panayotis Mertikopoulos.


  • Résumé

    Face au déploiement croissant d'algorithmes de décision et d'apprentissage dans les systèmes multi-agents, il devient impératif de comprendre leur efficacité et d'améliorer leurs performances. Cependant, la conception et l'analyse de ces systèmes se heurtent à défis importants, qui s'étendent des problèmes pratiques d'implémentation jusqu'à la complexité intrinsèque des dynamiques multi-agents, avec des interactions entre les agents peuvent être coopératives, compétitives ou un mélange des deux. Cette thèse vise à naviguer dans ce paysage complexe, en examinant séparément deux aspects critiques : l'impact du délai et des interactions entre agents aux intérêts contradictoires. L'objectif ici est d'établir des connaissances fondamentales sur la façon dont le flux d'informations et les interactions stratégiques influencent les processus d'apprentissage et de prise de décision. Nos méthodes s'inscrivent dans le cadre de l'optimisation décentralisée et de la théorie des jeux, et utilisent une approche d'apprentissage en ligne pour gérer la non-stationnarité de l'environnement. Concrètement, nos premières contributions concernent l'étude d'un algorithme du type "dual averaging" dans l'apprentissage en ligne coopératif. Nous considérons pour ceci une configuration qui comporte de l'asynchronicité et des délais, présentant des obstacles à l'analyse classique du regret. Malgré cela, nous introduisons plusieurs concepts clés, dont les itérés virtuels et la permutation fidèle, qui nous permettent d'établir des bornes sur les regrets dans ce contexte. Nos résultats s'étendent également à une version optimiste du dual averaging, qui exploite la variation lente de la perte subie par les agents. Ensuite, nous étudions la convergence vers les équilibres et la garantie de performance individuelle, mesurée par le regret, dans l'apprentissage dans les jeux. Le comportement ou la décision de chaque agent peut influencer les résultats des autres, créant une dynamique complexe qui doit être soigneusement analysée. Nos algorithmes sont à nouveau basés sur le principe optimiste, incorporant une étape de prévision qui réutilise l'information la plus récente. Il est important de souligner que, dans les deux contextes, nous mettons l'accent sur l'adaptabilité de nos algorithmes et leur résilience face à l'incertitude lors des interactions. Nos méthodes fonctionnent sans aucune coordination entre les agents et peuvent être implémentées même par une entité qui ignore l'environnement avec laquelle elle interagit. Une particularité de notre approche est qu'elle fournit des garanties adaptatives, robustes face à la nature dynamique des environnements, où l'incertitude peut découler d'un manque de connaissance ou être modélisée, comme nous le faisons, avec un bruit dans la cadre de l'apprentissage dans les jeux.

  • Titre traduit

    Decision-Making in multi-agent systems: delays, adaptivity, and learning in games


  • Résumé

    With the increasing deployment of decision-making and learning algorithms in multi-agent systems, it becomes imperative to understand their efficiency and improve their performance. The design and analysis of these systems, however, confront significant challenges. These range from practical implementation issues to the intrinsic complexity of multi-agent dynamics, where agent interactions can be cooperative, competitive, or a mix of the two. On top of this is the presence of non-stationarity, driven by either the unpredictable character of nature or interaction with other strategic entities. This thesis represents a targeted attempt to navigate this complex landscape, investigating separately two critical aspects: the impact of delays and the interactions among agents with non-aligned interests. This dual focus is due to the relevance of these issues to practical deployment and the inherent difficulty of learning in such systems, aiming to reveal fundamental insights about how information flow and strategic interactions influence the overall system's learning and decision-making processes. Our approaches are grounded in decentralized optimization and game theory, using online learning as a principal methodology to address the non-stationarity of the environment. Our first series of contributions concerns the study of a dual averaging algorithm in a cooperative online learning setup. This setup features asynchronicity and delays, which pose a significant obstacle to conventional regret analysis. To address this difficulty, we introduce the key concepts of virtual iterates and faithful permutations, which enable us to establish a universal regret bound for this setting. Our results further extend to an optimistic version of dual averaging, which leverages slow variation in the sequence of losses encountered by the agents. Moving forward, we investigate convergence to Nash equilibrium and individual performance guarantees, as measured by the agents' regrets, when the agents' interactions are governed by a general, non-cooperative game. Our algorithms are again based on the principle of optimism, incorporating a "lookahead" step that reuses the most recent information. Importantly, across both contexts, we put emphasis on the "adaptivity" of our algorithms and their resilience in handling "uncertainty" during interactions. Our methods work without any coordination among agents, and can be implemented even when the agents are completely oblivious of their environment (and/or the game that they are involved in). A significant aspiration of our approach is to provide adaptive guarantees, robust to the dynamic nature of the environments, where uncertainty can stem from a lack of knowledge or be modeled as we do with a noisy oracle in the learning-in-games setup.