Apprentissage par renforcement pour le traitement de la demande au sein des Systèmes Complexes d'énergie multi-sources

par Mohamed Alami Chehboune

Projet de thèse en Informatique, données, IA

Sous la direction de Jesse Read et de Rim Kaddah.

Thèses en préparation à l'Institut polytechnique de Paris , dans le cadre de École doctorale de l'Institut polytechnique de Paris , en partenariat avec LIX - Laboratoire d'informatique (laboratoire) depuis le 04-11-2019 .


  • Résumé

    La réponse à la demande en électricité consiste en la mise en correspondance de la demande avec l'offre disponible (le stock d'énergie) contrainte par la difficulté du stockage de l'énergie électrique ainsi que par les nombreuses limites liées à l'ajustement de l'offre dans un environnement multi-source. Ainsi, il apparaît préférable d'ajuster la demande en fonction des stocks d'énergie. Les systèmes modernes à l'image de celui envisagé ici, sont extrêmement complexes et dynamiques de par l'usage d'une multitudes de sources hétérogènes, renouvelables (éolienne ou solaire) ou plus traditionnelles, pouvant être incluse ou retirée du système de distribution à tout moment en fonction de la demande. Le but est de produire une heuristique adaptative permettant de placer des ordres aux différents acteurs pour altérer la demande et équilibrer la puissance en conséquence. L'optimalité peut être définie par la minimisation de la gêne à un niveau individuel tout en visant localement un certain niveau d'efficacité et un équilibre global (a minima au sein d'un périmètre de voisinages étendu); tout cela évidemment sous un certain nombre de contraintes. cela peut être considéré comme un problème de contrôle, à savoir la manipulation du comportement d'un système dynamique [1]. Etant donné un modèle totalement défini (i.e Processus décisionnel de Markov), une solution optimale sous la forme d'une heuristique peut être obtenue par différents procédés comme la programmation dynamique. Cependant, bien que de nombreux modèles soient disponibles pour les infrastructures et leurs occupants ainsi que pour les différentes sources d'énergies (tant du point de vue physique ou d'autres méthodologies ou études, e.g, [2]), ces modèles sont approximatifs et/ou susceptibles d'être inconsistants du fait d'anomalies, de changements dans le temps ou la nécessité d'une supervision par un expert. De ce fait, une approche fondée sur les données et adaptative est nécessaire pour l'établissement d'un modèle. A fin d'apprendre un modèle de possibilités dans le cadre d'un système de réponse à la demande, le problème peut être assimilé à celui d'un bandit manchot, e.g [3]. Cependant, dans un système complexe et dynamique (dont l'état peut être modifiée par les différents acteurs), un paradigme plus général fondé sur l'apprentissage par renforcement paraît plus approprié. Quelques travaux ont été entamés dans ce domaine [4,5], mais restent loin d'être assez avancés pour permettre une application directe au vu à l'inhérente complexité et dynamique d'un système réel où les différents acteurs peuvent rejoindre ou quitter le réseau à tout moment. Afin d'alimenter le modèle en données, il sera nécessaire de produire une simulation réaliste qui servira d'environnement de développement. Ainsi, les étapes initiales consisteront en une modélisation réaliste du problème (en particulier en référence au développement planifié du plateau de Saclay), le développement d'une métrique de coût adéquate (ainsi que d'une fonction récompense), la définition d'espaces d'état et d'action... une première simulation fondée sur les bandits manchots ou les PDM pourra ensuite être étendue en une approche plus centrée sur les données. Il sera souhaitable et nécessaire d'identifier et de développer différentes méthodologies d'apprentissage par renforcement (Q-learning pourra être un bon point de départ) [6]. Au même titre que les simulations, il peut être bénéfique d'identifier et étudier des systèmes connexes qui peuvent être déployés et testés en pratique (réseaux d'ordinateurs, jeux, offre en gestion de ressources informatiques) afin de permettre une évaluation adéquate es différentes méthodes développées. le but principal de cette recherche est la mise en place d'une heuristique capable de surpasser les méthodes classiques ainsi que celles élaborées par des experts humains. d'autres heuristiques peuvent être envisagées comme celles découlant des algorithmes génétiques par exemple. Aussi, d'autres paradigmes de modélisation peuvent être étudiés comme les "Markov Switching Models" [7]. Références bibliographiques - [1] Data-driven Science and Engineering, Machine Learning, Dynamical Systems, and Control. S. L. Brunton, J. N. Kutz. Cambridge University Press, 2019. - [2] Y. Leroy, B. Yannou. An activity-based modelling framework for quantifying occupants' energy consumption in residential buildings. Computers in Industry, Elsevier, 2018. - [3] Electricity Demand Response under Real-TimePricing: A Multi-armed Bandit Game. Zibo Zhao, Andrew L. Liu, Yihsu Chen. APSIPA 2018. - [4] A. Ghasemkhani and L. Yang, "Reinforcement Learning Based Pricing for Demand Response," 2018 IEEE International Conference on Communications Workshops (ICC Workshops), Kansas City, MO, 2018, pp. 1-6. - [5] R. Lu, S. Ho Hong, X. Zhang, A Dynamic pricing demand response algorithm for smart grid: Reinforcement learning approach, Applied Energy, Vol. 220, 2018. - [6] Reinforcement Learning: An Introduction. R. Sutton, and A. Barto. MIT Press, Second edition, (2018) - [7] B. M., Trück S., Weron R. (2004) Modeling Electricity Prices with Regime Switching Models. Computational Science - ICCS 2004. ICCS 2004. Lecture Notes in Computer Science, vol 3039. Springer, Berlin, Heidelberg

  • Titre traduit

    Reinforcement Learning for Demand Response in Complex Muti-Energy Systems


  • Résumé

    Electricity demand response is the task of matching the demand for electricity with available supply, motivated by the fact that electricity is difficult to store and there are many limits to the adjustment of supply. Therefore, it is preferable to adjust the demand in response to availabilities. Modern systems, such as the one targeted, are increasingly complex and dynamic, involving a multitude of heterogeneous sources, both renewable such as wind and solar as well as more traditional sources, which may be added or removed from the system or be modified over time. The goal is to produce an adaptive policy that will optimally place orders to actors (that is to say, clients and stakeholders) to alter demand and balance load accordingly. Optimalility may be defined in the sense of minimal disruption/discomfort on the individual level, while targeting a level of efficiency and balance on a more global level (at least a zone of several neighborhoods); all of this under a number of contstraints. This can be viewed as a control problem – manipulating the behavior of a dynamical system [1]. Given a fully defined model (i.e., as a Markov Decision Process) an optimal solution in the form of a policy can be obtained by methods such as dynamic programming. However, although many models are available for buildings and their occupants as well as sources of generation (either physics-based or resulting from other frameworks/studies, e.g., [2]) these models are approximate and/or susceptible to unreliability from anomalies and changes over time, and the need for precise expert parametrization. Therefore a more data-driven approach is needed for modeling. In order to learn the model of outcomes in a demand response problem, a multi-armed bandit approach can be taken, e.g., [3]. However, In a complex and dynamic system (whose state can be influenced by actors), a general reinforcement learning (RL) paradigm is more appropriate. There is initial work in this area, e.g., [4,5], however it is far from developed enough for straightforward application to the target task, on account of the inherent complexities and dynamics of a real-world system of interest, where components (actors, providers, ...) leave and join the network. Advancements along this axis will provide the main path for the thesis. To feed the data-drive nature, it will be necessary to produce a realistic simulation to serve as an environment for development. Thus, initial directions should focus on modeling the problem realistically (in particular with reference to planned development on the Saclay Plateau), developing a suitable loss metric (and reward signal), defining state and action spaces, and so on. A first simplified simulation using bandits or MDPs can be later extended (and kept as a baseline) into more heavily data-driven methods. It will be necessary to identify and develop different suitable RL methodologies (Q-learning could be suggested as a starting point) [6]. As well as simulations it can be valuable to identify and study related systems which can be readily deployed and tested in practice (such as computer networks, games, supply and management of computational resources), so as to allow for adequate testing and evaluation of the developed methods. The main line of research should lead to a policy which can outcompete baseline models as well as human expert-crafted policies, under rigorous testing. One may also consider other policies (either as a baseline or to be further developed) such as those obtained via genetic algorithms. Other modeling tools such as Makov switching models may be considered as well [7]. Bibliography: - [1] Data-driven Science and Engineering, Machine Learning, Dynamical Systems, and Control. S. L. Brunton, J. N. Kutz. Cambridge University Press, 2019. - [2] Y. Leroy, B. Yannou. An activity-based modelling framework for quantifying occupants' energy consumption in residential buildings. Computers in Industry, Elsevier, 2018. - [3] Electricity Demand Response under Real-TimePricing: A Multi-armed Bandit Game. Zibo Zhao, Andrew L. Liu, Yihsu Chen. APSIPA 2018. - [4] A. Ghasemkhani and L. Yang, "Reinforcement Learning Based Pricing for Demand Response," 2018 IEEE International Conference on Communications Workshops (ICC Workshops), Kansas City, MO, 2018, pp. 1-6. - [5] R. Lu, S. Ho Hong, X. Zhang, A Dynamic pricing demand response algorithm for smart grid: Reinforcement learning approach, Applied Energy, Vol. 220, 2018. - [6] Reinforcement Learning: An Introduction. R. Sutton, and A. Barto. MIT Press, Second edition, (2018) - [7] B. M., Trück S., Weron R. (2004) Modeling Electricity Prices with Regime Switching Models. Computational Science - ICCS 2004. ICCS 2004. Lecture Notes in Computer Science, vol 3039. Springer, Berlin, Heidelberg