Traitement multi-échelle des données spatio-temporelles appliquées à la qualité de l'air dans les zones urbaines

par Maryam Rahmani

Projet de thèse en Informatique et applications

Sous la direction de Romain Rouvoy.

Thèses en préparation à l'Université de Lille (2022-….) , dans le cadre de MADIS Mathématiques, sciences du numérique et de leurs interactions , en partenariat avec CRIStAL - Centre de Recherche en Informatique, Signal et Automatique de Lille (laboratoire) et de CRIStAL-INRIA (equipe de recherche) depuis le 01-09-2021 .


  • Résumé

    La présence de différents polluants (gazeux ou particules) dans l'air des zones urbaines entraîne des maladies graves et une détérioration indésirable de notre environnement. Si les décideurs politiques se sont emparés du sujet, ils continuent de trébucher sur les causes de ces dégradations, émettant diverses hypothèses quant à leurs origines. Jusqu'à présent, le manque de mesures in situ largement déployées, ainsi que l'exploitation de modèles méso-échelle inadéquats, entraînent des difficultés considérables dans l'analyse et la prédiction de l'évolution de l'exposition aux polluants. En effet, non seulement les polluants mais aussi une grande diversité de facteurs contextuels (couloirs de vent, prévisions météorologiques, constructions / routes à proximité, incidents environnants, etc.) peuvent contribuer à l'amélioration ou à la dégradation de la qualité de l'air. La thèse vise donc à revisiter les approches de pointe des infrastructures informatiques réparties pour faire face au défi multi-échelles soulevé par les techniques modernes de surveillance de la qualité de l'air. En particulier, nous visons à concevoir, mettre en œuvre et déployer une approche de modélisation multi-échelles qui peut tirer parti du volume et de la diversité des mesures acquises sur le terrain pour recommander des déploiements in situ de stations de mesure (mobiles ou stationnaires) afin de déduire des modèles de propagation à l'échelle microscopique (e.g., rues), avec précision. Ensuite, ce modèle de propagation en ligne tirera parti des techniques d'intelligence artificielle, telles que l'apprentissage automatique, non seulement pour cartographier la propagation locale des particules, mais aussi pour localiser les émetteurs de particules et ainsi fournir un inventaire ouvert et continuellement mis à jour des émissions de particules, ce qui n'a jamais été le cas. Fournir une caractérisation à cette résolution constitue donc une innovation forte, au-delà de l'état de l'art. Pour atteindre ces objectifs ambitieux, nous comptons mettre à profit notre expérience dans la conception de systèmes de traitement de données distribués à grande échelle. La thèse a l'intention de bénéficier de la base de données d'apprentissage automatique GreyCat pour soutenir la mise en œuvre de notre approche de modélisation multi-échelles. GreyCat prend en charge le stockage et le traitement de séries chronologiques complexes sous forme de graphiques temporels, qui sont une structure de données flexible pour modéliser et raisonner sur des systèmes dynamiques complexes. L'originalité de GreyCat réside dans sa capacité à intégrer des algorithmes d'apprentissage automatique (modèles de mélange gaussien, réseaux de neurones récurrents, etc.) en tant que nœuds dans le graphe pouvant apprendre du voisinage. Nous pensons que cette approche offre une base appropriée pour concevoir et construire des modèles de propagation à l'échelle microscopique composés de modèles à l'échelle méso.

  • Titre traduit

    MUlti-scale processing of Spatio-temporal data applied to air Quality inUrban Areas


  • Résumé

    The presence of different pollutants (gaseous or particulate matter) within air in urban areas results in serious diseases and undesirable deterioration of our environment. While the political decision-makers have taken hold of the subject, they continue to stumble on the causes of these degradations, emitting various hypotheses on their origins. So far, the lack of widely-deployed in situ measurements, as well as the exploitation of inadequate mesoscale models, causes considerable difficulties in analyzing and predicting pollutant exposure evolution. Indeed, not only the pollutants but also a wide diversity of contextual factors (wind corridors, weather forecast, nearby constructions/roads, surrounding incidents, etc.) can contribute to the improvement or the degradation of air quality. This Ph.D. thesis, therefore, aims at revisiting the state-of-the-art approaches in distributed computing infrastructures to cope with the multi-scale challenge raised by modern air quality monitoring techniques. In particular, we aim at designing, implementing and deploying a multi-scale modeling approach that can leverage the volume and diversity of crowdsourced measurements to recommend in situ deployments of measurement stations (being mobile or stationary) in order to infer microscale propagation models (e.g., streets), with accuracy. Then, this online propagation model will leverage artificial intelligence techniques, such as machine learning, to not only map the local propagation of particles, but also to locate particle emitters and therefore deliver an open and continuously updated inventory of particle emissions, which has never been provided at this resolution and therefore constitutes a strong innovation beyond the state of the art. To reach these ambitious objectives, we intend to leverage our experience in the design of large-scale distributed data processing systems. In particular, this Ph.D. thesis intends to benefit from the GreyCat machine learning database to support the implementation of our multi-scale modeling approach. GreyCat supports the storage and processing of complex time series as temporal graphs, which are a flexible data structure to model and reason on complex dynamic systems. The originality of GreyCat lies in its capability to embed machine learning algorithms (gaussian mixture models, recurrent neural networks, etc.) as nodes within the graph that can learn from the neighborhood. We believe that this approach offers an appropriate foundation to design and build microscale propagation models that are composed to mesoscale ones.