Analyse de données issues de capteurs du campus de Talence pour l'amélioration des performances énergétiques et des usages des bâtiments.

par Yiye Jiang

Projet de thèse en Mathématiques appliquées et calcul scientifique

Sous la direction de Jeremie Bigot et de Sofian Maabout.

Thèses en préparation à Bordeaux , dans le cadre de Mathématiques et Informatique , en partenariat avec IMB - Institut de Mathématiques de Bordeaux (laboratoire) et de Image Optimisation et Probabilités (equipe de recherche) depuis le 16-10-2018 .


  • Résumé

    Contexte du sujet de thèse La problématique de cette thèse se situe autour de la question du traitement temps réel de données de grande taille qui proviennent de bases de données (potentiellement distribuées) qui sont couplées à des systèmes d'objets connectés qui deviennent de plus en plus présents dans notre quotidien (déplacements, activités physiques, météorologie, traffic routier...). L'application envisagée dans cette thèse est l'étude de données issues de capteurs répartis sur les bâtiments du campus de Talence de l'Université de Bordeaux. Ces capteurs permettent de mesurer au cours de temps (à une fréquence élevée) des quantités physiques telles que la température, pression, humidité, niveau de CO2 dans les salles des bâtiments du campus de Talence. Ces capteurs sont connectés à des serveurs qui permettent de stocker ces mesures, en temps réel, dans des bases de données de grande taille. Un enjeu important (qui fait l'objet de cette thèse) est de pouvoir valoriser l'information qui peut être extraite de ces bases de données dans le but d'améliorer les performances énergétiques et les usages des bâtiments du campus de Talence. Objectifs de la thèse Dans une première étape, il conviendra de mettre en place le développement d'outils d'extraction d'information dans ce type de bases de données. Deux approches complémentaires sont envisagées. Statistique et mathématiques appliquées. Il conviendra de développer des méthodes d'inférence statistique dans des modèles de données observées dans des réseaux spatio-temporels, et dans un contexte de grande dimension qui tienne compte des bruits d'acquisition et des corrélations entre les observations. Fouille de données et visualisation : en plus des statistiques qui répondent à des mesures définies, le domaine de la fouille de données et de la visualisation d'information peut permettre à l'expert de naviguer visuellement entre les nombreuses analyses et représentation des données et d'en faire une synthèse. Dans une deuxième étape, il est envisagé de considérer la problématique du traitement et stockage d'un flux massif de données. Les technologies liées à l'informatique en nuage (``Cloud Computing') ont permis le développement de nouvelles techniques de programmation génériques (Hadoop, Spark) permettant de traiter des données distribuées avec des moyens de calcul distribué. Les axes de travail envisagés portent sur : - la définition d'une algorithmique à même de garantir une précision sur les résultats avec peu de mémoire (modèle flux) - le passage des algorithmes de fouille de données ou d'apprentissage dans le cadre du calcul distribué - la définition de nouvelles représentations ou structures de données (réseaux et données spatio-temporelles) s'adaptant à une algorithmique distribuée - proposer des paradigmes de programmation simples et efficaces. En effet, les solutions actuelles de calcul distribué (Map Reduce, Spark) sont très lentes par rapport au calcul sur des machines parallèles puissantes.

  • Titre traduit

    Statistical analysis of spatio-temporal and multi-dimensional data from a network of sensors to monitor the campus of Bordeaux.


  • Résumé

    The subject of this thesis is motivated by an ongoing project to develop a Smart Campus in the University of Bordeaux for the purpose of improving the academic environment of teachers, researchers, staff and students. Within this project, it is typically expected that a large network of real-time sensors will be built to make measurements of water and electricity consumptions, as well as life and working environment (e.g. temperature, humidity or CO2 in indoor and outdoor locations). The statistical analysis and visualization methods to infer informations from such data raise new challenges and research opportunities in the University of Bordeaux. In this setting, the purpose of the thesis is to investigate the following research directions. The PhD work will have to answer to the following questions: - How to infer or estimate the distribution of the measurements over all the campus from a few sensors? - How to detect specific anomalies or events? - How to determine the best / worst sites or time windows from the point of view of several measures: energy efficiency, air quality, user usage? - How to represent the set of measures and analysis in an intelligible way? The topic of the thesis is at the interaction between machine learning and algorithmic approaches for the statistical analysis and visualization of massive datasets. Hence, the supervision of this thesis would imply 3 research units: IMB, LABRI and LyRE.