Thèse soutenue

Application de l'apprentissage automatique à l'enrichissement et l'analyse de données multi-sources dans la surveillance de la qualité de l'air et la collecte participative

FR  |  
EN
Auteur / Autrice : Mohammad Abboud
Direction : Karine Bennis-ZeitouniYehia Taher
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 08/11/2023
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Données et algorithmes pour une ville intelligente et durable (Versailles ; 2015-...)
référent : Université de Versailles-Saint-Quentin-en-Yvelines (1991-....)
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury : Président / Présidente : Ana-Maria Olteanu-Raimond
Examinateurs / Examinatrices : Thomas Devogele, Vasile-Marian Scuturici, Chiara Renso, Cyril Ray
Rapporteurs / Rapporteuses : Thomas Devogele, Vasile-Marian Scuturici

Résumé

FR  |  
EN

L'enrichissement de données à l'aidede techniques d'apprentissage automatique et profond dans le contexte de l'Internet des objets(IoT) est de plus en plus crucial dans le paysagetechnologique actuel. L'expansion rapide des appareils de l'IoT a amené à la génération croissante de données à partir de diverses sources tellesque des capteurs, des actionneurs et des systèmesembarqués. Cependant, ces données sont souvent massives, complexes et non structurées, cequi rend difficile leur exploitation dans l'extractiond'information pertinente et la détection ou la prédiction de situations ou d'événements. Les algorithmes d'apprentissage automatique fournissentune solution robuste pour l'extraction automatiquede motifs, de tendances et de corrélations dansles données de l'IoT, augmentant ainsi leur valeur.Les systèmes IoT peuvent en effet apprendre desdonnées historiques, s'adapter à l'évolution desparamètres et améliorer leur exploitation en utilisant l'apprentissage automatique. Cet enrichissement des données par des connaissances facilitel'analyse prédictive et améliore le processus décisionnel.Cette thèse se place dans le contexte de lacollecte participative (en anglais Mobile CrowdSensing ou MCS) de la qualité de l'air et propose des méthodes d'enrichissement des donnéesliées à la pollution atmosphérique en se basant surl'apprentissage automatique. Les concentrationsde pollution sont mesurées à l'aide de capteursportatifs dans le cadre de campagnes de MCS.D'autres données proviennent de stations fixes quimesurent la qualité de l'air sur des sites pré-définis.Nous proposons une méthode d'apprentissage automatique combinant ces deux sources de donnéespour estimer la pollution de l'air offrant une couverture complète. Par ailleurs, nous développonsune méthode d'enrichissement des données MCSpar apprentissage du micro-environnement, ce quiest important pour une analyse contextualisée dela pollution et de l'exposition individuelle. Uneautre source de données, peu structurée, provientdes médias sociaux. Nous nous sommes intéressésaux tweets et cherché à enrichir nos données enpassant par la géolocalisation précise de tweets.Nous avons proposé un pipeline d'apprentissagepermettant de géolocaliser précisément les tweets,et ainsi de détecter des événements localisés enlien avec la pollution. Cette approche intégréed'enrichissement des données qualitatives et quantitatives améliore notre capacité à analyser et àcomprendre la dynamique de la pollution atmosphérique de manière plus complète et localisée.Dans cette thèse, nous avons adapté des techniques d'apprentissage automatique et profondpour l'enrichissement sémantique des données liéesà la qualité de l'air. Toutes les approches proposées ont été appliquées à des données réellescollectées dans le cadre des projets Polluscope etGOGREEN Routes.