Classification de données massives de télédétection

par Nicolas Audebert

Projet de thèse en Stic


  • Résumé

    La multiplication des sources de données et la mise à disposition de systèmes d'imagerie à haute résolution a fait rentrer l'observation de la Terre dans le monde du big data. Cela a permis l'émergence de nouvelles applications (étude de la répartition des sols par data mining, etc.) et a rendu possible l'application d'outils statistiques venant des domaines de l'apprentissage automatique et de la vision par ordinateur. Cette thèse cherche à concevoir et implémenter un modèle de classification bénéficiant de l'existence de grande bases de données haute résolution (si possible, annotées) et capable de générer des cartes sémantiques selon diverses thématiques. Les applications visés incluent la cartographie de zones urbaines ainsi que l'étude de la géologie et de la végétation à des fins industrielles. L'objectif de la thèse est de développer de nouveaux outils statistiques pour la classification d'images aériennes et satellitaires. Des approches d'apprentissage supervisé telles que les réseaux de neurones profonds, surpassant l'état-de-l'art en combinant des caractéristiques locales des images et bénéficiant d'une grande quantité de données annotées, seront particulièrement étudiées. Les principales problématiques sont les suivantes : (a) la prédiction structurée (comment introduire la structure spatial et spectral dans l'apprentissage ?), (b) la fusion de données hétérogènes (comment fusionner des données SAR, hyperspectrales et Lidar ?), (c) la cohérence physique du modèle (comment inclure des connaissances physiques a priori dans le modèle ?) et (d) le passage à l'échelle (comment rendre les solutions proposées capables de traiter une quantité massive de données ?).

  • Titre traduit

    Machine learning for classification of big remote sensing data


  • Résumé

    Thanks to high resolution imaging systems and multiplication of data sources, earth observation (EO) with satellite or aerial images has entered the age of big data. This allows the development of new applications (EO data mining, large-scale land-use classification, etc.) and the use of tools from information retrieval, statistical learning and computer vision that were not possible before due to the lack of data. This project is about designing an efficient classification scheme that can benefit from very high resolution and large datasets (if possible labelled) for creating thematic maps. Targeted applications include urban land use, geology and vegetation for industrial purposes. The PhD thesis objective will be to develop new statistical tools for classification of aerial and satellite image. Beyond state-of-art approaches that combine a local spatial characterization of the image content and supervised learning, machine learning approaches which take benefit from large labeled datasets for training classifiers such that Deep Neural Networks will be particularly investigated. The main issues are (a) structured prediction (how to incorporate knowledge about the underlying spatial and contextual structure), (b) data fusion from various sensors (how to merge heterogeneous data such as SAR, hyperspectral and Lidar into the learning process ?), (c) physical plausibility of the analysis (how to include prior physical knowledge in the classifier ?) and (d) scalability (how to make the proposed solutions tractable in presence of Big Remote Sensing Data ?)