Cartographie de l'occupation des sols à partir de séries temporelles d'images satellitaires à hautes résolutions : identification et traitement des données mal étiquetées

par Charlotte Pelletier

Thèse de doctorat en Surfaces et interfaces continentales, hydrologie

Sous la direction de Gérard Dedieu et de Silvia Valero.


  • Résumé

    L'étude des surfaces continentales est devenue ces dernières années un enjeu majeur à l'échelle mondiale pour la gestion et le suivi des territoires, notamment en matière de consommation des terres agricoles et d'étalement urbain. Dans ce contexte, les cartes d'occupation du sol caractérisant la couverture biophysique des terres émergées jouent un rôle essentiel pour la cartographie des surfaces continentales. La production de ces cartes sur de grandes étendues s'appuie sur des données satellitaires qui permettent de photographier les surfaces continentales fréquemment et à faible coût. Le lancement de nouvelles constellations satellitaires - Landsat-8 et Sentinel-2 - permet depuis quelques années l'acquisition de séries temporelles à hautes résolutions. Ces dernières sont utilisées dans des processus de classification supervisée afin de produire les cartes d'occupation du sol. L'arrivée de ces nouvelles données ouvre de nouvelles perspectives, mais questionne sur le choix des algorithmes de classification et des données à fournir en entrée du système de classification. Outre les données satellitaires, les algorithmes de classification supervisée utilisent des échantillons d'apprentissage pour définir leur règle de décision. Dans notre cas, ces échantillons sont étiquetés, \ie{} la classe associée à une occupation des sols est connue. Ainsi, la qualité de la carte d'occupation des sols est directement liée à la qualité des étiquettes des échantillons d'apprentissage. Or, la classification sur de grandes étendues nécessite un grand nombre d'échantillons, qui caractérise la diversité des paysages. Cependant, la collecte de données de référence est une tâche longue et fastidieuse. Ainsi, les échantillons d'apprentissage sont bien souvent extraits d'anciennes bases de données pour obtenir un nombre conséquent d'échantillons sur l'ensemble de la surface à cartographier. Cependant, l'utilisation de ces anciennes données pour classer des images satellitaires plus récentes conduit à la présence de nombreuses données mal étiquetées parmi les échantillons d'apprentissage. Malheureusement, l'utilisation de ces échantillons mal étiquetés dans le processus de classification peut engendrer des erreurs de classification, et donc une détérioration de la qualité de la carte produite. L'objectif général de la thèse vise à améliorer la classification des nouvelles séries temporelles d'images satellitaires à hautes résolutions. Le premier objectif consiste à déterminer la stabilité et la robustesse des méthodes de classification sur de grandes étendues. Plus particulièrement, les travaux portent sur l'analyse d'algorithmes de classification et la sensibilité de ces algorithmes vis-à-vis de leurs paramètres et des données en entrée du système de classification. De plus, la robustesse de ces algorithmes à la présence des données imparfaites est étudiée. Le second objectif s'intéresse aux erreurs présentes dans les données d'apprentissage, connues sous le nom de données mal étiquetées. Dans un premier temps, des méthodes de détection de données mal étiquetées sont proposées et étudiées. Dans un second temps, un cadre méthodologique est proposé afin de prendre en compte les données mal étiquetées dans le processus de classification. L'objectif est de réduire l'influence des données mal étiquetées sur les performances de l'algorithme de classification, et donc d'améliorer la carte d'occupation des sols produite.

  • Titre traduit

    Land cover mapping by using satellite image time series at high resolutions : identification and processing of mislabeled data


  • Résumé

    Land surface monitoring is a key challenge for diverse applications such as environment, forestry, hydrology and geology. Such monitoring is particularly helpful for the management of territories and the prediction of climate trends. For this purpose, mapping approaches that employ satellite-based Earth Observations at different spatial and temporal scales are used to obtain the land surface characteristics. More precisely, supervised classification algorithms that exploit satellite data present many advantages compared to other mapping methods. In addition, the recent launches of new satellite constellations - Landsat-8 and Sentinel-2 - enable the acquisition of satellite image time series at high spatial and spectral resolutions, that are of great interest to describe vegetation land cover. These satellite data open new perspectives, but also interrogate the choice of classification algorithms and the choice of input data. In addition, learning classification algorithms over large areas require a substantial number of instances per land cover class describing landscape variability. Accordingly, training data can be extracted from existing maps or specific existing databases, such as crop parcel farmer's declaration or government databases. When using these databases, the main drawbacks are the lack of accuracy and update problems due to a long production time. Unfortunately, the use of these imperfect training data lead to the presence of mislabeled training instance that may impact the classification performance, and so the quality of the produced land cover map. Taking into account the above challenges, this Ph.D. work aims at improving the classification of new satellite image time series at high resolutions. The work has been divided into two main parts. The first Ph.D. goal consists in studying different classification systems by evaluating two classification algorithms with several input datasets. In addition, the stability and the robustness of the classification methods are discussed. The second goal deals with the errors contained in the training data. Firstly, methods for the detection of mislabeled data are proposed and analyzed. Secondly, a filtering method is proposed to take into account the mislabeled data in the classification framework. The objective is to reduce the influence of mislabeled data on the classification performance, and thus to improve the produced land cover map.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Autre version

Cette thèse a donné lieu à une publication en 2017 par Université Paul Sabatier [diffusion/distribution] à Toulouse

Cartographie de l'occupation des sols à partir de séries temporelles d'images satellitaires à hautes résolutions : identification et traitement des données mal étiquetées


Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paul Sabatier. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.

Consulter en bibliothèque

Cette thèse a donné lieu à une publication en 2017 par Université Paul Sabatier [diffusion/distribution] à Toulouse

Informations

  • Sous le titre : Cartographie de l'occupation des sols à partir de séries temporelles d'images satellitaires à hautes résolutions : identification et traitement des données mal étiquetées
  • Détails : 1 vol. (26 p.)
La version de soutenance de cette thèse existe aussi sous forme papier.

Où se trouve cette thèse\u00a0?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.