Évaluation de la qualité des données géographiques d'OpenStreetMap à l'aide des méthodes d'apprentissage automatique : cas de la République de Djibouti
Auteur / Autrice : | Ibrahim Maidaneh Abdi |
Direction : | Ana-Maria Olteanu-Raimond |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences et Technologies de l'Information Géographique |
Date : | Soutenance le 23/11/2022 |
Etablissement(s) : | Université Gustave Eiffel |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire en Sciences et technologies de l'information géographique (Champs-sur-Marne, Seine-et-Marne) - Laboratoire en Sciences et technologies de l'information géographique (Champs-sur-Marne, Seine-et-Marne) |
Jury : | Examinateurs / Examinatrices : Mireille Batton-Hubert, Didier Josselin, Cyril de Runz, Anne Ruas |
Rapporteurs / Rapporteuses : Mireille Batton-Hubert, Didier Josselin |
Mots clés
Résumé
La qualité des données de la base OpenStreetMap (OSM) peut être évaluée en comparant les données d'OSM avec les données d'une base de données géographiques de référence. Cependant, en l'absence d'une telle base de référence (cas de Djibouti), la précision spatiale de ces données n'est pas connue. L'objectif de nos travaux est de mettre en place une méthode permettant de déterminer la qualité d'un jeu de données issue d'OSM sans le comparer avec une base de référence. Pour cela, nous cherchons à établir un lien statistique entre des mesures extrinsèques de qualité (calculées en confrontant les données OSM avec des données de référence), et des indicateurs intrinsèques de qualité (calculés en se basant uniquement sur les objets à évaluer), pour disposer d'une estimation des mesures extrinsèques de qualité d'un jeu de données OSM pour lequel il n'y aurait pas de référence. Nous implémentons un modèle d'apprentissage supervisé, amélioré au fil des méthodes d'apprentissages en partant par une régression multiple LASSO vers une classification de type Random Forest en passant par une étude d'autocorrélation spatiale pour aboutir sur une étude de la transférabilité du modèle de classification sur d'autres zones d'études. Le modèle de régression que nous calculons permet d'expliquer 30 % de la variance sur les mesures de qualité d'objets OSM de type bâtiments. Et si l'on agrège des bâtiments dans un voisinage défini, on améliore le score de variance expliquée par la régression jusqu'à 42 %. Quant avec la classification, notre modèle parvient à détecter une mauvaise qualité de saisie de bâtiments à 81,5 % d'AUC. Enfin, les résultats préliminaires testés sur deux zones d'études, montrent que le modèle d'apprentissage se transfère assez bien sur la nouvelle zone d'étude