Thèse soutenue

Évaluation de la qualité des données géographiques d'OpenStreetMap à l'aide des méthodes d'apprentissage automatique : cas de la République de Djibouti

FR  |  
EN
Auteur / Autrice : Ibrahim Maidaneh Abdi
Direction : Ana-Maria Olteanu-Raimond
Type : Thèse de doctorat
Discipline(s) : Sciences et Technologies de l'Information Géographique
Date : Soutenance le 23/11/2022
Etablissement(s) : Université Gustave Eiffel
Ecole(s) doctorale(s) : École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire en Sciences et technologies de l'information géographique (Champs-sur-Marne, Seine-et-Marne) - Laboratoire en Sciences et technologies de l'information géographique (Champs-sur-Marne, Seine-et-Marne)
Jury : Examinateurs / Examinatrices : Mireille Batton-Hubert, Didier Josselin, Cyril de Runz, Anne Ruas
Rapporteurs / Rapporteuses : Mireille Batton-Hubert, Didier Josselin

Résumé

FR  |  
EN

La qualité des données de la base OpenStreetMap (OSM) peut être évaluée en comparant les données d'OSM avec les données d'une base de données géographiques de référence. Cependant, en l'absence d'une telle base de référence (cas de Djibouti), la précision spatiale de ces données n'est pas connue. L'objectif de nos travaux est de mettre en place une méthode permettant de déterminer la qualité d'un jeu de données issue d'OSM sans le comparer avec une base de référence. Pour cela, nous cherchons à établir un lien statistique entre des mesures extrinsèques de qualité (calculées en confrontant les données OSM avec des données de référence), et des indicateurs intrinsèques de qualité (calculés en se basant uniquement sur les objets à évaluer), pour disposer d'une estimation des mesures extrinsèques de qualité d'un jeu de données OSM pour lequel il n'y aurait pas de référence. Nous implémentons un modèle d'apprentissage supervisé, amélioré au fil des méthodes d'apprentissages en partant par une régression multiple LASSO vers une classification de type Random Forest en passant par une étude d'autocorrélation spatiale pour aboutir sur une étude de la transférabilité du modèle de classification sur d'autres zones d'études. Le modèle de régression que nous calculons permet d'expliquer 30 % de la variance sur les mesures de qualité d'objets OSM de type bâtiments. Et si l'on agrège des bâtiments dans un voisinage défini, on améliore le score de variance expliquée par la régression jusqu'à 42 %. Quant avec la classification, notre modèle parvient à détecter une mauvaise qualité de saisie de bâtiments à 81,5 % d'AUC. Enfin, les résultats préliminaires testés sur deux zones d'études, montrent que le modèle d'apprentissage se transfère assez bien sur la nouvelle zone d'étude