Thèse soutenue

Apprentissage automatique pour la détection d'anomalies dans les données ouvertes : application à la cartographie

FR  |  
EN
Auteur / Autrice : Rémi Delassus
Direction : Guy MelançonRomain Giot
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 23/11/2018
Etablissement(s) : Bordeaux
Ecole(s) doctorale(s) : École doctorale de mathématiques et informatique (Talence, Gironde ; 1991-....)
Partenaire(s) de recherche : Equipe de recherche : Modèles et Algorithmes pour la Bioformatique et la Visualisation d'Informations
Laboratoire : Laboratoire bordelais de recherche en informatique
Jury : Président / Présidente : Vincent Lepetit
Examinateurs / Examinatrices : Thierry Urruty
Rapporteurs / Rapporteuses : Hubert Cardot, Dino Ienco

Résumé

FR  |  
EN

Dans cette thèse nous étudions le problème de détection d’anomalies dans les données ouvertes utilisées par l’entreprise Qucit ; aussi bien les données métiers de ses clients, que celles permettant de les contextualiser. Dans un premier temps, nous nous sommes intéressés à la détection de vélos défectueux au sein des données de trajets du système de vélo en libre service de New York. Nous cherchons des données reflétant une anomalie dans la réalité. Des caractéristiques décrivant le comportement de chaque vélo observé sont partitionnés. Les comportements anormaux sont extraits depuis ce partitionnement et comparés aux rapports mensuels indiquant le nombre de vélos réparés ; c’est un problème d’apprentissage à sortie agrégée. Les résultats de ce premier travail se sont avérés insatisfaisant en raison de la pauvreté des données. Ce premier volet des travaux a ensuite laissé place à une problématique tournée vers la détection de bâtiments au sein d’images satellites. Nous cherchons des anomalies dans les données géographiques qui ne reflètent pas la réalité. Nous proposons une méthode de fusion de modèles de segmentation améliorant la métrique d’erreur jusqu’à +7% par rapport à la méthode standard. Nous évaluons la robustesse de notre modèle face à la suppression de bâtiments dans les étiquettes, afin de déterminer à quel point les omissions sont susceptibles d’en altérer les résultats. Ce type de bruit est communément rencontré au sein des données OpenStreetMap, régulièrement utilisées par Qucit, et la robustesse observée indique qu’il pourrait être corrigé.