Thèse soutenue

Optimisation de requêtes spatiales et serveur de données distribué - Application à la gestion de masses de données en astronomie

FR  |  
EN
Auteur / Autrice : Mariem Brahem
Direction : Karine Bennis-ZeitouniLaurent Yeh
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 31/01/2019
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Données et algorithmes pour une ville intelligente et durable (Versailles ; 2015-...) - Données et algorithmes pour une ville intelligente et durable - DAVID
établissement opérateur d'inscription : Université de Versailles-Saint-Quentin-en-Yvelines (1991-....)
Jury : Président / Présidente : Bernd Amann
Examinateurs / Examinatrices : Karine Bennis-Zeitouni, Laurent Yeh, Bernd Amann, Farouk Toumani, Laurent D'Orazio, Bruno Defude, Véronique Valette
Rapporteurs / Rapporteuses : Farouk Toumani, Laurent D'Orazio

Résumé

FR  |  
EN

Les masses de données scientifiques générées par les moyens d'observation modernes, dont l’observation spatiale, soulèvent des problèmes de performances récurrents, et ce malgré les avancées des systèmes distribués de gestion de données. Ceci est souvent lié à la complexité des systèmes et des paramètres qui impactent les performances et la difficulté d’adapter les méthodes d’accès au flot de données et de traitement.Cette thèse propose de nouvelles techniques d'optimisations logiques et physiques pour optimiser les plans d'exécution des requêtes astronomiques en utilisant des règles d'optimisation. Ces méthodes sont intégrées dans ASTROIDE, un système distribué pour le traitement de données astronomiques à grande échelle.ASTROIDE allie la scalabilité et l’efficacité en combinant les avantages du traitement distribué en utilisant Spark avec la pertinence d’un optimiseur de requêtes astronomiques.Il permet l'accès aux données à l'aide du langage de requêtes ADQL, couramment utilisé.Il implémente des algorithmes de requêtes astronomiques (cone search, kNN search, cross-match, et kNN join) en exploitant l'organisation physique des données proposée.En effet, ASTROIDE propose une méthode de partitionnement des données permettant un traitement efficace de ces requêtes grâce à l'équilibrage de la répartition des données et à l'élimination des partitions non pertinentes. Ce partitionnement utilise une technique d’indexation adaptée aux données astronomiques, afin de réduire le temps de traitement des requêtes.