Gestion de donnée complexes pour la modélisation de niche écologique - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2015

Complex data management for ecological niche modeling

Gestion de donnée complexes pour la modélisation de niche écologique

Ndiouma Bame
  • Fonction : Auteur

Résumé

This thesis concerns large scale biodiversity data management. Its objectives are to optimize queries for researchers who have free access to biodiversity worldwide data. These data which are shared by worldwide research laboratories are federated in GBIF data warehouse. GBIF makes accessible its data to researchers, policy makers and general public. With a significant amount of data and a rapid growth of data and users that express new needs, the GBIF portal is facing a double problem of expressiveness of queries and of efficiency. Thus, we propose a decentralized solution for biodiversity data interrogation. Our solution combines the resources of several of remote and limited machines to provide the needed computing and storage power to ensure system responsiveness for users. It also provides high-level query interface which is more expressive for users. Then, we propose a dynamic data distribution on demand approach. This approach which is based on data properties and characteristics of users analysis queries adapts dynamically machines capacities to users demands. Then, we propose a queries optimization approach that adapts dynamically data placement and machines loads according to performances in order to process users queries within deadlines. We experimentally validated our solution with real GBIF data concerning 100 million observation data.
Cette thèse concerne la gestion de données de biodiversité à large échelle. Elle a pour objectifs d’optimiser les requêtes pour les chercheurs qui peuvent accéder gratuitement aux données mondiales de biodiversité. Ces données partagées par des laboratoires de recherche du monde entier, sont mises à disposition du GBIF qui les fédère et les rend accessibles aux chercheurs, décideurs, grand public. Avec une quantité importante et une croissance rapide des données et des utilisateurs qui expriment de nouveaux besoins, le GBIF est confronté à un double problème d’expressivité des requêtes et d’efficacité. Ainsi, nous proposons une solution décentralisée pour l’interrogation des données de biodiversité. La solution cumule les ressources de plusieurs machines éloignées et peu puissantes pour offrir la puissance de calcul et de stockage nécessaire pour garantir la réactivité du système pour les usagers. En outre, elle fournit une interface d’interrogation de haut niveau qui est plus expressif pour les usagers. Puis, nous mettons en œuvre un mécanisme de répartition dynamique des données à la demande. Cette approche qui est basée sur la structure des données de biodiversité et les spécificités des requêtes d’analyse des usagers, adapte dynamiquement les capacités des machines aux demandes des usagers. Ensuite, nous proposons une approche d’optimisation de requêtes qui adapte dynamiquement le placement des données et la charge de chaque machine en fonction de ses performances pour traiter les requêtes des usagers dans des délais impartis. Nous avons validé expérimentalement cette solution avec des données réelles du GBIF concernant 100 millions observations.

Domaines

Autre [cs.OH]
Fichier principal
Vignette du fichier
2015PA066125.pdf (1.26 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-01191682 , version 1 (02-09-2015)

Identifiants

  • HAL Id : tel-01191682 , version 1

Citer

Ndiouma Bame. Gestion de donnée complexes pour la modélisation de niche écologique. Autre [cs.OH]. Université Pierre et Marie Curie - Paris VI; Université Cheikh Anta Diop (Dakar), 2015. Français. ⟨NNT : 2015PA066125⟩. ⟨tel-01191682⟩
407 Consultations
534 Téléchargements

Partager

Gmail Facebook X LinkedIn More