Thèse soutenue

Optimisation de requêtes en environnements multi-clouds

FR  |  
EN
Auteur / Autrice : Damien Wojtowicz
Direction : Franck MorvanAbdelkader Hameurlain
Type : Thèse de doctorat
Discipline(s) : Informatique et télécommunications
Date : Soutenance le 26/04/2023
Etablissement(s) : Toulouse 3
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche : Laboratoire : Institut de Recherche en Informatique de Toulouse (1995-....)
Jury : Président / Présidente : Philippe Pucheral
Examinateurs / Examinatrices : Franck Morvan, Abdelkader Hameurlain, Djamal Benslimane, Marinette Savonnet
Rapporteurs / Rapporteuses : Djamal Benslimane, Marinette Savonnet

Résumé

FR  |  
EN

La massification des données publiques pousse leurs producteurs à sous-traiter leur diffusion auprès de fournisseurs cloud, parfois sous la forme de bases de données relationnelles hébergées sous des offres de type Database-as-a-Service (DBaaS). L'étude de ces jeux de données peut passer par leur analyse croisée, qui peut être effectuée à l'aide de requêtes multi-clouds lorsque les relations sur lesquelles elles portent sont hébergées par des fournisseurs cloud différents. Dans cette perspective, un middleware gérant l'orchestration de la sous-traitance des requêtes multi-clouds auprès des fournisseurs qu'elles impliquent a été proposé. Il calcule des devis pour ses utilisateurs, afin de les informer des performances et du coût monétaire de leurs requêtes. Ces devis sont dérivés de plans d'exécution multi-clouds, produits par un optimiseur s'appuyant sur estimations sur les résultats intermédiaires des sous-requêtes. Deux stratégies de recherche ont été proposées. La première, exhaustive, permet de trouver de bons plans d'exécution pour des requêtes impliquant peu de fournisseurs. Cependant, sa complexité factorielle a conduit au développement d'une seconde stratégie, aléatoire et itérative. Celle-ci est conçue pour explorer plus rapidement une grande variété de plans d'exécution tout en ne produisant pas d'explosion combinatoire. Les estimations peuvent être erronées, diminuant ainsi la précision des devis et conduisant à l'exécution de plans sous-optimaux. Afin de protéger le middleware et ses utilisateurs des conséquences de ces erreurs, un modèle de coûts multi-clouds et une méthode d'optimisation dynamique ont été proposés. Le premier corrige les estimations fournies à l'optimiseur à l'aide de modèles d'apprentissage automatique en ligne. La seconde réoptimise les plans d'exécution multi-clouds à l'aune des valeurs constatées sur les résultats intermédiaires grâce à un système multi-agent. Le volet expérimental de cette thèse a montré que la sous-traitance des requêtes multi-clouds étaient financièrement pertinentes par rapport à un téléchargement des données qu'elles manipulent suivi d'une exécution chez un seul fournisseur cloud. Les apports de chacune des stratégies de recherche, du modèle de coûts multi-clouds et de la méthode d'optimisation dynamique, ont également été évalués.