Résilience et dimensionnement dans des environnements virtualisés

par Barbe Thystere Mvondo Djob

Thèse de doctorat en Informatique

Sous la direction de Noël de Palma et de Alain Bouzaïde Tchana.

Le président du jury était Pascal Felber.

Le jury était composé de Marc Shapiro, Renaud Lachaize.

Les rapporteurs étaient Pascal Felber, Willy Zwaenepoel.


  • Résumé

    Les systèmes de virtualisations ou hyperviseurs jouent un rôle crucial dans la pile logicielle des plateformes de cloud computing. Leur conception et leur mise en oeuvre ont un impact significatif sur la performance, la sécurité et la robustesse des applications des utilisateurs du cloud. Les hyperviseurs dits de Type-I sont les plus efficaces, car ils offrent une meilleure isolation et de meilleures performances que leur homologue de Type-II. Pour la majorité des hyperviseurs de Type-I actuel (ex., Xen ou Hyper-V), l’hyperviseur s’appuie sur une machine virtuelle privilégiée (pVM). La pVM accomplit des tâches à la fois pour l’hyperviseur (ex., l’administration des VMs) et pour les VMs (gestion des entrées/sorties). Sur les architectures d’accès mémoire uniforme et non uniforme (UMA & NUMA), cette architecture basée sur la pVM pose deux problèmes : — (1) le dimensionnement et le placement des ressources de la pVM (CPU + mémoire) — En effet, un mauvais dimensionnement et placement des ressources de la pVM impacte fortement la performance des applications des VMs. Le problème est complexe, car il existeune forte corrélation entre les besoins de la pVM et les activités des VMs. Les solutions existantes sont soit des approches statiques qui débouchent à un sur/sous dimensionnement ou ne prennent pas en compte le placement des ressources dans une architecture NUMA. — (2) la tolérance aux pannes de la pVM — La pVM étant un composant central, elle représente un élément critique dont la zone de dommage en cas de défaillance est très large. Les approches existantes pour améliorer la tolérance aux pannes de la pVM offrent des faibles garanties de résilience ou génèrent des dégradations importantes. Cette thèse propose plusieurs modifications à la pVM d’un point de vue architectural et logique afin de traiter les problèmes susmentionnés. Concrètement, cette thèse introduit : 1. Closer, un principe directeur pour la conception d’un OS adapté aux besoins de la pVM.Closer consiste respectivement à ordonnancer et allouer les tâches et la mémoire de la pVM au plus près des VMs cible. Étant une approche dynamique, il masque le besoin de dimensionner la pVM tout en gérant le placement des ressources sur une architecture NUMA avec sa stratégie de localité. 2. Deux nouveaux mécanismes qui réduisent les dégradations du "page flipping" (l’un desprotocoles utilisés dans la virtualisation des E/S réseau) lorsqu’elle est utilisée sur une architecture NUMA. En sélectionnant avec soin les pages de la pVM qui seront utilisées lors du "page flipping" en fonction de leur emplacement, ces mécanismes réalisent de meilleures performances que le protocole de virtualisation réseau actuel. 3. Un ensemble de trois principes directeurs (désagrégation, spécialisation et proactivité) et des techniques d’implémentation optimisée pour construire une pVM robuste sans fortement dégrader les performances des applications des VMs. Nous avons développé des prototypes d’hyperviseurs (en nous appuyant sur l’hyperviseur Xen) qui mettent en oeuvre les principes susmentionnés. Nous validons l’efficacité de nos prototypes en effectuant plusieurs évaluations avec une série d’applications bien choisies. Les résultats obtenus montrent de meilleures performances que les approches de l’état de l’art tout en observant de faibles dégradations de performance. Cette thèse met en évidence l’importance de la pVM dans un environnement virtualisé et montre qu’elle requiert plus d’attention de la part de la communauté scientifique.

  • Titre traduit

    Resilience and sizing in virtualized environments.


  • Résumé

    Virtual machine monitors (VMMs) or hypervisors play a crucial role in cloud computing platforms’ software stack. Their design and implementation significantly impact the performance, security, and robustness of cloud tenants applications. Hypervisors classified as Type-I are the most efficient, since they offer stronger isolation and better performance than Type-II pendant. In most of today’s Type-I virtualized systems (e.g., Xen or Hyper-V), the hypervisor relies on a privileged virtual machine (pVM). The pVM accomplishes work both for the hypervisor (e.g., VM life cycle management) and client VMs (I/O management). On uniform and non-uniform memory access (UMA & NUMA) architectures, this pVM-based architecture raises two challenging problems :• (1) pVM’s resource sizing (CPU + memory) and placement — Indeed, an inappropriate pVM sizing and resource placement impact guests’ application performance. It is a tricky issue since there is a tight correlation between pVM’s needs and guest activities. Existing solutions either propose static approaches which lead to over/under-provisioning or do notconsider resource placement in NUMA architectures. • (2) pVM’s fault tolerance — Being a central component, the pVM represents a critical component with a large blast radius in case of a failure. Existing approaches to improve the pVM’s fault tolerance provide limited resilience guarantees or prohibitive overheads. This dissertation presents several design changes brought to the pVM from architectural and logical perspectives to tackle these problems. Concretely, this thesis introduces : 1. Closer, a principle for designing a suitable OS for the pVM. Closer consists of respectively scheduling and allocating pVM’s tasks and memory as close to the target guest as possible. Closer being a dynamic approach, alleviates the need to size the pVM and handles its resource placement in NUMA architectures with its locality strategy. 2. Two new mechanisms that reduce the overhead of page flipping (an efficient scheme used in network I/O virtualization) when used on NUMA architectures. By carefully selecting pVM pages for page flipping depending on their location, the latter mechanisms achieve better performance than the current network virtualization protocol. 3. A set of three design principles (disaggregation, specialization, and pro-activity) and optimized implementation techniques for building a resilient pVM without sacrificing guest application performance.We build prototypes of pVM-based hypervisors (relying on the Xen hypervisor) that implements all the principles above. We validate the effectiveness of our prototypes by conducting several evaluations with a series of benchmarks. The results obtained shows better performance than state-of-the-art approaches and low overhead.This dissertation highlights the critical role of the pVM in a virtualized environment and shows that it requires more attention from the research community.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?