Thèse soutenue

Solutions de planification pour les applications de traitement de flux de données sur une infrastructure Cloud-Edge
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Felipe Rodrigo De Souza
Direction : Eddy Caron
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 10/12/2020
Etablissement(s) : Lyon
Ecole(s) doctorale(s) : École doctorale en Informatique et Mathématiques de Lyon
Partenaire(s) de recherche : établissement opérateur d'inscription : École normale supérieure de Lyon (2010-...)
Laboratoire : Laboratoire de l'informatique du parallélisme (Lyon ; 1988-....) - Algorithms and Software Architectures for Distributed and HPC Platforms
Jury : Président / Présidente : Sébastien Monnet
Examinateurs / Examinatrices : Eddy Caron, Sébastien Monnet, Gabriel Antoniu, Rajiv Ranjan, Valeria Cardellini, Marcos Dias De Assunçao, Frédéric Le Mouël, Patricia Stolf
Rapporteurs / Rapporteuses : Gabriel Antoniu, Rajiv Ranjan

Résumé

FR  |  
EN

L’évolution des technologies ont conduit à une forte connexion entre les applications et le matériel produisant des quantités de données en perpétuelle augmentation. Ces données sont utilisées par les entreprises, les organisations et les individus pour prendre des décisions quotidiennes. Pour que les données collectées soient réellement utiles il convient de les traiter à temps et donc suffisamment rapidement. La vitesse à laquelle les informations sont extraites depuis les données générées par un système ou un environnement surveillé a un impact sur la capacité des entités (entreprises, organisations ou individus) à réagir aux changements. Une solution pour le traitement des données dans un délais réduit consiste à utiliser des applications de traitement de flux de données.Les applications de traitement de flux de données peuvent être modélisées sous forme de graphes orientés, où les sommets sont des sources de données, des opérateurs ou des récepteurs de données(i.e., data sinks), et les arêtes représentent les flux de données entre les opérateurs. Une source de données est un composant d’application responsable de la génération des données. Les opérateurs reçoivent un flux de données, appliquent une transformation ou effectuent une fonction définie par l’utilisateur sur le flux de données entrant et produisent un nouveau flux de sortie, jusqu’à ce que ce dernier atteigne un récepteur de données,où les données sont alors stockées, visualisées ou envoyées à une autre application. Habituellement, les applications de traitement de flux de données sont conçues pour fonctionner sur des infrastructures cloud ou sur une grappe homogène de ressources (i.e., cluster) en raison du nombre de ressources que ces infrastructures peuvent fournir et de la bonne connectivité de leur réseau. Dans les scénarios où les données utilisées par l’application de traitement du flux de données sont produites dans le cloud lui-même alors le déploiement de l’ensemble de l’application sur le cloud est une approche pertinente. Cependant, à l’heure où l’Internet des objets devient de plus en plus omniprésent, il existe un nombre croissant de scénarios où les applications de traitement de flux de données consomment des flux de données générés à la périphérie du réseau (via les nombreux appareils et capteurs répartis géographiquement). Dans de tels la bonne connectivité de leur réseau. Dans les scénarios où les données utilisées par l’application de traitement du flux de données sont produites dans le cloud lui-même alors le déploiement de l’ensemble de l’application sur le cloud est une approche pertinente.Cependant, à l’heure où l’Internet des objets devient de plus en plus omniprésent, il existe un nombre croissant de scénarios où les applications de traitement de flux de données consomment des flux de données générés à la périphérie du réseau (via les nombreux appareils et capteurs répartis géographiquement). Dans de tels scénarios, l’envoi de toutes les données via Internet pour être traitées sur un cloud distant, loin de la périphérie du réseau d’où proviennent les données, conduirait à générer un trafic réseau considérable. Cela augmente ainsi de façon significative la latence de bout en bout pour l’application; c’est-à-dire, le délai entre le moment où les données sont collectées et la fin du traitement. L’informatique de périphérie (edge computing) est devenu un paradigme pour alléger les tâches de traitement du cloud vers des ressources situées plus près des sources de données. Bien que l’utilisation combinée de ces ressources soit parfois appelée fog computing, la communauté scientifique ne semble pas avoir atteint un consensus sur la terminologie. Nous appelons la combinaison de ressources cloud et de ressources périphériques une infrastructure cloud-edge.