Prévision et inférence statistique à travers les échelles pour l'optimisation de performance de trafic Internet.

par Alexis Fremond

Projet de thèse en Sciences

Sous la direction de Marc Hoffmann.

Thèses en préparation à Paris Sciences et Lettres , dans le cadre de Ecole doctorale de Dauphine (Paris) , en partenariat avec Centre de Recherche en Mathématiques de la Décision (laboratoire) et de Université Paris-Dauphine (établissement de préparation de la thèse) depuis le 06-02-2017 .


  • Résumé

    Les solutions vendues par Cedexis comparent en temps réel la qualité de service des hébergeurs et des diffuseurs de contenus Internet, puis aiguillent le trafic vers le plus performant d'entre eux. Dans un environnement hautement compétitif, Cedexis doit faire évoluer en permanence sa technologie. Parallèlement, plusieurs questions liées à l'utilisation de l'ensemble des données collectées en temps réel se posent au quotidien : • Comment affiner et améliorer la qualité des prévisions ? • Comment estimer les incertitudes des prévisions données par les algorithmes existants ? • Comment valoriser la vision unique du trafic internet construite par Cedexis, au-delà de son rôle d'aiguilleur ? Cedexis collecte en temps réel des données à différents niveaux de granularité, sous forme de tuples basés sur des composantes de géolocalisation, de réactivité à des signaux liés à ses clients d'une part et à des données publiques d'autre part. Ces données sont traitées par des algorithmes de scoring internes qui fournissent une mesure de qualité de l'état du réseau au voisinage des données recueillies. Dans ce contexte applicatif, les modèles actuellement utilisés par Cedexis reposent sur des rationnels opérationnels confrontés désormais à la difficulté du passage à l'échelle lié au traitement massif de données en temps réel. En particulier, la modélisation sous-jacente qui dicte le scoring interne doit constamment être re-questionnée et mise à jour. Un premier besoin réel pour Cedexis est celui d'une modélisation plus systématique que celle pratiquée actuellement de liens stochastiques entre les différents flux, et en particulier la construction d'indicateurs de précision d'estimation et d'incertitude, reposant nécessairement sur des modèles mathématiques devant être validés numériquement. Un autre sujet essentiel est le transfert d'information parcimonieuse. Cedexis utilise des données publiques pour construire son routage, mais dispose également de données “privées”, collectées à partir des actions de ses clients. Ces données privées, de bien meilleure qualité informative que les données publiques, sont sujettes à de nombreux biais voire manipulations par certains acteurs du réseau, et sont malheureusement beaucoup plus parcimonieuses que leurs analogues “publiques”. Cette parcimonie varie selon le niveau de granularité et la densité du réseau de clients de Cedexis. Le problème qui se pose aujourd'hui à Cedexis est de savoir comment interpoler (et dans quel sens) ces deux flux d'information, l'un riche mais biaisé, l'autre plus pauvre mais de bien meilleure qualité. L'enjeu principal de la thèse est double. D'une part, fournir des réponses systématiques à ces questions. D'autre part, Cedexis s'étant fondée jusqu'à présent sur un modèle technologique, son développement actuel justifie la montée en puissance de la R&D par une ouverture au monde académique via un travail de thèse et une dimension de recherche académique en statistique des processus et en Machine Learning. Le projet soumis ici renforce cette ambition. L'objectif de la thèse, clairement identifié par la R&D de Cedexis est donc, par l'étude d'une modélisation plus évoluée, d'améliorer les indicateurs de performance et de prévision et aussi de proposer de nouvelles méthodes d'interpolation de flux qui pourront être immédiatement testées sur des données réelles.

  • Titre traduit

    Statistical inference and forecasting across scales for Internet traffic performances optimization.


  • Résumé

    The solutions sold by Cedexis compare in real time the quality of service of the hosts and the broadcasters of Internet content, and then send the traffic to the most efficient of them. In a highly competitive environment, Cedexis must constantly evolve its technology. At the same time, multiple questions related to the use of all the data collected in real time arise on a daily basis: • How to refine and improve the quality of the predictions? • How to estimate the uncertainties of the forecasts given by the existing algorithms? • How to value the unique vision of Internet traffic built by Cedexis, beyond itsrole of switchman? Cedexis collects real-time data at different levels of granularity, in the form of tuples based on geolocation components, responsiveness to signals related to its customers on the one hand, and public data on the other. These data are processed by internal scoring algorithms which provide a measure of the quality of the network state in the vicinity of the collected data. In this application context, the models currently used by Cedexis are based on operational rationales, which are now confronted with the difficulty of scaling up the massive processing of data in real time. In particular, the underlying modeling that dictates internal scoring must be constantly re-questioned and updated. A first real need for Cedexis is that of a more systematic modeling than currently practiced of stochastic links between the different flows, and in particular the construction of indicators of precision of estimation and uncertainty, necessarily based on mathematical models to be numerically validated. Another essential topic is the transfer of parsimonious information. Cedexis uses public data to build its routing, but also has "private" data, collected from the actions of its customers. These private data, which are much better informative than public data, are subject to numerous biases or even manipulations by certain network actors, and are unfortunately far more parsimonious than their "public" analogues. This parsimony varies according to the level of granularity and density of the Cedexis customer network. The problem facing Cedexis today is how to interpolate (and in what sense) these two flows of information, one dense but biased, the other parsimonious but of much better quality. The main challenge of the PhD is twofold. On the one hand, provide systematic answers to these questions. On the other hand, since Cedexis has based itself on a technological model, its current development justifies the rise of R & D through an opening to the academic world through a PhD and an academic research dimension in statistics processes and Machine Learning. The project submitted here reinforces this ambition. The objective of the PhD, clearly identified by Cedexis R & D, is therefore, through the study of a more advanced modeling, to improve the performance and prediction indicators and also to propose new methods of interpolation of flows which can be immediately tested on real data.