Partage d'informations contextuelles provenant d'analyse prédictive de masses de données pour la gestion d'identités et d'accès

par Mamadou abdoulaye Diop

Projet de thèse en Informatique

Sous la direction de Nahid Emad petiton.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne) , en partenariat avec LI-PaRAD - Laboratoire d'Informatique - Parallélisme Réseaux Algorithmes Distribués (laboratoire) et de Université de Versailles-Saint-Quentin-en-Yvelines (établissement de préparation de la thèse) depuis le 01-02-2017 .


  • Résumé

    Les besoins en matière de sensibilisation au contexte, de l'analyse de masses de données appliquées aux contrôles de sécurité et de partage de données contextuelles (informations contextuelles simples ou élaborées) sont la principale motivation de ce projet de thèse. Ce projet de doctorat consiste à évaluer les besoins dans ce contexte, puis à aborder le problème d'un format et d'un cadre pivot pour échanger des informations contextuelles entre des silos de sécurité indépendants (dont l'un d'entre eux étant la gestion d'identité et d'accès) et finalement d'écrire comment l'analyse réactive / prédictive / prescriptive « big data » peut fournir des informations contextuelles qui seront précieuses pour les décisions fondées sur le risque de contrôle d'accès. Plus précisément, ce projet de thèse vise à concevoir et mettre en œuvre un cadre permettant d'échanger des informations contextuelles provenant de différents silos de sécurité, d'appliquer l'analyse prédictive sur l'ensemble de ces données (et éventuellement d'autres à la périphérie) et de définir des métriques facilitant la prise de décision sur les problèmes de sécurité. Dans sa partie «analyse de masses de données » pour la prédiction, ce modèle devrait être basé sur une adaptation de l'approche PageRank afin de proposer un algorithme de classement selon des critères de sécurité prédéfinis. La conception du modèle ainsi défini doit être conforme à une approche par composants. Outre les caractéristiques des modèles conçus à l'aide de cette approche (tels que plusieurs niveaux d'abstraction, réutilisation des composants, durabilité, coûts supplémentaires acceptables), il fournie l'évolutivité et offre de bonnes performances. La mise en œuvre de l'algorithme PageRank-like proposé sur de grandes messes de données nécessite l'utilisation d'une approche calcul haute performance. En d'autres termes, il faut tenir compte du parallélisme multi-niveaux, de l'hétérogénéité des tâches/nœuds de calcul, des communications et des entrées/sorties asynchrones (avec des données persistantes) ainsi que de politiques d'ordonnancement. Néanmoins, le logiciel fourni doit représenter une solution transparente et exempte de ces détails internes pour les utilisateurs finaux du cadre proposé.

  • Titre traduit

    Sharing contextual information from Big Data analytics for Identity & Access Managemen


  • Résumé

    The needs for context-awareness, big data analytics applied to security controls and sharing of contextual data (simple or elaborated context information) are the main motivation for this thesis project. The PhD project consists in assessing the requirements for these needs, then bringing up the problem of a pivot format and framework to exchange contextual / situational information between independent security silos (one of which being Identity & Access Management), and finally describing how Big Data analytics (reactive/predictive/prescriptive) can deliver context information that will be valuable for access control risk-based decisions. More specifically, this thesis project aims to design and implement a framework allowing to exchange contextual information coming from different security silos, to apply big data analytics on all of these data (and possibly other at the periphery thereof) and to provide metrics for decision making on security problems. In its 'big data analytics' section, this model should be based on an adaptation of a PageRank approach in order to propose a ranking algorithm according to preset security criteria. The design of the model thus defined shall be in accordance with a component approach. In addition to the features of models designed by using this approach (such as several levels of abstraction, component reusability, sustainability, acceptable extra costs), it will provide scalability and offer good performances. The implementation of the proposed PageRank based algorithm on a lot of data requires the use of a high performance computing approach. In other words, we must take into account the multi-level parallelism, the heterogeneity of tasks / compute nodes, the communications and asynchronous I / O (with persistent data) and the scheduling policies. Nevertheless, the provided software has to represent a transparent solution and free of these internal details to the end-users of the proposed framework.