High performance big data analysis ; application to anomaly detection in the context of identity and access management

Mamadou Abdoulaye Diop

Résumé

Data protection is a critical issue in cybersecurity. Organizations use identity and access management software and traditional cybersecurity tools to protect their information assets from external threats. However, they most often lack solutions to counter insider threats from individuals with legitimate access to corporate information systems. This type of threat is now the primary concern of cybersecurity specialists. User and entity behavior analysis software are the tools used by cyber specialists to counter insider threats effectively. However, existing solutions can present problems such as many false alarms and a consequent development time of detection models when the activity data is of large volumes.This thesis aims to remedy these problems by proposing an algorithmic solution and its efficient implementation for high performance architectures. More precisely, we propose a detection method that builds behavioral profilers using techniques from the fields of machine learning, linear algebra and high performance computing. This method is defined by application of “unite and conquer” approach, used in linear algebra, to ensemble learning techniques. We integrate innovative methods of PageRank and autoencode in the proposed ensemble method in addition to the classical basic machine learning methods.According to our experiments, this new method of insider threat detection shows an average efficiency in terms of detection accuracy, up to 98% of AUC. This is a significant increase compared to base methods. We also propose an implementation of this method according to several parallel programming paradigms allowing us to obtain a speedup up to 10.We have integrated this software platform with data preprocessing means and an alarm system into a global module for insider threat detection, capable of extending cybersecurity tools.

La protection des données est une question essentielle en matière de cybersécurité. Les organisations utilisent les logiciels de gestion des identités et des accès et les outils de cybersécurité traditionnels pour protéger leurs actifs informationnels contre les menaces externes. Cependant, elles manquent le plus souvent de solutions pour contrer les menaces internes provenant principalement des personnes ayant un accès légitime aux systèmes d'information de l'entreprise. Ce type de menaces est aujourd'hui la principale préoccupation des spécialistes de la cybersécurité. Les logiciels d'analyse du comportement des utilisateurs et des entités sont les outils utilisés par les cyber-spécialistes pour contrer efficacement les menaces internes. Cependant, les solutions existantes peuvent présenter des problèmes tels qu'un nombre élevé de fausse alarme, et un temps de préparation des modèles de détection conséquent quand les données d'activités sont de gros volumes.L'objectif de cette thèse est de contribuer à remédier à ces problèmes par la proposition d’une solution algorithmique et sa mise en œuvre efficace pour les architectures haute performance. Plus particulièrement, nous proposons une méthode de détection qui construit des profileurs de comportement en utilisant des techniques issues des domaines de l’apprentissage automatique, de l'algèbre linéaire et du calcul haute performance. Cette méthode est définie par l’application de l’approche "unir et conquérir" utilisée en algèbre linéaire, aux techniques d'apprentissage d'ensemble. En plus des méthodes d'apprentissage de base classiques, nous intégrons des méthodes innovantes de type PageRank et auto-encodeurs dans la méthode globale proposée. Cette nouvelle méthode de détection des menaces internes montre, selon nos expérimentations, une efficacité en termes de précision, allant jusqu’à 98% d'AUC. Ceci marque une augmentation significative par rapport aux méthodes de bases. Nous proposons aussi une mise en œuvre de cette méthode selon plusieurs paradigmes de programmation parallèle permettant d’obtenir des accélérations jusqu’au 10.Nous avons intégré cette plateforme logicielle agrémentée de moyens de prétraitement de données, et d'un système d'alarme dans un module global de détection d'attaque internes, capable d'étendre des outils de cybersécurité.

High performance big data analysis ; application to anomaly detection in the context of identity and access management

Analyse haute performance de masses de données; application à la détection d'anomalie dans le contexte de la gestion d'identité et d'accès

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager