Apprentissage automatique non supervisé pour la détection de trafics illégitimes
| Auteur / Autrice : | Thi Quynh Nguyen | 
| Direction : | Abdelmalek Benzekri, Romain Laborde | 
| Type : | Thèse de doctorat | 
| Discipline(s) : | Informatique et Télécommunications | 
| Date : | Soutenance le 11/12/2023 | 
| Etablissement(s) : | Toulouse 3 | 
| Ecole(s) doctorale(s) : | École doctorale Mathématiques, informatique et télécommunications (Toulouse) | 
| Partenaire(s) de recherche : | Laboratoire : Institut de Recherche en Informatique de Toulouse (1995-....) | 
| Jury : | Président / Présidente : Nathalie Aussenac-Gilles | 
| Rapporteurs / Rapporteuses : Guy Pujolle, David Espès | 
Mots clés
Résumé
Les cyber-attaques de plus en plus sophistiquées, préméditées et ciblées telles que les menaces persistantes avancées (APTs) peuvent être perpétrées sur des périodes de temps longues avant d'être divulguées ou découvertes. Pour cela, les attaquants mettent en œuvre des stratégies pour camoufler le plus longtemps possible leurs activités malveillantes comme la mise œuvre de canaux de communication entre des machines infectées et un serveur de commande et de contrôle (C&C) afin de pouvoir exfiltrer des données sensibles ou contrôler à distance des machines zombies. Une des techniques utilisées consiste à encapsuler le trafic C&C dans des protocoles réseau autorisés (comme le protocole du système de noms de domaine (DNS), le protocole de transfert hypertexte sécurisé (HTTPS), etc.) pour outrepasser les mécanismes de contrôle de sécurité. La détection de ces flux malicieux par les méthodes de détection traditionnelles, telles que les systèmes de gestion des événements et des informations de sécurité (SIEM), est limitée. Le trop grand nombre de paramètres à considérer pour définir manuellement des indicateurs fiables étant le principal frein. Pour répondre à ce défi, nous proposons dans cette thèse une approche basée sur l'apprentissage automatique non supervisé et plus particulièrement les algorithmes de détection d'anomalies que nous appliquons à la détection de tunnels DNS. Le choix d'un algorithme d'apprentissage non supervisé est guidé par le coût trop élevé pour obtenir un jeu de données d'apprentissage exhaustif qui serait labélisé par des experts sécurité et qui est indispensable aux algorithmes d'apprentissage supervisé. Ensuite, les attaques que nous ciblons ont pour objectif de rester sous les seuils de détection. Par conséquent, les événements ou flux réseau malicieux seront rares. Une première étude que nous avons menée nous a permis de mettre en avant l'algorithme DBSCAN (Density-Based Spatial Clustering of Applications with Noise). Cependant, DBSCAN exige de trouver expérimentalement les valeurs de deux hyper-paramètres. Afin d'automatiser la détection de tunnels DNS, nous proposons un algorithme amélioré appelé AutoRoC-DBSCAN qui peut déterminer automatiquement les valeurs de ces hyper-paramètres. Nous avons comparé ses performances avec 5 autres algorithmes d'apprentissage non supervisé (K-means, GMM, Isolation Forest, One-class SVM et LOF) sur deux jeux de données différents. Nous avons créé le premier jeu de données qui permet de vérifier la détection de tunnel DNS. Le deuxième jeu de données est CIRA-CIC-DoHBrw-2020 qui est fourni par le projet de l'Institut canadien pour la cybersécurité. Les expérimentations valident la détection de tunnels DNS over HTTPS où les flux malicieux sont doublement encapsulés par DNS puis par HTTPS. Les résultats obtenus lors de nos tests renforcent l'intérêt de notre approche.