Thèse soutenue

Détection d’anomalies robuste et non-supervisée : Appliquée à la supervision du trafic réseau

FR  |  
EN
Auteur / Autrice : Naji Najari
Direction : Stefan DuffnerChristophe Garcia
Type : Thèse de doctorat
Discipline(s) : Maths info
Date : Soutenance le 13/12/2022
Etablissement(s) : Lyon, INSA
Ecole(s) doctorale(s) : École doctorale en Informatique et Mathématiques de Lyon (2009-....)
Partenaire(s) de recherche : Entreprise : France Telecom Orange labs (2007-2012)
Laboratoire : LIRIS - Laboratoire d'Informatique en Image et Systèmes d'information (Rhône ; 2003-....) - Laboratoire d'InfoRmatique en Image et Systèmes d'information / LIRIS
Membre de : Université de Lyon (2015-....)
Equipe de recherche : imagine - Extraction de Caractéristiques et Identification
Jury : Examinateurs / Examinatrices : Stefan Duffner, Christophe Garcia, Philippe Owezarski, Nicole Vincent, Stéphane Mallat, Thierry Chateau, Emilie Devijver
Rapporteurs / Rapporteuses : Philippe Owezarski, Nicole Vincent

Résumé

FR  |  
EN

Cette thèse étudie la détection non-supervisée et robuste des anomalies à partir du trafic réseau des équipements connectés (Internet of Things, IoT). On explore en particulier l’apprentissage de représentations pour la modélisation de la norme à l’aide des réseaux de neurones artificiels, et en particulier l’architecture autoencodeurs. Les approches autoencodeur classiques apprennent à reconstruire les données nominales uniquement. Comme les nouvelles observations anormales sont structurellement différentes, leur traitement est accompagné d’une perte d’information significative, avec une large erreur de reconstruction. Toutefois, la constitution d’une base d’apprentissage sans anomalie est coûteuse, chronophage, et même parfois infaisable pour des anomalies encore inconnues des experts. Ainsi, nous avons cherché à développer des autoencodeurs robustes, i.e., capables de modéliser la norme même si la base d'apprentissage est contaminée par des anomalies. En particulier, nous proposons trois contributions. Dans un premier temps, nous proposons RADON (Robust Autoencoder with Dynamic Outlier filteriNg), qui s’appuie sur une auto-supervision. Nous estimons dynamiquement des anomalies de l’ensemble d’apprentissage par seuillage de l’histogramme de reconstruction. Nous les exploitons ensuite pour renforcer le potentiel de discrimination du modèle. Dans un deuxième temps, nous proposons GRAnD (Generative Robust autoencoder for unsupervised Anomaly Detection), en exploitant la puissance des autoencodeurs variationnels et des normalizing fows pour améliorer le processus d'estimation des anomalies. Le critère de seuillage sur l’histogramme des scores de reconstruction est remplacé par une modélisation statistique grâce à la théorie des valeurs extrêmes. Enfin, nous proposons RESIST (Robust transformEr developed for unSupervised tIme Series anomaly deTection), qui s’appuie sur les modèles sequence-to-sequence, et en particulier les Transformeurs, pour modéliser les dépendances temporelles entres les tokens d’une séquence de flux réseaux et détecter toute déviation contextuelle et collective. L’impact des contaminants lors de l’apprentissage est significativement atténué grâce à une architecture Siamoise et la fonction objective robuste Geman-McClure.