Thèse soutenue

Gestion de la vulnérabilité de la cyber-sécurité à l’aide de réseaux de neurones LSTM
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Houssem Gasmi
Direction : Abdelaziz BourasJannik LavalNada Matta
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 15/07/2020
Etablissement(s) : Lyon
Ecole(s) doctorale(s) : École doctorale en Informatique et Mathématiques de Lyon
Partenaire(s) de recherche : Equipe de recherche : DISP - Décision et Information pour les Systèmes de Production (Lyon, INSA)
établissement opérateur d'inscription : Université Lumière (Lyon ; 1969-....)
Jury : Examinateurs / Examinatrices : Sebti Foufou
Rapporteurs / Rapporteuses : Loïc Lagadec, Salah Sadou

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

À travers cette thèse, nous avons étudié la pertinence des modèles basés sur LSTM (Long Short Term Memory) dans l'extraction d'informations à partir de corpus de cyber sécurité et plus spécifiquement les descriptions textuelles des vulnérabilités des systèmes informatiques. Nous avons utilisé les techniques du traitement du langage naturel (NLP) et des réseaux de neurones LSTM. Les techniques NLP aident à l'automatisation de l'extraction et la transformation de l'information. L'extraction d'informations est un sous-domaine de l’NLP qui implique la reconnaissance de contenu sémantique dans le texte en langage naturel. Des travaux antérieurs ont montré que les outils NLP standard ne sont pas capables d'extraire des entités liées à la cyber sécurité et les relations entre elles. Les outils traditionnels utilisés pour NER (reconnaissance d’entités nommées) donnent les meilleurs résultats, et s'appuient sur l'ingénierie des caractéristiques pour l'extraction d'informations. L'ingénierie des caractéristiques souffre de plusieurs limitations. Les méthodes basées sur les réseaux de neurones LSTM, qui sont devenues plus efficaces ces dernières années, offrent une alternative prometteuse aux méthodes traditionnelles d'extraction d'informations. Leur principal avantage est l'élimination de l’extraction manuelle des caractéristiques, car les réseaux de neurones peuvent apprendre à modéliser les caractéristiques à partir des données, ce qui soulage de la laborieuse définition des caractéristiques.Les résultats obtenus ont montré une amélioration remarquable de la tâche NER par rapport au modèle CRF (Conditional Random Fields) statistique traditionnel. Les modèles LSTM utilisés pour l'extraction des relations ont montré qu'il existe une variance dans leurs performances dans ce domaine. En conséquence, un des modèles (SDP : Shortest Dependency Path) a atteint la plus grande précision. L'un des points forts des LSTM étudiés est l’indépendance par rapport au domaine sur lequel ces modèles sont appliqués. Avec notre approche, le besoin d'outils spécifiques au domaine est éliminé. Le corpus d’entrainement est par conséquent beaucoup plus simple et nécessite un prétraitement plus simplifié. Enfin, les modèles LSTM ont été intégrés dans un framework qui peut être utilisé pour convertir les descriptions textuelles des vulnérabilités en informations utilisées pour remplir une ontologie de gestion des vulnérabilités. Cette ontologie ouvrirait la voie à des systèmes qui fourniraient rapidement des informations pertinemment sur ces vulnérabilités et menaces.