Détection de falsifications de données Métier dans les systèmes de transport intelligents à base d'apprentissage automatique entrainé par la génération de tests

par Antoine Chevrot

Projet de thèse en Informatique

Sous la direction de Bruno Legeard.

Thèses en préparation à Bourgogne Franche-Comté , dans le cadre de SPIM - Sciences Physiques pour l'Ingénieur et Microtechniques , en partenariat avec FEMTO-ST Franche Comté Electronique Mécanique Thermique et Optique - Sciences et Technologies (laboratoire) et de DISC - Département Informatique et Systèmes Complexes (equipe de recherche) depuis le 01-10-2018 .


  • Résumé

    Les systèmes de transport intelligent (gestion du trafic aérien et maritime, VANETs, …) sont de plus en plus exposés à des cyberattaques par falsification des données Métier. Ces attaques, appelées de façon générique FDIA – False Data Injection Attacks – sont difficiles à détecter, car altérant la sémantique des données en préservant leur correction syntaxique et cohérence logique. Les FDIA sont généralement initiées par une prise de contrôle préalable sur le système cible permettant de falsifier des données pour attaquer le système de contrôle. Elles représentent un risque dès lors qu'il y a échange de données entre plusieurs acteurs, pour ensuite prendre des décisions critiques selon la nature des données récoltées (réseau de capteurs, systèmes de transport, etc.). On retrouve les FDIA sous la forme d'un Man-In-The-Middle sur le réseau distribué (par exemple sur un Smart Grid1 énergie [1]) ou en usurpant l'authentification d'un véhicule autonome. L'exploitation d'une faille technique, ou plus simplement l'absence de contrôles techniques de sécurité (par exemple, le protocole ADS-B dans le domaine aérien n'est ni crypté ni authentifié [2] [3]), permet alors à l'attaquant de modifier/altérer des données Métier ou d'insérer, dans le flux, des données falsifiées. L'utilisation de Machine Learning (ML) pour la détection d'anomalies de sécurité, l'analyse de malware et la reconnaissance des motifs et des signatures, est une thématique extrêmement active tant au niveau recherche que dans l'industrie de la cybersécurité. On trouve notamment des approches pour la détection d'intrusion ou d'anomalies dans des réseaux, tant pour les réseaux classiques [4] que pour des réseaux plus spécifiques tels que le Cloud [5], les réseaux de capteurs [6], ou les Smart Grids [7]. La détection et la classification de programmes malveillants [8] sont un autre problème très étudié, il s'agit en effet d'une menace très courante actuellement. Plus récemment, le succès croissant des réseaux de neurones profonds, avec des performances telles qu'ils sont vus comme une révolution dans de nombreux domaines, a également essaimé dans les solutions proposées pour la cybersécurité [9] [10] [11]. Ainsi, l'extraction de signaux faibles (élément rare ou déviant concernant des motifs comportementaux) ainsi que la mise en évidence de corrélation sur les motifs de cyberattaque sont les premières applications recherchées des techniques du ML dans ce contexte. Cependant ces techniques sont actuellement développées sur des traces bas niveaux, et ne portent pas sur la sémantique des données Métier du fait du caractère spécifique des attaques FDIA à chaque domaine. L'autre frein important est l'absence de grande quantité de données falsifiées représentatives, qui se révèlent cruciales pour l'entrainement des modèles de Machine Learning, en particulier lorsque ceux-ci sont fondés sur des réseaux de neurones artificiels. Ce travail s'inscrit dans le cadre du projet ISITE-BFC SARCoS sur la cybersécurité des systèmes connectés, et en lien avec le projet GeLeaD lauréat de l'appel à projet ANR ASfTRID 2018. Le projet SARCoS vise globalement à améliorer la cybersécurité Métier des systèmes connectés et le projet GeLeaD vise à rendre efficace la détection des attaques de type FDIA par composants Machine Learning entrainés par génération automatique de tests à partir de patterns d'attaque.

  • Titre traduit

    Detection of business data falsifications in intelligent transport systems based on automatic learning driven by test generation


  • Résumé

    Intelligent transport systems (air and maritime traffic management, VANETs, etc.) are increasingly exposed to cyber attacks by falsification of business data. These attacks, generically called FDIA - False Data Injection Attacks - are difficult to detect because they alter the semantics of the data while preserving their syntax correction and logical consistency. FDIAs are usually initiated by a prior takeover of the target system to forge data to attack the control system. They represent a risk when there is an exchange of data between several actors, and then take critical decisions depending on the nature of the data collected (sensor network, transport systems, etc.). FDIAs are found in the form of a Man-In-The-Middle on the distributed network (for example on a Smart Grid1 energy[1]) or by usurping the authentication of an autonomous vehicle. The exploitation of a technical flaw, or more simply the absence of technical security controls (for example, the ADS-B protocol in the air domain is neither encrypted nor authenticated[2][3]), then allows the attacker to modify/alter business data or insert falsified data into the stream. The use of Machine Learning (ML) for security anomaly detection, malware analysis and pattern and signature recognition is an extremely active theme both in research and in the cyber security industry. These include approaches for detecting intrusion or anomalies in networks, both for traditional networks[4] and for more specific networks such as the Cloud[5], sensor networks[6], or Smart Grids[7]. Malware detection and classification[8] is another highly studied problem, as it is a very common threat today. More recently, the growing success of deep neural networks, with performances such that they are seen as a revolution in many fields, has also spilled over into proposed solutions for cybersecurity[9][10][11]. Thus, the extraction of weak signals (rare or deviating element concerning behavioural motives) as well as the detection of correlation on the motives of cyber attack are the first sought-after applications of ML techniques in this context. However, these techniques are currently being developed on low-level traces, and do not focus on the semantics of business data because of the specific nature of FDIA attacks to each domain. Another important constraint is the absence of large amounts of representative falsified data, which are crucial for training Machine Learning models, especially when they are based on artificial neural networks. This work is part of the ISITE-BFC SARCoS project on cybersecurity of connected systems, and in connection with the GeLeaD project that won the ANR ASfTRID 2018 call for projects. The SARCoS project aims globally to improve business cybersecurity of connected systems and the GeLeaD project aims to make effective the detection of FDIA attacks by Machine Learning components trained by automatic test generation from attack patterns.