DETECTION EN LIGNE DE PATTERNS INTERPRETABLES DANS DES FLUX DE DONNEES IT MASSIVES

par Mariam Barry

Projet de thèse en Informatique, données, IA

Sous la direction de Albert Bifet et de Raja Chiky.

Thèses en préparation à l'Institut polytechnique de Paris , dans le cadre de École doctorale de l'Institut polytechnique de Paris , en partenariat avec Laboratoire de Traitement et Communication de l'Information (laboratoire) depuis le 15-11-2019 .


  • Résumé

    Les systèmes d'information (SI) dans les grandes entreprises telles que les banques sont en constante évolution et intègrent de façon continue de nouvelles technologies, générant de plus en plus de données. Ces changements incessants peuvent provoquer des incidents ou failles qui peuvent avoir des conséquences graves sur le bon fonctionnement des services et du système d'information. Il devient indispensable d'avoir des techniques performantes de détection de patterns (normaux ou anormaux) en Streaming pour anticiper les incidents et mieux superviser son infrastructure IT. Les travaux de recherche Le premier axe est d'identifier des solutions d'extraction des informations clés (Knowledge Extraction) générées par le Système d'Information, à partir des données de types structurées ou non structurées (logs IT, Logs d'activités DevOps, Logs des infrastructures Cloud, métriques systèmes, series temporelles…) en utilisant des techniques de Data Mining ou Graph Mining adaptées. Le second axe consiste à identifier des solutions de détection en ligne de Patterns interprétables sources d'anomalies ou d'incidents IT issus des événements en streaming afin de monitorer l'écosystème complexe de la production informatique. Cette capacité de détection et d'interprétabilité des patterns devient indispensable avec la forte augmentation des données dans un Système d'information où les recommandations déduites de l'intelligence artificielle ou des modèles doivent pouvoir être justifiées pour être appliquées dans certains contextes de la banque. Les résultats de ces travaux de recherche ont pour finalité d'être intégrés dans un Pipeline permettant la supervision des Events dans un écosystème complexe tout en fournissant des capacités de réactivité en cas de failles ou d'incidents.

  • Titre traduit

    ONLINE DETECTION OF INTERPRETABLE PATTERNS IN IT BIG DATA STREAMS


  • Résumé

    Information systems (IS) in large companies such as banks are constantly evolving and continuously integrating new technologies. These incessant changes can cause incidents that can have serious consequences for the proper functioning of the services. It becomes essential to have powerful techniques for detecting patterns and incidents and to understand their origins (also called the root cause). The first axis of the thesis is to identify solutions for extracting key information generated by the Information System, from structured or unstructured data (IT logs, DevOps Activity Logs, Cloud Infrastructure Logs, System Metrics , time series ...) using adapted Data Mining, Graph Mining techniques. The second axis is to identify solutions for online detection of interpretable patterns which are sources of anomalies or IT incidents resulting from streaming events to monitor the complex ecosystem of IT production. This ability to detect and interpret patterns becomes indispensable with the increasing of big data volumes in an Information System where recommendations derived from artificial intelligence or models must be justified to be applied in certain contexts of the bank. The results and finding produced during the research aim to be integrated into a Streaming Pipeline for events Monitoring to deliver more capabilities of Big Data Stream Mining.