Text mining sur évènements

par Samuel Kierszbaum

Projet de thèse en Mathématiques et Applications

Sous la direction de Thierry Klein et de Patrick Sénac.

Thèses en préparation à Toulouse, ISAE , dans le cadre de École doctorale Aéronautique-Astronautique (Toulouse) , en partenariat avec Laboratoire de Recherche ENAC (laboratoire) depuis le 01-04-2019 .


  • Résumé

    Contexte : Avec le développement de la digitalisation dans le transport aérien, la quantité de données récoltée de manière systématique, que ce soit sur les paramètres de vol, le trafic aérien, la météo, les systèmes air et sol, a augmenté drastiquement ces dernières années. Des efforts significatifs se concentrent sur l ‘analyse de données afin d'augmenter la sécurité. Cependant, les rapports d'évènements et autres documents textes, riches en sens, restent analysés de manière locale, manuellement, le plus souvent par des experts ayant une connaissance des évènements précédents. Le langage naturel permet de dégager des outils afin de comprendre de manière globale ce qui contribue ou au contraire amoindrit la sécurité. Objectifs : L'objectif de cette thèse est de développer une approche et des outils permettant le traitement de jeux de données de langage naturel de tailles importantes, non structurées, réunies au cours des opérations de transport aérien afin d'en dégager des indices de sécurités dans trois domaines complémentaires : la compréhension des risques connus, l'identification de solutions, l'identification de signaux faibles permettant de détecter par avance des problèmes susceptibles d'arriver. Les défis principaux de cette thèse sont : 1. La transformation de texte écrit en langage naturel, combinant plusieurs langues, utilisant un vocabulaire spécifique, en objets contenant des éléments pertinents vis à vis de la sécurité. 2. Définir une distance entre les rapports écrits. 3. Appliquer méthodes algorithmes afin de présenter les résultats de manière compréhensibles. 4. Le but ultime étant d'utiliser les données structurées et non structurées ensemble dans le contexte de la sécurité.

  • Titre traduit

    Text mining for reported Events


  • Résumé

    With the development of digitalization in air transport, the amount of data collected in a systematic manner, whether of flight parameters, air traffic control, weather, ground and airborne systems, has dramatically increased over the past years. Significant efforts are focusing on the analysis of quantitative data to enhance safety. However, event reports or other text contents that are rich in meaning remain analysed at a local scale, manually, most of the time by experts having in mind a historical overview of events and clustering them on this basis. Yet, contents in natural language embed extremely valuable information to understand how safety of air operations works or fails. Indeed, they reflect especially a variety of elements of the operational context as well as insights of the dynamic of events that support a global understanding of what contributes to or undermines safety. Objectives The objective of this thesis is to develop an approach and tools allowing for processing huge sets of text data in natural language(s), that is non-structured, on air transport actual operations in order to derive safety insights in three complementary areas: the understanding of know risks, and identification of mitigation ways forward, the identification and recognition of weak signals and the early detection of emerging risks. The main scientific challenges are: 1. Transforming texts written in natural language, combining several languages, using specific aeronautical vocabulary, into mathematical objects embedding safety relevant elements. Applying standard filters (for example those available in R's tm package) is not sufficient in this framework. Adapting statistical models called “topic models” to come up with topics that make sense from a safety viewpoint. Based on the corpus, these models generate topics that are distributions of probabilities on the terms of the corpus, and associate with each document/report a distribution of probabilities on the topics. The number of topics is to be optimized to ensure that the most representative terms of each topic can be associated with a relevant interpretation by a safety expert. 2. Defining a distance between reports (transformed as aforementioned) allowing for performing a statistical analysis and an automatic classification of event reports leading to clusters (known risks and weak signals), to identifying outliers and/or emerging clusters (emerging risks). The Wasserstein distance is currently widely used in statistics to perform efficient data analysis for example PCAs and even text analysis. 3. Applying methods and algorithms on huge sets of data and presenting the results in a way that is understandable and usable. 4. Aggregation of structured data (as trajectories, raw flight data, …) and unstructured data (as texts,…), always in the overall context of Safety, is the ultimate goal.