découverte des processus par l'analyse de logs des outils de communication

par Marwa Elleuch

Projet de thèse en Informatique

Sous la direction de Walid Gaaloul, Nassim Laga et de Oumaima Alaoui ismaili.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne) , en partenariat avec Télécom SudParis (France) (laboratoire) , ACMES (equipe de recherche) et de Institut national des télécommunications (Evry) (établissement de préparation de la thèse) depuis le 03-12-2018 .


  • Résumé

    Le but du travail proposé est de remonter au fonctionnement réel de l'entreprise par l'analyse de ses flux de communication. Les données analysées incluront notamment le mail, la messagerie instantanée, les ponts téléphoniques et le réseau social d'entreprise. Le périmètre de l'étude se fera sur le groupe Orange en France et s'inscrit dans le projet 'Orange Process Discovery'. Il conviendra alors d'utiliser ces données, dans le respect des engagements Orange sur l'utilisation des données personnelles, pour arriver à identifier des processus en place dans l'entreprise. Néanmoins, le thésard devra s'appuyer sur des données publiques (e.g. https://www.kaggle.com/wcukierski/enron-email-dataset) pour prouver les concepts introduits dans la communauté scientifique. Le verrou principal consiste à qualifier les communications provenant de sources diverses (mail, chat, pont téléphonique, RSE), de nature mixte (textes, numériques, catégorielles), non structurées et en grand volume afin d'en déduire les processus, voir les étapes des processus. En s'appuyant sur l'état de l'art dans les domaines de l'intelligence artificielle et de la gestion des processus métiers dans les entreprises, la thèse vise à proposer une méthode permettant de détecter automatiquement les processus dans l'entreprise, des dérives et des changements éventuels en analysant les données des outils de communication. Ceci nécessite : o le filtrage et regroupement des données par processus et par étape de processus : ceci fera appel aux différentes techniques d'apprentissage automatique tel que le clustering, la classification supervisée, et le texte mining. o la généralisation de la méthode à de gros volumes de données Les résultats de la thèse enrichiront probablement les deux communautés scientifiques relatives respecti-vement à l'intelligence artificielle et à la gestion des processus métiers.

  • Titre traduit

    process mining by log analysis of communication tools


  • Résumé

    The purpose of the proposed work is to mine to the actual functioning of the company by analyzing its communication flows. The analyzed data will include email, instant messaging, telephone bridges and the corporate social network. The scope of the study will be on the Orange group in France and is part of the 'Orange Process Discovery' project. Therefore the data is used, in compliance with Orange commitments on the use of personal data, to identify processes in place in the company. Nevertheless, the PhD student may rely on public data (e.g. https://www.kaggle.com/wcukierski/enron-email-dataset) to prove concepts introduced into the scientific community. The main lock consists in qualifying the communications coming from various sources (mail, chat, telephone bridge, CSR), of mixed nature (texts, numerical, categorical), unstructured and in large volume in order to deduce the processes, particularly the step . Based on the state of the art in the areas of artificial intelligence and business process management in companies, the thesis aims to propose a method to automatically detect processes in the company, drifts and possible changes by analyzing the data of the communication tools. This requires: o The filtering and grouping of data by process and by process step: To do so we will different machine learning techniques such as clustering, supervised classification, and text mining. o generalization of the method to large volumes of data The results of the thesis will probably enrich the two scientific communities relating respectively to artificial intelligence and business process management.