Mining Business Process Information from Emails Logs for Process Models Discovery

par Diana Al Jlailaty

Thèse de doctorat en Informatique

Sous la direction de Daniela Grigori et de Khalid Belhajjame.

Soutenue le 15-11-2019

à Paris Sciences et Lettres (ComUE) , dans le cadre de Ecole doctorale SDOSE (Paris) , en partenariat avec Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision (Paris) (laboratoire) , Université Paris Dauphine-PSL (établissement de préparation de la thèse) et de Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision / LAMSADE (laboratoire) .

Le président du jury était Salima Benbernou.

Le jury était composé de Khalid Belhajjame, Salima Benbernou, Walid Gaaloul, Yehia Taher, Dimitris Kotzinos.

Les rapporteurs étaient Salima Benbernou, Walid Gaaloul.

  • Titre traduit

    Extraction d'informations à partir des emails pour la découverte et l’analyse des processus métier


  • Résumé

    Les informations échangées dans les textes des courriels sont généralement concernées par des événements complexes ou des processus métier dans lesquels les entités qui échangent des courriels collaborent pour atteindre les objectifs finaux des processus. Ainsi, le flux d’informations dans les courriels envoyés et reçus constitue une partie essentielle, les activités métier de l’entreprise. L’extraction d’informations sur les processus métier à partir des courriels peut aider à améliorer la gestion des courriels pour les utilisateurs. Il peut également être utilisé pour trouver des réponses riches à plusieurs questions analytiques sur les employés et les organisations. Aucun des travaux précédents n’a résolu le problème de la transformation automatique des journaux de courriels en journaux d’événements pour éventuellement en déduire les processus métier non documentés. Dans ce but, nous travaillons dans cette thèse sur un framework qui induit des informations de processus métier à partir d’emails. Nous introduisons des approches qui contribuent à ce qui suit : (1) découvrir pour chaque courriel le sujet de processus qui le concerne, (2) découvrir l’instance de processus métier à laquelle appartient chaque courriel, (3) extraire les activités de processus métier des courriels et associer ces activités aux métadonnées qui les décrivent, (4) améliorer la performance de la découverte des instances de processus métier et des activités métier en utilisant la relation entre ces deux problèmes, et enfin (5) estimer au préalable la date/heure réelle d’un activité métier. En utilisant les résultats des approches mentionnées, un journal d’événements est généré qui peut être utilisé pour déduire les modèles de processus métier d’un journal de courriels. L’efficacité de toutes les approches ci-dessus est prouvée par l’application de plusieurs expériences sur l’ensemble de données de courriel ouvert d’Enron.


  • Résumé

    Exchanged information in emails’ texts is usually concerned by complex events or business processes in which the entities exchanging emails are collaborating to achieve the processes’ final goals. Thus, the flow of information in the sent and received emails constitutes an essential part of such processes i.e. the tasks or the business activities. Extracting information about business processes from emails can help in enhancing the email management for users. It can be also used in finding rich answers for several analytical queries about the employees and the organizations enacting these business processes. None of the previous works have fully dealt with the problem of automatically transforming email logs into event logs to eventually deduce the undocumented business processes. Towards this aim, we work in this thesis on a framework that induces business process information from emails. We introduce approaches that contribute in the following: (1) discovering for each email the process topic it is concerned by, (2) finding out the business process instance that each email belongs to, (3) extracting business process activities from emails and associating these activities with metadata describing them, (4) improving the performance of business process instances discovery and business activities discovery from emails by making use of the relation between these two problems, and finally (5) preliminary estimating the real timestamp of a business process activity instead of using the email timestamp. Using the results of the mentioned approaches, an event log is generated which can be used for deducing the business process models of an email log. The efficiency of all of the above approaches is proven by applying several experiments on the open Enron email dataset.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : PARIS-PSL (Paris). Université Paris Dauphine-PSL. Service commun de la documentation : Thèses électroniques Dauphine.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.