Modélisation automatique et simulation de parcours de soins à partir de bases de données de santé

par Martin Prodel

Thèse de doctorat en Génie Industriel

Sous la direction de Xiaolan Xie et de Vincent Augusto.

Soutenue le 10-04-2017

à Lyon , dans le cadre de École doctorale Sciences Ingénierie Santé (Saint-Etienne) , en partenariat avec HEVA (entreprise) et de Ingénierie des systèmes de soins et des services de santé (laboratoire) .

Le président du jury était Farouk Toumani.

Le jury était composé de Xiaolan Xie, Vincent Augusto, Farouk Toumani, Andrea Matta, Maria Di Mascolo, Philippe Lenca.

Les rapporteurs étaient Andrea Matta, Maria Di Mascolo.


  • Résumé

    Les deux dernières décennies ont été marquées par une augmentation significative des données collectées dans les systèmes d'informations. Cette masse de données contient des informations riches et peu exploitées. Cette réalité s’applique au secteur de la santé où l'informatisation est un enjeu pour l’amélioration de la qualité des soins. Les méthodes existantes dans les domaines de l'extraction de processus, de l'exploration de données et de la modélisation mathématique ne parviennent pas à gérer des données aussi hétérogènes et volumineuses que celles de la santé. Notre objectif est de développer une méthodologie complète pour transformer des données de santé brutes en modèles de simulation des parcours de soins cliniques. Nous introduisons d'abord un cadre mathématique dédié à la découverte de modèles décrivant les parcours de soin, en combinant optimisation combinatoire et Process Mining. Ensuite, nous enrichissons ce modèle par l’utilisation conjointe d’un algorithme d’alignement de séquences et de techniques classiques de Data Mining. Notre approche est capable de gérer des données bruitées et de grande taille. Enfin, nous proposons une procédure pour la conversion automatique d'un modèle descriptif des parcours de soins en un modèle de simulation dynamique. Après validation, le modèle obtenu est exécuté pour effectuer des analyses de sensibilité et évaluer de nouveaux scénarios. Un cas d’étude sur les maladies cardiovasculaires est présenté, avec l’utilisation de la base nationale des hospitalisations entre 2006 et 2015. La méthodologie présentée dans cette thèse est réutilisable dans d'autres aires thérapeutiques et sur d'autres sources de données de santé.

  • Titre traduit

    Process discovery, analysis and simulation of clinical pathways using health-care data


  • Résumé

    During the last two decades, the amount of data collected in Information Systems has drastically increased. This large amount of data is highly valuable. This reality applies to health-care where the computerization is still an ongoing process. Existing methods from the fields of process mining, data mining and mathematical modeling cannot handle large-sized and variable event logs. Our goal is to develop an extensive methodology to turn health data from event logs into simulation models of clinical pathways. We first introduce a mathematical framework to discover optimal process models. Our approach shows the benefits of combining combinatorial optimization and process mining techniques. Then, we enrich the discovered model with additional data from the log. An innovative combination of a sequence alignment algorithm and of classical data mining techniques is used to analyse path choices within long-term clinical pathways. The approach is suitable for noisy and large logs. Finally, we propose an automatic procedure to convert static models of clinical pathways into dynamic simulation models. The resulting models perform sensitivity analyses to quantify the impact of determinant factors on several key performance indicators related to care processes. They are also used to evaluate what-if scenarios. The presented methodology was proven to be highly reusable on various medical fields and on any source of event logs. Using the national French database of all the hospital events from 2006 to 2015, an extensive case study on cardiovascular diseases is presented to show the efficiency of the proposed framework.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.