Data mining and learning for markers extraction to improve the medical monitoring platforms

par Carine Bou Rjeily

Thèse de doctorat en Sciences pour l'Ingénieur

Sous la direction de Amir Hajjam El Hassani et de Emmanuel Andrès.

Le président du jury était Marie-Hélène Abel.

Le jury était composé de Emmanuel Andrès, Georges Badr, Florence Sèdes.

Les rapporteurs étaient Marie-Hélène Abel, Cecilia Zanni-Merk.

  • Titre traduit

    Fouille de données et apprentissage pour l'extraction de marqueurs pour améliorer le raisonnement des plateformes de suivi médical


  • Résumé

    Selon l’Organisation mondiale de la santé, environ 31% des décès dans le monde sont causés par des maladies cardiaques chaque année. L’exploration de données est un processus d’extraction intéressant d’informations non triviales, implicites et potentiellement utiles, à partir de grands ensembles de données. L’exploration de données médicales est la science qui consiste à examiner des données médicales (signes vitaux) pour explorer des informations importantes. L’analyse et l’interprétation des données complexes dans un diagnostic thérapeutique approprié avec les bons résultats, est une tâche assez ardue. Néanmoins, le fait qu’il soit possible de combiner ces facteurs jusqu’à un certain point et d’extraire un plan de traitement, de prévention et de rétablissement généralement couronnée de succès, est un signe des avantages à venir. Grâce à cela, il est maintenant possible d’améliorer la qualité de vie des patients, de prévenir une aggravation de la maladie tout en maintenant les coûts médicaux à la baisse. Cela explique la popularité croissante de l’utilisation et de l’application des techniques d’apprentissage automatique pour analyser, prédire et classifier les données médicales. Dans une première contribution, nous avons étudié de nombreux algorithmes de motifs séquentiels qui sont des techniques prometteuses pour l’exploration de données. Nous les avons classés afin de choisir un algorithme approprié pour prédire les classes d’insuffisance cardiaque et sa présence. Après avoir comparé tous les algorithmes et les avoir mis en œuvre sur le même ensemble de données médicales, le CPT +, un algorithme de prédiction de séquence, a été choisi en donnant les résultats les plus précis avec une précision de 90,5% dans la prédiction de l’insuffisance cardiaque et de ses classes. En utilisant cet algorithme, avec des données des patients réels, nous avons pu prédire une insuffisance cardiaque 10 à 12 jours à priori. Après, nous avons basculé nos études vers une stratégie de séries chronologiques et nous avons utilisé des données réelles extraites de patients réels. 5 paramètres ont été extraits de 3 patients au cours de quelques années. L’algorithme RandomTree a donné plus de 85% de prédictions correctes de l’insuffisance cardiaque 7 jours à l’avance.


  • Résumé

    The World Health Organization accords that about 31 % of deaths worldwide are caused by heart diseases every year. Data mining is a process of extracting interesting non-trivial, previously unknownand potentially useful information from huge amount of data. Medical data mining is the science of investigating medical data (i.e. vital signs) to explore significant information. Analyzing and interpreting the huge amount of complicated data into an appropriate therapeutic diagnosis with the right results is quite challenging task. Still, the fact that it is possible to combine these factors up to a certain point and extract a usually successful treatment, prevention and recovery plan is a sign of the good things to come. Thanks to that, it is now possible to improve patients’ quality of life, prevent condition worsening while maintaining medical costs at the decrease. This explains the increasing popularity in the usage and application of machine learning techniques to analyze, predict and classify medical data. As a first contribution, we studied many sequential patterns algorithms that are promising techniques in exploring data and we classified them in order to choose an appropriate one for predicting Heart Failure classes and presence. After comparing all the algorithms and implementing them on the same medical dataset, the CPT+ a sequence prediction algorithm has been chosen as it gave the most accurate results reaching an accuracy of 90.5% in predicting heart failure and its classes. By using the CPT+ algorithm with real patients dataset, we predicted heart failure 10 to 12 days prior. Thereafter, we switched our studies to time series strategy, and worked on real data extracted from real patients. 5 parameters were extracted from 3 patients over the course of a few years. The Random Tree algorithm yielded more the 85% correct predictions of heart failure 7 days prior.


Le texte intégral de cette thèse n'est pas accessible en ligne.
Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.