Méthodes et méthodologie pour apprentissage sur données textuelles (et données médicales en particulier)

par Sara Rabhi

Projet de thèse en Réseaux, information et communications

Sous la direction de Djamal Zeghlache.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) , en partenariat avec Télécom SudParis (France) (laboratoire) , R3S (equipe de recherche) et de Institut national des télécommunications (Evry) (établissement de préparation de la thèse) depuis le 01-11-2018 .


  • Résumé

    L'objectif de ce travail est de coupler le processus de prétraitement des documents textuels, les techniques de machine learning et les méthodes de visualisation afin de décrire les parcours de soins de cohortes de patients et de mettre en évidence des clusters en fonction de certaines caractéristiques médicales, sociales ou d'organisation territoriale. Du point de vue intérêt pour la santé publique est de décrire le parcours de soins de plusieurs patients diabétiques et de formuler des hypothèses sur les déterminants des variations de parcours de soins, l'efficacité de ces soins, les pathologies associées et obeservées afin d'améliorer le suivi, le traitement et la prediction. En termes de méthodes, les travaux de thèse incluront les points suivants: - modélisation du processus de diagnostic et de soin - extraction d'information à partir de compte rendu médicaux textuels et à partir de résulats d'analyses medicales dont: pré-traitements, Extraction d'information par technique de deep-learning, Evaluation des résultats d'extraction - Description et analyse des séquences des états en s'appuyant sur des méthodes d'analyse statistiques usuelles La modélisation des séquences des états se fera par example par méthode de clustering, Les méthodes de détection des séquences anormales (parcours avec durées anormales, réactions et résultats innatendus sur le traitement, déviations obvservées lors du suivi, etc...). La modélisation des séquences des états sera effectuée par des réseaux de neurones Des méthodes d'apprentissage et de prédictions seront associées aux réseaux de neurones pour optimiser l'ensemble du système.

  • Titre traduit

    Learning methods and algorithms based on large text data sets


  • Résumé

    The objective is to develop machine learning and deep learning methods to extract automatically key features and information from health data, especially from diabetes patient data records in order to improve health monitoring, treatment and prediction about the pathology and the efficiency of the diagnosis and health plans efficiency. The developed methods for diabetes will be explored for applications to other data sets, domains and sectors. The thesis will focus on defining a methodology that can be tuned and reused for various use cases as opposed to developing specific solutions per domain. The objective is to define a common underlying framework from which one can derive domain specific solutions.