Thèse soutenue

Structuration de données multidimensionnelles : une approche basée instance pour l'exploration de données médicales

FR  |  
EN
Auteur / Autrice : Joris Falip
Direction : Michel HerbinFrédéric Blanchard
Type : Thèse de doctorat
Discipline(s) : Info - Informatique
Date : Soutenance le 22/11/2019
Etablissement(s) : Reims
Ecole(s) doctorale(s) : Ecole doctorale Sciences du Numérique et de l’Ingénieur (Reims, Marne)
Partenaire(s) de recherche : Laboratoire : Centre de Recherche en Sciences et Technologies de l'Information et de la Communication (CRESTIC) EA 3804 (Reims, Marne)
Jury : Président / Présidente : Pierre Gançarski
Examinateurs / Examinatrices : Michel Herbin, Frédéric Blanchard, Anne Boyer, Marie-Jeanne Lesot, Zahia Guessoum
Rapporteurs / Rapporteuses : Anne Boyer, Marie-Jeanne Lesot

Résumé

FR  |  
EN

L'exploitation, a posteriori, des données médicales accumulées par les praticiens représente un enjeu majeur pour la recherche clinique comme pour le suivi personnalisé du patient. Toutefois les professionnels de santé manquent d'outils adaptés leur permettant d'explorer, comprendre et manipuler aisément leur données. Dans ce but, nous proposons un algorithme de structuration d'éléments par similarité et représentativité. Cette méthode permet de regrouper les individus d'un jeu de données autour de membres représentatifs et génériques aptes à subsumer les éléments et résumer les données. Cette méthode, procédant dimension par dimension avant d'agréger les résultats, est adaptée aux données en haute dimension et propose de plus des résultats transparents, interprétables et explicables. Les résultats obtenus favorisent l'analyse exploratoire et le raisonnement par analogie via une navigation de proche en proche : la structure obtenue est en effet similaire à l'organisation des connaissances utilisée par les experts lors du processus décisionnel qu'ils emploient. Nous proposons ensuite un algorithme de détection d'anomalies qui permet de détecter des anomalies complexes et en haute dimensionnalité en analysant des projections sur deux dimensions. Cette approche propose elle aussi des résultats interprétables. Nous évaluons ensuite ces deux algorithmes sur des données réelles et simulées dont les éléments sont décrits par de nombreuses variables : de quelques dizaines à plusieurs milliers. Nous analysant particulièrement les propriétés du graphe résultant de la structuration des éléments. Nous décrivons par la suite un outil de prétraitement de données médicales ainsi qu'une plateforme web destinée aux médecins. Via cet outil à l'utilisation intuitif nous proposons de structurer de manière visuelle les éléments pour faciliter leur exploration. Ce prototype fournit une aide à la décision et au diagnostique médical en permettant au médecin de naviguer au sein des données et d'explorer des patients similaires. Cela peut aussi permettre de vérifier des hypothèses cliniques sur une cohorte de patients.