Caractérisation phénotypique, diagnostique et pronostique des patients atteints d'amylose cardiaque : élaboration de typologies et modèles prédictifs par méthodes d'apprentissage automatique

par Louis Bonnefous

Projet de thèse en Pathologie et recherche clinique

Sous la direction de Etienne Audureau et de Thibaud Damy.

Thèses en préparation à Paris Est , dans le cadre de SVS - Sciences de la Vie et de la Santé , en partenariat avec Equipes d'accueil ( EA) UPEC - Henri Mondor ( CEPIA, ARCHE, EC2M3, DYNAMIC, EpiDermE, BIOTN) (laboratoire) et de Clinical Epidemiology and Ageing : Geriatrics, Primary Health Care, and Public Health (CEpiA) (equipe de recherche) depuis le 01-02-2018 .


  • Résumé

    L'amylose cardiaque à transthyrétine (TTR-CA) est une maladie liée à l'infiltration du myocarde par des fibrilles amyloïdes. Les données actuellement disponibles indiquent un déficit de diagnostic et de déclaration de cette pathologie qui pourrait représenter 13% des cas d'insuffisance cardiaque chez le sujet âgé et 8% des cardiomyopathies hypertrophiques. L'absence d'outils de diagnostic précoce, l'hétérogénéité de l'expression (multisystémique) et la méconnaissance des modalités de sa prise en charge par les professionnels de santé entraîne des retards au diagnostic et une aggravation du pronostic. Il existe donc un besoin actuel fort de mieux caractériser les présentations cliniques et biologiques de la maladie, d'améliorer les outils pour le diagnostic et le dépistage à destination du grand public, des patients et des professionnels, et de développer de nouveaux modèles pronostiques tenant compte de la variabilité de la maladie. Dans ce cadre, l'utilisation de méthodes d'analyse de fouille de données (data mining) et d'apprentissage automatique (machine learning) présente des avantages intéressants pour l'analyse de données hétérogènes et l'optimisation des capacités de prédiction, mais ces approches restent encore sous-exploitées dans le champ biomédical et plus particulièrement dans le cadre de l'amylose. Les objectifs de ce travail de thèse sont : 1) D'identifier des profils homogènes de patients caractérisés par leurs phénotypes clinique, biologique (incluant les données génétiques), d'imagerie et électrocardiographique et d'en évaluer la valeur pronostique 2) De caractériser des profils évolutifs de patients au cours du temps et du vieillissement 3) De développer de nouveaux modèles diagnostiques pour les différents acteurs de santé et par les patients eux-mêmes 4) De développer de nouveaux modèles pronostiques pour identifier les patients à risque et intensifier leur prise en charge. Le travail de thèse s'appuiera sur l'analyse des données d'inclusion et de suivi longitudinal de l'étude AmyloRETRO, une étude de cohorte monocentrique, rétro-prospective de plus de 1300 patients adressés pour suspicion d'amylose et dont plus de 700 patients ont eu une amylose confirmée et bien caractérisée sur le plan clinique, biologique et d'imagerie. Des méthodes d'analyse supervisées et non supervisées de fouille de données seront exploitées pour réaliser les différents objectifs de la thèse, incluant : 1) Des méthodes d'analyse multidimensionnelles de type analyse factorielle permettant de caractériser les corrélations entre variables et de réduire l'information pour une exploitation optimale 2) Des techniques non supervisées de type clustering permettant d'identifier des profils de patients particuliers formant des groupes homogènes au sein de la population échantillonnée, s'appuyant sur des approches hiérarchiques ascendantes et sur la production de cartes auto-organisatrices 3) Des techniques supervisées permettant l'identification des paramètres les plus prédictifs pour le diagnostic et le pronostic (modèles de régression logistique/Cox, arbres décisionnels (CART) et random forests).

  • Titre traduit

    Phenotypic, diagnostic and prognostic characterization of patients with cardiac amyloidosis : typologies and predictive modeling by machine learning approaches


  • Résumé

    Transthyretin amyloidosis (TTR-CA) is a disease related to myocardial infiltration by amyloid fibrils. Data currently available clearly indicate under-diagnosis and reporting of this pathology that could represent 13% of heart failure cases in the elderly and 8% of hypertrophic cardiomyopathies. The lack of early diagnosis tools, the heterogeneity of the expression (multisystem disease) and the lack of knowledge regarding its management leads to delays in the diagnosis and an aggravation of the prognosis. There is therefore a strong current need to better characterize the clinical and biological presentations of the disease, to improve tools for diagnosis and screening for the general public, patients and professionals, and to develop new prognostic models that better take into account the variability of the disease. In this context, data mining and machine learning methods may offer key advantages to deal with heterogenous data and improve prediction accuracy, but they are still under-exploited in the biomedical field, especially in amyloidosis. The objectives of this thesis work are: 1) To identify homogeneous profiles of patients characterized by their clinical, biological (including genetic data), imaging and electrocardiographic phenotypes, and to assess their prognostic value 2) To characterize evolutive profiles of patients as a function of time and ageing 3) To build novel and differentiated diagnostic models targeted at health professionals and patients themselves 4) To build novel prognostic models to identify patients at risk and adapt therapeutic modalities accordingly. The thesis work will be based on the data analysis of the AmyloRETRO study, a single-center, retro-prospective cohort study of more than 1,300 patients referred for suspicion of amyloidosis of which 700 had an amyloidosis confirmed and well-characterized clinically and biologically. Supervised and unsupervised analysis methods from the data mining and machine learning fields will be performed to achieve the objectives of the thesis, including: 1) Multidimensional analysis methods such as factor analysis to characterize the correlations between variables and to reduce the information for optimal exploitation 2) Unsupervised clustering techniques to identify specific patient profiles constituting homogeneous groups within the sampled population, based on ascending hierarchical approaches and self-organizing maps 3) Supervised techniques to identify the most predictive parameters for diagnosis and prognosis (logistic/Cox regression models, decision trees (CART) and random forests).