Méthodes de fouille de données en épidémiologie psychiatrique : application à l'analyse des facteurs et marqueurs de risque de la symptomatologie dépressive à l'adolescence.

par Aminata Ali

Thèse de doctorat en Santé publique - épidémiologie

Sous la direction de Bruno Falissard et de Caroline Barry.

Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale Santé Publique , en partenariat avec Centre de recherche en Epidemiologie et Santé des Populations (laboratoire) , Psychiatrie du développement et trajectoires (equipe de recherche) , Faculté de médecine (référent) et de Université Paris-Saclay. Graduate School Santé publique (2020-....) (graduate school) depuis le 01-12-2015 .


  • Résumé

    L'adolescence est une période de vulnérabilité pour la dépression, sur le plan psychologique et biologique. Malheureusement, la dépression à l'adolescence reste très nettement sous-diagnostiquée et sous-traitée en raison de la variabilité des présentations cliniques durant cette période et de leur méconnaissance par les praticiens. Près de deux tiers des adolescents souffrant d'un épisode dépressif n'auraient recours à aucun soin La littérature sur la dépression à l'adolescence est très fournie sur ses facteurs de risque et de protection ainsi que sur les différentes manifestations externalisées pouvant servir de signe d'appel. Cependant, les modèles de prédiction du risque restent peu performants. La recherche systématique et approfondie des interactions entre marqueurs/facteurs de risque pourrait être un moyen d'améliorer ces modèles. La multiplicité de ces marqueurs et des interactions potentielles soulèvent alors des problèmes méthodologiques (multi-colinéarité, sur-ajustement des modèles aux données,…). Dans d'autres champs de recherche biomédicale, les techniques issues des méthodes de « fouille de données » (data mining, machine learning DMML) semblent de plus en plus utilisées sur des problématiques similaires. Ce travail de thèse va s'intéresser à l'application des méthodes issues du DMML à l'épidémiologie psychiatrique et en particulier à la dépression durant l'adolescence. Dans ce contexte, l'objectif sera i) de cartographier l'utilisation réelle de ces méthodes en épidémiologie et santé publique ii) d'analyser les patterns d'interactions entre les marqueurs de risque individuels, sociaux, et culturels de la dépression à l'adolescence afin de développer de nouvelles pistes utiles dans le repérage et la prise en charge de cette population. En premier lieu, une analyse bibliométrique de Medline, sera réalisée afin de quantifier l'essor des méthodes issues du Data Mining/Machine Learning en santé publique et épidémiologie et d'en caractériser les domaines d'application majeurs. Une approche de modélisation thématique data driven, issue du text mining, « Latent Dirichlet Allocation » a été utilisée dans le but d'extraire les principaux thèmes de recherche des articles publiés entre 2010 et 2019 et d'en décrire la dynamique temporelle. Pour le deuxième axe, deux types d'approches seront appliquées aux données de l'enquête transversale en milieu scolaire « Processus d'adolescence ». Soit, 15235 adolescents de 13-18 ans, répondant à un auto-questionnaire anonyme. La dépression y était mesurée avec l'ADRS (Adolescent Depression Rating Scale). Les données contenaient 93 facteurs/marqueurs de risque de la dépression répertoriés dans la littérature (isolement social, moindre implication dans les loisirs, consommation de substances psychoactives, scolarité…). Une comparaison de l'apport de différentes méthodes de classification quant à leur capacité à modéliser le risque de dépression : ensemble d'arbres par régression boostée, des forêts aléatoires et des machines à support de vecteurs par rapport à une régression logistique LASSO sans interaction sera réalisée. La qualité des modèles a été estimée par i) leurs capacités prédictives sur un échantillon test ii) le taux de faux positifs sur des données simulées iii) les variables importantes identifiées par les différentes méthodes ainsi que leur impact relatif. Une méthode bayésienne de clusterisation supervisée, appelée « Régression bayésienne sur profils d'exposition», a été utilisée afin de créer des clusters d'adolescents conjointement à partir des facteurs/marqueurs de risque de la dépression et de l'ADRS. Cette approche permettra d'identifier et de caractériser différents profils d'adolescents avec une symptomatologie dépressive élevée. Cette thèse montrera, les intérêts et les difficultés quant à l'utilisation des méthodes issues du DMML pour la recherche d'associations et d'interactions pertinentes en épidémiologie psychiatrique.

  • Titre traduit

    Data mining in psychiatric epidemiology : analysis of risks factors and markers to depressive symptomatology in adolescence


  • Résumé

    Depressive disorders in adolescence is common but often underdiagnosed because signs may be dismissed as “typical teenager” behavior. Depression is associated with substantial present and future morbidity, and increases suicide risk. The use of antidepressants in adolescents is of concern and opinions about clinical management are divided. Thus, further research is necessary to improve the identification and treatment of adolescent depression. Despite the large amount of studies that have been targeting the identification of the risk markers for depression, the predictive models are still unsatisfying. Systematic research on the interactions between markers/risk factors could be a way to improve these models. The multiplicity of these markers and potential interactions then raise methodological problems (collinearity, overfitting...). Data mining/Machine Learning approaches have been successfully used in the field of public health on similar problematic. This thesis work will focus on the application of methods from the DMML to psychiatric epidemiology and in particular to depression during adolescence. In this context, the objective will be i) to map the actual use of these methods in epidemiology and public health, ii) analyze the patterns of interaction between individual, social and cultural risk markers of depression in adolescence in order to develop new avenues for identifying and treating this population. Firstly, a bibliometric analysis of Medline will be carried out in order to quantify the development of methods derived from Data Mining/Machine Learning in public health and epidemiology and to characterize their major fields of application. A data-driven modelling approach, derived from text mining, "Latent Dirichlet Allocation" was used to extract the main research themes from the articles published between 2010 to 2019 and describe their temporal dynamics. For the second axis, two types of approaches will be applied to the cross-sectional school survey "Processus d'adolescence" (15235 adolescents aged 13-18 years, answering an anonymous self-questionnaire). Depression was measured with the Adolescent Depression Rating Scale (ADRS). Data contained 93 risk factors/markers for depression listed in the literature (social isolation, less involvement in leisure activities, use of psychoactive substances, education, etc.) were used. A comparison of the contribution of different classification methods in terms of their capacity to model the risk of depression: gradient boosting trees, random forests compared to LASSO (penalized logistic regression) without interaction will be carried out. The quality of the models was estimated by i) their predictive capacities on a test sample ii) the rate of false positives on simulated data iii) the important variables identified by the different methods as well as their relative impact. A supervised Bayesian clustering method, called "Bayesian Profile Regression" was used to create clusters of adolescents jointly based on risk factors/markers for depression and ADRS. This approach will make it possible to identify and characterize different profiles of adolescents with high depressive symptomatology. This thesis will show the interests and difficulties in the use of methods derived from the DMML in the search for relevant associations and interactions in psychiatric epidemiology.