Development of Artificial Intelligence Methods for the Analysis of Online Data for Medical Research Purposes : Use Case on the World Diabetes Distress Study

par Adrian Ahne

Thèse de doctorat en Santé publique - épidémiologie

Sous la direction de Guy Fagherazzi et de Thomas Czernichow.

Le président du jury était Pascale Tubert-Bitter.

Le jury était composé de Sandra Bringay, Gayo Diallo, Adam Hulman, Marie-Aline Charles.

Les rapporteurs étaient Sandra Bringay, Gayo Diallo.

  • Titre traduit

    Développement de méthodes d’intelligence artificielle pour l’analyse de données de réseaux sociaux et à des fins de recherche médicale : cas d’utilisation sur une étude mondiale sur le diabète


  • Résumé

    Contexte : Le diabète et la détresse liée au diabète représentent un fardeau mondial et leur incidence est en constante augmentation. L'épidémiologie traditionnelle du diabète présente plusieurs lacunes qui pourraient être comblées avec certaines approches innovantes. En effet, cela peut prendre de nombreuses années entre l'identification et la conception d'une question de recherche, l'obtention de la validation des autorités et l'inclusion des participants aux résultats de la recherche. L'épidémiologie numérique offre ainsi une opportunité de récolter rapidement des données en croissance exponentielle dans l'espace numérique. Il s’agit d’une source de données qui n'est pas disponible dans un contexte traditionnel. En outre, les systèmes d'aide à la décision clinique basés sur l'IA ont le potentiel d'aider les professionnels de la santé à filtrer les informations essentielles dans la masse de données textuelles disponibles telles que les dossiers de santé électroniques, la littérature scientifique ou les réseaux sociaux. Objectifs:Les objectifs principaux de cette thèse étaient 1) l'exploration des réseaux sociaux, comme source de données complémentaire pour l'épidémiologie du diabète; 2) le développement et l'open-sourcing de méthodes innovantes d’intelligence artificielle pour extraire des informations; 3) et fournir un système d'aide à la décision clinique aidant les professionnels de la santé à analyser les données textuelles en constante augmentation. Résultats: Les principales préoccupations et sujets d'intérêt liés au diabète ont été identifiés, avec les émotions associées, mettant en lumière des sujets préoccupants sur l’accès aux soins, comme par exemple la frustration liée au prix de l'insuline aux États-Unis. Des associations “cause-effet” liées au diabète ont également été identifiées et visualisées dans un réseau interactif. Enfin, un système d'aide à la décision clinique interactif alimenté par une méthode d’intelligence artificielle a été développé pour améliorer l'exploration de la littérature dans le processus de prise de décision clinique, permettant une interprétabilité accrue tout en réduisant la consommation de mémoire. Conclusion: Ce travail a démontré que les données en ligne peuvent être utiles et complémentaires à celles de l'épidémiologie traditionnelle. Avec le cas d’usage du diabète, ce travail a également souligné l'importance des facteurs psychologiques et des émotions dans le quotidien et leur poids dans le fardeau de la maladie. Ce travail suggère une plus grande inclusion de ces dimensions dans les futures études épidémiologiques sur le diabète. Enfin, le besoin d'outils d’aide à la décision pour la pratique clinique pour synthétiser la littérature sur un sujet donné a été identifié et le prototype développé doit désormais être testé en situation réelle.


  • Résumé

    Background: Diabetes and diabetes distress represent a global burden and their incidence is constantly rising. Traditional diabetes epidemiology has several gaps that could be filled with certain innovative approaches. Indeed, it can take many years to identify and design a research question, acquire ethical approval, include participants and finally obtain research results. Digital epidemiology offers an opportunity to quickly harvest exponentially growing data in the digital space, a data source that is not available in traditional settings. In addition, AI-powered clinical decision support systems have the potential to assist health professionals filter critical information from the mass of available textual data such as electronic health records, scientific literature or social media. Objectives: The main objectives of this thesis were 1) the exploration of social media as complementary data source for diabetes epidemiology; 2) the development and open-sourcing of innovative artificial intelligence methods to extract information; 3) and to provide a clinical decision support systems helping health professionals to analyze the constantly growing clinical text data. Results: Key diabetes related concerns and topics of interest were identified, along with associated emotions shared, highlighting areas of concern about access to care, such as the frustration concerning insulin prices in the US. Diabetes-related “cause- effect” associations have been identified and visualised in an interactive network. Lastly, an AI-powered interactive clinical decision support system has been developed to improve the literature exploration in the clinical decision making process enhancing interpretability while reducing memory consumption. Conclusions: This work demonstrated that online data can be useful and complementary to traditional epidemiology. Along with the example of diabetes, this work also highlighted the importance of psychological factors and emotions in everyday life and their weight in the burden of the disease. This work recommends a greater inclusion of these dimensions in future epidemiological studies on diabetes. Finally, the need for decision supporting tools for clinical practice to synthesize the literature on a given subject has been identified and the developed prototype must now be tested in a real scenario.



Le texte intégral de cette thèse sera accessible librement à partir du 01-01-2023


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris-Saclay. DiBISO. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.