Thèse soutenue

Développement de méthodes bayésiennes de sélection de variables pour intégrer l’information experte

FR  |  
EN
Auteur / Autrice : Sandrine Boulet
Direction : Sarah ZoharAnne-Sophie Jannot
Type : Thèse de doctorat
Discipline(s) : Biostatistique
Date : Soutenance le 12/09/2019
Etablissement(s) : Université Paris Cité
Ecole(s) doctorale(s) : École doctorale Pierre Louis de santé publique : épidémiologie et sciences de l'information biomédicale (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : Centre de recherche des Cordeliers (Paris ; 2007-....)
Jury : Président / Présidente : Adeline Leclercq-Samson
Examinateurs / Examinatrices : Adeline Leclercq-Samson, Frédéric Bertrand, Pierre Pudlo, Erik-André Sauleau
Rapporteurs / Rapporteuses : Frédéric Bertrand, Pierre Pudlo

Résumé

FR  |  
EN

Contexte : La construction d’outils d’aide à la décision à destination des cliniciens nécessite de sélectionner, au préalable, les variables pertinentes pour modéliser la décision clinique. Pour cela, deux sources d’information peuvent être utilisées : les données observées recueillies dans les dossiers informatisés des patients, et l'expertise des médecins. Peu de méthodes permettent de combiner ces deux types d’information. L'originalité de ma thèse est donc de proposer des stratégies pour prendre en compte ces deux sources de données. Notre application porte sur la modélisation de la décision médicale de modification des doses d’Irinotecan en fonction des caractéristiques des patients et des effets indésirables dans le traitement du cancer colorectal métastatique. Méthodes : Les méthodes développées reposent sur des méthodes de sélection de variables bayésiennes dans lesquelles l’expertise est intégrée sous forme de poids associées à chaque variable et élicités par les experts. Le premier modèle est une adaptation d'une méthode de sélection de variables bayésienne, la méthode de Stochastic Search Variable Selection (SSVS), pour laquelle l'information experte est introduite dans la distribution a priori de l’indicatrice de sélection de variable. Le modèle a été appelé Weights-Based SSVS (WBS). Le deuxième modèle est fondé sur la méthode du power prior (PP) et permet de combiner des données simulées à partir des paramètres experts et les observations. La sélection de variables est elle aussi assurée par un modèle SSVS. Nous avons réalisé des simulations afin d’analyser les performances du premier modèle par rapport à celles des modèles LASSO et SSVS. Pour le cas d’usage, les données de soin des patients ayant reçu un protocole incluant de l’Irinotecan à une dose théorique de 180 mg/m2 sur un cycle d’une durée théorique de 14 jours ont été extraites des dossiers patients informatisés de l’Hôpital Européen Georges Pompidou à Paris. Pour prendre en compte l'expertise clinique, nous avons construit un questionnaire en collaboration avec les oncologues dans lequel ils quantifient l'importance de chaque caractéristique des patients et de chaque grade de chaque type de toxicités sur la réduction de dose par l’intermédiaire de poids élicités prenant leurs valeurs entre 0 et 100. Résultats : Le modèle WBS présente de meilleures performances que les modèles uniquement basés sur les données observées. Cependant, ces performances dépendent des poids élicités par les cliniciens ainsi que de leur somme, qui doit donc être minutieusement calibrée en fonction du nombre de variables que l’on souhaite sélectionner. Le modèle basé sur le PP donne lui des performances similaires au modèle SSVS n’incluant que des données patient réellement observées. Toutefois, il ne sélectionne pas les mêmes variables et permet d’écarter des variables négligeables du point de vue expert tout en révélant celles qui, importantes mais peu fluctuantes dans les données, pourraient être omises. Concernant le cas d’usage, les poids élicités par les experts sont très variables et nos approches sélectionnent des variables pertinentes sur le plan clinique. Conclusion : Cette thèse introduit deux méthodes Bayésiennes de sélection de variables combinant information experte élicitée et données observées. La première méthode permet d'améliorer les performances prédictives sur des petits échantillons. La deuxième méthode permet de gérer des échantillons de plus grande taille, et de sélectionner automatiquement à la fois les variables importantes pour les experts et les variables utilisées en vie réelle. Les différences dans le choix des poids élicités par les oncologues montrent une certaine variabilité des pratiques professionnelles. La modélisation de la prise de décision médicale constitue une première étape dans la modélisation de la relation complexe qui lie caractéristiques du patients, doses de chimiothérapie, toxicités et survie.