Traitement des données manquantes en épidémiologie : application de l’imputation multiple à des données de surveillance et d’enquêtes

par Vanina Héraud Bousquet

Thèse de doctorat en Épidémiologie et intervention en santé publique

Sous la direction de Jean-Claude Desenclos.


  • Résumé

    Le traitement des données manquantes est un sujet en pleine expansion en épidémiologie. La méthode la plus souvent utilisée restreint les analyses aux sujets ayant des données complètes pour les variables d’intérêt, ce qui peut réduire lapuissance et la précision et induire des biais dans les estimations. L’objectif de ce travail a été d’investiguer et d’appliquer une méthode d’imputation multiple à des données transversales d’enquêtes épidémiologiques et de systèmes de surveillance de maladies infectieuses. Nous avons présenté l’application d’une méthode d’imputation multiple à des études de schémas différents : une analyse de risque de transmission du VIH par transfusion, une étude cas-témoins sur les facteurs de risque de l’infection à Campylobacter et une étude capture-recapture estimant le nombre de nouveaux diagnostics VIH chez les enfants. A partir d’une base de données de surveillance de l’hépatite C chronique (VHC), nous avons réalisé une imputation des données manquantes afind’identifier les facteurs de risque de complications hépatiques graves chez des usagers de drogue. A partir des mêmes données, nous avons proposé des critères d’application d’une analyse de sensibilité aux hypothèses sous-jacentes àl’imputation multiple. Enfin, nous avons décrit l’élaboration d’un processus d’imputation pérenne appliqué aux données du système de surveillance du VIH et son évolution au cours du temps, ainsi que les procédures d’évaluation et devalidation.Les applications pratiques présentées nous ont permis d’élaborer une stratégie de traitement des données manquantes, incluant l’examen approfondi de la base de données incomplète, la construction du modèle d’imputation multiple, ainsi queles étapes de validation des modèles et de vérification des hypothèses.

  • Titre traduit

    Missing data management in epidemiology : Application of multiple imputation to data from surveillance systems and surveys


  • Résumé

    The management of missing values is a common and widespread problem in epidemiology. The most common technique used restricts the data analysis to subjects with complete information on variables of interest, which can reducesubstantially statistical power and precision and may also result in biased estimates.This thesis investigates the application of multiple imputation methods to manage missing values in epidemiological studies and surveillance systems for infectious diseases. Study designs to which multiple imputation was applied were diverse: a risk analysis of HIV transmission through blood transfusion, a case-control study on risk factors for ampylobacter infection, and a capture-recapture study to estimate the number of new HIV diagnoses among children. We then performed multiple imputation analysis on data of a surveillance system for chronic hepatitis C (HCV) to assess risk factors of severe liver disease among HCV infected patients who reported drug use. Within this study on HCV, we proposedguidelines to apply a sensitivity analysis in order to test the multiple imputation underlying hypotheses. Finally, we describe how we elaborated and applied an ongoing multiple imputation process of the French national HIV surveillance database, evaluated and attempted to validate multiple imputation procedures.Based on these practical applications, we worked out a strategy to handle missing data in surveillance data base, including the thorough examination of the incomplete database, the building of the imputation model, and the procedure to validate imputation models and examine underlying multiple imputation hypotheses.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud 11. Service commun de la documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.