Using experiments to evaluate non-experimental methods

par David Bernard

Projet de thèse en Analyse et politique économiques

Sous la direction de Marc Gurgand.

Thèses en préparation à Paris, EHESS , dans le cadre de École doctorale d'Économie (Paris) depuis le 22-10-2018 .

  • Titre traduit

    Utiliser des évaluations aléatoires pour évaluer des méthodes non expérimentales


  • Résumé

    Cette thèse porte sur l'efficacité de différentes méthodes non expérimentales d'estimation des effets de traitement à court et à long terme par rapport à l'étalon-or des essais contrôlés randomisés. Le premier chapitre, A quel degré les méthodes observationnelles sont-elles biaisées en pratique ? Eléments de preuves provenant d'essais contrôlés randomisés avec une conformité imparfaite est rédigé conjointement avec Gharad Bryan, Sylvain Chabé-Ferret, Jonathan de Quidt, Jasmin Claire Fliegner et Roland Rathelot. Pour comprendre le degré de biais de méthodes observationnelles, nous avons rassemblé un ensemble complet de données provenant de nombreux essais randomisés de conformité imparfaite (ICRCT) menés au cours des deux dernières décennies. Nous avons ensuite conduit des estimations comparables des effets du traitement à partir des données observationnelles et expérimentales pour estimer le biais au sein de chaque étude. Nous utilisons ensuite une méta-analyse pour évaluer la direction du biais en moyenne et l'incertitude entourant son ampleur. Nos résultats suggèrent que les biais sont minimes en moyenne ; cependant, ils révèlent également une incertitude significative. Nous proposons de modifier les intervalles de confiance standard pour tenir compte de cette incertitude substantielle. Sur la base de nos modèles d'estimations préférentiels, une étude d'observation théorique avec une taille d'échantillon infinie présenterait une erreur-type effective supérieure à 0,16 d'écart-type, indiquant ainsi un effet détectable minimum supérieur à 0,3 d'écart-type. Le deuxième chapitre, Estimation des effets de traitement à long terme sans données de résultats à long terme, évalue l'approche de l'indice de substitution pour estimer les impacts à long terme des politiques basées sur des résultats à court terme. En utilisant les données de neuf essais contrôlés randomisés (ECR) à long terme dans le domaine de l'économie du développement, je suis une approche similaire à celle du premier chapitre, en comparant les effets de traitement de l'ECR à long terme à ceux prédits par l'approche de l'indice de substitution. Je constate que la méthode de l'indice de substitution a tendance à être négativement biaisée, sous-estimant les effets positifs du traitement à long terme de 0,05 écart-type en moyenne. Je montre que ce biais négatif peut s'expliquer par une erreur de retour à la moyenne dans la prédiction des résultats à long terme. En outre, je constate que des échantillons de plus grande taille et des horizons temporels plus courts entre les indicateurs de substitution et les résultats permettent d'obtenir de meilleurs résultats. Malgré son potentiel de biais, la méthode de l'indice de substitution s'est avérée offrir des gains de précision significatifs, avec des erreurs standard en moyenne deux fois moins importantes que celles des essais contrôlés randomisés à long terme. Le troisième chapitre, Prédiction des effets causaux à long terme, examine également le problème des prédicitions des effets à long terme, mais utilise une méthode non économétrique - les prédictions subjectives - pour faire des prédictions sur les effets à long terme. J'ai recueilli plus de 25 000 prédictions d'effets auprès d'environ 1 400 répondants, dont des universitaires, des prévisionnistes experts et des non-experts. Je montre que les prévisionnistes experts sont généralement plus précis que les universitaires et que cette supériorité est probablement due à un meilleur calibrage des prévisions. L'expertise horizontale et la familiarité avec le contexte ont également contribué à la précision des prédictions. Je montre également que les prévisionnistes ont tendance à surestimer la force de la relation entre les résultats à court et à long terme et que, bien qu'ils suivent partiellement un processus de mise à jour bayésien, ils ne tiennent pas compte de manière appropriée de l'incertitude entourant les effets à court terme.


  • Résumé

    This dissertation focuses on studying how well different non-experimental methods for estimating short and long-run treatment effects work relative to the gold standard of randomised controlled trials. The first chapter, How biased are observational methods in practice? Accumulating evidence using randomised controlled trials with imperfect compliance is joint with Gharad Bryan, Sylvain Chabé-Ferret, Jonathan de Quidt, Jasmin Claire Fliegner and Roland Rathelot. Despite advances in our understanding of quasi-experimental methods, there will likely remain demand to evaluate programs using observational methods like regression and matching. To evaluate the observational bias in these methods we collected data from a large number of RCTs with imperfect compliance (ICRCTs) conducted over the last 20 years. We create comparable observational and experimental estimates of treatment effects, and use these to estimate bias in each study. We then use meta-analysis to quantify the average direction of bias and uncertainty about its size. We find little evidence of average bias but large uncertainty. We suggest adjusting standard confidence intervals to take this uncertainty into account. Our preferred estimates imply that a hypothetical infinite $N$ observational study has an effective standard error of over $0.16$ standard deviations and hence a minimal detectable effect of more than $0.3$ standard deviations. We conclude that -- given current evidence -- observational studies cannot be used to provide information about the impact of many programs that in truth have important policy relevant effects, but that collecting data from more ICRCTs may help to reduce uncertainty and increase the effective power of observational program evaluation. The second chapter, Estimating long-term treatment effects without long-term outcome data, evaluates the surrogate index approach for estimating the long-term impacts of policies based on short-term or results. Using data from nine long-term randomised controlled trials (RCTs) in the field of development economics, I follow an approach similar to the first chapter, by comparing the treatment effects from the long-term RCT to those predicted by the surrogate index approach. I find that the surrogate index method tends to be negatively biased, underestimating positive long-term treatment effects by an average of 0.05 standard deviations. I show that this negative bias can be explained by mean-reverting error in the prediction of long-term outcomes. Additionally, I find that larger sample sizes and shorter time horizons between surrogate indicators and outcomes led to better results. Despite its potential for bias, the surrogate index method was found to provide significant precision gains, with standard errors on average half the size of those from long-term RCTs, suggesting it can have value in applications where researchers are willing to accept some bias in exchange for reducing variance. The third chapter, Forecasting long-run causal effects, also looks at the problem of long-term effects, but uses a non-econometric method - judgemental forecasts - to make long-term predictions. I collect over 25,000 forecasts from approximately 1,400 respondents, including academics, expert forecasters, and nonexperts. I show that expert forecasters were generally more accurate than academics and that this superiority was likely due to better forecast calibration. Horizontal expertise and context familiarity were also found to contribute to accuracy. I also show that forecasters tend to overestimate the strength of the relationship between short and long-term results and that, while they partially followed a Bayesian updating process, they do not appropriately account for the uncertainty around short-term effects.