Quantification du biais de sélection en sécurité routière : apport de l’inférence causale

Marine Dufournet

Résumé

Many factors associated with the risk and severity of road accidents are now widely considered as causal : alcohol, speed, usage of a mobile phone... Therefore, questions asked by decision-makers now mostly concern the magnitude of their causal effects, as well as the burden of deaths or victims attributable to these various causes of accident. One particularity of road safety epidemiology is that available data generally describe drivers and vehicles involved in road accidents only, or even severe road accidents only. This extreme selection precludes the estimation of causal effects. To circumvent this absence of « control » population of non-crash involved drivers, it is common to use responsibility analysis and to assess the causal effect of a given factor on the risk of being responsible for an accident among involved drivers. The underlying assumption is that non-responsible drivers represent a random sample of the general driving population that was « selected » to crash by circumstances beyond their control and therefore have the same risk factor profile as other drivers on the road at the same time. However, this randomness assumption is questionable. The objective of this thesis is to determine whether available data in road safety allow us to assess causal effects on responsibility without a residual selection bias. We show that a good approximation of causal effect of a given factor on the risk of being responsible is possible only if the inclusion into the dataset does not depend on the severity of the accident, or if the given factor has no effect on speed. This result is shown by using the Structural Causal Model (SCM) framework. The SCM framework is based on a causal graph : the DAG (directed acyclic graph), which represents the relationships among variables. The DAG allows the description of what we observe in the actual world, but also what we would have observed in counterfactual worlds, if we could have intervened and forced the exposure to be set to a given level. Causal effects are then defined by using counterfactual variables, and it is the DAG’s structure which determines whether causal effects are identifiable, or recoverable, and estimable from the distribution of observed variables. However, the assumptions embedded in the DAG which describes the occurence of a severe accident does not ensure that a causal odds ratios is expressible in terms of the observable distribution. Conditioning the estimations on involved drivers in a severe crash correspond to conditioning on a variable in the DAG called « collider », and to create a « collider bias ». We present numerical results to illustrate our theoretical arguments and the magnitude of the bias between the estimable association measure and some causal effects. Under the simple generative model considered, we show that, when the inclusion depends on the severity of the accident, the bias between the estimable association measure and causal effect is larger than the relation between the exposure and speed, or speed and the occurrence of a severe accident is strong. Moreover, the presented designs allow us to describe some situations where the exposure could be alcohol or cannabis intoxication. In the case of alcohol, where alcohol and speed are positively correlated, the estimable associational effect underestimates the causal effect. In the case of cannabis, where cannabis and speed are negatively correlated, the estimable associational effect overestimates the causal effect. On the other hand, we provide a formal definition of internal and external validity, and a counterfactual interpretation of the estimable quantity in the presence of selection bias, when causal effects are not recoverable. This formal interpretation of the estimable quantity in the presence of selection bias is not only useful in the context of responsibility analyses. It is for instance useful to explain the obesity paradox

Les principaux facteurs de l'insécurité routière sont connus, et l'enjeu réside aujourd'hui dans la mesure de l'effet d'un facteur, et la hiérarchisation de l'ensemble des causes intervenant dans la survenue de l'accident. Toutefois, les données disponibles concernent généralement que des accidentés. En l'absence de non-accidentés, l'épidémiologiste du risque routier se heurte à une sélection extrême. Une des solutions classiques est d'utiliser des analyses en responsabilité, et de mesurer l'effet causal d'un facteur sur le risque d'être responsable d'un accident. Néanmoins, la validité des analyses en responsabilité repose sur l'hypothèse, discutable, que les non-responsables sont représentatifs des circulants. L'objectif de cette thèse est donc de déterminer si les données disponibles d'accidentés permettent de fournir, via les analyses en responsabilité, des estimations des effets causaux sans biais, et notamment sans un biais de sélection résiduel. Nous montrons dans cette thèse que, dès lors que l'inclusion dépend de la gravité de l'accident, et que le facteur étudié a un impact sur la vitesse, il est impossible d'estimer l'effet causal du facteur sur le risque d'être responsable de l'accident grave sans un biais de sélection résiduel. Ce résultat est tout d'abord démontré de manière formelle, grâce à l'utilisation des modèles causaux structuraux. Ces modèles sont fondés sur une structure graphique, le DAG, qui représente les différentes relations entre les variables. Ce DAG permet la description des variables réellement observées, mais également des variables contrefactuelles, variables observables dans un monde contrefactuel où l'on aurait fixé l'exposition à une certaine valeur. L'effet causal étant défini à partir de ces variables contrefactuelles partiellement observées, c'est la structure du DAG qui permet de déterminer si l'effet causal peut être estimé en fonction des variables observées. Or, la structure du DAG conduisant à la survenue d'un accident grave ne permet pas d'exprimer l'effet causal du facteur étudié sur la responsabilité de l'accident grave en fonction des distributions observées sur les accidentés graves. Conditionner les estimations sur les accidentés graves correspond à ajuster sur une variable du DAG appelée « collider », et ainsi à introduire un biais dit de collision. En générant un modèle relativement simple, nous donnons à nos résultats théoriques une illustration numérique. En effet, lorsque les données ne dépendent pas de la gravité de l'accident, ou que le facteur étudié n'a pas d'effet sur la vitesse, la mesure estimable à partir des analyses en responsabilité est une mesure sans biais de l'effet causal, sous certaines hypothèses de prévalences faibles. Lorsque l'inclusion dépend de la gravité de l'accident, il existe un biais et ce biais induit par les analyses en responsabilité est d'autant plus grand que l'intensité de la relation entre le facteur et la vitesse, et celle entre la vitesse et l'accident est grand. Les schémas d'étude présentés permettent d'approcher des situations où le facteur étudié serait l'alcool ou le cannabis. Dans le cas de l'alcool, il apparait que sous le modèle simple considéré, la mesure d'association estimable serait une sous-estimation de l'effet causal. En revanche, dans le cas du cannabis, la mesure d'association correspondrait à une sur-estimation de l'effet causal. D'autre part, les outils de l'inférence causale nous ont permis de fournir une description formelle de la validité externe et interne, ainsi qu'une description formelle de la mesure d'association estimable via les analyses en responsabilité. Cette question de la validité interne d'une mesure se pose dans d'autres champs d'application que la sécurité routière. Elle se pose notamment dans le cas du paradoxe de l'obésité [etc...]

Causal inference to quantify selection bias in road traffic safety

Quantification du biais de sélection en sécurité routière : apport de l’inférence causale

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager