投稿问答最小化  关闭

万维书刊APP下载

从因果推断角度理解辛普森悖论

2022/10/31 10:11:36  阅读:201 发布者:

辛普森悖论是一个统计学中的经典悖论,它显示了如果仅靠直觉而不借助严格的统计方法,在实际情况中很容易发现自相矛盾的结论。近年来,随着对因果关系更深入的了解,辛普森悖论又可以从因果推断角度增加新的理解。

辛普森悖论指的是一对变量X,Y之间的关联在给定第三个变量Z的条件下,无论变量Z的取值是什么,都将使XY之间的关联符号颠倒,即存在如下的可能性,XY在边际正相关,但是给定Z之后,在Z的每一个水平上,XY都负相关。Table1Pearl给出的一个例子:

Table1中第一个表格是整体数据,处理组和对照组均为40人,其中处理组相比对照组具有较高的存活率,所以处理对人群有“正作用”;第二个表格和第三个表格是将整体数据根据性别进行分层得到的数据,但是显然,不论男性数据还是女性数据中,处理组的存活率均比对照组低,即处理对男性和女性都有“负作用”,和整体数据的效果相反,从而产生了悖论。从比例算数的角度,辛普森悖论可以理解为(a1+b1)/(c1+d1)>(a2+b2)/(c2+d2)(a1/c1)<(a2/c2), (b1/d1,并无新奇之处;但是如果在统计的角度上,就具有重要的意义:即变量之间的相关关系可以被第三个变量“扭曲”。所以想要解决辛普森悖论,就要解决方案必须确定悖论可能出现的情况,并将其与肯定不会出现的情况区分开;此外,在悖论导致无法进行判断的情况下,必须确定正确答案,并且证明所选的答案。

我们用有向无环图(DAG)来表示这种符号逆转有可能出现的情况,因为每种情况都隐含着一个生成数据的过程,而因果图就可以模拟任何沿着箭头顺序操作的数据生成过程。如图1(a)就可以作为Table1中数据的生成过程,在这个过程中,性别Z根据种群中的性别分布生成一个随机值,然后治疗X就可以根据性别的条件分布进行生成,最后进一步生成结局Y。根据因果图模型的理论,我们可以得到,对于每个给定的DAG,辛普森悖论的符号反转在模拟情境中是否有可能实现。如图1,辛普森悖论有可能在图1的每一个结构中产生,因为图1中的四个DAG在观测中是等价的,每一个DAG模拟的数据都可以通过其他DAG中的特定分布获得同样的模拟。因此,如果辛普森悖论在图1的一个DAG中实现,则必然可以出现在其他所有网络结构中,即调整与不调整混杂(图1ad)、中介(图1b)、M偏倚(图1c)的结论可能存在相反的可能,即出现悖论。图2为一些常见的因果图模型,其中L表示未测量变量,与图1类似的,我们可以判断图2(a),(b)(c)有可能产生辛普森悖论(即调整与不调整碰撞节点或者工具变量会产生悖论),而图2(d),(e)(f)则不会产生出现辛普森悖论的情况(即调整与不调整暴露的原因、暴露的结果和结局的独立病因不会产生悖论)。因为可以发现,若忽略协变量ZXY之间的相关关系不发生改变,则不会产生辛普森悖论,这种情况我们成为Z为可压缩的(collapsible),即若Z为可压缩的,则条件关联和边际关联是相同的。图2(d),(e)(f)三种情况均为XY的关联关于Z可压缩,所以不会产生辛普森悖论。

1

接下来我们讨论当辛普森悖论出现时,如何做出暴露X对结局Y影响的正确判断。对于每一个特定情形,都可以用对应的DAG生成观察数据,并且通过对于模拟暴露对结局的全人群随机试验结果验证暴露对结局的判断是否为正确结果。后门准则就是在给定DAG的情况下,无论模型参数如何变化,只要网络结构满足一定条件,就可以进行判断的因果推断准则。后门准则的原理在于将DAGXY之间的路径区分为因果路径和虚假关联路径。XY的因果关联由DAG中的从X指向Y的单向路径表示,也就是因果路径。而DAGXY的其他路径都为虚假关联,需要通过调整适当的协变量进行打断。当考虑如辛普森悖论中的情况,即XY和另外一个单一协变量Z时,我们只需要确定:1.Z不是X的后代节点;2.Z打断了每一条指向X的路径。这里所说的“打断”当Z为碰撞节点时是特殊情况,碰撞节点本身就已经打断了虚假路径,所以当Z为碰撞节点时,并不需要进行调整;若对碰撞节点进行调整,反而会导致额外的虚假关联。

2

通过后门准则的思想,我们可以就可以确定辛普森悖论的各种情况中XY影响的真正因果作用。如图1(a)(d)中,如果想要确定XY的真正影响,就需要调整协变量Z,打断XZY的后门路。所以在图1(a)Table1的例子中,治疗X对生存Y的真正作用,需要在给定性别Z,也就是对性别进行分层然后再每个性别层中分析治疗对生存的作用,所以Table1的数据表示治疗对于生存有负面影响。类似的,在图1(b)(c)两个情况中,我们应该选择不对Z进行调整,直接用整体数据考虑XY的作用。图1(b)是由于没有需要打断的后门路径,而图1(c)则是由于Z为碰撞节点,所以XZY的路径已经是打断的情况,所以不需要对Z进行调整,图1(d)则是ZXY之间的混杂路上,存在XLZY的混杂路,所以需要对Z进行调整。图2(a)(c)也是类似的情况,由于Z在图2(a)(c)中为路径上的碰撞节点,所以不需要调整,若对关于Z分层的数据进行分析,则会得到存在碰撞偏倚的虚假关联结果。图2(b)则是存在XLY的后门路,并且YX进行回归则会由于调整了ZXL中的碰撞节点导致存在ZL之间的虚假关联,所以有可能存在辛普森悖论,并且由于L为未测量变量无法调整,即使调整协变量Z也无法得到XY的因果效应。所以,在一些特定情况中,XY的真正作用既不能使用整体数据得到中也不能通过分层数据得到,因为有可能Z并不足以打断所有的后门路。这种情况下,就需要对额外的协变量进行调整,从而得到真正的因果效应。

在实际情况中,必须要对辛普森悖论产生的情况背后的因果关系进行分析,才能对于不同的悖论产生情况作出相应的正确判断。

转自:量化研究方法”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com