论文常见问题解析之结构因果模型
2024/9/24 15:39:47 阅读:213 发布者:
结构因果模型(Structural Causal Model, SCM) 结构因果模型使用有向图(通常为有向无环图,Directed Acyclic Graph, DAG)来建模变量间的因果关系。
基本概念 :
外源变量 (exogenous variables)U:处在模型之外(指模型中没有指向它的原因变量)的变量,无需建模其他变量指向它的因果。在因果有向图中,外源变量全部为根节点。外源变量一般充当 内源变量 的误差项(在模型建模的因果关系外影响内源变量取值的因素)。
内源变量(endogenous variables)V:模型内(建模)的变量。每个内源变量被至少一个外源变量指向(存在有向边)。
映射函数 f:从原因变量到结果变量的映射函数,解释因果关系如何产生作用。
三种边和点的结构
链结构:三个节点由两条边连接,且 中间变量 有一条边射入一条边射出的结构称为链结构。
链结构的条件独立性:如果变量X和Y之间只有一条单向路径,Z是截断这条路径的任何一组变量,则在Z的条件下,X和Y是独立的
分叉结构:有三个节点,并且有两个箭头从中间变量射出的结构称为分叉结构。分叉结构的中间变量是其他两个变量和她们任何后代的共同原因。
分叉结构的条件独立性:如果变量X是变量Y和Z的共同原因,并且Y和Z之间只有一条路径,则Y和Z在X的条件下独立。
对撞结构:X和Y同时射出指向Z,X和Y独立,但是X和Y可能在Z的条件下互相依赖。
Rubin因果模型(RCM)即潜在结果框架。
Rubin因果模型或潜在结果框架有三个基本构成要件:潜在结果、稳定性假设和分配机制
潜在结果
干预
在因果推断中,必须有干预,没有干预就没有因果。
这里的干预可以是一项政策、一项措施或者一项活动等,比如对农民工进行职业培训。
以二值的干预变量为例,两个值分别对应于积极的行动和被动的行动,分别称为(积极)干预和控制(干预),通常简称为干预和控制,受到对应干预的个体分别称为干预组和控制组。比如,对农民工进行培训,(积极)干预是参加培训,控制(干预)是没有参加培训。在这里,干预和控制只是干预变量两种状态的标签,具体哪个干预状态称为干预,哪个状态称为控制并不重要,干预状态的两种称呼实际上是对称的,可以互换,取决于研究者的目的和偏好。
对应于每个干预状态,就有一个(潜在)结果。
在干预状态实现之前,有几个干预状态就有几个潜在结果,而干预状态实现之后,只有一个潜在结果是可以观测的。
对个体而言,这两个潜在结果可以看作是确定性的变量,不因个体干预变量的实现状态而改变。比如个体i完成大学教育状态下的收入为8000元,即y1i=8000,仅完成高中教育状态下收入为6000元,即Y0i=6000。如果个体i最后实际完成了大学教育,那么其两种干预状态下的潜在结果仍然是(8000,6000),如果个体i最后实际完成的是高中教育,其两种干预状态下的潜在结果还是(8000,6000),不因个体最后实现的状态而改变。可以将潜在结果看作常数,对于每个特定的个体,他在两种干预状态下的潜在结果是给定的,不依赖于最终实现的干预状态,这一点对于理解Rubin因果模型很关键。
当干预状态实现后,我们仅能观测到实现状态下的潜在结果,没有实现状态下的潜在结果是无法观测的。无法观测到的潜在结果,通常称为反事实结果(counterfactual outcome)。
无论干预状态有几个,干预状态实现后,我们仅能观测到实现状态下的潜在结果。比如个体i最终完成了大学教育,那么观测到的干预状态是Di=1,我们可以观测到潜在结果Y1i,即个体i完成大学教育后的收入。他完成了大学教育,我们就不能观测到他没有完成大学教育时的潜在结果Y0i,即仅完成高中教育时的收入。一个人不可能同时踏入两条河流,不可能同时处于两种状态,因而,观测研究中,不可能同时看到个体所有的潜在结果。无法同时观测到个体所有潜在结果的现象称为因果推断的基本问题。
转自蓝境数据微信公众号,仅作学习交流,如有侵权,请联系本站删除!