投稿问答最小化  关闭

万维书刊APP下载

论文常见问题解析之结构因果模型

2024/9/24 15:39:47  阅读:213 发布者:

结构因果模型(Structural Causal Model, SCM) 结构因果模型使用有向图(通常为有向无环图,Directed Acyclic Graph, DAG)来建模变量间的因果关系。

基本概念

外源变量 exogenous variablesU:处在模型之外(指模型中没有指向它的原因变量)的变量,无需建模其他变量指向它的因果。在因果有向图中,外源变量全部为根节点。外源变量一般充当 内源变量 的误差项(在模型建模的因果关系外影响内源变量取值的因素)。

内源变量(endogenous variablesV:模型内(建模)的变量。每个内源变量被至少一个外源变量指向(存在有向边)。

映射函数 f:从原因变量到结果变量的映射函数,解释因果关系如何产生作用。

三种边和点的结构

链结构:三个节点由两条边连接,且 中间变量 有一条边射入一条边射出的结构称为链结构。

链结构的条件独立性:如果变量XY之间只有一条单向路径,Z是截断这条路径的任何一组变量,则在Z的条件下,XY是独立的

分叉结构:有三个节点,并且有两个箭头从中间变量射出的结构称为分叉结构。分叉结构的中间变量是其他两个变量和她们任何后代的共同原因。

分叉结构的条件独立性:如果变量X是变量YZ的共同原因,并且YZ之间只有一条路径,则YZX的条件下独立。

对撞结构:XY同时射出指向ZXY独立,但是XY可能在Z的条件下互相依赖。

Rubin因果模型(RCM)即潜在结果框架。

Rubin因果模型或潜在结果框架有三个基本构成要件:潜在结果、稳定性假设和分配机制

潜在结果

干预

在因果推断中,必须有干预,没有干预就没有因果。

这里的干预可以是一项政策、一项措施或者一项活动等,比如对农民工进行职业培训。

以二值的干预变量为例,两个值分别对应于积极的行动和被动的行动,分别称为(积极)干预和控制(干预),通常简称为干预和控制,受到对应干预的个体分别称为干预组和控制组。比如,对农民工进行培训,(积极)干预是参加培训,控制(干预)是没有参加培训。在这里,干预和控制只是干预变量两种状态的标签,具体哪个干预状态称为干预,哪个状态称为控制并不重要,干预状态的两种称呼实际上是对称的,可以互换,取决于研究者的目的和偏好。

对应于每个干预状态,就有一个(潜在)结果。

在干预状态实现之前,有几个干预状态就有几个潜在结果,而干预状态实现之后,只有一个潜在结果是可以观测的。

对个体而言,这两个潜在结果可以看作是确定性的变量,不因个体干预变量的实现状态而改变。比如个体i完成大学教育状态下的收入为8000元,即y1i=8000,仅完成高中教育状态下收入为6000元,即Y0i=6000。如果个体i最后实际完成了大学教育,那么其两种干预状态下的潜在结果仍然是(80006000),如果个体i最后实际完成的是高中教育,其两种干预状态下的潜在结果还是(80006000),不因个体最后实现的状态而改变。可以将潜在结果看作常数,对于每个特定的个体,他在两种干预状态下的潜在结果是给定的,不依赖于最终实现的干预状态,这一点对于理解Rubin因果模型很关键。

当干预状态实现后,我们仅能观测到实现状态下的潜在结果,没有实现状态下的潜在结果是无法观测的。无法观测到的潜在结果,通常称为反事实结果(counterfactual outcome)。

无论干预状态有几个,干预状态实现后,我们仅能观测到实现状态下的潜在结果。比如个体i最终完成了大学教育,那么观测到的干预状态是Di=1,我们可以观测到潜在结果Y1i,即个体i完成大学教育后的收入。他完成了大学教育,我们就不能观测到他没有完成大学教育时的潜在结果Y0i,即仅完成高中教育时的收入。一个人不可能同时踏入两条河流,不可能同时处于两种状态,因而,观测研究中,不可能同时看到个体所有的潜在结果。无法同时观测到个体所有潜在结果的现象称为因果推断的基本问题。

转自蓝境数据微信公众号,仅作学习交流,如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com