投稿问答最小化  关闭

万维书刊APP下载

断点回归设计RDD介绍

2023/5/22 14:53:15  阅读:83 发布者:

1 断点回归介绍

1.1 断点回归的产生

因果推导与政策评估是经济分析最受到关注和追捧的核心问题,然而我们运用计量模型进行因果分析的总是碍于模型的内生性问题(遗漏变量)。

常用的解决原理是借助准自然实验 (quasiexperiment) 的思想评估不同政策的处理效应, 试图获得一致 (consistent) 或者无偏 (unbiased) 估计量。

进而发展出的方法有固定效应(fixed effects)、工具变量 (Instrumental variables) 、匹配和加权估计法 (matching and reweighting) 、倍差法 (difference-in-difference) 和断点回归设计 (regression discontinuity design)

对于断点回归(RDD),和其他方法相比, 学术界普遍认为运用断点回归设计更接近准自然实验, 估计的结果更加准确,原因在于其设计思想。

设计思想:其基本思想是存在一个连续变量, 该变量能决定个体在某一临界点两侧接受政策干预的概率, 由于X在该临界点两侧是连续的, 因此个体针对X的取值落入该临界点任意一侧是随机发生的, 即不存在人为操控使得个体落入某一侧的概率更大, 则在临界值附近构成了一个准自然实验。

例子:在一条河流随机设置一个检测断面,设置水质监测点25公里范围内的以上为上游,以下为下游。可以以RDD研究在检测断面的上下游对企业TFP的影响。因为在25公里范围内,可以默认为企业的其他因素相似,并且这些因素是我们观察不到的。那么,通过上下游组别的一次差分可以消除这些观察不到的因素,从而解决遗漏变量问题(当然也会控制时间,监测站、企业内部等固定效应)

1.2 断点回归的模型设计

断点回归的基本思想是基于连续变量X随机划定组别,因而一般将该连续变量X称为分组变量 (assignment variable)

精确断点回归设计(Sharp):特征是在断点 X=c, 个体受到干预的概率从0跳跃到1; 糊断点回归设计(Fuzzy):在断点X=c, 个体受到干预的概率从A变为B, 其中AB

下面具体解释精确断点回归

1.2.1 精确断点回归设计

(1) 模型讲述

考察大学学历对未来工资收入的影响。假设大学的分数录取线是500分,那么上大学与否(Di)完全取决于由高考成绩xi是否超过500分:

1Di 是关于x的确定函数,与其他无关,完全独立于工资收入。

2)无法采用propensity scores matching,因为两组个体并没有重叠部分,所有处理组都大于500分,所有控制组都小于500分。

3)对于高考成绩为498499500,或501502的考生,可以认为他们在各方面(包括可观测变量和不可观测变量)都没有系统差异。因为,他们高考成绩的细微差异只是由于“上帝”对其随机抽样的结果(譬如,一道很难的数学选择题,他们都进行随机选择,从而使得他们的分数在500分左右随机分配),导致成绩为500501的考生上大学(进入处理组),而成绩为498499的考生落榜(进入控制组)

4)因此,由于特殊的高考制度原因,对高考成绩在小领域500-s500+s]之间的考生进行了随机分组,故可视为准实验( quasiexperiment)。由此,由于存在随机分组,故可一致地估计在x=500附近的局部平均处理效应(Local Average Treatment EffectLATE)

2)模型设计

利用上述监测站进行举例,该文来源于He, Wang and Zhang2020)发表在QJE上的关于环境规制和企业生产率。该文设置监测站为断点,然后通过对每一个国控监测站断面(人工)或国控水质监测站(自动)创造一个10km缓冲区,然后来区分缓冲区内企业的上下游关系,如下图所示:

该文假设断点为水质监测站的位置x=0,而分组规则如下:

即监测站下游的企业纳入处理组,上游企业纳入控制组。

假设在实验之前,结果变量TFP与分配变量Dist之间存在如下线性关系:

假设处理效应为正,则TFPDist之间的线性关系(非线性)在x=0处就存在一个向上跳跃(jump)的断点。

由此,断点回归可视为“局部随机试验”(Local randomized experiment);可通过考察协变量在断点两侧的分布是否有差异来检验随机性。注意:但断点回归仅推断在断点处的因果关系,不能推广到其他样本值,故外部有效性受局限。

存在问题:

1)使用精确断点回归,如果回归函数包含高次项,比如二次项(x-c)*(x-c), 则会导致遗漏偏差()。

2)存在内生分组(自选择问题)危险。如果个体知道分组规则,可能会通过自身努力而完全控制分组变量。因而,我们常用的解决方法是在断点处观察x的分布是否均匀。除此,也可检验协变量的连续分布。

常用汇报操作:

1)分别汇报三角核kernel(tri)、矩形核kernel(uni)Epanechikovkernel(epa)的局部线性回归结果

2)分别汇报使用不同带宽的结果(比如,最优带宽100%及其50%200%带宽)

3)进行模型设定检验,包括检验分组变量与协变量的条件密度是否在断点处连续(如果不连续则存在样本选择的问题,非常非常严重)

转自:PPdata Academy”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com