断点回归设计RDD介绍

2023/5/22 14:53:15　阅读：110　发布者：

1 断点回归介绍

1.1 断点回归的产生

因果推导与政策评估是经济分析最受到关注和追捧的核心问题，然而我们运用计量模型进行因果分析的总是碍于模型的内生性问题（遗漏变量）。

常用的解决原理是借助准自然实验 (quasiexperiment) 的思想评估不同政策的处理效应, 试图获得一致 (consistent) 或者无偏 (unbiased) 估计量。

进而发展出的方法有固定效应（fixed effects）、工具变量 (Instrumental variables) 、匹配和加权估计法 (matching and reweighting) 、倍差法 (difference-in-difference) 和断点回归设计 (regression discontinuity design)。

对于断点回归（RDD），和其他方法相比, 学术界普遍认为运用断点回归设计更接近准自然实验, 估计的结果更加准确，原因在于其设计思想。

设计思想：其基本思想是存在一个连续变量, 该变量能决定个体在某一临界点两侧接受政策干预的概率, 由于X在该临界点两侧是连续的, 因此个体针对X的取值落入该临界点任意一侧是随机发生的, 即不存在人为操控使得个体落入某一侧的概率更大, 则在临界值附近构成了一个准自然实验。

例子：在一条河流随机设置一个检测断面，设置水质监测点25公里范围内的以上为上游，以下为下游。可以以RDD研究在检测断面的上下游对企业TFP的影响。因为在25公里范围内，可以默认为企业的其他因素相似，并且这些因素是我们观察不到的。那么，通过上下游组别的一次差分可以消除这些观察不到的因素，从而解决遗漏变量问题（当然也会控制时间，监测站、企业内部等固定效应）

1.2 断点回归的模型设计

断点回归的基本思想是基于连续变量X随机划定组别，因而一般将该连续变量X称为分组变量 (assignment variable) 。

精确断点回归设计（Sharp）：特征是在断点 X=c处, 个体受到干预的概率从0跳跃到1; 糊断点回归设计（Fuzzy）：在断点X=c处, 个体受到干预的概率从A变为B, 其中A≠B。

下面具体解释精确断点回归

1.2.1 精确断点回归设计

(1) 模型讲述

考察大学学历对未来工资收入的影响。假设大学的分数录取线是500分，那么上大学与否（Di）完全取决于由高考成绩xi是否超过500分：

（1）Di 是关于x的确定函数，与其他无关，完全独立于工资收入。

（2）无法采用propensity scores matching，因为两组个体并没有重叠部分，所有处理组都大于500分，所有控制组都小于500分。

（3）对于高考成绩为498，499，500，或501，502的考生，可以认为他们在各方面(包括可观测变量和不可观测变量)都没有系统差异。因为，他们高考成绩的细微差异只是由于“上帝”对其随机抽样的结果（譬如，一道很难的数学选择题，他们都进行随机选择，从而使得他们的分数在500分左右随机分配），导致成绩为500或501的考生上大学(进入处理组)，而成绩为498或499的考生落榜(进入控制组)。

（4）因此，由于特殊的高考制度原因，对高考成绩在小领域500-s，500+s]之间的考生进行了随机分组，故可视为准实验( quasiexperiment)。由此，由于存在随机分组，故可一致地估计在x=500附近的局部平均处理效应(Local Average Treatment Effect，LATE)

（2）模型设计

利用上述监测站进行举例，该文来源于He, Wang and Zhang（2020）发表在QJE上的关于环境规制和企业生产率。该文设置监测站为断点，然后通过对每一个国控监测站断面（人工）或国控水质监测站（自动）创造一个10km缓冲区，然后来区分缓冲区内企业的上下游关系，如下图所示：

该文假设断点为水质监测站的位置x=0，而分组规则如下：

即监测站下游的企业纳入处理组，上游企业纳入控制组。

假设在实验之前，结果变量TFP与分配变量Dist之间存在如下线性关系:

假设处理效应为正，则TFP与Dist之间的线性关系（非线性）在x=0处就存在一个向上跳跃(jump)的断点。

由此，断点回归可视为“局部随机试验”(Local randomized experiment)；可通过考察协变量在断点两侧的分布是否有差异来检验随机性。注意：但断点回归仅推断在断点处的因果关系，不能推广到其他样本值，故外部有效性受局限。

存在问题：

1）使用精确断点回归，如果回归函数包含高次项，比如二次项(x-c)*(x-c)，则会导致遗漏偏差（）。

2）存在内生分组（自选择问题）危险。如果个体知道分组规则，可能会通过自身努力而完全控制分组变量。因而，我们常用的解决方法是在断点处观察x的分布是否均匀。除此，也可检验协变量的连续分布。

常用汇报操作：

1）分别汇报三角核kernel(tri)、矩形核kernel(uni)和Epanechikov核kernel(epa)的局部线性回归结果

2）分别汇报使用不同带宽的结果（比如，最优带宽100%及其50%或200%带宽）

3）进行模型设定检验，包括检验分组变量与协变量的条件密度是否在断点处连续（如果不连续则存在样本选择的问题，非常非常严重）

转自：“PPdata Academy”微信公众号

如有侵权，请联系本站删除！

上一篇： 断点回归RDD介绍 II
下一篇： 没有一篇论文，成功录取博士生

投稿问答最小化 关闭

断点回归设计RDD介绍

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

断点回归设计RDD介绍

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭