投稿问答最小化  关闭

万维书刊APP下载

【香樟推文2494】Goodman-Bacon引发的TWFE失效后我们该怎么办?多时点DID估计新的方法

2022/5/26 14:58:22  阅读:1176 发布者:

原文信息:

Brantly Callaway a, Pedro H.C. Sant’Anna. ”Difference-in-Differences with multiple time periods” Journal of Econometrics, 2020

原创:马瑞光,中国人民大学经济学院2020级西方经济学博士。

01

双重差分模型目前是评估政策效果因果关系最流行的研究设计之一。传统的双重差分模型有两个时期(实验期前和实验期)和两个组(实验组和控制组),而在很多did的实证应用中已经逐渐偏离了传统的DID模型,经常会遇到政策在不同时间施行的情况,因此,研究多时点DID对于现实问题的解决具有一定意义。过去几年,学者们在多时点DID的建模上多采用双向固定效应模型,但是随着goodman-baconJOEpaper发表,用传统办法双向固定效应估计多时点DID的方法俨然成为过去式,既然双向固定效应估计存在问题,那么又该采取什么样的办法估计生活中各种各样的多时点DID呢?这就是笔者这篇文章的目的,笔者通过这篇文章让大家进一步了解如何正确的估计多时点DID的系数。

为什么在多时点DID中双向固定效应会存在问题,估计有偏,而在传统的DID模型中双向固定效应不存在估计问题?要回答这一问题需要从双重差分应用的前提条件开始,双重差分的前提条件准确讲有两条,一条是实验组与控制组满足平行趋势,平行趋势的含义是,在政策发生之前,实验组与控制组具有平行的发展趋势,而在政策发生之后控制组与政策发生之前一样保持相同的发展趋势,这意味着平行趋势严格的讲可以分成两部分,一部分是事前平行趋势,一部分是政策事后不允许有溢出效应,即政策不能使得处理组的样本影响到控制组的样本。例如,一项坏的政策影响到处理组的个体,但处理组的部分个体可以通一些其他手段将损失的一部分转嫁给控制组的个体,这就是存在溢出效应,在这种情况双重差分就会失效。另一条假设往往被大家所忽略,就是双差分的样本期内起作用的政策只能是被研究的政策,不能存在其他对结果变量干扰的政策,如果存在这样的干扰政策就无法识别究竟是研究政策导致的结果,还是其他原因导致的结果,双差分的结果就容易被质疑。

往往事前平行趋势容易验证,事后溢出效应较难通过实证验证,单一政策的影响可以通过竞争性假说来排除,那为什么双向固定效应模型应用在传统的DID就没问题,但应用到多时点DID就存在问题呢?究竟是违反了那一条假设导致?Goodman-bacon已经回答了问题,即事前平行趋势存在问题,多时点DID,由于存在多个处理组(不同批次就是不同的处理组)传统的DID,只需通过实验组事后减去事前再减去控制组事后与事前的差即可得到DID,形象说明一些,就是在政策实施年份实验组比控制组“跳跃”的那部分差值即为DID的估计系数。那多时点DID的系数该如何估计呢?每一组实验组都与控制组进行对比,就会形成一堆“跳跃”,后发生的实验组作为实验组与先发生的实验组作为控制组又会形成一类“跳跃”,然后将所有估计的这些“跳跃“的因果系数按照一定的权重加权成一个系数就是多时点DID的估计系数。双向固定效应的加权是根据条件方差进行加权,在这种加权方式下会产生负向不干净的结果,这种结果就来源于将后发生的实验组作为实验组与先发生的实验组作为控制组做对比。总而言之,先前的实验组如果存在动态趋势,那么之后的处理组和之前的处理组的事前平行趋势就会被破坏,原本平行的平行趋势就会变得不平行,这部分样本就是造成双向固定效应存在问题的原因,如果之后的实验组与之前的实验组做差分的样本在总样本中越多,这部分错误估计就越大,双向固定效应就越不干净。

Callaway这篇文章从多时点双差分的基础假设开始构建了一个完整的理论框架,首先对多个时期先后实施的政策根据时间先后进行分解,将政策效果分解为相应的因果参数;之后对这些分解的因果参数进行加总(不同的规范),从而总结出政策的因果效果,最后,对这些不同的规范进行估计和推断。通过这种方式避免了TWEF存在问题,估计所采用的方法多为结果回归法(OR)、逆概率加权法(IPW),双稳健法(DR)的非参数估计的方法,避开了TWEF的加权方式,解决了双向固定效应存在的问题。

笔者对不同的因果参数的加总方式不同,产生了原有双向固定效应达不到的效果,比如运用DID进行异质性分析,原有的多时点DID如果要估计不同批次的政策实施效果,仅能通过利用子样本回归实现,笔者构建的新的DID的估计方法可以直接实现不同批次的政策实施效果,可以轻松解决这种异质性问题,不仅如此,还可以研究不同处理组的动态效应,不同处理组的平均处理效果的异质性以及在某一特定时间点之前,该政策对所有群体的累积平均处理效果,该政策在某一段时间的累积平均处理效应。例如,以自贸试验区为例,自贸试验区分三批在不同城市设立,现在研究自贸试验区对地区经济增长的影响,利用Callaway的方法不仅可以估计出自贸试验区对经济增长的总效应;还可以估计出第一批次的自贸区对经济增长的作用、第二批次自贸区对经济增长的作用、第三批次自贸区对经济增长的作用,不仅如此还可以三个批次都进行event study。这项操作是TWFE难以实现的。除此之外,Callaway的方法还可以计算出在某一时点,三个批次对经济增长的累计处理效应,更甚者可以衡量随时间变化的累计处理效应的变化和在某一时段内的平均处理效应,而这一点传统的TWEF难以实现。因此,在goodman-bacon提出TWEF估计存在问题时,Callaway提出了一种新的理论框架,采用非参数估计的doubly robust的方法对政策系数进行估计不仅解决TWEF存在的问题,而且创新性的给出了该方法可以进一步应用于异质性分析。

文章的最后Callaway通过一个案例来说明新方法的实际运用。这个案例是研究最低工资对青少年就业的影响,主要目的在于比较TWEF和笔者自己提出方法的估计结果(意图看看TWEF的理论缺陷是否会在实际的应有种产生显著的影响)选择最低工资变化对就业的影响对TWFE来说是一个具有挑战性的案例,因为最低工资的影响可能是动态的,而且最低工资变化的时间在各州不同。在研究计划中,笔者试图理解最低工资对就业的影响最常见的方法是利用各州最低工资上调时间的差异。考虑2001-2007年联邦最低工资水平为每小时5.15美元这一时期,首先笔者关注的是在最低工资与联邦最低工资在开始时相等的州的县级青少年就业情况,之后,其中一些州在这一时期提升了最低工资(treated groups),这些treated groups的划分时根据州首次提高最低工资的时间划分。而另一些没有在这一时期提升最低工资的被称为控制组(untreated group)。笔者采用的数据是关于青少年就业和其他县域特征的县级数据,县级青少年就业来自季度劳动力指标(QWI),其他的在实验前的县域特征的变量来源于2000 County Data Book2000年的县域手册)。这些数据包括2000年的县人口、白人人口比例、1990年以来的教育特征、1997年的中位数收入,以及1997年低于贫困水平的人口比例。数据样本删除了10个州(在2000年最低工资高于联邦最低工资)7各州(缺乏青少年就业数据)以及北部人口普查区域的其他4个州后,最终样本包括29个州的县级数据。根据各州提高最低工资的年份,可将处理组分为Group 2004, Group 2006, Group2007 三个组别。具体统计结果如Table2所示。

数据显示,提高最低工资的州和没有提高最低工资的州之间,县的特征有一些显著的差异。,之后笔者使用不同的估计策略估计了一系列的结果,具体结果如图一所示。

1绘制了平均工资的群组-时间平均处理效应。Panel (a)基于无条件平行趋势假设,未加入任何协变量;Panel (b)基于有条件平行趋势假设,加入相关协变量。红色和蓝色标记分别表示最低工资标准提高前后点估计值和对应置信区间。可见,最低工资的提高能够降低青少年就业。在7个群组-时间处理效应中,有5个显著为负;剩余两个虽然并不显著,但符号依然为负,图一的绘制是分批次的event study的绘制结果,是新方法应用的结果。

3Panel (a)展示了无条件平行趋势下各类加总处理效应参数。本文考虑了政策实施时间长短对青少年就业的不同影响,Event Study 一列展示了这一动态变化:最低工资提高的第一年青少年就业下降了2.7%,第二年下降了7.1%,第三年下降了12.5%,第四年下降了13.6%。当仅对Group 2004Group 2006进行回归时,发现最低工资标准在第一年使青少年就业降低了2.7%,第二年降低了7.1%。表3 Panel (b)为基于有条件平行趋势假设各类加总处理效应。本文使用县级人口、收入中位数、白色人种占比、受教育人群(高中教育)占比和贫困率等县级特征协变量。可见,双向固定效应模型和本文估计方式两者所得估计结果并不相同。图1 Panel (b)识别的7个群组-时间处理效应中,3个系数在统计意义上显著为负。以群组规模为权重的加权平均后,可得最低工资标准的提高使青少年就业降低了3.1%。而双向固定效应模型估计所得参数并不显著,由此对比可以进一步得出,TWEF在现实应用中可能存在问题,而新的方法可以很好解决这一问题。

Abstract

In this article, we consider identification, estimation, and inference procedures for treatment effect parameters using Difference-in-Differences (DiD) with (i) multiple time periods, (ii) variation in treatment timing, and (iii) when the "parallel trends assumption" holds potentially only after conditioning on observed covariates. We show that a family of causal effect parameters are identified in staggered DiD setups, even if differences in observed characteristics create non-parallel outcome dynamics between groups. Our identification results allow one to use outcome regression, inverse probability weighting, or doubly-robust estimands. We also propose different aggregation schemes that can be used to highlight treatment effect heterogeneity across different dimensions as well as to summarize the overall effect of participating in the treatment. We establish the asymptotic properties of the proposed estimators and prove the validity of a computationally convenient bootstrap procedure to conduct asymptotically valid simultaneous (instead of pointwise) inference. Finally, we illustrate the relevance of our proposed tools by analyzing the effect of the minimum wage on teen employment from 2001-2007. Open-source software is available for implementing the proposed methods.

转自:香樟经济学术圈

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com