原文信息:What’s Trending in Difference-in-Differences? A Synthesis of the Recent Econometrics Literature .Jonathan Roth, Pedro Sant’Anna, Alyssa Bilinski, and John Poe. 2023. Forthcoming, Journal of Econometrics.
01
导读及作者简介
基于清晰易懂的原理、相对简单的操作难度,双重差分(Difference-in-Differences,DiD)
已成为国内外社会科学界最流行的应用微观计量方法之一。根据Currie et al.(2020)的统计(下图),在使用应用微观计量方法的经济学顶尖论文中,使用DiD的比例逐年上升,且在2015年已有近25%的NBER WP以DiD作为主要识别方法(这一比例在经济学五大刊中也有15%)。与此同时,DiD的相关方法论文章也迅速发展,特别是在过去两三年间相关的理论文献已经多到让人“头晕目眩”的程度,香樟经济学术圈往期也有过多期推介相关方法、质量上乘的推文。但相关文献或推文其实涉及到了DiD进展的不同部分,这为理解、追踪相关文献提供了困难。
Jonathan Roth, Pedro Sant’Anna、Alyssa Bilinski、John Poe四位作者即将发表在Journal of Econometrics 的文章系统性地回顾了最近在DiD领域的重要文献,他们从一个仅具有事前、事后两期,且满足平行趋势及大样本抽样条件的“经典DiD”(Canonical DiD)模型出发,认为大多数相应文献均可归类放松“经典DiD”的三个假设:一、引入多期和交错的处理时间。二、考虑潜在的违反平行趋势的情况。三、违背传统抽样假定。本文详细梳理了这三个领域中的进展及解决方案,并整理了不归类于以上三类的其他文献,并提供了在使用DiD实践中的“Checklist”及R、STATA对应的Package总结。
本文的作者中Jonathan Roth 2020年毕业于哈佛大学,目前在布朗大学担任助理教授,本综述中的关于平行趋势的相当一部分内容来自于他的Job Market Paper(RES,forthcoming)及发表或即将发表在Econometrica 、American Economic Review: Insights等期刊中的文章。Pedro Sant’Anna目前任职于微软,将于2023年秋回归学界任埃默里大学助理教授,其关于DiD方法论的研究亦甚为广泛,相应研究发表或即将发表于Econometrica、Journal of Econometrics等。值得一提的是Jonathan Roth, Pedro Sant’Anna、John Poe这三位作者都有任职于业界的经历,且均致力于普及应用微观计量方法的教学,关注他们的主页可能更有助于学习相应方法。
“传统”DiD的假设、估计与推断
02
在经典模型中,仅有处理组及控制组两组,及事前事后两个节点(如下所示)。在满足:①没有接受处理的情况下,接受处理的人群和对应控制组的平均结果将遵循 "平行趋势"。②处理在实施前没有因果效应(没有预期效应)。在上述假定下,我们能够识别出受处理组的平均处理效应(Average Treatment Effect on the Treated,ATT)。如果我们观察到来自处理组和控制组的大量独立聚类,则可以使用双向固定效应(TWFE)回估计估计ATT,聚类标准误差可以提供渐进有效的推断。
上述“传统DiD”的前提条件可以逐渐放松,本文认为最近DiD领域的进展可以归类于放松以下三类条件:一,引入多期和交错处理时间。二、考虑潜在的违反平行趋势的情况。三、违背传统抽样假定。
03
放松对于处理分配及处理节点的假设
在传统DiD的框架里,处理的节点是唯一且固定的。将处理节点拓展到多时点时传统DiD就变味了所谓的“交叠DiD”。这一部分已经有de Chaisemartin and D’Haultfoeuille (2022)以及【香樟推文2497】交叠DID偏误的原因、诊断和解决?你感兴趣的都在这 做了更为详尽的综述,在此处本推送不再展开。总而言之,交叠DID之所以存在偏误的原因在于双向固定效应模型则可能把已处理组误作为了对照组,从而污染实验结果。
但上述系列论文提出的稳健估计量如此之多,研究人员可能不确定该使用哪一个。对于这一问题,本文认为需要明确以下几个问题:
1. 需要特别明确交叠DiD下估计量的真实确切含义。这是由于一旦考虑到处理效应的异质性,就无法得出单一的感兴趣的处理效应。例如,考虑如下情景:处理是在州一级实施的,1992年有7个州采用了这种处理方法,1994年有2个州,1996年有1个州,2000年有20个州。你现在有4个队列的处理单位。但是,即使把一个 “事件研究法”式的参数作为感兴趣的估计值,即想要实施后k年的处理效应的加权平均数,此时仍然需要决定是否应该对四个组群中的每一个组群进行加权,或者对有更多州接受处理的组群给予更多的权重。因此,需要非常清楚所估计的确切内容,以及为什么它是一个具有经济意义的加权平均数。
2. 不同的估计量在使用哪些单位作为“干净控制组”方面有所不同。例如,他们是使用从未接受过处理的人、尚未处理处理的人,还是只使用最后接受处理的人;他们在构建DiD时使用的前期数量方面有所不同(例如,你是只根据处理前的时期进行差异,还是使用多个处理前时期);以及他们在汇总时使用的权重方面有所不同。他们对平行趋势的假设也各不相同-是否需要对所有的时期和组别组合都成立,或者是否需要更弱的平行趋势假设。在实践中,这可能会导致一种权衡,即需要更强的假设以获得更多的精度,或者允许更弱的假设,但可能会有更多的噪音。
3.当处理是连续的,或随着时间的推移而开启和关闭时,交叠DiD变得更加复杂,在这些情况下,通常需要更强大的假设。
放松平行趋势假定或允许平行趋势假定被违背
04
(1)平行趋势假设被违背的原因
在经典DiD模型中,我们假定控制组能够模拟处理组“潜在结果”的主要前提是“平行趋势”假定,也就是假定当处理组未接受处理时应当具有和控制组平行的变动趋势。这一假定使得DiD模型允许存在一定的混杂因素(confounding factors)影响处理组与控制组的处理效应,但这些混杂因素必须是非时变的。所以,我们首先会担心时变的混杂因素。例如,倾向于民主的州更有可能采用医疗补助计划,但也可能受到不同时间变化的宏观经济冲击的影响。其次,平行趋势被违背的原因可能是对所选结果变量Y函数形式的潜在敏感性。例如某结果变量Y在满足平行趋势时,那么其对数值log(Y)的平行趋势通常不会成立(反之亦然)。这一部分在Sant'Anna(2022)中有更为详尽的介绍。Roth和Sant'Anna(2022)表明,只有在较为苛刻的条件下平行趋势才在结果变量Y的各种单调变换下才成立。因此,平行趋势对函数形式很敏感。
(2)以协变量为条件的平行趋势
解决上述时变的混杂因素对平行趋势影响的方案进而提升平行趋势可信度的一个方案为,要求它只以协变量为条件而成立。事实上,如果我们以足够丰富的协变量Xi为条件,我们可能愿意相信,处理几乎是以Xi为条件随机分配的。即可以满足以下条件
但需要注意的是,但在加入协变量后,由于我们通常没有足够大的样本对每个可能的ATT进行估计。故本文又介绍了Regression adjustment、Inverse probability weighting、Doubly-robust estimators等几类非参/半参的估计方法。且在这一框架下讨论了bad control的问题。
(3)事前平行趋势检验及其问题
由于无法观测到在处理后的“潜在结果”,所以在实际操作中我们只能够对于事前趋势进行相关检验。现有的文献主要通过如下所示的事件研究法逐年打开处理组与控制组的差异以检验事前平行趋势是否成立。
但事前平行趋势在成立的前提下平行趋势也有可能会存在如下问题。(1)即使事前趋势完全平行,也不一定能够保证平行趋势完全成立,如Kahn-Lang和Lang(2020)举例:男孩和女孩的平均身高在13岁前是平行发展但之后出现分化,但我们不应该由此得出结论,男孩在13岁时举办的成人礼对儿童身高有因果关系的影响。(2)由于事件研究法测量精度的问题,我们可能无法观测到实际存在的事前趋势。(3)以通过事前平行趋势为前提进行的研究可能诱发一种选择偏差,Roth(2022)称其为pre-test bias。即总体中如果存在着事前趋势差异,但我们的刻意选择使得未能检测到显著前的趋势,这些样本就是真正的总体中的一个选择样本。Roth(2022)表明这种选择偏误实质上会导致更严重的违反平行趋势偏差。(4)在有的情况中,我们希望了解在违反“平行趋势”下的处理效应,尤其是在违反平行趋势的程度 "很小 "的时候。然而,传统的方法并没有明确说明在这种情况下该如何进行。
(4)稳健估计及敏感性分析
05
放松抽样假设
第三组最新文献聚焦在违背传统抽样假定下的解决方案。即我们的样本并非来自超总体(super-population)的独立聚类。传统的DiD推断程序依赖于研究人员能够获得大量和处理聚类的数据。置信区间的估计基于中心极限定理,该定理指出,在独立抽样的聚类中DiD估计值随着处理和未处理聚类数量的增加而具有渐进正态分布。然而在许多实际的DiD应用中,独立聚类(特别时处理组)的数量可能很小,因此基于聚类数量增长的中心极限定理可能提供一个很差的近似值。例如,许多使用州级政策变化的DiD应用可能只有少数几个被处理的州。在集群数量很少的情况下但每个集群内的单位数量很大时,中心极限定理提供的也可能是一个很差的近似值。这是因为基于抽样的标准聚类观点允许每个聚类内的结果存在任意的相关性,因此在聚类层面可能存在共同的成分(又称聚类层面的 "冲击"),这些成分在对同一聚类内的许多单位进行平均时并不会被消除。所以在只观察到集群特定冲击的少数观测值,这些冲击的平均值一般不会是近似正态分布的。
在以上情况下,作者将最近解决上述假设不满足的方法分为两类。第一种是处理组非常少时。解决方案包括Model-based approaches、Wild-bootstrap与Permutation-based approaches。这些方法通常都要求研究者在集群之间施加一些同质性的假设。第二种情况是在很难将总体概念化时,可以考虑使用将处理视为随机的“基于设计的推理”(Design-based inference)。这这种情况下,有一个较好的经验法则是使用在独立分配处理的水平上聚类(例如政策是在州层面随机实施,那就聚类到州)。
其余领域的文章
06
除去以上的三支主要文献之外,领域内还有难以进行直接归类但同样十分有趣且重要的研究。包括以CIC(Changes-in-Changes)为代表的分布式处理效应(Distributional treatment effects)、准处理节点(Quasi-random treatment timing)、序列可忽略性(Sequential ignorability)、放开STUVA假设估计溢出效应(Spillover effects)、条件处理效应(Conditional treatment effects)、三重差分(Triple differences)及以合成控制法为代表的其他面板数据技术与DiD的关联等。本文在此部分也对上述方法进行了简要介绍,感兴趣的作者可进一步阅读原文。
07
总结
本文系统性的回归了最近DiD方法的相关文献。目的并不在于追求搜罗文献的全面性,而是要对文献中一些最重要的方向做一个简洁且成体系的介绍,试图为应用人员提供明确的实践指导。本文认为应用人员需要将估计和推断方法与识别假设相匹配,并探索对可能违反这些假设的稳健性。在实践中,应用人员可以按照以下的Checklist来指导自己的DiD实践:
1.是否每个体都在同一时间点接受Treat
是:请使用TWFE估计你的DiD结果
不是:请考虑使用引文第3节中的“异质性稳健估计量”,只有在你确信处理效应的同质性时才使用TWFE估计。
2.确信平行趋势假设的有效吗?
是:请论述其原因,并包括函数形式的验证
不是:请按以下步骤
a.如果平行趋势在协变量下更可信的话,请参考原文4.2的方式选择恰当的估计量及前言。
b.使用事件研究图来评估平行趋势假设的合理性。并考虑4.3中提出的其他检验事前趋势的方案
c.在事件研究图报告的同时,考虑使用原文4.1.1的方法对事前趋势进一步验证
d.报告正式的敏感性分析——即原文4.5中结果对潜在的违反平行趋势的稳健性
3.你是否有足够大的从总体中抽样的实验组与处理组样本
是:请使用聚类稳健估计方法
经验上较好的聚类是“聚类到Treat分布的最小单位”
不是:
a.如果你仅有少量的Treatment grouop,考虑原文5.1中的替代推断办法
b.如果无法想象/获取总体(super-population)的信息,考虑使用5.2中的Design-Based Approach
此外,作者还提供了一个用于检索相应方法及对应软件包的表格,便于进一步促进前沿方法的普及与应用。
Abstract
This paper synthesizes recent advances in the econometrics of difference-in-differences (DiD) and provides concrete recommendations for practitioners. We begin by articulating a simple set of “canonical” assumptions under which the econometrics of DiD are well-understood. We then argue that recent advances in DiD methods can be broadly classified as relaxing some components of the canonical DiD setup, with a focus on piq multiple periods and variation in treatment timing, piiq potential violations of parallel trends, or piiiq alternative frameworks for inference. Our discussion highlights the different ways that the DiD literature has advanced beyond the canonical model, and helps to clarify when each of the papers will be relevant for empirical work. We conclude by discussing some promising areas for future research.
转自:“香樟经济学术圈”微信公众号
如有侵权,请联系本站删除!