1.2.2 断点回归设计
断点回归设计(RDD)适用于一些特殊场景。在这些场景中,处理变量T的取值只由配置变量(running variable,有时也被称作assignment variable或forcing variable)R的值决定。在此考虑最简单的情况,即处理变量T=1(R≥r0),其中1(R≥r0)在R≥r0时取值为1,在其他情况下取值为0。即一个单位被分配到实验组时,当且仅当配置变量大于或等于一个阈值r0。在研究餐厅评分对餐厅客流量的因果效应时[4],我们知道,在网站的搜索结果页面中,评分常常被四舍五入到最近的以半颗星为单位的星级。例如,一家餐厅A的评分为3.24,它会被显示成三颗星。而如果另一家餐厅B的评分为3.26,它就会被显示成三颗半星。基于这一事实,可以研究餐厅评分对客流量的影响。虽然餐厅A和餐厅B的真实评分十分接近,但在搜索结果页面的显示中二者则差半颗星。更具体地讲,当考虑所有的评分在R∈[3,3.5]的餐馆时,可以令r0=3.25,则处理变量可以被定义为T=1(R≥r0)。那些分数在R∈[3.25,3.5]的餐厅从四舍五入中得到了优势,即显示的星数比实际分数高。我们认为这些餐厅属于实验组。而那些分数在R∈[3.0,3.25)的餐厅则因此吃了亏,我们认为这些餐厅属于对照组。在这种情景下,可以使用一种叫作精确断点回归设计(sharp regression discontinuity design,sharp RDD)的方法[4,20]。精确断点回归设计的想法基于两个假设。首先,那些评分接近阈值的餐厅的混淆变量取值是十分相似的。其次,因果效应是同质的,即从四舍五入中得到对每家餐厅客流量的影响是相同的。这两个假设使我们可以实现因果识别。在精确断点回归设计中,我们认为结果变量Y、配置变量R和同质因果效应τ之间存在如式(1.36)所示的关系:
其中,∈是噪声项,一般是平均值为0的独立同分布的外生变量,比如正态分布∈∈N(0,1)。在因果效应是同质的情况下,常常可以用τT项来量化处理变量T对结果变量Y的因果效应。f是在R=r0处连续的一个函数,它的参数化(parameterization)可以是很灵活的。当然在实际情况中,对f的模型误判(model misspecification)可能造成对平均因果效应估测的偏差。例如,哥伦比亚大学的统计学家Andrew Gelman和斯坦福大学的经济学家Guido Imbens指出,当f被参数化为高阶多项式(high-order polynomials)的时候,很可能得到有误导性的结果[21]。本质上这是因为在他们研究的数据集中,f的基准真相不是高阶多项式。注意,在这个例子中,R∈[3.0,3.5]这个范围由带宽(0.25)决定。带宽代表的是,我们认为函数f相同单位的配置变量的取值范围,这意味着断点回归设计估测的平均因果效应本质上是一种局部平均因果效应。因此,当有足够多的数据时,也可以把这个范围设置得更小,从而保证估测的精确性。比如,当把带宽设置为0.05时,配置变量的范围就变为R∈[3.2,3.3]。意思是我们认为只有评分在这个范围中的餐厅,才有同样的函数f。在有的研究中,也倾向于使用多种带宽展示所选择的配置变量的正确性和估测到的平均因果效应的鲁棒性。
图1.8展示了一个在仿真数据中利用精确断点回归设计来估测因果效应的例子,即餐厅在评分网站Yelp上的评分T=1(R≥3.25)对客流量Y的因果效应。其中,假设函数f是一个线性分段函数,如式(1.37)所示:
其中,w1、w2、b1、b2是线性回归的参数。我们可以分别在实验组和对照组中求解线性回归,得到函数f的参数。然后就可以利用这两条线段与R=3.25这条直线的两个交点的纵坐标之差,得到平均因果效应τ。
图1.8 一个利用仿真数据做精确断点回归设计的例子,图中每个点代表一家餐厅。X轴是Yelp上餐厅的平均评分(即配置变量R),Y轴则是餐厅的客流量。蓝色的点代表实验组的餐厅,黑色的点代表对照组的餐厅。f(R)则是一个线性分段函数,黑色和蓝色的两条线段与直线R=3.25的交点的Y轴的值之差代表该精确断点回归设计估测到的平均因果效应τ
在本例中,精确断点回归设计〔见式(1.35)〕基于以下事实:3.25分是区别实验组和对照组的一个明确定义的阈值。然而在实际情况中,有可能这样的事实并不成立。为了应对没有明确定义阈值的情况,接下来介绍模糊断点回归设计(fuzzy regression discontinuity design,fuzzy RDD)[20,22]。在本例中,细心的用户可能会点击某家餐厅的页面,从而看到餐厅真实的评分,而不是只基于搜索结果页面中四舍五入后的评分做选择。这样顾客就会发现上文中评分为3.24的餐厅A和评分为3.26的餐厅B的实际评分的差距并没有半颗星那么多。在模糊断点回归设计中,假设存在一个随机的处理变量分配的过程,由条件概率P(T=1|R)来表示,我们可以把它看作是一种倾向性评分模型(propensity score model)。可以发现它与精确断点回归设计中确定性的倾向性评分模型(即T=1(R≥r0))不同。在模糊断点回归设计中,任何一个配置变量的取值R=r的单位,一般来说,既有可能被分配到实验组,也有可能被分配到对照组。这里的倾向性评分模型一般被假设为一个在阈值r0处不连续的函数。这样可以写出如下断点回归设计的结构方程组,如式(1.38)所示:
其中,∈Y和∈T是噪声项。基于这个结构方程组,可以利用参数π2和π1的比例来估测平均因果效应,即。它实际上是1(R≥r0)→Y和1(R≥r0)→T这两个因果关系对应的平均因果效应的比。我们可以发现这个估测量其实与工具变量中的两阶段最小二乘法中的比例估计量相似。两阶段最小二乘法基于以下假设:配置变量是否大于阈值对处理变量取值的因果效应,即π1不为0。我们可以把1(R≥r0)视为工具变量,它仅通过影响处理变量的取值来影响结果变量。对实践中的断点回归设计有兴趣的读者可以参考文献[23]。