空间断点回归交互效应模型设定方法及其应用

2024-03-26 03:13戚兆坤隋博文
统计与决策 2024年5期
关键词:控制区断点实验区

戚兆坤,隋博文,李 红

(1.北部湾大学a.北部湾海洋发展研究中心;b.经济管理学院,广西 钦州 535011;2.广西大学经济学院,南宁 530000)

0 引言

断点回归方法具有实现随机分组的决策机制,被认为是在以自然实验理论为基础的经济学因果关系统计推断中除工具变量法以外效果最佳的方法[1]。

空间断点回归是断点回归思想向地理空间的推广,其将地理边界视为“断点”,不仅继承了断点回归的主要框架和思路,还拓展了研究内容和方法。空间断点回归研究的实验场景是,以相邻地理区域内的个体为研究对象,将相邻地理区域视为准自然实验分组,即实验区和控制区,一般二者间存在明确的地理边界且接受不同的处理[2]。空间断点回归可充分借助经纬度、大地距离、弦距离等地理信息实现因果关系推断,因此可获得更可信的结论[3]。

根据空间断点回归的实验场景,这类研究存在一个潜在问题。根据地理学第一定律,由于实验区和控制区在地理上相邻,边界附近不同实验分组的个体间存在互动关系或联系,这种空间关联会对因果关系推断造成影响。梳理已有研究可以发现,在微观层面上,这种空间关联被视为对随机实验的一种干扰,被称为干扰效应[4]。国外相关研究基本集中于微观领域,Sobel(2006)[5]利用空间干扰效应模型研究了住房流动性的邻居效应;Verbitsky-Savitz 和Raudenbush(2012)[6]利用空间干扰效应模型研究了警务项目对犯罪率的影响;Keele 和Titiunik(2018)[4]使用存在干扰效应的地理自然实验方法研究了全邮件投票方式对总统选举中公民参与率的影响。在宏观层面上,这种空间关联被视为由经济活动引起的空间互动关系,一般将其称为交互效应(interactive effects)[7],鲜有文献从自然实验的角度讨论这种空间关联。国内空间断点回归应用研究大多集中于宏观领域:黄新飞等(2014)[8]研究了省际价格差异;李楠和林友宏(2016)[9]研究了清代西南地区“改土归流”政策对经济发展的影响;李卫兵和张凯霞(2019)[10]及其系列研究分析了空气污染对企业生产率、人口迁移等的影响。

研究表明,当存在交互效应时,使用普通空间断点回归模型估计的处理效应是有偏和不一致的。国内相关研究基本忽视了交互效应的存在,更缺乏对交互效应模型化方法或思想的系统性讨论。国外相关研究主要集中于微观领域,普遍通过假设个体的潜在结果受到其他个体处理水平的影响来模型化交互效应,方法单一。若要将其推广至宏观领域,则必须突破以下局限。第一,引起交互效应的变量不能仅假设为其他个体的处理水平,应结合经济理论进一步发掘其他可能或更深层次的动因;第二,应充分考虑宏观经济变量间的空间相关性,这是自然实验方法向地理空间推广带来的普遍问题;第三,应充分利用地理信息对交互效应进行界定,特别是空间距离、经纬度信息等。

本文基于Rubin的潜在结果模型方法,提出模型化交互效应的更一般化方法,并将其应用于对重庆市升级为直辖市的经济效应的统计推断中。在戚兆坤等(2023)[2]提出的空间断点回归基本分析框架的基础上,本文主要围绕以下问题展开:首先,模型化交互效应的主要思想是什么,如何将这种思想具体化、可操作化?其次,如何实现对交互效应模型的有效统计推断,核心参数如何定义,主要可识别假设有哪些?最后,交互效应模型与普通空间断点回归模型有何区别,统计推断结论有何新意与变化?

1 空间断点回归交互效应模型设定方法

令Yi表示个体i的潜在结果变量;ti是处理变量,取值为0或1,代表两种不同的处理水平;di表示所有影响个体i潜在结果的变量构成的向量,一般包括ti和协变量Xi,不妨设向量di的第一个元素为ti,即di1=ti;代表所有个体的di按照一定顺序排列在一起构成的矩阵。假设个体i的潜在结果不仅受到自身处理水平和协变量的影响,还受到其他个体处理水平和协变量的影响(交互效应),则任何个体i的潜在结果都可以表示为D的函数,即:Yi=Yi(D)。

1.1 不含交互效应的相关假设①更多相关假设及模型设定方法请参考文献[2]。

假设1:无交互效应假设。

所研究地理空间中任何个体i,其潜在结果只取决于自身的处理水平,不依赖于其他变量或其他个体。当且仅当di1=d′i1时,Yi(D)=Yi(D′)成立。

若该假设满足,则说明不存在交互效应,Yi(D)可简写为Yi(ti)。此假设并不足以保证实验是随机分组或条件随机分组的。现实中实验分组和潜在结果可能受到协变量X取值的影响,且在地理空间上应用随机实验,考虑到个体间可比性的问题,需要明确所考察的地理范围。因此,需要条件随机分组的相关假设。

假设2:条件均值独立假设。

令hi表示个体i到边界的距离,存在实数H>0,当hi≤H和以X为条件时,潜在结果条件均值独立于地理处理分组,即:(E(Yi(0),E(Yi(1))⊥ti|Xi。

假设2 说明在边界附近一个窄的带状区域内满足潜在结果条件均值独立于处理分组。此时,个体i的处理效应参数记为:

参与者的平均处理效应ATT可识别,可定义为:

第二个等号成立是依据τi(Xi)的定义,第三个等号成立是依据条件期望的线性性质,第四个等号成立是依据条件均值独立假设。此时回归方程可设计为:Yi=X′i β+τ·ti+μi,其中,τ为处理效应参数。

1.2 交互效应模型化思想

存在交互效应说明个体i的潜在结果受到其他个体处理水平或协变量的影响。主要考虑两种情形:一是根据地理学第一定律,个体距离边界越近,越容易受到交互效应的影响,可假设在边界附近较小的邻域内所有个体都受到交互效应影响,邻域之外的个体没有受到交互效应影响,并称之为系统交互效应。二是依据空间相关性思想,某个体协变量取值越大,越容易对距离其一定范围内的其他实验分组中的个体产生交互效应影响,并称之为基于某协变量的局部交互效应。本文先从简单情形出发,假设交互效应是单向的②大部分微观应用中仅假设交互效应是单向的。,即控制区个体可能受到实验区个体的交互效应影响;再假设交互效应是双向的,即实验区和控制区个体均受到交互效应影响。

1.3 单向系统交互效应模型设定方法

其中,fi是处理水平和距离的二元函数,表示个体i是否受到交互效应影响;I(·)是示性函数,括号内条件满足时取值为1,否则为0;si表示个体i到边界的距离。若个体i处在控制区(即ti=0)且si小于某常数距离s,则认为其受到了实验区个体的交互效应影响,此时fi的取值为1,否则为0。

此种设定下每个个体都有三种可能的潜在结果。假设潜在结果为处理水平和fi的函数,表示为Yi(ti,fi)。此时,Yi(1,0)表示个体i在处理水平为1 且没有受到交互效应影响时的潜在结果,Yi(0,0)表示个体i在处理水平为0且没有受到交互效应影响时的潜在结果,Yi(0,1)表示个体i在处理水平为0且受到交互效应影响时的潜在结果。为方便表述,将所有受到交互效应影响的控制区个体组成的集合称为交互控制区,将所有未受到交互效应影响的控制区个体组成的集合称为真实控制区;实验区称谓不变。

假设3:复合条件均值独立假设一。

式(4)意味着实验区和真实控制区是条件随机分组的,保证了处理效应可识别;式(5)意味着交互控制区和真实控制区是条件随机分组的,保证了交互效应可识别。此时,ATT可定义为:

参与者的平均交互效应AIT可定义为:

回归方程设计为:Yi=X′i β+τ·ti+ωfi+μi。合理估计参数的关键在于恰当确定交互控制区范围,即距离s的大小。本文的解决思路是:假设在某固定控制区内考察s,由于s的每个取值都唯一确定一个交互控制区,也唯一对应一个样本回归方程、处理效应估计值和交互效应估计值,因此令s从小到大连续变动,并分别估计回归方程,根据AIC信息准则选择拟合程度最高的样本回归方程,同时也确定了s的最优取值。

1.4 单向局部交互效应模型设定方法

单向局部交互效应模型设定的关键在于交互控制区的确定。解决思路是:首先,选择可能引起交互效应的协变量,一般这种协变量会影响潜在结果且存在空间相关性;其次,按照协变量取值大小对实验区所有个体进行排序,确定能够产生交互效应的协变量取值最大的前m个样本点,离这些样本点越近,越容易受到交互效应影响;最后,确定某个效应点能够产生交互效应影响的最大范围s,即若控制区个体离这m个效应点的最小距离小于s,则认为其受到交互效应影响。通过上述方法确定的受到交互效应影响的样本点构成的集合就是交互控制区。为方便表述,将前m个实验区的样本点称为效应点,将交互控制区中的样本点称为交互点。上述确定交互控制区的逻辑规则可表示为:

其中,fij表示控制区的第i个样本点是否受到实验区第j个样本点交互效应影响的函数,sij表示第i个样本点与第j个样本点的距离,s为某效应点能够产生交互效应的最大范围,o(xj)表示实验区样本点j按协变量取值大小排序后的位次,m是根据AIC信息准则确定的最优效应点数量。当同时满足三个示性函数括号内的条件时,即认为控制区个体i受到了实验区个体j的交互效应影响。能够识别处理效应和交互效应的主要假设及ATT的定义方法等均与单向系统交互效应模型一致。

1.5 双向系统交互效应模型设定方法

双向系统交互效应模型化的关键在于确定交互实验区和交互控制区,前者表示实验区中受到控制区交互效应影响的所有个体组成的集合,后者表示控制区中受到实验区交互效应影响的所有个体组成的集合。实验区个体i和控制区个体j是否受到交互效应影响的确定规则如下:

当fci取值为1时,表示个体i属于控制区且受到交互效应影响,即处在交互控制区;否则处在其他地区。当ftj取值为1 时,表示个体j处在交互实验区;否则处在其他地区。

假设4:复合条件均值独立假设二。

当假设4 成立时,处理效应和双向交互效应才可识别。式(10)说明潜在结果条件均值独立于真实实验区和真实控制区的处理分组;式(11)、式(12)可类似理解。ATT和交互效应参数可分别定义(推导过程略)为:

回归模型设定为:Yi=X′i β+τti+ωc·fci+ωt·fti+μi,其中,τ代表ATT参数,ωc代表实验区对控制区的交互效应参数,ωt代表控制区对实验区的交互效应参数。

1.6 双向局部交互效应模型设定方法

双向局部交互效应模型与局部单向交互效应模型基于相同理论,其确定交互实验区和交互控制区的方案与单向局部交互效应模型的确定方案一致。ATT 的定义方法以及回归方程的设计方法与双向系统交互效应模型一致。

1.7 忽略交互效应的偏差

当忽略交互效应时,ATT可定义为:E[Yi(1)-Yi(0)|Xi,ti=1]。令p为交互控制区样本量占控制区总样本量的比重,根据式(6),当存在单向交互效应却被忽略时,导致的ATT估计偏差(推导过程略)为:

p越小,说明受到交互效应影响的个体越少,ATT 估计偏差越小。当交互控制区条件均值大于真实控制区的条件均值时,将低估处理效应;反之,将高估处理效应。估计偏差不会随样本量的增加而消失,即忽略交互效应的估计量是不一致的。

令pt和pc分别表示实验区和控制区受到交互效应影响的样本量所占的比重,根据式(13),忽略双向交互效应导致的ATT估计偏差为:

式(17)表示实验区个体受到的总交互效应与控制区个体受到的总交互效应的差值,二者差值越大,ATT 估计偏差越大;反之,则ATT估计偏差越小。

2 空间断点回归交互效应模型的应用

1997 年重庆市升级为直辖市,将此事件视作准自然实验,将重庆市视作实验区,将四川省视作控制区,二者相邻,符合空间断点回归方法应用的实验场景[11]。本文使用包含交互效应的空间断点回归模型对重庆市升级为直辖市的经济效应进行实验设计、统计推断和评价。

2.1 数据来源和平衡性检验

2.1.1 数据来源

相关数据来源于期刊《Journal of Public Economics》官方网站①原始数据来源于网址:https://www.sciencedirect.com/science/article/abs/pii/S0047272720302164?via%3Dihub。更多数据与变量相关信息请查阅文献[11]。。数据集包含四川省和重庆市共5088 个乡镇级别的数据,主要变量有各乡镇卫星灯光密度(1996 年和2013 年)、经纬度、平均海拔、平均坡度,以及2013 年各乡镇工业产出、第二产业就业人数、人均国道里程等。少数民族比例来自2000年人口普查数据。考虑到个体间的可比性以及交互效应讨论的充分性,本文将研究范围限制在边界两侧80千米内。

2.1.2 平衡性检验

图1 中的平衡性检验结果②从主要经济指标看,在边界50千米内,城市化水平、人均GDP、人均工业产出等均无显著差异[11]。表明,从基本禀赋看,坡度、少数民族比例、平均海拔等在边界70千米内无显著差异;1996 年平均灯光密度在边界80 千米内没有显著差异。从乡镇间1996 年灯光密度差异看,重庆市乡镇间发展差异远大于四川省。这具有重要启示:首先,实验区和控制区个体间差异过大,说明二者的研究个体可能不是来自同一分布的抽样,虽然满足条件均值独立假设时可得到平均处理效应的一致估计,但当考察局部处理效应时,会得到不一致的估计,比如使用弦距离或局部交互效应模型;其次,这说明下文加入控制变量的重要性,比如在回归模型中加入经纬度多项式以控制乡镇间的异质性;最后,差异的不平衡可能意味着灯光密度存在空间自相关性,这是存在交互效应的表现之一。综上,可认为在边界25~50千米范围内,重庆市和四川省乡镇具有比较好的可比性。

图1 平衡性检验(变量标准化后,5%的显著性水平)

2.2 单向系统交互效应

捕捉单向系统交互效应的方案设计如下。首先,界定实验区范围。为保障讨论的充分性,界定多个实验区可能涉及的范围,在70千米以内,每隔10千米即尝试将其设置为实验区。其次,确定控制区考察范围。使用两种方案:假设实验区范围为h千米,方案一是将控制区设定为2h千米,方案二是将控制区设定为h千米③方案一会使得不同实验分组间样本量差异过大,故同时考虑方案二。由于考察了多种范围,因此该设定不影响最终结论。。最后,确定交互控制区的范围,即最优距离s。令s连续变化(从2千米开始,每次增加1千米)至允许的最大距离(略小于控制区的范围即可),并逐个进行参数估计,使用AIC信息准则确定最优距离s。普通空间断点回归模型和单向系统交互效应模型的回归方程④根据戚兆坤等(2023)[2]的研究,当潜在结果为宏观变量时,回归模型多使用经纬度;当潜在结果为微观变量时,回归模型多使用空间距离。分别设计如下:

其中,ln 2013-1996i表示乡镇i2013年和1996年灯光密度取对数后的差分,描述了这期间灯光密度的增长率;Chongqingi代表重庆市指示变量,乡镇i位于重庆市时取值为1,否则为0;τ是处理效应参数;ω是交互效应参数;interc代表交互控制区指示变量;f1和f2表示潜在结果关于经纬度的函数,本文使用二次多项式函数。

由表1可知:首先,在单向系统交互效应模型下,处理效应估计值均显著为正,在20 千米以外显著大于普通空间断点回归模型的估计值,且t检验的显著性更强;其次,在20 千米以外,交互效应估计值均显著为正;最后,当在控制区60~160 千米内考察确定交互控制区时,发现最优距离s 都介于47~50 千米,说明在单向系统交互效应模型设计方案下,交互控制区的最优范围在48千米左右。

表1 普通空间断点回归模型与单向系统交互效应模型(方案一)

由表2可知:首先,在交互效应模型下,处理效应估计值在40千米及以内小于普通空间断点回归模型的估计值,且显著性不稳定,在40千米以外处理效应估计值显著为正且大于普通空间断点回归模型的估计值;其次,交互效应估计值在40 千米及以内出现负值,但在50 千米以外显著为正;最后,当将控制区限制在30千米内时,最优交互控制区范围在8千米左右;当将控制区限制在50千米内时,最优交互控制区范围介于47~48千米。

综合上述讨论,在单向系统交互效应模型设定下,最优交互控制区范围在边界48 千米左右,此时四川省的乡镇显著受到重庆市乡镇的系统交互效应影响,且处理效应估计值显著大于普通空间断点回归模型的估计值。

2.3 单向局部交互效应模型

捕捉单向局部交互效应的方案设计如下。首先,将实验区和控制区设定为相同的距离范围。其次,交互控制区的确定面临两个关键问题:一是实验区信息内最优效应点数量m的确定,可令m连续变化并根据AIC 信息准则选择最优值;二是距离s的确定,若假设s为固定距离s0,则不能进行充分讨论,因此假设s随实验区考察范围的扩大而扩大。假设要考察的实验区范围是s1,若选择s=s1,则会导致实验区中到边界距离接近s1的效应点不可能产生交互效应;若选择s=2s1,则当s1过大,比如为70千米时,一个效应点的影响范围就达到140千米,也不太合理。因此本文选择s=1.5s1①由于考察了实验区的多种可能范围,因此此种设定可保证对交互效应的充分讨论,且不会影响最终结论。,即当控制区样本点到实验区效应点的最小距离小于1.5s1时,可认为其受到了该效应点的交互效应影响。依据交互效应产生的原因,主要选取2013年工业产出、2013年灯光密度、2013年第二产业就业人数、2008 年企业规模和企业产出、2013 年国道里程、1996—2013 年卫星灯光密度增长率和注册企业数量增长率等为引起交互效应的主要协变量。单向局部交互效应模型的回归方程设计如下:

回归方程中并不包含经纬度,原因是真实控制区、交互控制区的地理形状并不规则(由几个点的附近区域组成),甚至不联通,二者乡镇的经纬度取值相同或相近的可能性不大,为避免过度模型化引起更大偏差,局部交互效应模型均不控制经纬度。

假设工业发展的集聚特性是引起交互效应的主要原因,以2013 年各乡镇的工业产出作为引起交互效应的协变量进行单向局部交互效应分析,结果见表3。

表3 基于工业产出的单向局部交互效应模型

由表3可知:首先,在单向局部交互效应模型下,处理效应估计值均显著为正,t 检验显著性更强,在60 千米内均大于普通空间断点回归模型的估计值,在20、30、50 千米内更是显著大于的;其次,交互效应估计值均显著为正;最后,交互点数量占控制区中样本量的比重呈增长趋势,最高达到72.9%。

假设某地区经济的迅速发展对周围地区的带动效应或示范效应是引起交互效应的主要原因,并将其称为增长效应。使用各乡镇1996—2013年卫星灯光密度增长率作为引起交互效应的协变量进行局部交互效应分析。研究发现,在边界50千米内,处理效应估计值出现负值但大多不显著,交互效应估计值显著为负,在60~70千米内,交互效应和处理效应估计值均显著为正。说明在小范围内增长效应并不显著,这与Jia等(2021)[11]的研究结论一致,即发达城市周围乡镇的发展程度并不显著高于其他地区乡镇。

根据局部交互效应模型设计方案进一步考察其他8个主要变量作为引起交互效应的协变量时的结果,发现处理效应大多显著为正,但交互效应估计值大小和显著性并不稳健,说明这些变量没有产生重要且稳定的空间交互效应。

2.4 双向交互效应

2.4.1 双向系统交互效应

捕捉双向系统交互效应的关键在于确定交互实验区和交互控制区范围。与单向系统交互效应模型设计原理相同,均使用AIC信息准则确定最优范围。回归方程设计如下:

由表4可知:首先,在双向系统交互效应模型下,处理效应估计值显著为正,在50~60千米内显著大于普通空间断点回归模型的估计值,且t检验显著性更强;其次,根据AIC 信息准则确定的交互控制区最优范围与单向系统交互效应模型基本一致,在48 千米以内;最后,交互实验区的最优范围为10 千米,但交互效应估计值均为负,说明在边界附近,四川省对重庆市几乎没有系统交互效应影响。

表4 双向系统交互效应

2.4.2 双向局部交互效应

捕捉双向局部交互效应的原理与单向局部交互效应相同。下页表5 的结果表明:首先,处理效应估计值均显著为正,与普通空间断点回归模型相比,在30~60千米内,处理效应估计值有所降低,但并不显著;其次,根据AIC信息准则确定的最优效应点数量与单向局部交互效应基本相同;最后,重庆市对四川省的交互效应远大于四川省对重庆市的交互效应,且两类交互效应基本上均显著为正,说明工业产出引起的集聚效应是一种比较稳定的空间交互效应。

表5 基于工业产出的双向局部交互效应

3 结束语

本文提出的交互效应模型为模型化交互效应或处理空间相关性问题提供了可参考的研究范式,将空间断点回归交互效应模型的应用推广至宏观领域,并进一步讨论了两种交互效应模型的设定方法。严格来说,系统交互效应模型过于粗略,不能充分发掘产生交互效应的具体机制,但简单可行,在一定程度上可改善因忽略交互效应引起的偏误。局部交互效应模型主要基于协变量的空间相关性来模型化交互效应,它描述了形成交互效应的潜在机制,对空间断点回归的理论研究和实证应用具有一定的启发性。交互效应模型本质上是一种数据变换或数据重排,把地理空间中的个体按照是否具有某种关系重新分组,即对样本点进行分类,从而有效规避这种关系对因果关系统计推断的干扰,进而得到更一致的结论。普通空间断点回归结果实际上是对整个研究空间的一种平均,可能掩盖重要的局部空间信息。交互效应模型能更客观地描述潜在的数据生成过程,更深刻地揭示经济活动的潜在规律。

猜你喜欢
控制区断点实验区
教育部辟谣义务教育教学改革实验区“取消中考”
平江县入选教育部学前教育实验区
基于OMI的船舶排放控制区SO2减排效益分析
一类无限可能问题的解法
管好高速建筑控制区
阿什河流域非点源污染优先控制区识别
主导电回路发生断点故障判断方法探讨
2016年国家文创实验区规上文化产业收入近2000亿元
足球应用型人才培养模式创新实验区的探索与实践——以学生社会实践为突破口
北美海域新增排放控制区,推动船用燃料和润滑剂规格变化