甘肃劳动者报酬影响因素分析
——基于岭回归与Lasso 回归

2024-04-07 13:29赵向荣
商展经济 2024年6期
关键词:共线性消费水平报酬

赵向荣

(兰州财经大学 甘肃兰州 730020)

1 引言

劳动者报酬是体现劳动者收入的分配格局[1-2],研究劳动者报酬对了解消费状况[3]、制定政策、资源配置等具有重要意义。大量文献表明,影响劳动者报酬的因素为居民消费水平、物质资本存量、人口数量、社会保障[4]等因素,而居民收入、人口数量与消费习惯[5-9]是决定劳动者报酬的决定性因素。近年来,虽然国家出台了一系列政策(乡村振兴战略、城镇化等),且2020年是消除全面贫困的收官之年,但甘肃省的城乡收入差距还较大,城镇居民收入远大于农村居民收入[10-12]。考虑到数据的可获取性及研究的可行性,本文选择农村居民消费、城镇居民消费、资本存量、人口数量为解释变量,劳动者报酬为被解释变量,研究劳动者报酬的影响因素。对于该问题的研究,一般采用普通最小二乘法(OLS)估计模型参数,但如果模型中存在多重共线性问题,那么最小二乘法的估计就会失效[13-15],此时的估计量不再是无偏估计量。其参数估计公式为β=(XTX )-1XTy ,若XTX 不可逆,则无法求出β。此外,XTX 趋向0时,则可能导致回归系数无穷大,此时得到的回归系数是无意义的,解决此类问题可使用两种方法:一是利用Lasso回归;二是岭回归。

2 岭回归的基本原理

2.1 参数推导

考虑一个标准的线性回归模型

其期望E(ε ) =0, E(ε εT)= Iσ2且X 是n × p的矩阵则:

但是由于XTX 趋向0或XTX 不可逆,则模型不可求解,为解决这一问题,设线性回归模型的目标函数:

为了估计出β,岭回归模型增加 L2范数:

式(5)中:λ 大于0,只有λ 越大,才能让 J ( )β 变小,参数估计β 变小。

(XTX+ λI)将导致β 为非偏估计。模型复杂度的提升,在训练集上的效果越好,即模型的偏差越小。根据凸优化问题,将目标函数 J ( )β 最小化等价于:

式(8)中:t为一个常数,β 为n维列向量βT=(β1, β2,..., βn)。而其中的关键问题是寻找最小的λ。

2.2 参数λ 的选取

交叉验证法的思想是将数据集拆分为k个数据组(每组样本量大体相当),从k组中挑选k-1组用于模型的训练,剩下的1组用于模型的测试,则有k-1个训练集和测试集配对,每种训练集和测试集下都会有对应的一个模型及模型评分(如均方误差),进而可以得到一个平均评分。对于值λ,则选择平均评分最优的λ 值。

3 Lasso回归基本原理

3.1 参数推导

岭回归无法剔除变量,对于Lasso回归模型,将惩罚项由L2范数变为L1范数,由此可将一些不重要的系数缩减为0,达到剔除变量的目的。

2009年以来,烟草行业逐步在全系统推广福建省烟草公司审计委派制的经验和做法,在全系统实行内部审计委派制,即由省级公司向地市级公司派驻审计人员,建立“双重领导,垂直管理、监督驻地、参审异地”的内部审计运行体系。委派制实施以来,内部审计工作成效显著,审计监督的整体性和宏观性作用得到有效发挥,为全系统规范健康发展提供了有力保障。但从运行情况来看,也存在着不少的问题,期待通过深化改革,进一步激活活力,发挥内部审计的作用。

式(9)中:E SS ( )β 表示误差平方和;λ l1(β) 表示惩罚项,由于惩罚项变成了绝对值,则在零点处就不可导,故采用坐标下降法。对于p维参数的可微凸函数 J ( )β ,如果存在使得 J ( )β 在每个坐标轴上均达到最小值,则 J (β) 就是点J (β )上的全局最小值。控制其他p-1个参数不变,对目标函数中的某一个jβ 求偏导,以此类推,对剩下的p-1个参数求偏导。

由于惩罚项不可导,则使用次导数:

令两个偏导数相加等于0,则:

3.2 参数λ 的选取

参数λ 的选取有两种方法:一是机器学习领域的交叉验证(Cross- Validation)法;二是信息准则法,具体计算公式如下:

式(16)(17)中:RSS表示残差平方和,df表示自由度。一般情况下,选择局部最小信息标准λ 时的参数值。

4 数据收集与变量选择

甘肃劳动者报酬用Y 来表示。样本数据劳动者报酬的计算是以2000年为基期。相关数据均来自2000—2021年国家统计局网。

甘肃省人口数据,年均人口数是由年末人口数计算而得,相关数据均来源于2000—2021年国家统计局网。

城镇居民消费水平与农村居民消费水平,其数据来源于2000—2021年国家统计局网,根据消费价格指数,平减到以2000年为基期的城镇居民消费水平、农村居民消费水平。

5 劳动者报酬的回归分析

设我省资本存量、常住人口数、城镇居民消费水平、农村居民消费水平、城镇化率分别为X1、X2、X3、X4、X5,劳动者报酬为Y,则:

令X=( X1, X2, X3, X4, X5),对X 与Y 作最小二乘回归,即

5.1 最小二乘(OLS)法

以表1中的数据为样本,运用最小二乘估计回归系数β利用R语言估计参数,结果如表1所示。

表1 最小二乘回归

回归系数分别为:β0=-17370、β1=1.327、β2=5.004、β3=0.2074、β4=-0.7656,虽然模型的可决系数R2=0.9989很高,表明模型的拟合优度较好,但其中X3、X4参数值在5%的显著性水平下并不显著,且X4的参数估计值为负值,这显然不符合实际。导致这样问题的发生是因为解释变量间存在多重共线性,最小二乘法估计参数及参数检验都是失效的。

多重共线性的诊断。判断自变量之间是否存在多重共线性有两种方法:一是通过参数估计的系数是否符合实际经济意义;二是测算方差膨胀因子,从检验的准确性来讲,方差膨胀因子判断是否存在多重共线性更具一般性,如果方差膨胀因子(VIF)大于10,就表明存在多重共线性。由表1中可知五个变量皆存在多重共线性,其方差膨胀因子分别为:54.35869、30.58235、194.93805、973.71840,均大于10。综上所述,4个自变量皆存在多重共线性。

5.2 岭回归

按照岭回归的算法估计回归参数,假设迭代步长为0.01,利用R软件即可确定最佳回归参数λ的岭脊图,如图1所示。

图1 岭脊图

由图1可以看出,λ不断增大时,解释变量系数逐步趋于稳定,当λ=0.05以后,解释变量系数基本稳定,此时λ为0.05,具体如表2所示。

表2 岭回归参数估计

由表2可知,4个自变量的标准回归系数分别为β0=-16520、β1=1.1269、β2=4.749、β3=0.0259、β4=0.0748,系数值较为合理,4β由负值修正为正值,且符合实际意义,即在其他条件不变的情况下,农村居民消费水平每变化1单位,则劳动者报酬变化0.0748个单位。通过分析回归系数我们可以得出以下结论:当其他变量不变的情况下,资本存量每变化1个单位其劳动者报酬变化1.1269个单位;当其他条件不变的情况下,常住人口每变化1单位,其劳动者报酬变化4.749个单位;当其他条件不变的情况下,城镇居民消费水平每提升1个单位,其劳动者报酬增加0.025个单位。

根据回归结果,岭回归的模型估计值为:

5.3 Lasso回归

上文的方法使用了岭回归,在此基础上,消除了多重共线性,避免了回归系数的不稳健。本文通过Lasso回归对该模型进行拟合,相比岭回归Lasso回归使用了1L范数,由此可将一些不重要的系数缩减为0,达到剔除变量的目的。

从表3的估计结果来看,R2=0.999模型的拟合效果较好,从变量被选择回归的顺序可以看出:第一,选择X1(资本存量);第二,选入的变量是X4(农村居民消费水平);第三,选入的变量是X2(常住人口数);第四,选择的变量是X3(城镇居民消费水平);第五,剔除了变量X4(农村居民消费水平),第六,加入变量X4(农村居民消费水平)。同样可从图2得到相同的结论。第零次迭代,模型的系数全为零,第一次迭代,X1的系数不为零,其他变量的系数皆为零,第二次迭代,变量X1与变量X4的系数不为零,第三次迭代,变量X1与变量X4以及变量X2的系数不为零,第四次迭代,变量X1与变量X2及变量X3的系数不为零,第五次迭代,仍然是变量X1与变量X2及变量X3的系数不为零,且达到稳定状态,第六次迭代,变量X1、变量X4、变量X2及变量X3的系数都不为零。

图2 lasso回归变量选择图

表3 Sequence of Lasso moves

本文利用Lasso回归方法对模型进行估计,如表4所示,迭代0次的CP值最大为13060.3440;迭代1次的CP值显著下降,为4743.2695;迭代2次的CP值为1773.2556;迭代3次的CP值为79.3354;迭代四次的CP值为60.0975;迭代5次的CP值为3.2024;迭代6次的CP值为5。一般情况下,本文选择CP值最小的迭代次数,也就是5次迭代,其CP值最小且此时的自由度为4,即该种情况下是符合本文所需的模型。

表4 lars与lasso的比值

通过使用R软件可以计算出常数的系数值为-13756.25所以最终模型为:

β0=-13756.25、β1=1.3208442、β2=4.723578、β3=0.03342363,系数值较为合理,通过分析回归系数本文得出以下结论,当其他变量不变的情况下,资本存量每变化一单位其劳动者报酬变化1.32个单位,当其他条件不变的情况下,常住人口每变化1单位,其劳动者报酬变化4.7235个单位,当其他条件不变的情况下,城镇居民消费水平每变化1单位,其劳动者报酬变化0.033个单位。

6 结语

综上所述,劳动者报酬反映了甘肃省经济发展的基本情况,无论是城镇居民消费水平还是农村居民消费水平甘肃都有了显著提升,其生活水平也日益提升,家庭财富不断积累,劳动者报酬稳固增加。通过分析劳动者报酬的影响因素,可以提升居民消费水平,促进内需拉动经济增长,以及促使劳动者报酬不断增加。在运用线性回归分析劳动者报酬影响因素时,由于它们之间存在多重共线性,采用最小二乘法进行估计得到的,估计的参数是失效的,因此分别采用岭回归估计与Lasso回归估计参数。这两种方法都克服了线性相关的问题,保障了参数估计结果的稳健。对于岭回归而言尽最大可能保留了原有变量而且使得估计有效,而Lasso回归最终也使得系数稳健估计。本文分别运用岭回归与Lasso回归研究了城镇居民消费、农村居民消费、人口数量、资本存量对甘肃省劳动者报酬的影响。结果表明:对于岭回归而言,对甘肃省劳动者报酬影响因素由大到小的因素依次为:资本存量、人口数量、农村居民消费水平、城镇居民消费水平;对于Lasso回归来说,对甘肃省劳动者报酬影响因素由大到小的因素依次为资本存量、人口数量、城镇居民消费水平。

猜你喜欢
共线性消费水平报酬
预计到2050年中国城乡消费水平将无明显差距
银行不良贷款额影响因素分析
中国人均消费世界排名与增长预测研究
——基于指数增长模型
文氏图在计量统计类课程教学中的应用
——以多重共线性内容为例
不完全多重共线性定义存在的问题及其修正建议
我国人均消费水平影响因素分析
我国经济增长与国民消费的演进
医生的最佳报酬
《使用文字作品支付报酬办法》发布
谁没领到报酬