约束条件下测量误差模型的统计推断

2024-04-11 12:54王照良张旭阳
商丘师范学院学报 2024年3期
关键词:估计量测量误差约束条件

王照良,张旭阳

(河南理工大学 数学与信息科学学院,河南 焦作 454000)

在数据分析中,有些变量可能无法准确收集,如血压,智力,肥胖等,在测量过程中会受到一定程度的影响,就会产生测量误差.这导致了一类测量误差(errors-in-variables)模型.记X∈p为真实模型中的解释变量,Y∈p为响应变量,那么线性回归模型有如下形式

Y=XTβ+ε,

(1)

其中β∈p为未知参数向量,ε是随机误差.在测量误差模型中,解释变量X是潜在变量,常常不能被直接观测.本文考虑线性测量误差或加性误差模型,即

W=X+U,

(2)

其中变量W是可以直接观测的,而U为零均值的测量误差.假设测量误差U与(Y,X)不相关,Cov(U)=∑u.为了模型的可识别性,进一步假设∑u已知.如果∑u未知,我们可以利用文献 [1]中提出的重复测量技术,估计β是我们感兴趣的事情.

正如文献[2]中指出,如果忽略测量误差而直接用W代替X,所得到的估计量和推断可能有偏差和不一致.因此,调整测量误差的存在对于准确描述真实解释变量和感兴趣的响应变量之间的关系很重要.测量误差模型的研究可以追溯到文献[3],文献中提出了测量误差线性模型参数的有效估计量.文献[4]和[5]系统研究了测量误差模型和数据分析,概述了存在测量误差的情况下更现代的估计方法.当X,U,ε的分布已知时,可以使用似然方法估计参数,具体可以参见文献 [6].实现这些似然方法通常需要使用数值方法近似计算,如高斯积分或蒙特卡罗积分.文献[7]使用矩方法来估计线性测量误差模型,考虑了基于三阶矩和四阶矩的参数估计,并发现这些估计量有很大的方差.关于测量误差模型的其他研究成果可参见文献 [8-11].

在某些情况下,一些关于回归系数的先验信息可以从外部样本获得.这些信息可能有不同的来源,如过去的经验或实验者与实验的长期联系,过去进行的类似实验等.使用这些信息可以提高估算器的效率.在线性回归分析的背景下,当这些信息以精确的线性约束的形式使用时,受约束的最小二乘估计量比普通最小二乘估计量更有效,如 [12].在许多重要的统计应用中,由于大量数据驱动的原因,模型(1)的参数分量可能会受到一些附加约束条件的约束.例如,[13]和 [14]中引入了对参数向量β的精确线性约束,构造了附加约束性条件下的修正拉格朗日乘子检验统计量.在本文中,我们假设参数向量β满足以下线性约束:

Hβ=d,

(3)

其中H是一个k×p阶的已知矩阵,rank(H)=k,d是一个k×1阶的已知向量.[15]研究了基于约束条件(3)的模型(1)的估计.文献中没有考虑存在测量误差的情况以及估计的有效性.当解释变量X存在加性误差时,[15]提出的方法会导致参数分量的估计是一个有偏估计量.为此,我们考虑基于约束条件(3)的模型(1) 和(2),并研究估计和检验问题.当H取到不同的矩阵时,我们可以得到不同的约束估计.实际上,参数的受约束估计起到了降维的作用.

本文在线性约束(3)的基础上,研究了参数分量中有测量误差(2) 存在的线性模型(1)的估计问题.我们提出了受约束的纠偏最小二乘估计量,并在一定的正则条件下建立了得到的估计量的渐近性质.最后通过模拟对所提出的方法进行了说明.

本文用M表示矩阵,A表示向量,记A⊗2=AAT,其中AT表示向量的转置,矩阵类似.这一节提出了研究问题,第2节将阐述主要估计方法和提出估计量的渐近性质.第3节通过数值模拟研究了所提方法的有限样本性质.第4节给出简要结论.第5节给出相关理论证明.

1 估计方法和渐近性质

1.1 受约束的纠偏最小二乘法

假设(Y1;X1,W1),...,(Yn;Xn,Wn)是来自测量误差线性模型

(4)

的一个独立同分布的随机样本.在模型(4)中,X是潜在的不可观测的p维解释变量,W是p维可观测变量,Y为响应变量,ε为模型误差且期望为0,方差为σ2,U为测量误差.本文假定E(U)=0和Cov(U)=∑u,且∑u已知.矩阵∑u可奇异,这意味着允许某些分量不存在测量误差,未被污染观测.

假设X可以被直接观测到,即不存在测量误差,则理论上β可通过最小化E‖Y-XTβ‖2得到,通过求导可得最优的估计方程为

E[X(Y-XTβ)]=0.

然而,测量误差模型(4)中的X是不可观测的,如果直接用W来替换X,最小化E‖Y-WTβ‖2,则有

E[W(Y-WTβ)]=-∑uβ≠0.

因此,直接用观测变量W来替换潜在变量X,所得估计是有偏的,甚至是不相合的.注意到,

E[W(Y-WTβ)+∑uβ]=0,

于是,可通过最小化如下的偏差校正的目标函数

Qn(β)=‖Y-WTβ‖2-nβT∑uβ.

(5)

来估计未知参数β.式(5)右端的第二项-βT∑uβ是一个负的惩罚运算,其作用是削减由测量误差带来的影响.也就是说,当它是一个标量时,为了在绝对值中低估β,必须取更大的β来校正衰减,而不是进一步皱缩它接近于0.因此,它起一个校正的作用.

通过简单计算,最小化(5)可以得到β的偏差校正估计量为

(6)

其中Y=(Y1,Y2,...,Yn)T,W=(W1,W2,...,Wn)T.

如果能够获得感兴趣的回归系数的先验信息,则利用这些先验信息可以提供更好的估计,如果我们忽略了先验信息,可能会增加对数据误读的可能性.对模型(1)和(2),如果感兴趣的参数β满足精确的线性约束条件(3),本文提出通过最小化如下偏差校正的拉格朗日函数

F(β,λ)=(Y-Wβ)T(Y-Wβ)-nβT∑uβ+2λT(Hβ-d)

作为β的估计量.

利用函数极值的一阶条件,对函数F(β,λ)分别关于β和λ计算偏导数,并且将结果分别设为零,即得到如下的估计方程

(7)

通过计算,可以得到方程(7)的解为

(8)

其中S=WTW-n∑u.

求未知参数β满足约束条件(3)的一致估计量,还可以通过如下带约束的极值问题

s.t.Hβ=d

1.2 渐近性质

为了得到估计量的渐近性质,我们首先给出下列正则条件.

C1.矩阵∑x=E(XXT)非奇异.

C2.随机样本(Y1;X1,W1),…,(Yn;Xn,Wn)独立同分布.

C3.假定E(ε)=0,D(ε)=σ2且ε与X不相关.

C4.假定E(U)=0,且U与(X,Y,ε)不相关.

引理1假设条件C1-C4成立,当n→∞时,则

∑1=E{ε-UTβ}⊗2∑x+E{(UUT-n∑u)β}⊗2+σ2∑u

定理1假设条件C1-C4成立,当n→∞时,则

定理2假设条件C1-C4成立,当n→∞时,则

∑3=HT[HHT]-1H.

2 数值模拟

为实施模拟,利用模型(1)和(2)产生模拟数据.考虑p=4的情形,其中β=(1.5,2,1,1.5)T.显然参数β满足线性约束Hβ=0,其中矩阵H为

为了评估估计量的有限样本性能,分别在样本容量n=50,100,200下通过1000次重复模拟计算偏差(Bias),标准差(SD) 和均方误差(MSE).模拟旨在研究不同样本容量n,不同测量误差水平∑u和X各分量之间不同相关性设置下的5种估计方法的表现.表1和表2分别展示了当∑x=Ip和∑x=(0.5|i-j|)1≤i,j≤p时的模拟结果.

表2 当∑x=(0.5|i-j|)1≤i,j≤p时,5种估计方法的模拟结果

图1 当∑x=Ip,σu=0.2,n=100时,基于1000次模拟计算估计量的直方图及密度估计曲线

3 结 论

本文考虑了精确线性约束条件(3) 下测量误差线性回归模型的统计推断问题.结合偏差校正最小二乘法和拉格朗日乘子法,对模型中的参数向量β提出了受约束的纠偏最小二乘估计方法.在一定的正则性条件下,证明了所提出的参估计量的渐近正态性.此外,通过MonteCarlo模拟研究了所提出方法的有限样本性能.理论结果和模拟结果均表明所提出的估计量优于其他类型的估计量.

4 定理证明

4.1 引理1的证明

其中R是与u无关的项.

由ε,U和X的独立性,以及中心极限定理,可知

由条件C1和大数定律可得,

其中

由所给条件和大数定律可得,

此外,容易计算

E{XT(ε-Uβ)+UTε-(UTU-n∑u)β}=0.

根据中心极限定理,可得

∑1=E{XT(ε-UTβ)+UTε-(UUT-n∑u)β}⊗2=E{ε-UTβ}⊗2∑x+E{(UUT-n∑u)β}⊗2+σ2∑u

最后,根据Slutsky定理可知

引理1得证.

4.2 定理1的证明

证明 首先定义J=I-S-1HT[HS-1HT]-1H,其中

S=WTW-n∑u.

(9)

根据(8),简单计算可知

其中J0=I-∑x-1HT[H∑x-1HT]-1H.

由Slutsky定理和引理1,可得

综上,

定理1得证.

4.3 定理2的证明

类似于定理1的论证,可以完成定理2的证明.因此,我们省略了证明的细节.

猜你喜欢
估计量测量误差约束条件
基于一种改进AZSVPWM的满调制度死区约束条件分析
密度测量误差分析
纵向数据下变系数测量误差模型的渐近估计
A literature review of research exploring the experiences of overseas nurses in the United Kingdom (2002–2017)
浅谈估计量的优良性标准
牵引变压器功率测量误差分析
基于配网先验信息的谐波状态估计量测点最优配置
IMU/GPS测量误差对斜视条件下机载重轨干涉
负极值指标估计量的渐近性质
使用变异系数和Kurtosis系数的双辅助变量的比估计