基于主成分分析法的两步子抽样算法及应用研究

2023-04-08 16:15王玉李莉莉周楷贺
关键词:查准率样本量参数估计

王玉 李莉莉 周楷贺

摘要:

针对大数据中高维变量多重共线性问题,结合Logistic模型提出两种基于主成分分析法的两步子抽样算法,分别为基于A-最优准则的最小均方误差(minimum Mean Square Error, mMSE)抽样和基于L-最优准则的最小方差协方差(minimum Variance covariance, mVc)抽样。实证结果表明,相较于随机抽样,mMSE抽样和mVc抽样能大幅降低模型参数估计的均方误差,提升模型的查准率、召回率、F1分数、特异度等分类评价指标。

关键词:

大数据;主成分分析法;两步子抽样算法;信用风险预测

中图分类号:O212.2         文献标志码:A

大数据具有庞大的数据规模和多样的特征类型,广泛应用于日常工作、生活中,是机器学习、人工智能的计算基础。目前基于有限计算资源处理大数据的技术包括分治法[1]、数据流在线更新算法[2]、随机梯度下降算法[3]、随机投影算法[4]和子抽样算法[5]等。基于信息的最优子抽样算法策略是抽取D-最优准则[6]下具有最大信息矩阵的子数据集并进行参数估计[7]。Logistic回归模型下的子抽样方法也不断涌现,如使用“拒绝—接受”方案在局部空间中调整数据平衡的子抽样方法[8];用于多分类Logistic回归模型的局部不确定性抽样方法[9];基于试验设计中A-最优准则[10]的最优子抽样算法(Optimal Subsampling Methods motivated from the A-Optimality Criterion, OSMAC),以及基于L-最优准则[11]改进的最优子抽样算法[12]。除Logistic回归模型外,OSMAC还被应用于Softmax逻辑回归模型[13]、广义线性模型[14]、分位数回归模型[15-16],拟极大似然估计[17],岭回归模型[18],分布式数据[19]以及基于单元间距离估计的不等概率抽样[20]。信用贷款的违约风险常用Logistic模型预测,该模型具有稳健性[21]。随着数据量和特征量的增大,数据实际应用中可能会产生多重共线性问题,导致增大模型参数估计的均方误差,或出现应用结果与事实背离的情况,因此需要对存在多重共线性问题的大数据进行抽样研究。综上,本文提出一种改进的基于主成分分析法的两步子抽样算法,结合Logistic模型,应用在信用贷款违约风险预测中,通过模型的均方误差、分类评价指标评估算法性能。

1.3 两步子抽样

最优子抽样算法所需入样概率πimMSE与πimVc均受制于未知参数β︿MLE,但通过计算获得β︿MLE需要花费大量的时间和计算成本。多步子抽样的最大时间复杂度为线性增加,对未知总体的信息增量呈现边际效应递减,为兼顾时间与效率,使用两步子抽样算法[12]。第一步获得总体分布的先验信息,第二步利用第一步所得先验信息完成二次抽样获得更能代表未知总体的样本。算法的核心思想是抽取一阶样本获得先导估计量β~0,再应用A-最优准则和L-最优准则获得样本的入样概率,以此开始第二阶段抽样,进而估计总体参数β⌒。定义总体数目为n,一阶抽样样本量为r0,二阶抽样样本量为r,总抽样数量R=r0+r。两步子抽样算法对样本数量有如下要求:0

(1) 使用主成分分析法处理存在多重共线性的高维数据,采用有放回的Uni抽样在主成分矩阵中抽取r0个一阶样本,构建一阶样本集S~r0=y*i,F*i,π*i,i=1,2,…,r0,样本权重π*i=1/n。最大化样本加权对数似然函数,获得一阶参数β~0,用β~0代替β︿MLE代入到式(4)和式(5),得入样概率πimMSE(β~0)与πimVc(β~0);

(2) 利用步骤(1)中所得入样概率进行有放回的不等概率抽样,抽取r個二阶样本,构建二阶样本集后与一阶样本集合并,记合并后的样本集分别为SmMSE*R=S~r0∪y**i,F**i,πmMSEi(β~0),i=1,2,…,r和SmVc*R=S~r0∪y**i,F**i,πmVci(β~0),i=1,2,…,r。将样本集SmMSE*R和入样概率πimMSE(β~0)代入样本加权对数似然函数可得第二阶段估计参数β⌒mMSE;将样本集SmVc*R和入样概率πimVc(β~0)代入样本加权对数似然函数可得第二阶段估计参数β⌒mVc。

2 实证分析

利用信用风险数据,研究基于主成分分析法的两步子抽样的算法性能,由所得Logistic回归模型参数的mse和模型分类效果评价mMSE、mVc、Uni三种抽样算法,根据CPU耗时比较mMSE抽样和mVc抽样。原始数据集共有518 107条数据,剔除无效数据后共有377 474条数据,67个变量,使用KMO检验和巴特利特球形检验查看初始变量相关性,检验结果显示,KMO值为0.79,巴特利特球形检验的显著性为0.00,

变量间存在相关性,以80%的累计贡献率提取主成分19个。假定一阶抽样样本量r0=200,第二阶段抽样样本量分别为r=600,700,800,900,1 000,1 100,1 200,1 300,1 400,1 500,1 600,1 700,1 800,总抽样数量R=r0+r。按7:3划分训练集和测试集,重复执行K=1 000次。比较模型参数估计的mse,该指标反映参数估计量和真实值之间的差异。由图1可知,随总体样本量增加,三种抽样得到的模型参数的平均mse分别为0.037 8、0.040 3和0.104 9,mMSE抽样、mVc抽样得到的mse远低于Uni抽样,分别降低95%和93%,mMSE抽样所得mse最小,说明mVc和mMSE抽样与Uni抽样相比更接近全样本的参数估计精度,mMSE抽样的参数估计精度更高。

信用風险分析中,需要识别违约个体。本数据集目标变量为客户的合同状态,规定0代表借贷表现正常,1代表借贷表现存在违约行为。查准率表示预测所得正常样本中预测正确的比例,衡量模型预测正常样本的准确度;召回率表示预测所得正常样本占所有真实正常样本的比例,衡量模型预测正常样本的能力;F1分数为查准率和召回率的调和平均数;特异度表示预测所得违约样本占所有真实违约样本的比例,代表模型预测违约样本的能力。通过计算查准率、召回率、F1分数、特异度四项分类评价指标,评价使用mMSE抽样、mVc抽样和Uni抽样构建分类器的分类性能。由图2可知,mMSE抽样和mVc抽样较Uni抽样的查准率分别提升0.18%和0.2%;召回率分别提升1.4%和1.3%;F1分数分别提升0.8%和0.78%;特异度分别提升3.5%和3.9%。使用mMSE抽样、mVc抽样构建的分类器,查准率、召回率、F1分数、特异度等评价指标均高于Uni抽样。

通过抽样所需CPU耗时,比较mVc抽样和mMSE抽样的运行性能。由图3可知,mMSE抽样和mVc抽样的CPU耗时均随总体样本量R增加而递增,mMSE抽样CPU耗时(0.217~0.287 s)高于mVc抽样(0.084~0.159 s)。信用贷款违约风险预测实例表明,相较于传统的Uni抽样,基于主成分分析法的mMSE抽样和mVc抽样的预测非违约类样本准确度高且能力强,特别是违约类样本预测能力大幅度提升。这两种抽样算法能够降低模型参数估计mse,提高模型分类预测精度。

3 结论

本文结合Logistic模型,使用基于主成分分析的两步子抽样算法处理存在多重共线性的数据,提取主成分代替原始数据后,使用两步子抽样算法求解模型未知参数,根据计算结果评价模型表现。实证结果表明,信用贷款违约风险预测问题中,主成分矩阵经过mMSE抽样和mVc抽样后,相较于Uni抽样,模型参数估计的均方误差大幅降低,模型估计参数更接近真实值,模型预测正负样本的能力均有提升,特别是模型预测违约类样本的能力显著增强。今后研究将结合两步子抽样算法和其他克服多重共线性方法,扩展算法应用范畴。

参考文献

[1]LIN N, XI R B. Aggregated estimating equation estimation[J]. Statistics and Its Interface, 2011, 4(1): 73-83.

[2]SCHIFANO E D, WU J, WANG C, et al. Online updating of statistical inference in the big data setting[J]. Technometrics, 2016, 58(3): 393-403.

[3]TOULI S P, AIROLDI E M. Asymptotic and finite-sample properties of estimators based on stochastic gradients[J]. Annals of Statistics, 2017, 45(4), 1694-1727.

[4]ROKHLIN V, TYGERT M. A fast randomized algorithm for overdetermined linear least-squares regression[J]. Proceedings of the National Academy of Sciences, 2008, 105(36): 13212-13217.

[5]MAHONEY M W, DRINESA P. CUR matrix decompositions for improved data analysis[J]. Proceedings of the National Academy of Sciences, 2009, 106(3): 697-702.

[6]PRONZATO L. Adaptive optimization and D-optimum experimental design[J]. Annals of Statistics, 2000, 28(6): 1743-1761.

[7]WANG H Y, YANG M, STUFKEN J. Information-based optimal subdata selection for big data linear regression[J]. Journal of the American Statistical Association, 2019, 114(525): 393-405.

[8]FITHIAN W, HASTIE T. Local case-control sampling: Efficient subsampling in imbalanced data sets[J]. Annals of Statistics, 2014, 42(5): 1693-1724.

[9]HAN L, TAN K M, YANG T, et al. Local uncertainty sampling for large-scale multi-class logistic regression[J]. Annals of Statistics, 2020, 48(3): 1770-1788.

[10] IMHOF L A. A-optimum exact designs for quadratic regression[J]. Journal of Mathematical Analysis and Applications, 1998, 228(1): 157-165.

[11] WONG W K. A graphical approach for the construction of constrained D and L-optimal designs using efficiency plots [J]. Journal of Statistical Computation and Simulation, 1995, 53(3-4): 143-152.

[12] WANG H Y, ZHU R, MA P. Optimal subsampling for large sample logistic regression[J]. Journal of the American Statistical Association, 2018, 113(522): 829-844.

[13] YAO Y Q, WANG H Y. Optimal subsampling for softmax regression[J]. Statistical Papers, 2019, 60(2): 585-599.

[14] AI M Y, YU J, ZHANG H M, et al. Optimal subsampling algorithms for big data regressions[J]. Statistica Sinica, 2021, 31(2): 749-772.

[15] WANG H Y, MA Y Y. Optimal subsampling for quantile regression in big data[J]. Biometrika, 2021, 108(1): 99-112.

[16] AI M Y, WANG F, YU J, et al. Optimal subsampling for large-scale quantile regression[J]. Journal of Complexity, 2020, 62: 101512.

[17] YU J, WANG H Y, AI M Y, et al. Optimal distributed subsampling for maximum quasi-likelihood estimators with massive data[J]. Journal of the American Statistical Association, 2020, 117(537): 265-276.

[18] 李莉莉, 靳士檑, 周楷贺. 基于岭回归模型大数据最优子抽样算法研究[J]. 系统科学与数学, 2022, 42(1): 50-63.

[19] 李莉莉, 杜梅慧, 张璇. 基于logistic回归模型的大数据分布式两步子抽样算法[J]. 数理统计与管理, 2022, 41(5): 858-866.

[20] 周楷贺, 李莉莉. 基于单元间距离估计的不等概率抽样算法及应用[J]. 青岛大学学报(自然科学版), 2023, 36(2): 5-10.

[21] 邹鑫, 李莉莉, 房琳. 基于Logit和KMV的我国上市公司信用风险的比较研究[J]. 青岛大学学报(自然科学版), 2014, 27(2): 90-95.

Research on Two-step Subsampling Algorithm Based on Principal Component Analysis and Its Application

WANG Yu, LI Li-li, ZHOU Kai-he

(School of Economics, Qingdao University, Qingdao 266061, China)

Abstract:

For the multicollinearity problem of high-dimensional variables in big data, two two-step subsampling algorithms based on principal component analysis were proposed combined with Logistic model. They are minimum Mean Square Error (mMSE) subsampling based on A-optimality criterion and minimum Variance covariance (mVc) subsampling based on L-optimality criterion. The empirical results show that compared with Uniform subsampling, mMSE subsampling and mVc subsampling can significantly reduce the mean square error of model parameter estimation, and improve the classification evaluation indexes such as the accuracy rate, recall rate, F1 score and specificity of the model.

Keywords:

big data; principal component analysis; two-step subsampling algorithm; credit risk prediction

收稿日期:2023-03-28

基金項目:

国家社科基金(批准号:2019BTJ028)资助;山东省金融应用重点研究项目(批准号:2020-JRZZ-03)资助。

通信作者:

李莉莉,女,博士,教授,主要研究方向为金融统计、统计调查与预测。E-mail: lili_lee2003@126.com

猜你喜欢
查准率样本量参数估计
基于新型DFrFT的LFM信号参数估计算法
医学研究中样本量的选择
航空装备测试性试验样本量确定方法
基于数据挖掘技术的网络信息过滤系统设计
大数据环境下的文本信息挖掘方法
Sample Size Calculations for Comparing Groups with Binary Outcomes
基于深度特征分析的双线性图像相似度匹配算法
Logistic回归模型的几乎无偏两参数估计
基于向前方程的平稳分布参数估计
基于竞争失效数据的Lindley分布参数估计