基于机器学习的信用卡逾期预测研究

2024-03-16 10:11卢荣伟黄嫦娥谢久暉
科学技术创新 2024年6期
关键词:信用卡阈值森林

卢荣伟,黄嫦娥*,谢久暉*

(桂林电子科技大学 数学与计算科学学院,广西 桂林)

引言

随着互联网和移动支付的快速发展,信用卡已经成为了人们日常生活中必不可少的支付手段之一。准确预测逾期风险可以帮助银行更好地管控风险,减少损失。客户的信用卡信息和个人消费数据往往与其违约行为有着某种联系。借助机器学习方法来学习这种“联系”,从而对大规模客户进行信用评价是可行的。已有的研究表明,机器学习算法在信用卡逾期预测问题上具有更高的效率和准确性。R Singh1.1.1[1]在信用评分问题中,对传统的统计和现代数据挖掘、机器学习工具进行了评估,其对比了线性判别分析、支持向量机核密度估计、逻辑回归、遗传算法、邻近算法等技术,结果表明,支持向量机和遗传算法在分类信用卡申请人误判率上较其他技术优越。然而,已有的研究中,很少基于本文针对传统机器学习模型预测为“未逾期”客户的可信度不高问题,对传统的机器学习模型进行改进,降低将“逾期”客户预测成“未逾期”客户的概率,使得模型预测结果有较高的可信度,从而为银行实现信用卡精准销售,优化客户资源,降低信用违约风险的目的。

1 预备知识

1.1 ROC 曲线与PR 曲线

ROC(Receiver Operating Characteristic)曲线是描述二元分类器在不同阈值下的表现的曲线。PR(Precision-Recall)曲线是弥补了ROC 曲线在处理不平衡数据时出现缺陷而诞生的一种评估指标。横轴表示召回率(recall),纵轴表示精确率(precision) 。PR 曲线显示了在不同阈值下,精确率和召回率之间的折中关系。曲线上每个点代表一个不同的阈值,需要根据实际需求来选择合适的阈值。如果更加关注查准率,则应该选择PR 曲线上靠较左侧的点作为最佳阈值;如果更加关注查全率,则应该选择PR 曲线上靠较右侧的点作为最佳阈值[2]。

1.2 评价指标

混淆矩阵[3]是机器学习中用于评估分类模型性能的一种方法。它是一个二维数组,横轴表示实际的类别,纵轴表示预测的类别,每个元素表示将实际类别预测为某个类别的样本数目,见表1。

表1 混淆矩阵

根据混淆矩阵可以计算得到多个指标来评估分类模型性能,如准确率、召回率、精确率和可信度等。准确率(Accuracy)是指所有被正确分类的样本占总样本数的比例。召回率(Recall)是指所有真正例被正确识别出来的比率。精确率(Precision)是指被正确识别出来的真正例占所有被识别为真正例的样本数目的比率。可信度(credibility)是指被识别为负例的样本中,实际的负例样本所占比例。

可信度是基于本文研究的实际问题——信用卡逾期预测,提出的一个模型评价指标。可信度值越大,说明该模型识别出来的“未逾期”客户更可靠。

2 数据获取与预处理

本文的数据来自Default of Credit Card Clients Dataset[4],数据集共有30 000 条数据,包含了持卡人的个人信息以及从2005 年4 月到2005 年9 月的信用卡信息,其中被解释变量是客户违约的状态,解释变量是客户的个人特征以及行为特征。

信用卡数据集中含有大量的分类数据,例如历史逾期信息等。若直接将这些分类数据作为模型输入,会导致模型无法理解或产生偏好。因此,本文首先对分类数据采用独热编码处理,这样可以提高模型性能,独热编码后的特征可以保留原始分类信息,同时在模型训练中不会给予不同取值之间的误导,还能够避免出现负数和相对大小等比较难处理的问题。其次,因为各个特征的量纲不一致,本文对所有样本数据进行标准化处理。最后,考虑到信用卡数据集实际逾期客户人群的占比较少,导致了样本不平衡的问题。样本不平衡会导致模型过拟合、准确率误导、少数类别分类效果差等。因此,为了解决样本不平衡问题,采用了SMOTE 采样方法平衡处理,改善模型的性能。

3 模型构建与评估

3.1 基于PR 曲线的随机森林模型构建

在实际应用中,银行不但希望模型整体预测的准确率保持在一定的水平,更要尽可能降低实际逾期的客户被预测为未逾期的比例,以使贷款银行遭受的损失最小。基于这样的现实问题,本文致力于构建一种机器学习模型,使可信度credibility 和召回率recall 值都较高。首先采用十折交叉验证对逻辑回归、朴素贝叶斯、随机森林、XGBoost、决策树模型进行交叉验证,结果见图1。图1 的横坐标依次为逻辑回归,朴素贝叶斯,随机森林,XGBoost,决策树模型,纵坐标为AUC值。随机森林模型的AUC 值最高,说明随机森林模型的分类表现最好。

图1 各模型交叉验证结果

数据集中特征的重要性往往是参差不齐的,构建一个好的随机森林分类,需要选择合适数量且对目标变量解释性强的特征进入分类器训练中。通过计算基尼纯度或信息增益的减少量可以对特征进行重要性评估,容易得到X6(最近一个月的逾期状态)在重要程度上远高于其他特征,其次仍然是前几个月的信用卡特征,而对于客户的性别年龄受教育程度和婚姻状况其实对下个月是否逾期并没有显著的影响关系。评估完各个特征的重要性后,还需确定入选多少个特征最好,选择的依据是以AP 值(PR 曲线下的面积)。选择重要性排在前十的特征(见表2)进入随机森林模型中,且利用网格搜索法寻找出最优超参数训练得到分类结果,模型的最佳得分为0.839。

表2 特征重要性程度排名

为了尽可能降低实际逾期标签被分类为未逾期的比例,在模型评估中使用PR 曲线。并利用F2得分来衡量模型优劣。根据PR 曲线上使得F2得分最大的对应点,可计算得最佳阈值为0.182。

根据以上分析,得到基于PR 曲线改进的随机森林模型算法如下。

基于PR 曲线的随机森林分类算法。1:对于每个随机森林分类器i,进行如下操作:(a) 从训练数据集D 中随机有放回地抽取n 个样本,构成新的训练数据集 D ;输出:预测结果P p p p={ , ,..., }(b) 使用 D 训练一棵深度为D 的决策树 T 。2:对于每个测试样本 z ,进行如下操作:(a) 对于每个随机森林分类器i,计算出 T 对于 z 的预测输出 y y = +1 ;1 exp( ( ))f x(b) 计算所有N 棵决策树的预测结果 y 的平均值 y_ avg Σ y=y avg N_.3:根据所有测试样本的 y_ avg 值和每一个给定的概率阈值t,计算预测结果的精确率和召回率TP t TP t precision t recall t TP t FP t TP t FN t( ) ( )( ) , ( ).( ) ( ) ( ) ( )=+4:将每个概率阈值t 对应的精确率和召回率组成一条PR 曲线,在PR 曲线上选择最佳阈值(best_ threshold ),使得该阈值对应的PR 曲线点具有最大的 F 值。+=5∙ ∙= ∙ +precision recall F precision recall 4.5:对于每个测试样本 z ,进行如下操作:(a) 对于每个随机森林分类器i,计算出 T 对于 z 的预测输出 y ;(b) 计算所有N 棵决策树的预测结果 y 的平均值 y_ avg;>,则预测结果为正例,否则为负例。6:输出预测结果P。(c) 如果 _ _y avg best threshold

3.2 实验结果比较

利用Default of Credit Card Clients Dataset 的数据,按4:1 的比例划分为训练集和测试集,其中训练数据包含24 000 个样本,测试数据包含6 000 个样本。使用本文提出的基于PR 曲线的随机森林模型与逻辑回归,朴素贝叶斯,决策树,随机森林,XGBoost 模型的预测效果进行比较实验。结果见表3。

表3 各模型预测效果对比

其中前五种模型为基于ROC 曲线评价体系的传统模型,从模型预测准确率(accuracy)和AUC 值来看决策树、随机森林和XGBoost 模型表现都比较好,其次是逻辑回归,朴素贝叶斯的准确率相对较低,但注意到朴素贝叶斯分类器可信度(credibility)这一指标相较于另外四种模型略微有些优势,而逻辑回归模型的可信度最低。

考虑到信贷机构把实际逾期的客户错标为未逾期,带来的经济损失更严重。因此,从获取商业利益最大化这一实际角度出发,信用卡逾期预测模型的评价体系中最重要的两个指标应当是召回率(recall)和可信度(credibility),而模型的准确率次之。本文提出的基于PR 曲线的随机森林模型可信度(0.918)和召回率(0.854)有显著的优势,这两个主要指标较高意味着信贷机构以最大程度减少了错误分类的损失,因此我们的模型更符合信贷机构的商业利益,有更高的实际应用价值。

4 结论

本文研究的基于机器学习的信用卡逾期预测,实际上是一个二分类问题,以客户的信用卡记录数据为模型的输入指标,根据预期违约概率确定模型的输出指标0 或1(0 表示未违约,1 表示违约)。将输入指标体系和输出指标的样本值输入五种传统的机器学习方法和本文提出的方法,进行综合比较分析。结果表明:

(1) 在五种传统的机器学习方法中,随机森林和XGBoost 模型具有相对较好的逾期预测性能,可以更好地刻画输入指标体系的数据特征,利用十折交叉验证表明随机森林模型具有较好的外推性,所以预测模型的构建选用随机森林更合适。

(2) 利用基尼纯度或信息增益的减少量对特征进行重要性评估,信用卡客户逾期行为影响较大的10个重要因素是前三个月的逾期状况和账单支付金额以及信贷额度,通过实验比较,选择这十个重要特征用于随机森林模型训练时PR 曲线的AP 值最大。

(3) 从信用卡逾期预测这一实际问题的特殊性考虑,银行希望预测为未逾期客户的准确率要高,本文用可信度来衡量这一指标。本文提出的基于PR 曲线的随机森林模型的可信度(0.918)和召回率(0.854)相较于传统机器学习模型具有显著的优势,更符合信贷机构的商业利益,相对于五个传统的机器学习模型有更高的应用价值。

猜你喜欢
信用卡阈值森林
小波阈值去噪在深小孔钻削声发射信号处理中的应用
基于自适应阈值和连通域的隧道裂缝提取
信用卡资深用户
比值遥感蚀变信息提取及阈值确定(插图)
哈Q森林
信用卡诈骗
哈Q森林
哈Q森林
室内表面平均氡析出率阈值探讨
办信用卡透支还债夫妻均获刑10年