谁是失信人:大数据识别潜在对象

2021-11-07 19:44沈晓彤
科技信息·学术版 2021年22期
关键词:随机森林因子分析大数据

沈晓彤

摘要:P2P网络借贷的模式进入我国后,经历了野蛮生长期,平台暴雷期和逐步成熟期,2016年随着国家相关政策的出台,P2P平台走向了规范化、可控化,然而道阻且长,P2P平台的管理不仅要靠国家的法律监管,平台和投资者更要提高风险识别能力。本文利用某借贷平台的借贷数据信息对P2P平台黑名单进行了大数据分析,将总体误判率降低至2.89%,为失信人的初步识别提供了有效方法。

关键词:P2P;大数据;随机森林;因子分析

一、引言

近年来,互联网技术在全球范围内蓬勃发展,互联网金融也随之逐渐强大。在此背景之下,一种全新的民间借贷方式——P2P网络借贷应运而生。P2P(Peer to Peer)网络借贷是指借贷者和投资者通过互联网平台在线上完成的小额借贷模式,不需要传统金融机构作为中介参与进来。P2P网络借贷自2007年进入我国,发展至今已经有13年,给投资者和借贷者带来极大助力的同时,也带来了极大的风险。由于P2P网络借贷平台拥有大量借贷者身份信息,如何在当前的大数据的背景下,挖掘失信人群的行为特征,刻画黑名单用户的画像,使得P2P网络借贷平台更全面地了解其客户的信用情况,这对提高P2P网贷行业的良性发展的能力、促进我国征信体系的健康发展和提高企业抗风险能力有积极的意义。

二、实证分析过程与结果

(一)描述性分析

本文數据来源于某借贷平台的历史借贷信息,包括607条黑名单数据,9393条一般数据,共计10000条完整数据。主要包括借贷人个人信息、借贷详细信息、是否列入黑名单等共计41项条目。

描述性统计分析可知:(1) 借款数额集中在5万元附近,个案间借款金额差异较大;(2) 借款人年龄多集中在35岁左右,大多是中年人群,已婚人群比例大;(3) 借款人以男性居多,占比74%;(4) 借款人收入集中在5000-10000元间;(5) 拥有不动产的借款人接近57%有房贷,而拥有汽车的借款人,约有31%的人有车贷;(6)借款人的学历主要集中在大专及以下,工作行业主要为零售业和制造业。

(二)因子分析

本文选取表1中的变量进行因子分析。球形检验结果P<0.000,KMO检验结果为0.84>0.8。探索性因子分析结果表明适合的因子个数为5个。

借贷金额、第一天的借贷金额、第一小时的借贷金额、最后一小时的借贷金额、最大的借贷金额和从经常借贷人处借贷金额对因子PA1的影响较大,因此将因子PA1称为借款金额因子;借款利率、借款期限和工资对因子PA2的影响较大,因此将因子PA2称为借款要求因子;有无个人不动产及是否有房贷对因子PA4影响较大,因此将因子PA4称为个人不动产因子;有无汽车及是否有车贷对因子PA3影响较大,因此将因子PA3称为个人动产因子;年龄、婚姻状况对因子PA5影响较大,因此将因子PA5称为个人状况因子。这五个因子共同构成了对借贷人的评价体系。

(三)随机森林回归

1. 选择合适参数

剔除行业和所处企业规模两个有缺失值的变量后,最终共有38个自变量用于建模。本文通过遍历设定参数为1至38进行38次建模,并打印每次建模的错误率,选择错误率最低为0.127751的mtry取值36。而当决策树取值超过400后,整体错误率趋于稳定,因此本文将ntree参数设定为500。

2. 最终模型结果

建立随机森林模型结果显示,基于OOB数据的总体误判率为2.89%。其中,实际没有违约的用户模型判断正确率为99.06%,实际违约的用户模型判断正确率为66%。采用测试数据集对模型进行检验,发现模型对于实际没有违约用户的判断正确率非常高,但对于实际违约用户的判断正确率仅有57%。因此如果模型根据用户的相关借贷信息判断该用户有违约可能,则大概率该用户会违约。ROC曲线中的线下面积AUC为0.781,表明本文的模型具有一定的识别和判断价值。

三、结论与建议

本文利用某借贷平台提供的10000条借贷数据信息对P2P平台黑名单进行了大数据分析。因子分析结果表明,借款人评估应该从借款金额因子、借款要求因子、个人不动产因子、个人动产因子、个人状况因子五个维度收集借款人信息。本文还尝试使用随机森林进行建模,以期能够通过模型帮助对借款人进行分析。通过遍历方法本文确定错误率最低的参数为mtry=36,ntree=500,最终建立的模型OOB数据的总体误判率为2.89%,其中将实际未违约人判定为违约人的概率为低于1%,但将实际违约人判定为未违约人的概率约为40%,因此该模型适用于对借贷人进行初步评估,筛选出极有可能不能按时还款的借款人。若在预测中认为该借款人有较大概率拖欠借款,即可采取一定的跟进或制裁方式来保证借款的回收,例如调整利息率、缩短还款期、降低信用评级水平等,以有效降低借贷平台的逾期率和坏账率,进而保证平台的健康发展。

猜你喜欢
随机森林因子分析大数据
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
拱坝变形监测预报的随机森林模型及应用
基于主导产业视角的战略性新兴产业识别以及实证研究
基于随机森林算法的飞机发动机故障诊断方法的研究
基于省会城市经济发展程度的实证分析
山东省县域经济发展评价研究
实证分析会计信息对股价的影响
基于大数据背景下的智慧城市建设研究