基于Logistic的P2P网贷借款人信用风险评估研究

2018-01-13 00:07徐慧婷
关键词:P2P网络借贷信用风险互联网金融

Dec.2017Vol.33No.6

DOI:10.13216/j.cnki.upcjess.2017.06.0003

摘要:从P2P平台信用风险角度出发,以借款人风险控制为研究目标,构建借款人信用评价指标体系,并利用美国P2P网络借贷平台Prosper上的数据建立基于 Logistic 回归的借款人信用风险评价模型。实证分析表明:是否有房产、贷款创立时长、借款利率对借款人信用风险有着比较大的影响,而借款金额、信用评级、借款期限、借款用途对借款人信用风险没有特别明显的影响。

关键词:P2P网络借贷;信用风险;互联网金融;Logistic模型

中图分类号:F832.4

文献标识码:A

文章编号:16735595(2017)06001605

一、引言

P2P网络借贷是随互联网和民间借贷兴起的一种新的金融模式,是最有活力和代表性的金融业务模式之一。 P2P网贷平台为借贷双方提供了诸如信息沟通、信用评价、投资咨询等交易促成服务,成为个人消费、小微企业经营在银行体系以外的重要融资渠道。近几年,P2P借贷行业的资产拓展、产品演进、技术更新速度之快,令人应接不暇。在快速成长之中,P2P借贷行业的诸多问题也日益凸显,层出不穷的倒闭、跑路乃至诈骗事件给行业留下沉重阴影。2014年,中国银监会向银行业机构发布了关于某国知名P2P信贷服务中介公司风险提示,称其存在大量潜在风险,要求银行业金融机构采取有效措施,做好风险预警监测与防范。在此背景下,对P2P实践中的借款人风险进行研究,建立P2P网络信贷风险评估模型具有非常重要的意义。

二、文献回顾

目前国内外关于P2P 网贷信用风险的研究主要是从“软信息”和“硬信息”两个角度来考察。软信息指的是某些无法诉诸纸面的信息,例如借款人的性格、借款人朋友圈的质量等等。硬信息指的是能够用准确的指标或数值表示的信息,如债务收入比、有无违约记录、是否有房产以及借款者每月还款金额等。大多数P2P网贷平台会为投资人提供借款人详细的历史信贷数据以及借款人基本信息等数据,投资人可以根据这些信息来评估借款人的违约风险。在P2P网贷信用评估指标构建上,国内外学者主要从“基本特征、财务信息、历史贷款信息、社会网络、产品信息”等来构建借款人的信用指标体系。Gonzalez 等探讨了借款人上传的照片头像对P2P贷款决策的影响,研究结果表明:借款人的性别、年龄和外貌会影响投资人对借款人信用的评估,中年人对贷款的获得有积极的影响,而上大学的年龄对贷款的获得有消极的影响;当借贷双方性别相同时,具有吸引力的外貌对贷款的获得有消极的影响,当借贷双方性别相反时,具有吸引力的外貌对贷款的获得有积极的影响。[1]Lin等认为网络社会资本是借款人信用的一个重要信号, 网络社会资本较丰富的借款人获得贷款的可能性较大,并且他们所需支付的借款利率较低,违约风险也相对低。[2]Emekter等利用Lending Club平台的数据进行了研究,认为借款人的信用评级、债务收入比、借款期限等会对借款人的违约风险产生影响。[3]顾慧莹等利用微贷网的数据进行了研究,认为外地户籍、已婚和历史违约记录与借款违约率正相关,家人知晓借款和借款目的真实性与借款违约率负相关。[4]董梁等利用人人贷上的数据进行了研究,认为年龄、性别、岗位职位、收入、借款用途、工作认证和实地认证指标应作为评价个人信用风险的主要依据。[5]肖曼君等基于EXElVBA数据挖掘技术截取多个P2P网站数据,对平台信用风险的影响因素进行实证分析,结果表明:个人特征、信用变量、历史表现、借款信息分别对网络借贷信用风险存在正向影响,同时发现网站提供的信息对投资者避免信用风险没有起到实质作用。[6]

在信用评估方法上,随着经济学理论、优化理论的不断发展,人工智能方法在信用评估方面得到了广泛的应用,国内外学者主要通过构建神经网络、回归模型和运用遗传算法来预测借款人的信用。Angelini 等通过建立两个神经网络系统来进行信用风险评估,利用意大利中小企业的数据实证了该系统可以成功地对借款人信用进行评估。[7]Bekhet等构建Logistic 回归模型和径向基函数模型对约旦商业银行信用进行评估,并将这两种模型进行对比分析,结果表明Logistic 回归模型的整体准确率高于径向基函数模型。[8]杨胜刚等以德国某商业银行的真实客户信用数据为样本,将决策树方法应用于个人信用指标的筛选过程中,与BP神经网络模型相结合构建成一个两阶段组合模型,研究表明:基于决策树—神经网络构建的个人信用评估组合模型对测试样本的分类预测精度高于单一BP神经网络模型的分类预测精度。[9]

中国石油大学学报(社会科学版)2017年12月

第33卷第6期徐慧婷:基于Logistic的P2P网贷借款人信用风险评估研究

本研究以美国最大的P2P网络借贷平台Prosper为例,将经典的二元Logistic回歸模型用于P2P行业。在建模时,为解决解释变量值过多问题,用WOE值代替原值进行回归,建立P2P网贷借款人信用评估模型,以期对中国P2P平台提供借鉴。

三、实证分析

(一)二元Logistic模型

本研究中因变量为二分类变量,假设用Y表示贷款状态类型,Y为0-1型变量(Y=1表示违约,Y=0表示非违约);用X*=(X1,X2,…,Xn)表示n个自变量评价指标组成的集合;用P表示违约的概率,即P=Prob(Y=1|X),则1-P为非违约概率。P/(1-P)为概率发生比,构建贷款违约率的二元Logistic模型:

logit(P)=lnP1-P=β0+β1X1+β2X2+…+βnXn=βX*

其中,β=(β1,β2,…,βn),X*=(X1,X2,…,Xn),则贷款违约率为:endprint

P=exp(βX*)1+exp(βX*)

(二)数据来源

本研究的数据来自美国Prosper网贷平台,该平台对每一组贷款有详细的记录。本研究数据是从原网站Private CSV文件下载得到的,笔者整理了其中30368条贷款数据。本研究随机抽取了25368条作为训练数据,包含21226条非违约贷款和4142条违约贷款;另外5000条作为测试样本,包含4145条非违约贷款和855条违约贷款。

收集到的客户信息包含贷款创立时长(AgeInMonths)、借款金额(AmountBorrowed)、借款利率 (BorrowerRate)、信用评级(ProsperRating)、债务收入比(Debt ToIncomeRatio)、加入群组(Group)、借款期限(Term)、每月还款金额(MonthlyLoan Payment)、借款用途(Category)、是否有房产(IsBorrowerHomeowner)、贷款状态(Status)。

(三)数据分类及处理

为了增加模型稳定性以及简化计算与应用,本研究对备选指标进行分类。信用评级、加入群组、借款用途、借款期限、是否有房产可根据特征值直接分组。贷款创立时长、借款金额、借款利率、債务收入比、每月还款金额是连续变量,数值众多,会导致一些特征值没有足够的样本对其稳定性进行分析或过多的特征值而导致应用变得复杂,因此应对这些变量进行分组。分组原则如下:第一,分组能够覆盖大部分情况且能反映基本的分布信息;第二,将样本容量较小的特征项进行合并,并将违约客户与非违约客户较为接近的特征项进行合并,以保证模型的稳定性和有效性。备选指标分组详见表1。

为了提高模型的评估能力,本研究对自变量的取值做了适当的处理,用WOE值替代原值计算。Smith等在2002年提出了Weight-of-Evidence (WOE)的概念。[10]用WOE值对分类自变量进行编码,能够更直观地理解自变量对状态变量的作用效果及方向,同时提升预测效果。本研究将模型状态变量为1的记为违约用户,对于状态变量为0的记为非违约用户,WOE值反映的是在自变量每个分组下违约用户对正常用户占比和总体中违约用户对正常用户占比之间的差异,可以认为WOE反映的是自变量取值对状态变量的影响。在本研究中WOE=Ln(分类中正常客户占正常客户总体的比值/分类中违约客户占违约客户总体的比值)。例如自变量AgeInMonths [0,10)分类中好客户8599个,总好客户为21226个,坏客户266个,总坏客户4142个,则该分组对应的WOE=Ln[(8599÷21226)/(266÷4142)]=18419。通过计算得出各自变量对应的WOE值,见表2。

(四)回归模型的建立

用自变量每个分类中的WOE值替代原值,利用SPSS软件建立二元Logistic模型,得到的分析结果见表3。其中B为偏回归系数;S.E.为标准误差;Wals为卡方值,等于(B/S.E.)的平方;df为自由度;Sig.为β值,即显著性水平;exp(B)为OR值。

得到样本模型:

Ln[P/(1-P)]=z=-1315-1052×贷款创立时长的WOE值-0155×借款金额的WOE值-1045×借款利率的WOE值-0084×信用评级的WOE值-0573×债务收入比的WOE值-0395×加入群组的WOE值-0186×借款期限的WOE值+0353×每月还款金额的WOE值-0149借款用途的WOE值+2470×是否有房产的WOE值

则违约概率为:

P=exp(z)/[1-exp(z)]

从模型中可以看出,是否有房产、贷款创立时长、借款利率对借款人信用风险有着比较大的影响,而借款金额、信用评级、借款期限、借款用途对借款人信用风险没有特别明显的影响。

(五)模型的评估

ROC 曲线(receiver operating characteristic curve)是评估模型预测精度和分类能力常用的一种方法。ROC曲线是以诊断资料的(1-特异度)为横轴、灵敏度为纵轴所绘制的曲线。曲线下面积(记为AUC)反映诊断实验价值的大小,取值范围为05~1。本研究中训练样本和测试样本的ROC 曲线如图1~2所示。

ROC 曲线分析结果见表4。由表4可知,训练样本与测试样本的AUC 分别为 0. 814 和 0. 754,与 AUC=05 比较有统计学意义(sig.值<005),AUC 均在 07 以上,说明模型拟合效果较好。

(六)分类阈值的确定

本研究用常用的“尤登指数”来确定最佳分类阈值。由ROC分析图输出结果“曲线的坐标”,可以求得各坐标点“敏感性+特异性-1”的值,其最大值对应的就是最佳界值,最佳分类阈值为0179。如果预测违约率大于等于0179,则认为分类预测值为 1,即为违约客户,反之,则认为分类预测值为0,即为非违约客户。利用拟合的模型分别对训练样本和测试样本进行预测,并将实际结果与预测结果进行比较,结果见表5。

由表5可知,训练样本非违约客户的预测精度为723%,测试样本违约客户的预测精度为775%,整体预测精度为731%。测试样本非违约客户的预测精度为740%,违约客户的预测精704%,整体预测精度为734%。预测结果表明模型的预测能力较好,且训练样本和测试样本的预测精度差异不大,说明模型具有较好的稳健性。

四、结论与建议

本研究利用Prosper平台数据,基于真实的贷款记录,构建了一套适用于P2P网贷的信用评价指标体系,并利用 Logistic 回归方法建立借款人风险评价模型,分析结果表明该模型具备较好的预测性和稳健性,能够在一定程度上识别好坏客户。Prosper平台的迅速发展得益于其健全的信用评估体系建设,Prosper对每一组贷款都有详细的记录,通过借款人大量数据的积累,建立借款人信用评估体系,并根据数理方法的应用实现贷前审批和贷后风险提示。本研究虽然采用的是国外平台数据,但模型估计结果是可行且有效的,可以为中国P2P网贷平台建立信用评估体系提供参考。为了更好地对P2P平台借款人信用风险进行评估,降低P2P平台违约风险,结合中国P2P平台实际情况,本文提出以下建议:endprint

第一,政府应建立专门的监管体系,制定平台信息安全保障的具体内容,明确网络借贷中P2P平台、借款人、投资人三方的权利和义务;同时,应将P2P网贷借款人信用数据与传统银行的个人征信系统结合起来,实现统一的信用体系,达到风险监控、促进P2P网贷健康发展的目标。

第二,P2P平台应详细记录借款人的历史信用数据与交易数据,以及借款人的基本信息,建立全面的借款人数据库系统,以完善P2P网贷信用指标体系,提高评估模型的预测精度。

第三,随着经济学理论、优化理论的不断发展,在未来的信用评估模型研究中,可选用更合适的评估方法,以进一步提高P2P网贷信用评估模型的预测能力。

参考文献:

[1] Gonzalez L, Loureiro Y K. When Can a Photo Increase Credit? The Impact of Lender and Borrower Profiles on Online PeertoPeer Loans[J]. Journal of Behavioral & Experimental Finance, 2014,2:4458.

[2] Lin M, Prabhala R, Viswanathan S. Judging Borrowers by the Company They Keep 1: Social Networks and Adverse Selection in Online PeertoPeer Lending[J]. Management Science, 2013,59(1):1735.

[3] Emekter R, Tu Y, Jirasakuldech B. Evaluating Credit Risk and Loan Performance in Online PeertoPeer (P2P) Lending[J]. Applied Economics, 2015,47(1):5470.

[4] 顾慧莹,姚铮. P2P网络借贷平台中借款人违约风险影响因素研究——以WDW为例 [J].上海经济研究,2015(11):3746.

[5] 董梁,胡明雅.基于Logistic回归模型的P2P网贷平台新进借款人信用风险研究[J]. 江苏科技大学学报(社会科学版),2016(3):102108.

[6] 肖曼君,欧缘媛,李颖. 我国P2P网络借贷信用风险影响因素研究——基于排序选择模型的实证分析[J]. 财经理论与实践,2015(1):26.

[7] Angelini E, Tollo G D, Roli A. A Neural Network Approach for Credit Risk Evaluation[J]. The Quarterly Review of Economics & Finance, 2008,48(4):733755.

[8] Bekhet H A, Eletter S F K. Credit Risk Assessment Model for Jordanian Commercial Banks: Neural Scoring Approach[J]. Review of Development Finance, 2014,4(1):2028.

[9] 楊胜刚,朱琦,成程.个人信用评估组合模型的构建——基于决策树—神经网络的研究[J]. 金融论坛,2013(2):5767.

[10] Eric P Smith, llya Lipkovich, Keying Ye. WeightofEvidence (WOE): Quantitative Estimation of Probability of Impairment for Individual and Multiple Lines of Evidence[J]. Human & Ecological Risk Assessment, 2002,8(7):15851596.

责任编辑:张岩林

Research on Credit Risk Assessment of Online Lending Borrower Based on Logistic Regression Model

XU Huiting

(Business Department, Xiamen City University,Xiamen, Fujian 361000, China)

Abstract: From the perspective of the credit risk of the P2P platform and to study the borrowers risk control, this paper proposes a set of borrower credit evaluation index system . Then an evaluation model is built based on logistic regression, using the data of Prosper. The empirical results show that IsBorrowerHomeowner, AgeInMonths and BorrowerRate have greater impacts on the borrowers credit risk, while AmountBorrowed, ProsperRating, Term and Category have no significant effect on the borrowers credit risk.

Key words: online P2P lending; credit risk; internet finance; Logistic Regression modelendprint

猜你喜欢
P2P网络借贷信用风险互联网金融
浅析我国商业银行信用风险管理
基于P2P网络借贷的信用风险管控研究
我国P2P网络借贷平台的风险防范
P2P网贷的风险探析及防控措施
互联网金融的风险分析与管理
互联网金融理财产品分析
互联网金融对传统金融的影响
京东商城电子商务信用风险防范策略
个人信用风险评分的指标选择研究
信用风险的诱发成因及对策思考