基于混合式SMOTE和RF模型的小额贷款公司客户信用风险研究.pdf

资源描述

1、第卷第期运筹与管理，年月收稿日期：基金项目：国家自然科学基金资助项目（，）作者简介：严晴（），女，江苏南京人，硕士研究生，研究方向：智能决策与分析；徐海燕（），通讯作者，女，江苏南京人，博士，教授，博士生导师，研究方向：冲突分析，博弈论等。基于混合式和模型的小额贷款公司客户信用风险研究严晴，徐海燕（南京航空航天大学经济与管理学院，江苏南京）摘要：小额借贷中的个人信用风险问题持续制约着小额贷款行业的健康可持续发展。针对小贷公司在进行信用风险评估时对高违约风险客户识别准确率较低的难题，运用混合式、算法来同时处理业务数据中高维、非均衡两个问题。本文借助江苏小贷公司

2、的实例数据，依次构建随机森林（，）模型、模型以及模型并进行模型测试；再选用算法进行对比实验以此衡量模型的信用风险评价精度。随后基于模型对于指标重要性的评分筛选出项指标作为影响个人信用风险的关键指标。实验证明基于算法对于小额贷款个人信用风险评价模型的分类性能最佳；在筛选关键指标时，为避免人工合成虚拟样本对指标重要性影响，需要结合三类模型评分进行综合选择。关键词：信用风险；随机森林（）；分类模型；指标体系中图分类号：文章标识码：文章编号：（）：，（，）：，（），（），：；引言小额贷款业务又称为小额信贷，旨在整合利用社会闲散资金为小微企业以及低收入人群提供额度较小的信贷服务。该行业于年被

3、正式引入，并开始逐步普及到农村和一些欠发达的地区，以弥补过往信贷配给不均等问题。然而就目前发展来看，小额贷款业务相较于传统金融机构面临着更复杂的风险因素。其中，贷款客户个人信用风险是小额贷款行业面临的主要风险类型；客户贷款逾期、违约等情况致使小额贷款行业的违约率、逾期率以及不良贷款率长期处于较高状态。而造成小额贷款行业个人信用风险居高不下的主要原因是指标系统庞大，冗余指标过多。当前小贷业务所需填报的信用风险指标高达六七十余项，这为小贷公司的业务填报和客户信用评估带来了较大压力。同时，从宏观上小额贷款中的违约数要远低于非违约数，呈非均衡状态。因此需有效处理数据高维非均衡的问题。目前，许多学者

4、对高维非均衡数据分类问题处理主要是从高维指标冗余和非均衡分类两个方面入手。对于高维冗余数据，研究者通常是分析指标重要程度，剔除无关指标。机器学习算法例如朴素贝叶斯算法、支持向量机（，）算法、决策树算法等皆可处理该问题。其中，算法是通过将数据映射至低维空间的方式来有效降维，即使是小规模数据集也有较佳泛化性能。此外，以随机森林为代表的集成学习算法在处理高维数据时具有较好的分类性能并更具解释力；同时还具有独特的指标重要性度量方法，因而该算法被广泛应用于众多领域中。但黄衍等使用个数据集实验证明随机森林在非均衡数据上分类性能欠佳。非均衡数据是指不同类别的样本比例相差较大的数据，这类数据普遍

5、存在于生产生活之中，例如，疫病监测、信用评估以及故障诊断等应用领域。在对非均衡数据进行处理过程中，由于少数类样本数目过少，导致传统分类器的整体分辨率即使很高也无法保证少数类样本分类正确，但少数类样本的识别结果往往才是值得关注的重点。为此，不少学者普遍会在样本分类前通过删减或添加数据的方式来平衡类分布。早期是采取随机欠采样和随机过采样方法，但在实践应用中会导致重要信息部分缺失、模型过拟合等问题。为此，等提出了方法，即人工合成少数类样本以实现类分布平衡。随后，许多学者对于方法进行多角度改进以提高算法性能如：算法、等。方法与模型算法非均衡分类问题普遍存在于信用评

6、估场景中。运筹与管理年第卷由于行业特殊性，小额贷款公司在对客户进行信用评估时，这类问题尤为突出。因此，本文采用过采样技术在分类器进行样本训练前，通过数据拟合使训练样本集中类别个数平衡。算法是一种基于特征空间的过采样方法，不同于随机过采样的简单复制样本机制，算法通过在少数类及其近邻样本间合成新的样本，从而有效缓解了由随机过采样引起的过拟合问题。在数据规模较小且缺乏少数类样本信息的情况下，运用算法这种通过生成少数类样本以平衡数据集的方式，能够更好地进行少数类样本识别。算法基本思想是通过随机选取少数类样本作基样本，并在与其近邻的少数类样本间通过式（）插

7、入新值。（）（）式中，是少数类中的第个样本，是样本的第个（，）近邻样本，是取值在间的随机数，则是在样本和间线性插值而得到的人工样本。算法经典算法在众多领域得到广泛应用，但在应用过程中也出现了一些问题。由算法原理可知，在基于基样本与辅助样本合成新样本时，只有当基样本与辅助样本均处于少数类样本中合成的新样本才是合理的；若两者中有一个属于噪声样本，则合成的新样本有可能也为噪声样本以扰乱数据集的正确分类；若辅助类样本散布在多数类的周围时，则合成的新样本会加重两类的重叠。因此，使用算法处理实例业务数据可能使得正负样本分界超平面模糊，从而降低分类效果。考虑位于类边界附近的少数类样本对于

8、决策分类器的影响较大，本文会基于改进算法，即法，来筛选出特定少数类样本来合成新样本。其样本筛选方式如图如示。图样本筛选原理具体的算法原理为：首先在采样过程中依据少数类样本周围的样本属性将少数类样本分为三类：）“”：处于类内样本的，如图中；）“”：处于多数类样本间的样本，视为噪音，如图中；）“”：处于在类边界的样本，如图中。算法在经典算法的基础上，加强了对邻近样本分布特点的考虑。本文将运用算法先对少数类样本进行分类，再选取合适的少数类进行样本人工合成，以降低类间发生重复性的可能性，从而更有效地进行分类识别。随机森林算法随机森林算法是由和提出的集成

9、分类学习算法，其本质是多个决策树模型组成的组合分类模型，每个决策树分类模型都有一票投票权来选择最优分类结果。该集成分类器内的决策树并行，能独立选择决策节点进行特征划分，还可运用未参与决策树生成的袋外数据（，）对当前随机森林模型的泛化性能和指标重要性进行度量。同时，随机森林在建模的过程中融入“双随机”的思想：）通过自助采样法（）抽取相互独立的样本集以生成决策树；）采用决策树生成算法（）在决策树节点分裂时，增加随机属性子集选择来训练决策树。这种“双随机”的机制，使得基分类器间存在差异性，促使模型具有较强抗噪声能力和抗过拟合能力。然而，由于随机森林算法在训练时对数据进行随机抽取，导致经典随机森

10、林算法往往不能很好地处理非均衡问题。综上，鉴于小额贷款公司业务数据同时呈现高维和非均衡两个特点，本文考虑以随机森林算法作为分类器，将其与多种数据均衡化技术进行算法组合，通过实验来不断提高为小额贷款业务中高违约风险样本的识别率。同时借助于随机森林错误率算法得到各指标的重要性。数据来源与信用风险指标数据来源本文以小额贷款公司为研究对象，探究小额贷款公司与客户在借贷业务过程中客户的违约问题。本文选取江苏省小额贷款公司年间的业务数据集进行实证研究。该数据集为通过小额贷款公司筛选并发放贷款的所有借贷记录的集合，最终违约样本与曾有过天逾期为还款记录的样本均被归类为高违约风险样本。每条借贷记录包含

11、了贷款客户基本信息、贷款信息、担保信息、第期严晴，等：基于混合式和模型的小额贷款公司客户信用风险研究信用信息等共个指标变量。信用风险指标筛选指标按照时间顺序可分为贷前、贷中、贷后三类；由于信用风险指标体系的使用节点在借款申请阶段，因此本文仅选取这一阶段内产生的指标变量作为研究范围。通过对数据进行分析与指标筛选，提取出了客户的个人基本信息、贷款信息、担保信息、贷记卡信息以及过往贷款记录共个一级指标，居住地、年龄、贷款金额等个二级指标。变量具体含义如表所示。表个人信用风险评分指标及指标含义一级指标二级指标三级指标基本信息性别借款人的性别年龄借款人的年龄户籍地借款人的户籍所在地学历

12、借款人受教育程度婚姻状态当前婚姻状况居住地当前居房类型未成年子女数当前未成年子女个数贷款信息贷款发放金额贷款总金额贷款类型贷款申请类型担保措施申请贷款的担保措施期限这笔贷款的还款周期还款方式贷款还款方式贷款发放期发放贷款的时间每期应还款数还款期内应还款金额数担保信息担保笔数申请担保的笔数担保金额担保金额担保机构担保机构银行名贷记卡信息授信额度当前贷记卡授信额度账户状态当前贷记卡账户状态月应还款本月贷记卡应还款数当前逾期数贷记卡当前逾期数当前逾金额贷记卡当前逾期金额逾期账户数逾期账户数目单月最高逾额单月内最多逾期额度最长逾月数最长逾期还款时长未销户账户数未销户贷记卡数目未销户授信额度未销户贷记卡

13、授信额度过往贷款记录贷款笔数过往贷款笔数月最高逾总数单月中最高的逾期金额最长逾月数逾期最长的月份未结清贷款数未结清的贷款笔数未结清贷款金额未结清贷款合同金额未结清贷款余额当前未结清贷款余额数据预处理本文选取贷款最终状态作为目标变量，其余的个变量作为解释变量。在使用数据进行机器学习前需要对所有的数据进行数据清洗与量化。首先对于文本指标的进行标签编码，例如：“性别”变量中男性值为“”，女性为“”；随后，对于缺失项较少的样本选择用均值进行替代；对于异常样本则直接删去；最后进行数据归一化处理。预处理后剩余个样本（非违约样本：，违约样本：），样本统计信息如表所示。从表中可知，所选样本集是高度非

14、均衡化的，非均衡比例约为：。表借款样本统计表观测状态数量比例违约非违约总计实验随机森林（）算法的实现由于小额贷款个人信用风险数据呈高维特征，而随机森林算法因其内部的存在多个基分类器且在训练阶段实现了过程随机化使得模型不易陷入过拟合，因而能很好地处理高维数据，并在分类过程中对每一个指标重要性进行评估。运用编程语言实现随机森林算法。将清洗好后的业务数据按照：的比例分为训练集与测试集，用训练集进行模型训练生成随机森林模型；然后再运用测试集测试模型的分类效果并输出各指标的权重。为了降低随机因素造成的结果影响，重复进行了组实验，并对模型性能采用指标进行评分。其中，值为样本精确率与样本

15、召回率的加权调和均值，能够综合体现模型泛化性能。实验结果如表所示（结果保留三位小数）。表随机森林模型结果汇总表实验次数少数类样本多数类样本精确度精确度总体正确率标准差平均值由表可看出采用随机森林对于高维数据分类的总体正确率较高且多次试验稳定性较高，平均正确率在。尽管如此，模型却依旧无法对于少数类样本进行识别。但是对高危违约风险客户的预测识别率对于小额贷款公司更为重要，运用单一随机森林算法无法解决这一实际难点。因此，在运用随机森林算法处理高维非均衡数据前，需要先对数据进行均衡化处理。运筹与管理年第卷算法的实现为了提高随机森林算法的分类效果，尝试将经典算法与随机森

16、林算法进行结合。在将原始数据按照：的比例分为训练集与测试集后，首先运用算法对训练集进行人工合成少数类样本，使得合成后少数类样本与多数类样本的数目比近似为：；然后使用均衡后的训练集进行训练生成新的随机森林模型；最后再运用测试集对于新随机森林模型进行测试，输出相关分类结果。同实验步骤，结果如表所示（计算结果保留三位小数）。表模型结果汇总表实验次数少数类样本多数类样本精确度精确度总体正确率标准差平均值从实验结果中可知，在运用经典算法对于少数类样本进行过采样后生成的随机森林模型分类的总体正确率均值从提高到了；该组合模型对于少数类样本识别率有了“”

17、的突破但识别的精确度最高不超过。因此，本模型在少数类样本识别的稳定性和精确度上仍有进一步提升的空间，且当前总体样本识别的仍上升空间。造成这一点不足的原因可能是经典算法在选择合成新样本的基样本及其辅助样本时过于随机，致使样本中出现了噪声样本，使得数据集的分类正确率受到了波动。的实现相较于无差别过采样的算法，算法则是对样本集中的少数类样本进行划分后，选择处于分类边界上的少数类样本作为基样本进行人工合成，从而提高合成样本的质量。本实验尝试将算法与随机森林算法组合来对高维非均衡数据进行处理。与实验类似，在划分训练集与测试集后，运用算法对训练集中的少数类样本进行类别判断，仅使用位于边界处的

18、少数类样本进行新样本合成，使得合成后正负样本数比近似为：；再使用均衡训练集随机森林模型的训练生成；最后对于生成的分类模型进行测试，并输出分类结果。同实验步骤，结果如表所示（结果保留三位小数）。表模型结果汇总表实验次数少数类样本多数类样本精确度精确度总体正确率标准差平均值从上述实验结果中可得，本实验提出的组合分类模型相较于前几种模型展现了优秀的分类性能。该模型的总体正确率均值达到了，优于模型；总体正确率的标准差为，呈现了较好的稳定性。同时，该模型在识别少数类样本精确度上具有优势明显，且识别的精确度与召回率也远高于实验模型。原因在于模型在进行少数样本过采样时剔除了噪音样本

19、，通过重视分类边界的少数类样本信息来改善样本分布，提高模型分类性能。对比实验为进一步验证本文所最终构建出的组合分类模型的高分类准确率，使用田博和覃正提及的支持向量机（）算法对均衡化后的数据进行分类对比实验。在模型实验过程中，首先运用方法对进行参数寻优，从而确定模型中的惩罚系数取值，参数则取值；之后，基于给定的参数值与训练集对分类器进行训练，其对比的结果如所示。表分类结果对比表实验次数少数类样本多数类样本精确度精确度总体正确率实验实验实验从实验结果中可以看出，可以对少数类样本进行一定程度的正确识别，但是在少数类样本、多数类样本以及最终的总体识别率上均不及本文构建

20、的组合模型的分类结果，因而组合模型在处理高维非均衡数据时存在一定优越性。信用风险指标确立本文分别建立、以及模型对同一组小额贷款客户数据进行第期严晴，等：基于混合式和模型的小额贷款公司客户信用风险研究多次重复训练时，还可利用随机森林错误率对于各指标进行量化打分，从而筛选出能够综合反映借款人信用信息的数据，这对实际小额贷款有更为切实的帮助。因此，本文综合各模型数次实验的指标重要性数值集合取其平均数，并按照指标平均分值进行权重排序，其整合结果如表所示（结果保留三位小数）。由表可得，三类模型对于指标重要性的排列次序有一定程度起伏，但就总体而言，三类模型对重要指标的筛选大致相同，其

21、中，学历、户籍地、贷款信息中的期限与每期应还款、贷记卡信息中的授信额度以及贷款记录中未结清贷款合同金额这个指标均排在三个模型中前十列。因此，从随机森林指标重要性得分来看，这项指标在风险评估中较为重要。学历和户籍地两项指标能够说明贷款人的受教育程度与所处地区等借款人的长期个人情况；贷记卡信息中的授信额度以及贷款记录中未结清贷款合同金额归属于历史借款信息，这些信息说明借款人的历史借贷行为与以后的借贷行为存在关联性。而当前贷款记录中期限与每期应还款则当前借款信息，表示这笔贷款对借款人造成的还款压力。因此，从数据结论与实际解释中验证这项指标可作为评价小额贷款客户信用风险的关键指标。表指标重要性

22、汇总表指标权重排序权重排序权重排序基本信息性别年龄户籍地学历婚姻状态居住地未成年子女数贷款信息贷款发放金额贷款类型担保措施期限还款方式贷款发放期每期应还款数担保信息担保笔数担保金额担保机构贷记卡信息授信额度账户状态月应还款当前逾期数当前逾金额逾期账户数单月最高逾额最长逾月数未销户账户数未销户授信额度贷款记录贷款笔数月最高逾总数最长逾月数未结清贷款数未结清贷款金额未结清贷款余额从指标重要性排序角度来说，虽然这三种模型在关键指标的筛选上多有重合，却仍有指标因素选取差异且关键指标的排序差异性较大的情形。这源于当模型采取过采样技术对少

23、数类样本进行人工合成时，这些合成的人工样本在改善样本分布以提高少数类样本率识别率的同时也改变各指标的影响程度，因此在选择关键指标时不能仅基于单一模型进行判断。运筹与管理年第卷结语当前，如何高效安全地给予小微企业及低收入人群资金支持已成为金融行业的一项重要课题。从长远角度而言，对于小额贷款高违约风险客户进行有效识别，以保障小额贷款公司的现金流活跃，促进小额贷款行业的可持续性发展。鉴于小额贷款数据为高维非均衡数据，本文通过对三组机器学习算法进行对比实验，发现混合算法对于少数类样本有较高的分类精度。这将为小贷公司提供更好的决策支持。同时，考虑到小贷公司自身信用风险管理技术能力不够成熟

24、，本文对指标重要性进行打分，筛选出项重要信用指标，小贷公司可加强对这些重要信息的收集与利用，从而提高放贷业务过程中对高违约风险客户的识别准确率。而过采样技术会在关键指标筛选时会因为人工合成样本的加入而在一定程度上影响指标排序。因此，今后的研究可就混合算法的分类性能与指标重要性评分统一性的问题展开研究。参考文献：李学邦，汪昌桥小额贷款公司的试点难题中国金融，（）：苏益莉，李光举互联网金融背景下河南省小额贷款风险管理研究时代金融，（）：衣柏衡，朱建军，李杰基于改进的小额贷款公司客户信用风险非均衡分类中国管理科学，（）：李蝉娟高维数据降维处理关键技术研究成都：电子科技大学，田博

25、，覃正非平衡数据集的支持向量域分类预测模型研究运筹与管理，（）：吕红燕，冯倩随机森林算法研究综述河北省科学院学报，（）：王淑燕，曹正凤，陈铭芷随机森林在量化选股中的应用研究运筹与管理，（）：黄衍，查伟雄随机森林与支持向量机分类性能比较软件，（）：刘锡铃，阮群生大规模非均衡数据下的船舶风险分类模型设计宁德师范学院学报（自然科学版），（）：程险峰，李军，李雄飞一种基于欠采样的不平衡数据分类算法计算机工程，（）：，：，（）：，（）：刘洋，高丽霞，刘璐考虑样本不平衡的并行化用户负荷类型辨识方法电网技术，（）：周晓敏面向非平衡数据的过采样方法研究太原：山西大学，张涛，汪御寒，李凯，等基于样本依赖代价矩阵的小微企业信用评估方法同济大学学报（自然科学版），（）：，：，：，：，：张月梅，刘媛华基于近邻和随机森林的情感分类研究计算机与数字工程，（）：第期严晴，等：基于混合式和模型的小额贷款公司客户信用风险研究

展开阅读全文