收藏 分销(赏)

XGBoost-Norm模型在信用建模中的分析研究.pdf

上传人:自信****多点 文档编号:520807 上传时间:2023-11-06 格式:PDF 页数:8 大小:3.53MB
下载 相关 举报
XGBoost-Norm模型在信用建模中的分析研究.pdf_第1页
第1页 / 共8页
XGBoost-Norm模型在信用建模中的分析研究.pdf_第2页
第2页 / 共8页
XGBoost-Norm模型在信用建模中的分析研究.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、栏目编辑:梁丽雯 E-mail:liven_2023年第9期6565Research|技术应用一、引言金融机构基于用户历史信贷表现行为、资产、征信等信息评估客户的信贷风险,用以支持反欺诈、申请准入、风险定价、行为评分等信用风险管理的各个决策环节,进一步有效地控制风险和损失。信用建模是信用风险管理的重要技术,能够全面、客观、统一地对客户作出评估。金融机构正在逐渐采用基于机器学习的信用建模技术,实践中主要有Logistic和XGBoost两种模型,也有研究者研究CNN、RNN等深度学习技术在信用建模中的应用。Logistic算法模型解释性高,需要对数据进行深入分析;XGBoost对建模前的数据分析

2、和特征工程要求低且效果好,模型解释性稍差。信用建模是一个类别不均衡的二分类任务,好客户远远大于坏客户,样本不均衡会导致模型的输出出现偏移,影响模型的效果和迭代效率。本文基于XGBoost和Batch Normalize机制,提出了XGBoost-Norm模型,以解决类别不均衡问题,改善模型效果。基于BCE(Binary Cross Entropy)、WBCE(Weighted Binary Cross Entropy)、Focal(Focal Loss)3种损失XGBoost-Norm模型在信用建模中的分析研究 贵阳农村商业银行覃邑龙陈小刚摘要:文章提出一种基于XGBoost的扩展模型XGBo

3、ost-Norm,用以解决信用建模中的类别不均衡问题。XGBoost-Norm借鉴了Batch-Normalize机制对每个学习器的输出进行变换,在常用损失函数上进行了多次独立重复试验和试验结果分析。结果显示:XGBoost-Norm模型在常用的损失函数下,AUC显著提升(0.6%),模型复杂度显著上升;相同AUC指标下,以BCE为损失函数时模型复杂度显著降低。XGBoost-Norm模型能够解决类别不均衡问题,改善模型效果。关键词:信用建模;XGBoost;类别不均衡作者简介:覃邑龙(1974-),男,湖南常德人,经济学博士,数据资产管理部副总经理(主持工作),研究方向:管理科学、金融工程;

4、陈小刚(1990-),男,贵州遵义人,工学硕士,工程师,研究方向:信用风险。收稿日期:2023-06-15栏目编辑:梁丽雯 E-mail:liven_2023年第9期6666Research|技术应用函数,在Kaggle公开的数据集GMC(Give Me Some Credit)上进行了大量独立重复试验,采用假设检验的方法对试验结果进行了分析研究。结果表明,XGBoost-Norm在3种损失函数下有效地提升了模型的AUC指标,在相同AUC指标条件下,采用BCE损失函数可以有效降低模型复杂度。二、相关研究信用建模是一个类别不均衡的二分类任务,研究者针对类别不均衡的问题发表了大量的文章。类别不均衡

5、将导致数据稀缺、决策面偏移、类别重叠等问题。数据不均衡问题主要从数据和算法两个方面进行解决,数据方面主要是重采样、样本生成等技术,算法方面主要是代价敏感函数、事后校准等技术。Niu K、Yao G等人使用了重采样技术进行集成学习模型的训练,每一个基模型均是通过重采样后的均衡数据集进行训练的,在类别不平衡的信用评分数据集上取得了理想效果。Lin TY等人提出了用Focal来解决CV领域的类别不平衡和难例挖掘问题,并在信用建模中得到广泛的推广使用。Liang C等人基于XGBoost对WBCE和Focal等损失函数在信用建模中的应用进行了充分研究,相对于BCE,WBCE和Focal等损失函数能够在

6、类别不平衡的数据集上取得理想效果。Dedy T等人提出了一种代价敏感函数,在迭代过程中根据指标的变化动态地修改损失函数的权重系数。Mushava J等人提出了用非对称分布的GEV替换XGBoost中对称的Sigmoid函数,并结合代价敏感的CS-XGBoost、Focal、WBCE等损失函数在不同数据集上进行了充分的对比分析。在深度学习领 域有很多 技 术 和 方 法可以在XGBoost的扩展中进行借鉴。Ioffe S等人提出了以Batch Normalize机制来加快深度学习网络的训练,通过在网络的中间层加入Batch Normalize层,保证网络输出的分布稳定可控,避免出现梯度弥散现象,

7、加快网络的迭代优化。对于XGBoost模型在类别不均衡数据的情况下会导致每个学习器的输出出现偏移的问题,可以借鉴Batch Normalize机制,解决类别不均衡问题,改善模型效果。三、XGBoost扩展研究XGBoost-Norm模型基于XGBoost框架和Batch Normalize机制,对XGBoost每个学习器的输出进行变换,控制XGBoost输出的分布,避免因类别不均衡导致输出分布不可控,达到改善模型效果的目的。(一)XGBoost原理假设有N个样本的数据集D=(xi,yi)|xiRm,yi0,1,|D|=N,XGBoost通过递推的叠加弱学习器Booster实现Boosting机

8、制。ft(x)是第t个Booster单独的输出,wtj是第t个Booster的第j个叶子节点的取值,Rtj代表第t个Booster的第j个叶子节点的划分域。rt代表第t个Booster的权重(学习率),一般情况采用固定学习率r。zt是代表XGBoost从0到t个Booster的综合输出,其递推关系如式(1)所示。(1)ft(x)=wtjI(xRtj)Ttk=1zt=zt-1+rtft(x)=rkfk(x)tk=1 通过XGBoost的输出zt和标签y定义损失函数l(y,zt),损失函数在zt-1进行如式(2)所示的二阶泰勒展开。其中,g是l(y,zt-1)对zt-1的一阶导数,h是l(y,zt

9、-1)对zt-1的二阶导数。(2)l(y,zt)=l y,zt-1+ft(x)l(y,zt-1)+gft(x)+hft(x)XGBoost对优化的树ft(x)的规模Tt和叶子节点权重wtj进行正则化,结合损失函数,得到最终的优化目标函数如式(3)所示。第t个Booster的优化问题是每个叶子节点优化问题的求和,其叶子节点权重wtj的最优解如式(4)所示。XGBoost的整体递推框架如图1所示。栏目编辑:梁丽雯 E-mail:liven_2023年第9期6767Research|技术应用 (3)min gtift(xi)+htift(xi)+Tt+wtjj=1TtftiN21=Gtjwtj+(H

10、tj+)wtj+Ttj=1Tt21(4)Gtj=gti,Htj=hti,wtj=-iRtjiRtjHtj+Gtj模型的效果。以GMC数据为例,采用BCE损失函数的情况下偏离现象如图3所示,随着XGBoost迭代的次数增加,树的输出值分布逐渐左偏,偏向了样本量更大的负类。图1XGBoost架构l?x,z?g hwzl?x,z?g hwzl?x,z?g hwzl?x,z?g hwzzzzz?zxyz图2损失函数012-2-1012zl(y,z)BCEWBCEFocal012-2-1012zl(y,z)BCEWBCEFocal图3XGBoost输出分布-2-10z?50 100 150 200本文基

11、于XGBoost框架提出了XGBoost-Norm模型,以解决由于样本不均衡导致XGBoost输出分布不可控的问题。XGBoost-Norm对每个Booster的输出z进行了正态标准化,并乘上一个缩放因子a,以达到控制z的输出分布的目的。计算路程如公式(6)所示。XGBoost-Norm的整体递推框架如图4所示。变换后的输出s的分布是N(0,a),通过参数a就能有效地控制模型的输出分布。(6)i=1i=1NNN1N1=zi,2=(zi-)2zi-2+esi=Normalize(zi)=a(三)模型验证本文采用了多次独立试验的方案,通过假设检验的方法对模型效果进行分析。本文对评估指标AUC信用建

12、模常用的损失函数有二分类交叉熵BCE、针对数据类别不均衡的加权二分类交叉熵WBCE、考虑难例样本的Focal损失。在本文中,统一定义为正样本占比,Focal中=2,定义y=0代表好客户,y=1代表坏客户,好客户远远多于坏客户;3个损失函数的定义如式5所示;3种损失函数的损失如图2所示,左图为负样本损失,右图为正样本损失。(5)p=1/(1+e-z)lbce(y,z)=ylnp+(1-y)ln(1-p)lwbce(y,z)=ylnp+(1-y)(1-p)ln(1-p)lfocal(y,z)=y(1-p)lnp(1-y)(1-p)pln(1-p)(二)XGBoost-Norm由于存在样本不均衡的问

13、题,XGBoost在每个Booster的输出z的分布出现不可控偏离的现象,影响栏目编辑:梁丽雯 E-mail:liven_2023年第9期6868Research|技术应用和模型复杂度的分析依次进行正态分布检验、方差齐性检验、显著性检验。正态分布检验的目的是决定方差齐性检验的参数设置,方差齐性检验的结果决定显著性检验的参数设置。本文将显著性水平统一设定为0.05。四、试验分析(一)实验方法定义未经扩展的XGBoost模型为XGBoost-Base。本文基于GMC数据集完成XGBoost-Base、XGBoost-Norm两种模型在3种损失函数下的试验,并提取试验数据。为了验证试验的稳定性,实验

14、设置25%的验证集合,对原始数据集进行训练集和验证集的比例划分,一次划分进行一次试验,重复100次(试验100次均为独立试验)。进行多次随机数据划分和试验可以更加充分地评估模型的性能,可以对模型效果的显著性进行假设检验。为了控制参数对算法模型的影响,本文所有方法采用了统一的XGBoost设置参数,具体的参数含义和设置值见表1所列。(二)XGBoost-Norm参数优化根据公式(6),XGBoost-Norm模型包含超参数a,不同的参数模型表现不同,设置不同的超参数a,以表1为模型参数配置,在不同的损失函数下进行100次独立的试验,以AUC为最终优化指标。试验结果最优参数见表2所列,各个损失条件

15、下AUC和复杂度在参数a取值不同条件下的性能分布如图5、图6、图7所示。(三)模型效果分析根据试验结果,依次对试验统计结果进行正态性检验、方差齐性检验、显著性T检验,根据每次检验的结果确定下一阶段的参数设置。考虑AUC指标,原假设H0为XGBoost-Norm相对于XGBoost-Base没有明显提升(单侧检验);考虑模型复杂度指标,以XGBoost-Base模型效果为基准,选择XGBoost-Norm和XGBoost-Base模型指标效果最接近的情况,分析两种模型在同等AUC指标效果下的模型复杂度情况,原假设H0为XGBoost-Norm相对于XGBoost-Base复杂度没有明显降低(单侧

16、检验)。当BC E作为损失 函数,XGBoo st-B a se 和XGBoost-Norm试验分析结果见表3所列:XGBoost-Norm的AUC指标有明显提升,同等AUC指标下复杂度明显降低。多次试验的AUC指标分布和迭代过程如图8所示:XGBoost-Norm的迭代过程更加高效和平稳。图4XGBoost-Norm架构?参数含义取值max_depth树的最大深度5lambdaL2正则项控制参数10subsample随机抽取样本集比例0.85colsample_bytree按树抽取的特征比例0.75min_child_weight孩子节点最小的样本权重和2gamma进一步进行划分的最小损失0

17、.15learning_rate学习率0.01early_stopping_round 没有提升而提前停止的迭代次数10num_round提升树数量1000base_score起始基准分数0表1XGBoost参数设置损失参数AUCnum_roundmeanstdmeanstdBCE0.30.862 40.003 2283126WBCE0.90.864 00.003 034869Focal0.40.863 90.004 3430141表2XGBoost-Norm最优参数栏目编辑:梁丽雯 E-mail:liven_2023年第9期6969Research|技术应用图5BCE损失下的指标分布0.85

18、0.860.870.10.20.30.40.50.60.70.80.91.0aAUC01002003004000.10.20.30.40.50.60.70.80.91.0anum_round图6WBCE损失下的指标分布0.850.860.870.10.20.30.40.50.60.70.80.91.0aAUC01002003004000.10.20.30.40.50.60.70.80.91.0anum_round图7Focal损失下的指标分布0.850.860.870.10.20.30.40.50.60.70.80.91.0aAUC01002003004000.10.20.30.40.50.6

19、0.70.80.91.0anum_round指标模型meanstdpp0.05检验结果AUCXGBoost-Base0.856 70.004 31.210-21是拒绝H0相同AUC下的num_roundXGBoost-Norm0.862 40.003 2XGBoost-Base1031970.0011是拒绝H0XGBoost-Norm3775表3BCE损失下的模型对比分析栏目编辑:梁丽雯 E-mail:liven_2023年第9期7070Research|技术应用指标模型meanstdpp0.05检验结果AUCXGBoost-Base0.858 30.003 23.610-28是拒绝H0XGB

20、oost-Norm0.864 00.003 0相同AUC下的num_roundXGBoost-Base1031970.9352否接受H0XGBoost-Norm3775表4WBCE损失下的模型对比分析当WBCE作为损失函数时,XGBoost-Base和XGBoost-Norm试验分析结果见表4所列:XGBoost-Norm的AUC指标有明显提升,同等AUC指标下复杂度没有明显降低。多次试验的AUC指标分布和迭代过程如图9所示:XGBoost-Norm的迭代过程更加平稳,模型复杂度没有明显降低。当Focal作为损失函数时,XGBoost-Base和XGBoost-Norm试验分析结果见表5所列:

21、XGBoost-Norm的AUC指标有明显提升,同等AUC指标下复杂0.8450.8500.8550.8600.8650.870AUC?XGBoost-BaseXGBoost-Norm0.830.840.850.86020406080100120140160180num_roundAUCXGBoost-BaseXGBoost-Norm图8BCE损失条件下模型指标和迭代过程对比度没有明显降低。多次试验的AUC指标分布和迭代过程如图10所示:XGBoost-Norm的迭代过程更加平稳,模型复杂度没有明显降低。五、总结本文提出了XGBoost-Norm模型,在3种损失函数中分别进行参数寻优试验后,获

22、得了各损失函数下XGBoost-Norm的最优超参数。通过对XGBoost-Norm和XGBoost-Base两种模型的试验对比,在3种损0.8450.8500.8550.8600.8650.870AUC?XGBoost-BaseXGBoost-Norm0.830.840.850.86020406080100120140160180num_roundAUCXGBoost-BaseXGBoost-Norm图9WBCE损失条件下模型指标和迭代过程对比栏目编辑:梁丽雯 E-mail:liven_2023年第9期7171Research|技术应用指标模型meanstdpp0.05检验结果AUCXGBo

23、ost-Base0.858 70.003 54.110-18是拒绝H0XGBoost-Norm0.863 90.004 2相同AUC下的num_roundXGBoost-Base671640.8996否接受H0XGBoost-Norm9181表5Focal损失下的模型对比分析图10Focal损失条件下模型指标和迭代过程对比0.8450.8500.8550.8600.8650.870AUC?XGBoost-BaseXGBoost-Norm0.830.840.850.86020406080100120140160180num_roundAUCXGBoost-BaseXGBoost-Norm失函数的

24、条件下,XGBoost-Norm的效果均有明显提升,提升了0.6%;经过模型复杂度分析,同等AUC指标条件下,XGBoost-Norm模型和BCE损失函数相结合对模型复杂度显著降低,XGBoost-Norm和WBCE、Focal损失函数相结合对模型复杂度没有显著降低。综合3种损失函数的迭代图像,XGBoost-Norm模型相对于XGBoost-Base迭代过程更加稳定。XGBoost-Norm模型能够有效提升信用模型的AUC指标,改善客户信用评分的准确性,金融机构可以根据信用评分、客户的好坏分布和内部的风险偏好,更加科学客观地制定信贷决策准则,更加有效地控制信用风险。相同AUC指标下,XGBo

25、ost-Norm模型在BCE损失函数下能够有效地降低模型复杂度,提升模型的评分效率,能够有效降低信用评分系统的响应时间,进一步改善信贷系统的响应时间、吞吐量、内存占用、并发用户数等性能指标,提升信贷系统的使用体验。XGBoost-Norm模型能够有效地提升信用模型的稳定性,对客户的信用评分更加稳定,可以避免因为评分不稳定带来的信用风险和业务不稳定。在业务实践中,需要综合考虑AUC指标和模型复杂度,选择XGBoost-Norm模型和BCE损失函数结合得到最终的信用模型。在信用模型和信贷过程中,结合反欺诈、申请、定价、还款行为、催收等流程的相关数据对各个流程进行信用评分,根据信用评分对用户进行信用

26、评级、风险定价、信贷决策。信用模型因为其良好的排序性、简洁性、稳定性,可以提升各个信贷流程中信用评级的准确性、风险定价的合理性、信贷决策的科学性,最终有效控制信贷业务的信用风险,并改善信贷系统的性能指标。FTT参考文献:1Thomas,Lyn C.A Survey of Credit andBehavioural Scoring:Forecasting FinancialRiskofLendingtoConsumersJ.InternationalJournalofForecasting,2000(2):149-72.2Kennedy K,Mac Namee B,Delany SJ,栏目编辑:

27、梁丽雯 E-mail:liven_2023年第9期7272Research|技术应用et al.A Window of Opportunity:AssessingBehavioural ScoringJ.Expert Systems withApplications,2013(4):72-80.3Mushava J,Murray M.An ExperimentalComparisonofClassificationTechniquesinDebtRecoveriesScoring:EvidencefromSouthAfricasUnsecuredLendingMarketJ.ExpertSys

28、temswithApplications,2018(111):35-50.4JiangC,LuW,WangZ,etal.BenchmarkingState-of-the-art Imbalanced Data LearningApproachesforCreditScoringJ.ExpertSystemswithApplications,2023(B):118-878.5Yu L,Wang S,Lai KK.An Intelligent-agent-basedFuzzygroupDecisionMakingModelforFinancialmulticriteriaDecisionSuppo

29、rt:TheCaseofCreditScoringJ.EuropeanJournalofOperationalResearch,2009(3):942-959.6刘荣弟.基于logistic回归的信用评分模型研究D.大连:大连理工大学,2018.7刘志惠,黄志刚,谢合亮.大数据风控有效吗?基于统计评分卡与机器学习模型的对比分析J.统计与信息论坛,2019(9):18-26.8AssefFM,SteinerMTA.Ten-yearEvolutiononCreditRiskResearch:aSystematicLiteratureReviewApproachandDiscussionJ.Inge

30、nieraeInvestigacin,2020(2):50-71.9ChenT,GuestrinC.XGBoost:AScalableTree Boosting SystemC.Proceedings of the22ndACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,2016,785-794.10Kaggle:GiveMeSomeCreditEB/OL.https:/ J,Murray M.A Novel XGBoostExtensionforCreditScoringClass-imbalanceddata

31、CombiningaGeneralizedExtremeValueLinkandaModifiedFocalLossFunctionJ.ExpertSystemswithApplications,2022(202):117-233.12DasS,DattaS,ChaudhuriBB.HandlingdataIrregularitiesinClassification:Foundations,Trends,and Future ChallengesJ.PatternRecognition,2018(81):674-693.13NiuK,ZhangZ,LiuY,etal.ResamplingEns

32、emble Model Based on Data DistributionforImbalancedCreditRiskEvaluationinP2PLendingJ.InformationSciences,2020(536):120-134.14YaoG,HuX,ZhouT,etal.EnterpriseCredit Risk Prediction Using Supply ChainInformation:A Decision Tree Ensemble ModelBased on the Differential Sampling Rate,SyntheticMinorityOvers

33、amplingTechniqueandAdaBoostJ.ExpertSystems,2022(39):1-29.15LinTY,GoyalP,GirshickR,etal.FocalLossforDenseObjectDetectionJ.IEEETransPatternAnalMachIntell,2020(2):318-327.16Dedy T,Nofita R,Muhamad F M,et al.ModifiedFocalLossinImbalancedXGBoostforCredit Card Fraud DetectionJ.InternationalJournalofIntelligentEngineeringandSystems,2021(4):350-358.17杨莲,石宝峰.基于FocalLoss修正交叉熵损失函数的信用风险评价模型及实证J.中国管理科学,2022(5):65-75.18IoffeS,SzegedyC.BatchNormalization:AcceleratingDeepNetworkTrainingbyReducingInternal Covariate ShiftOL.arXiv Preprint,arXiv:1502.03167,2015.

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服