基于Stacking融合模型的客户贷款行为预测.pdf

资源描述

1、收稿日期:作者简介:陈明粉()女贵州兴仁人硕士研究生研究方向:大数据统计分析.辽宁大学学报自然科学版第卷第期年 .基于融合模型的客户贷款行为预测陈明粉(贵州财经大学数学与统计学院贵州贵阳)摘要:在大数据时代如何根据已有的贷款金融客户信息精准预测客户行为探索大数据时代公司客户贷款行为规律对公司贷款业务的开展进行指导从而有效提高公司贷款投放金额规模为金融机构选择优质的贷款客户提供决策依据.目前单一的预测模型研究方法虽然相对成熟但容易受到其他一些随机因素的影响导致预测的准确率和召回率不高且模型仅适用于某些特定环境泛化能力不强.因此基于已获取的数据本文使用数据挖掘技术融合多种机器学

2、习算法针对特征选择前后的数据建立融合模型来预测客户的贷款行为.结果表明通过数据建模分析相较于预测性能较好的单模型融合模型各评价指标都有一定的提高.而且融合预测模型较为稳定可以为公司挖掘潜在客户提供有效的业务开拓依据和实现资金精细化管理奠定坚实基础具有较大的参考价值和现实意义.关键词:客户贷款机器学习融合模型中图分类号:.文献标志码:文章编号:()():.:引言国内的汽车贷款业务最早出现于年银行业的汽车贷款业务萌芽于年.於海明介绍了我国汽车金融业发展的现实意义.在汽车金融市场中汽车消费金融占据主导地位近年来我国汽车金融行业快速发展主要得益于汽车贷款零售客群规模庞大近年复合增长率(

3、)达.根据中国银行业协会数据年末我国汽车金融公司零售贷款余额达.亿元占贷款总额的比重为.比重自年以来不断提升.在贷款金融领域等基于已有的海量数据集利用当今的大数据分析技术对客户行为进行分析找出所需要的目标人群银行营销机构再进行相应的营销手段减少人力、物力和财力的花费提高工作效率并取得较好的效果.目前对客户信息数据分析研究较多银行需求巨大如何根据客户信息精准预测客户行为对银行贷款业务的开展非常重要.李博等提出基于值差度量和聚类优化的最近邻算法有效预测银行客户行为.刘冰清等在模型上增加(数据包络分析)效率值有效识别互联网贷款产品的潜在客户.王彦博等运用大数据计算建模对续贷客户进行分类预测

4、相比于传统方法极大提高了实际续贷客户的查全率.李明贤等建立模型识别农村金融机构贷款客户以及分析选择贷款客户所考虑的主要因素.虽然现在客户行为预测中单一的预测模型研究相对成熟但是预测的准确率、精确率和召回率等不太高模型的泛化能力不是很强.所以一些学者提出使用不同模型组合来解决预测问题.张建彬等提出基于机器学习和集成的综合预测模型预测客户的购买行为.王琴英等使用算法和随机森林二者结合识别平台风险.通过以上学者的研究可以发现组合预测模型在大多数情况下相比于单一的预测模型具有更好的预测效果.所以本文考虑将随机森林、梯度提升算法、和回归等多个分类算法融合构建融合模型来预测客户的贷款行为.数据

5、预处理与分析.数据来源本文数据来源于某保险公司关于汽车保险数据得到条数据作为样本数据该数据中包第期陈明粉:基于融合模型的客户贷款行为预测含个指标包括调查对象的基本信息、驾龄、信用分数、车辆产权、酒后驾车记录等汽车保险指标.数据缺失值处理通过分析发现样本数据中和这两个指标存在缺失.一般而言对缺失值的处理有种处理方法分别是删除法、替补法和插补法.而样本数据的缺失值比率都在左右不属于大量数据缺失因此本文考虑用替补法处理缺失值即用均值替换缺失数据.数据变换为了数据建模的方便本文对得到的数据进行数据变换需要数据变换的指标有年龄、性别、民族、驾龄、教育、收入、车辆产权、车辆时间、是否

6、结婚、车辆类型等个指标.对转换后的数据进行探索性数据分析首先表示的是邮政编码并无实际意义所以直接舍弃该指标和分为两类民族分别是和根据计算在目标标签中和占比分别是、在目标标签中的和占比分别为、二者在占比上并无明显区别说明该列指标和目标标签并无多大关系所以在后续的建模分析中不考虑该指标.也分为两类分别是和在目标标签中和占比分别是、在目标标签中和占比分别是、同理在后续建模分析过程中也不考虑该指标.我们删除的指标有、和等个指标余下个指标除掉目标标签建模分析过程中用的指标是、和等个指标.数据不平衡处理本文统计(是否贷款)的正负标签分布情况和各个标签的占比情况标

7、签中表示客户已申请贷款表示客户未申请贷款统计分布如图所示.从图中可以看出已申请贷款的客户占比.未申请贷款的客户占比.可以明显看出未申请贷款的客户占大部分正负样本分布不均衡因此在后续的建模中需要进行数据不平衡处理为保留更多的样本信息和保持数据平衡本文采用数据不平衡处理.图标签占比和分布统计图研究方法本文提出基于融合模型的客户贷款行为预测方法整个方法的总体流程如图所示.辽宁大学学报自然科学版年图总体流程图对预处理后的数据进行分析本文从两个方面来构建模型一方面是基于预处理后的数据构建模型将个指标作为识别特征选择“是否贷款”作为因变量另一方面是通过特征选择后的数据指标构建模

8、型将特征选择后的数据指标作为识别指标同样选择“是否贷款”作为因变量.特征选择为了降低学习任务的难度提升模型效率本文使用过滤法进行特征选择其中过滤法使用的模块是中的通过方差过滤对每一个特征的所有数据进行方差计算方差越大说明该特征的区别度越大各特征指标的得分统计图如图所示.本文选出过滤法排名最前面的个特征这个特征分别是驾驶经验、年龄、收入、车辆产权、过去事故数、车辆时间、超速违规.图过滤法特征指标得分统计图.分类算法参数调优在中提供了两种通用的超参数优化方法:网格搜索与随机搜索.网格搜索是一种穷举搜索方法它通过遍历超参数的所有可能组合来寻找最优超参数.随机搜索没有专门的定义它的使

9、用方法和网格搜索相似但它不是尝试所有可能的组合而是通过选择每一个超参数的一个随机值的特定数量的随机组合.本文使用网格搜索的方式进行参数调优.第期陈明粉:基于融合模型的客户贷款行为预测本文为了便于分类算法进行正常训练给每一个模型设定需要调整参数的范围进行网络搜索本文针对个分类算法进行调参其调参结果如表所示.表各模型调参结果表算法名称参数名称调参范围调参结果.应用的分类算法首先使用中的模型划分训练集与测试集确定训练集与测试集的比例为.未特征选择情况下的分类算法)调参前分类算法针对预处理未特征选择的数据训练集和测试集比例调参前各模型对应的相应指标数值如表所示.表调参前各算法

10、对应的相应指标数值表.)调参后分类算法数据集划分和调参前模型一样参数调参后各模型对应的指标数值如表所示.表调参后各算法对应的指标数值表.辽宁大学学报自然科学版年 )调参前后分类算法对比本文通过评价指标(准确率)以及(召回率)选出最适合预处理后数据的模型.两评价指标调参前后的比较如表所示.表未特征选择两评价指标调参前后统计表.表中表示调参前的准确率表示调参后的准确率表示调参前的召回率表示调参后的召回率.通过表看出调参后准确率提升的模型只有召回率提升的模型有和.所以在后续模型融合中考虑调参前的逻辑回归、随机森林、梯度提升算法和调参后的和.特征选择情况下的分类算法特征选

11、择后数据指标在调参前和调参后的算法同节所以可以直接对两评价指标调参前后进行比较比较结果如表所示.表特征选择后两评价指标调参前后统计表.表中指标名称含义同表从表看出调参后准确度提升的模型有、和模型中准确率最高的是调参后的调参后召回率提升的模型只有的其中调参后召回率得分略有下降调参后的召回率在个模型中最高.为进一步提升模型的效果考虑构建融合模型融合模型考虑调参前的逻辑回归、梯度提升算法、调参后的随机森林、和.融合模型融合模型方法()首先将原始特征数据集划分成若干子数据集输入第层预测模型的各个基学习器中每个基学习器输出各自的预测结果.然后第层的输出再作为第层的输入对第

12、层预测模型的元学习器进行训练再由位于第层的模型输出最终预测结果.融合模型方法可以通过对多个模型的输出结果进行泛化提升整体预测精度.本文考虑基于集成学习把模型融合成一个集成分类预测模型考虑使用调参前的随机第期陈明粉:基于融合模型的客户贷款行为预测森林、梯度提升算法和调参后的、种不同的集成模型作为第层基学习器得到的组预测结果第层元学习器选择逻辑回归模型将第层得到的组预测结果应用到第层元学习器从而确定最优的集成学习分类预测模型得到客户是否贷款的预测结果客户是否贷款预测模型融合过程如图所示.图客户是否贷款预测模型融合过程.客户贷款行为预测模型性能评估预测客户是否贷款是

13、二分类问题本节对两类数据集构建融合模型和单个模型结果进行了比较在测试集上的各指标评价结果如表、所示.表特征选择前各模型评价指标结果比较.如表所示针对未特征选择的数据集逻辑回归和随机森林表现最差模型融合相较于其他单模型准确率略低但是其他指标都是最高的所以建立的融合模型对客户贷款行为有较好的预测性能.表特征选择后各模型评价指标结果比较.辽宁大学学报自然科学版年如表所示针对特征选择后的数据集随机森林表现最差这是因为随机森林本身就具有特征选择的特性所作的特征选择不一定是随机森林最优的特征子集模型融合后准确率略有下降召回率和单个模型表现差不多但是其他指标都有很大的提升所以本研究的模型融合

14、对客户贷款行为具有很好的预测性能.对比特征选择前和特征选择后各评价指标可知单个模型和融合模型表现出各自的优势.首先针对单个模型特征选择后大部分指标都有一定提高除了融合模型之外综合比较表现效果最优预测效果最好在单个模型中准确率、精确率、召回率、分数()值都是最高的若不考虑融合模型建立单模型可以考虑选取.其次针对融合模型特征选择前的融合模型相较于特征选择后表现较优可能是由于本文研究的数据指标较少的原因特征选择对融合模型的帮助不是很大但相较于单模型无论是特征选择前还是特征选择后融合模型的预测性能都是最好的相比于表现最好的特征选择前融和模型的精确率提升约.召回率提升约.分数提升约.约.特征选择后融

15、和模型精确率提升约.分数提升约.约.所以本文建立融合模型具有较好的泛化能力.()曲线图是衡量二分类模型优劣的方法曲线下的面积越大说明模型对客户贷款行为预测越好本节借助编程绘制特征选择前和特征选择后的融合模型曲线图如图所示.图融合模型特征选择前后训练集和测试集曲线图结论本文结合汽车保险数据中客户是否贷款的实际情况与机器学习针对两方面的数据集进行建模预测主要目的是建立出特征选择前后最优的分类模型.模型构建思想是将随机森林、梯度提升算法、和作为模型融合的第层预测模型逻辑回归作为模型融合的第层元学习器.基于本文获取的数据通过建模分析相比于预测性能较好的特征选择前的融合模型其精

16、确率提升约.召回率提升约.分数提升约.约.第期陈明粉:基于融合模型的客户贷款行为预测而特征选择后的融合模型精确率提升约.分数提升约.约.所以本文建立的融合模型无论是特征选择前还是选择后都有较好的预测效果.汽车金融机构可以结合本文建立的模型和已有的实际数据找出更多的潜在客户行为提高公司的办公效率降低公司成本.客户贷款行为还包括贷款的金额在之后的研究中可以考虑对客户贷款的实际金额进行预测这样可为公司的运营和决策提供更有力的支持.参考文献:於海明.我国汽车金融业浅析(二).汽车维护与修理():.於海明.我国汽车金融业浅析(一).汽车维护与修理():.():.李博张晓颜靖艺等.基于值差度

17、量和聚类优化的最近邻算法在银行客户行为预测中的应用.计算机应用():.刘冰清卢子芳朱卫未等.基于的互联网金融贷款产品有效客户识别.管理现代化():.王彦博刘曦子陈进.大数据时代商业银行小微金融客户续贷预测研究.浙江社会科学():.李明贤叶慧敏.农村金融机构贷款客户识别及选择影响因素的模型分析基于湖南祁阳县的农户调查.江西财经大学学报():.张建彬霍佳震.基于模型融合的用户购买行为预测研究.上海管理科学():.王琴英王诗雨刘聪.基于算法和随机森林模型的平台风险识别.统计与决策():.段海龙.数据平衡与模型融合的用户购买行为预测研究.南昌:南昌大学.王飞黄涛杨晔.基于多模型融合的器件寿命的机器学习预测算法研究.计算机科学():.王鹏曹丽惠阮冬茹.基于模型融合的店铺销量预测.河北工业科技():.(责任编辑郑绥乾)辽宁大学学报自然科学版年

展开阅读全文