1、浙江大学宁波理工学院数据挖掘竞赛论文报告浙江大学宁波理工学院银行服务客户满意度分析综合评定成绩: 评委评语:评委签名:银行服务客户满意度分析摘要:随着全球银行业市场竞争的日趋激烈,提升客户的满意度,培养忠诚客户已成为各大商业银行开拓市场,增加盈利的重要手段之一。通过数据挖掘技术对客户满意度进行分析已成为研究热点。 桑坦德银行(Santander Bank)是欧洲第二大银行,他们提供了一个数据集要求通过数据挖掘技术在早期就能识别对其服务不满意的客户,以便及时采取合适的改进措施以提升客户的体验。关键词: 数据挖掘技术 顾客满意度 PCA主成分分析法 决策树 预测 The thesis titleA
2、bstract: A brief description of the abstractKey words: The keyword extraction目 录1.研究目标62.分析方法与过程62.1. 总体流程62.2. 具体步骤62.3. 结果分析73.结论74.参考文献71. 挖掘目标(1)背景:随着全球银行业市场竞争的日趋激烈,提升客户的满意度,培养忠诚客户已成为各大商业银行开拓市场,增加盈利的重要手段之一。通过数据挖掘技术对客户满意度进行分析已成为研究热点。桑坦德银行(Santander Bank)是欧洲第二大银行,他们提供了一个数据集要求通过数据挖掘技术在早期就能识别对其服务不满意
3、的客户,以便及时采取合适的改进措施以提升客户的体验。在本次竞赛中,参赛者需要通过分析匿名用户的上百个特征来预测用户对其银行服务的满意程度(满意或不满意)。在数据集中ID表示客户的匿名ID,TARGET是需要预测的变量,1表示不满意,0表示满意,剩余的列是已提取的跟客户满意度相关的观测指标(属性);需求:1、 分析哪些特征或特征组合能较好的对银行服务满意程度进行分析;2、 建立合适的银行服务客户满意度模型;3、 预测在测试集中每个客户的满意程度(属于不满意客户的概率);4、 建立合适的评价指标,验证你的预测结果。说明:附件共分三个文件:Train.csv中是训练数据,其中包含预测量TARGET,
4、Test.csv是测试数据,只包含属性数据。Sample_submission.csv是需要与源代码一起上传的最后结果样式,要求输出对Test.csv的测试结果。(2)目标:本次数据挖掘建模要达到的目标是利用银行关于客户信息建立下来的数据,采用数据挖掘技术,进行已知数据以及结果的相关分析测试找到规律建立模型,之后利用测试数据带入模型进行预测得到你结果。题目给出的大数据的属性以及维度都比较大,所以会有一些冗余和无效数据,首先要先将高维大数据进行预处理,利用weka的元学习器,通过与NativeBayes方法一起使用,测试软件自带的属性选择方法,选择得到一些最具影响力的属性进行作为训练子集,并且运
5、用进算法里面。这个方法可以将数据进行降维,保留相应比较主要的影响因素属性。随后将数据和人属性一起放入决策树分类算法,建立合理的模型,可以找到不同属性对目标决定影响程度,建立完成比较合理的分类系统。随后将题目给出的测试数据放入模型,利用已知的模型进行预测,可以推算出客户满意情况,银行可以对于这个预测结果对相应用户可以提早对其采取相应措施。2. 分析方法与过程2.1. 总体流程2.1.1 问题12.1.2 问题2、3、4原始数据建模&预测0结果&评估数据预处理数据筛选2.2. 具体步骤2.2.1 解问题1将excel数据进行转化得weka可以识别的csv格式,利用weka的另存功能得到arff格式
6、,这个过程得到的数据还是不能直接进入决策树运用的。需要打开arff格式的数据,将数据类别的一栏修改为银行需要的0、1满意度类别,将数据加载计入决策树可以得到一个枝节繁茂的树,由此可以从这棵树的模型之中得到影响因素中最大的特征或特征组合为根节点以及靠近根节点的几个特征。使用wake通过决策树J48算法 ,验证训练集,结果如图:图1图22.2.2 解问题2、3、4本用例主要包括如下步骤:步骤1:数据筛选&数据预处理 从原始数据分析得到,题目给出的原始数据属性太多,并且都是未知属性,此外表格的大部门数据值为0,面对这个训练集,里面特征很多是和类标签有关的,但里面存在噪声或者冗余。在这种情况下,需要一
7、种特征降维的方法来减少特征数,减少噪音和冗余,减少过度拟合的可能性。所以我们利用weka深入研究自动属性选择,它允许指定属性选择方法和学习算法,作为分类器的一部分。该分类器确保选择属性子集仅基于训练数据。 该算法的好处: 提高数据准确估计在选择属性过程中避免了因为有监督的过滤器的使用而而导致减少后的一部分数据用于模型测试的过程中,在选择属性中回导致已经看到了测试数据中要使用的属性,从而影响模型构建有偏倚的准确性估计。 提高属性选择效率该方法是利用算法,让学习器对数据进行自己学习选择,提取重要影响因素,这种软件自己学习选择得到的数据结果比手工选择相关属性具有更加高的准确率。我们想要利用上面的方法
8、筛选得到需要的训练子集,这个训练子集对总体的影响程度相关性比较大。利用这些对模型训练起较大作用的数据,从而建立一个更科学的决策树模型,使得这个模型可以应用于测试数据,从而进行相关的结果预测。最后我们得到的训练子集为如下10个:图3图4步骤2:建模&预测 1、建模将上面预处理得到的训练子集,打开分类面板,利用 weka 的分类算法决策树(J48)。采取预剪枝的的优化方法,设定枝节的阈值为10,置信区间为0.55的决策树预设,进行分类处理。该算法的原理是通过对属性的信息熵的计算,以信息增益量为度量进行划分分裂结点,选取信息增益量最小的作为根节点,下面就重复上面的步骤依次将节点分裂完全,最终知道该节
9、点只有一个分裂方向或者该节点的分裂枝节小于阈值,则停止分裂。建模过程中,我们一决策目标TARGET为样本的类别,属性值具体如下:attribute TARGET 0 , 1为了知道不同特征属性的银行客户最终满意程度,我们需要做的是建立一个合理的决策树模型,筛选出需要的属性特征作为决策节点。其中决策树的核心算法是J48,他不是一个算法,而是一组算法,其中包括剪枝与非剪枝J48。可是,一个元组本身有很多属性,我们怎么知道首先要对哪个属性进行判断,接下来要对哪个属性进行判断?这个时候算法原理是利用了属性选择度量来解决这个问题的。属性选择度量又称分裂规则,因为它们决定给定节点上的元组如何分裂。属性选择
10、度量提供了每个属性描述给定训练元组的秩评定,具有最好度量得分的属性被选作给定元组的分裂属性。目前比较流行的属性选择度量有-信息增益、增益率和Gini指标。因为J48与C4.5相同,这里我们利用C4.5进行数据挖掘分析,该算法主要包括有如下一个公式:(1)信息熵:pi表示该节点上类别i的训练记录所占的比例;(2)划分信息熵:现在假定按照属性A划分D中的元组,且属性A将D划分成v个不同的类。在该划分之后,为了得到准确的分类还需要的信息由下面的式子度量:(3)信息增益:信息增益定义为原来的信息需求(即仅基于类比例)与新需求(即对A划分之后得到的)之间的差;(4)分裂信息:C4.5引入属性的分裂信息来
11、调节信息增益一般说来,对于一个具有多个属性的元组,用一个属性就将它们完全分开几乎不可能,否则的话,决策树的深度就只能是2了。从这里可以看出,一旦选择一个属性A,假设将元组分成了两个部分A1和A2,由于A1和A2还可以用其它属性接着再分,所以又引出一个新的问题:接下来我们要选择哪个属性来分类?对D中元组分类所需的期望信息是Info(D) ,那么同理,当我们通过A将D划分成v个子集Dj(j=1,2,v)之后,我们要对Dj的元组进行分类,需要的期望信息就是Info(Dj),而一共有v个类,所以对v个集合再分类,需要的信息就是公式(2)了。但是,使用信息增益的话其实是有一个缺点,那就是它偏向于具有大量
12、值的属性。正是基于此,信息增益率这样一个概念。信息增益率使用“分裂信息”值将信息增益规范化,分类信息类似于Info(D)(5)信息增益率:这里选择具有最大增益率的属性作为分裂属性2、 预测将题目给出的测试集带入训练得到的决策树模型,可以根据属性进行进行分类决策,最终在输出的结果中看到在待预测的总的待分析实例中有49个为不满意客户。步骤3:结果&评估1、 结果有训练子集得到的较大影响因素的训练子集,利用主要可替代全部变量属性的10个替代属性和一个决策属性,在J48分类器下得到有27树节点,14叶子节点的决策树模型,其准确率为 96.026 %,建立该模型的大部分数据预测还是比较准确的。具体参数如
13、下:= Run information =Scheme: weka.classifiers.trees.J48 -C 0.5 -M 10Relation: train-weka.filters.unsupervised.attribute.Remove-R1-weka.filters.unsupervised.attribute.Remove-R1,3-88,90-138,140-147,149-164,166-182,184-190,192-280,282-328,330-331,333-369Instances: 76020Attributes: 11 var15 num_var4 num
14、_var30 num_var35 saldo_var5 saldo_var30 saldo_var42 num_meses_var5_ult3 saldo_medio_var5_hace2 saldo_medio_var5_ult3 TARGETTest mode: 10-fold cross-validation= Classifier model (full training set) =J48 pruned tree-saldo_var30 = 2.94| var15 27| | saldo_var30 = -184.44| | | var15 36| | | | saldo_var5
15、-220.92: 0 (10.0/4.0)| | saldo_var30 -184.44: 0 (10118.0/1601.0)saldo_var30 2.94| saldo_medio_var5_ult3 = 1.95| | saldo_var30 = 189.03| | | num_var4 1| | | | var15 36| | | | | num_meses_var5_ult3 = 0| | | | | | num_var4 2| | | | | | | saldo_var30 18.99: 0 (10.0/1.0)| | | | | num_meses_var5_ult3 0| |
16、 | | | | num_var4 2: 0 (153.0/31.0)| | saldo_var30 189.03: 0 (4350.0/79.0)| saldo_medio_var5_ult3 1.95: 0 (49736.0/957.0)Number of Leaves : 14Size of the tree : 27Time taken to build model: 1.54 seconds= Stratified cross-validation = Summary =Correctly Classified Instances 72999 96.026 %Incorrectly
17、Classified Instances 3021 3.974 %Kappa statistic 0.0039Mean absolute error 0.073 Root mean squared error 0.1911Relative absolute error 96.0326 %Root relative squared error 98.0271 %Coverage of cases (0.95 level) 98.1518 %Mean rel. region size (0.95 level) 59.3081 %Total Number of Instances 76020 = D
18、etailed Accuracy By Class = TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class 1.000 0.998 0.961 1.000 0.980 0.021 0.718 0.980 0 0.002 0.000 0.259 0.002 0.005 0.021 0.718 0.107 1Weighted Avg. 0.960 0.958 0.933 0.960 0.941 0.021 0.718 0.945 = Confusion Matrix = a b - classified as
19、 72992 20 | a = 0 3001 7 | b = 1此时得到得决策树模型图为:图5将测试数据带入到训练得到的模型中,可以得到对银行客户预测结果中有50个为不满意的情况:图6图7银行主要对于这些客户需要进行相关注意措施,详细算法结果、决策树图见附录文档,文件夹还包含训练集(MainTrain)、测试集(MainTrain)、训练模型。2、 评估2.3. 结果分析对数据挖掘建模过程中产生的图表结果进行解释分析。3. 结论结合研究目标和实现效果,对本次研究下一个结论性的评语。4. 参考文献列举在本次研究中所参考的文献.例如:1刘涛,张良均. 大规模智能用电系统海量数据处理与数据挖掘技术研
20、究及应用Z. 博士后重大专项1. 基于C8051F单片机直流电动机反馈控制系统的设计与研究2. 基于单片机的嵌入式Web服务器的研究 3. MOTOROLA单片机MC68HC(8)05PV8/A内嵌EEPROM的工艺和制程方法及对良率的影响研究 4. 基于模糊控制的电阻钎焊单片机温度控制系统的研制 5. 基于MCS-51系列单片机的通用控制模块的研究 6. 基于单片机实现的供暖系统最佳启停自校正(STR)调节器7. 单片机控制的二级倒立摆系统的研究8. 基于增强型51系列单片机的TCP/IP协议栈的实现 9. 基于单片机的蓄电池自动监测系统 10. 基于32位嵌入式单片机系统的图像采集与处理技
21、术的研究11. 基于单片机的作物营养诊断专家系统的研究 12. 基于单片机的交流伺服电机运动控制系统研究与开发 13. 基于单片机的泵管内壁硬度测试仪的研制 14. 基于单片机的自动找平控制系统研究 15. 基于C8051F040单片机的嵌入式系统开发 16. 基于单片机的液压动力系统状态监测仪开发 17. 模糊Smith智能控制方法的研究及其单片机实现 18. 一种基于单片机的轴快流CO,2激光器的手持控制面板的研制 19. 基于双单片机冲床数控系统的研究 20. 基于CYGNAL单片机的在线间歇式浊度仪的研制 21. 基于单片机的喷油泵试验台控制器的研制 22. 基于单片机的软起动器的研究
22、和设计 23. 基于单片机控制的高速快走丝电火花线切割机床短循环走丝方式研究 24. 基于单片机的机电产品控制系统开发 25. 基于PIC单片机的智能手机充电器 26. 基于单片机的实时内核设计及其应用研究 27. 基于单片机的远程抄表系统的设计与研究 28. 基于单片机的烟气二氧化硫浓度检测仪的研制 29. 基于微型光谱仪的单片机系统 30. 单片机系统软件构件开发的技术研究 31. 基于单片机的液体点滴速度自动检测仪的研制32. 基于单片机系统的多功能温度测量仪的研制 33. 基于PIC单片机的电能采集终端的设计和应用 34. 基于单片机的光纤光栅解调仪的研制 35. 气压式线性摩擦焊机单
23、片机控制系统的研制 36. 基于单片机的数字磁通门传感器 37. 基于单片机的旋转变压器-数字转换器的研究 38. 基于单片机的光纤Bragg光栅解调系统的研究 39. 单片机控制的便携式多功能乳腺治疗仪的研制 40. 基于C8051F020单片机的多生理信号检测仪 41. 基于单片机的电机运动控制系统设计 42. Pico专用单片机核的可测性设计研究 43. 基于MCS-51单片机的热量计 44. 基于双单片机的智能遥测微型气象站 45. MCS-51单片机构建机器人的实践研究 46. 基于单片机的轮轨力检测 47. 基于单片机的GPS定位仪的研究与实现 48. 基于单片机的电液伺服控制系统
24、 49. 用于单片机系统的MMC卡文件系统研制 50. 基于单片机的时控和计数系统性能优化的研究 51. 基于单片机和CPLD的粗光栅位移测量系统研究 52. 单片机控制的后备式方波UPS 53. 提升高职学生单片机应用能力的探究 54. 基于单片机控制的自动低频减载装置研究 55. 基于单片机控制的水下焊接电源的研究 56. 基于单片机的多通道数据采集系统 57. 基于uPSD3234单片机的氚表面污染测量仪的研制 58. 基于单片机的红外测油仪的研究 59. 96系列单片机仿真器研究与设计 60. 基于单片机的单晶金刚石刀具刃磨设备的数控改造 61. 基于单片机的温度智能控制系统的设计与实
25、现 62. 基于MSP430单片机的电梯门机控制器的研制 63. 基于单片机的气体测漏仪的研究 64. 基于三菱M16C/6N系列单片机的CAN/USB协议转换器 65. 基于单片机和DSP的变压器油色谱在线监测技术研究 66. 基于单片机的膛壁温度报警系统设计 67. 基于AVR单片机的低压无功补偿控制器的设计 68. 基于单片机船舶电力推进电机监测系统 69. 基于单片机网络的振动信号的采集系统 70. 基于单片机的大容量数据存储技术的应用研究 71. 基于单片机的叠图机研究与教学方法实践 72. 基于单片机嵌入式Web服务器技术的研究及实现 73. 基于AT89S52单片机的通用数据采集
26、系统 74. 基于单片机的多道脉冲幅度分析仪研究 75. 机器人旋转电弧传感角焊缝跟踪单片机控制系统 76. 基于单片机的控制系统在PLC虚拟教学实验中的应用研究77. 基于单片机系统的网络通信研究与应用 78. 基于PIC16F877单片机的莫尔斯码自动译码系统设计与研究79. 基于单片机的模糊控制器在工业电阻炉上的应用研究 80. 基于双单片机冲床数控系统的研究与开发 81. 基于Cygnal单片机的C/OS-的研究82. 基于单片机的一体化智能差示扫描量热仪系统研究 83. 基于TCP/IP协议的单片机与Internet互联的研究与实现 84. 变频调速液压电梯单片机控制器的研究 85.
27、 基于单片机-免疫计数器自动换样功能的研究与实现 86. 基于单片机的倒立摆控制系统设计与实现 87. 单片机嵌入式以太网防盗报警系统 88. 基于51单片机的嵌入式Internet系统的设计与实现 89. 单片机监测系统在挤压机上的应用 90. MSP430单片机在智能水表系统上的研究与应用 91. 基于单片机的嵌入式系统中TCP/IP协议栈的实现与应用92. 单片机在高楼恒压供水系统中的应用 93. 基于ATmega16单片机的流量控制器的开发 94. 基于MSP430单片机的远程抄表系统及智能网络水表的设计95. 基于MSP430单片机具有数据存储与回放功能的嵌入式电子血压计的设计 96
28、. 基于单片机的氨分解率检测系统的研究与开发 97. 锅炉的单片机控制系统 98. 基于单片机控制的电磁振动式播种控制系统的设计 99. 基于单片机技术的WDR-01型聚氨酯导热系数测试仪的研制 100. 一种RISC结构8位单片机的设计与实现 101. 基于单片机的公寓用电智能管理系统设计 102. 基于单片机的温度测控系统在温室大棚中的设计与实现103. 基于MSP430单片机的数字化超声电源的研制 104. 基于ADC841单片机的防爆软起动综合控制器的研究105. 基于单片机控制的井下低爆综合保护系统的设计 106. 基于单片机的空调器故障诊断系统的设计研究 107. 单片机实现的寻呼
29、机编码器 108. 单片机实现的鲁棒MRACS及其在液压系统中的应用研究 109. 自适应控制的单片机实现方法及基上隅角瓦斯积聚处理中的应用研究110. 基于单片机的锅炉智能控制器的设计与研究 111. 超精密机床床身隔振的单片机主动控制 112. PIC单片机在空调中的应用 113. 单片机控制力矩加载控制系统的研究 项目论证,项目可行性研究报告,可行性研究报告,项目推广,项目研究报告,项目设计,项目建议书,项目可研报告,本文档支持完整下载,支持任意编辑!选择我们,选择成功!项目论证,项目可行性研究报告,可行性研究报告,项目推广,项目研究报告,项目设计,项目建议书,项目可研报告,本文档支持完整下载,支持任意编辑!选择我们,选择成功!单片机论文,毕业设计,毕业论文,单片机设计,硕士论文,研究生论文,单片机研究论文,单片机设计论文,优秀毕业论文,毕业论文设计,毕业过关论文,毕业设计,毕业设计说明,毕业论文,单片机论文,基于单片机论文,毕业论文终稿,毕业论文初稿,本文档支持完整下载,支持任意编辑!本文档全网独一无二,放心使用,下载这篇文档,定会成功! 15 / 16
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100