ImageVerifierCode 换一换
格式:PDF , 页数:38 ,大小:1.51MB ,
资源ID:231455      下载积分:15 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/231455.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     留言反馈    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【曲****】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【曲****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(《数据挖掘基础》课件 第6章 数据挖掘应用案例.pdf)为本站上传会员【曲****】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

《数据挖掘基础》课件 第6章 数据挖掘应用案例.pdf

1、数据拾掘基础大数据应用人才培养系列教材第六章数据挖掘应用案例6.1电力行业采用聚类方法进行主变油温分析6、2银彳亍信贷评价6.3 指数预测6.4 客户分群的精淮智熊营销_6.5 使用WE*A型亍房屋房价百题6.1电力行业采用聚类方法进行主变油温分析第六章数据挖掘应用案例电力系统中的重要设备 有很多,如油浸式变压 器,其运行是否正常将 影响到电网能否安全稳 定运行,对其运行的监控 尤为重要。现有的变压器异常状态的识别方法通用性差、故障发现滞后且成本高昂,无法适应大数据时代国家电网的发展。6.1电力行业采用聚类方法进行主变油温分析第六章数据挖掘应用案例需求背景及采用的大数据分析方法在变压器运行的运

2、行周期中,油温状态是影响变压器运行和负载能力的重要因素。所以变压器油温异常的甄别对变压器及线路的安全运行具有很高的实用价值。为 了及时发现变压器油温异常,就需要对变压器平时正常运行时油温的状况有清晰 的了解并作为比对基准。采用大数据的方法,通过聚类分析,挖掘出变压器正常运行的油温分布状况,为 及时发现油温异常提供了判断依据。6.1电力行业采用聚类方法进行主变油温分析第六章数据挖掘应用案例需求背景及采用的大数据分析方法 把正常运行油温分成几个区间段,分析各区间段的油温出现次数分布,并计算出该区间 段的油温次数分布中心点。而根据中心点的偏离程度即阈值作为设备异常的预判是有较 大参考价值的。采用聚类

3、K-Means分析方法 在Spark集群上实现6.1电力行业采用聚类方法进行主变油温分析第六章数据挖掘应用案例Spar k集群C。master 8080SPC/1.6.0Spark Master at spark:/master:7077URL:spar k/master 7077REST URL:spar k/master 6066 m r mode)Alive Wor ker s:3Cor es in use:144 Total 144 UsedMemor y in use:374 4 GB Total 30 GB UsedApplicddons:1 Runnng 1 CompletedD

4、r iver s:0 Rumng.0 Compleled Status:AUtWor ker sWor ker IdWor kef-20171107211656.W 30 2 3.38765Mxkef-20171107211700-10 30 182 4M36O8 wkM.20171107211717-10 30 140 341296Addr ess10 30 2 3 3876510 30 182 43 4360810 30 140 3 41296Sia 随 Cor esAUVE 48(48 Used)AUVE 48(48 Used)ALIVE 48(48 Used)Memor y124 8

5、GB(1024 0 MB Used)124 8 GB(1024 0 MB Used)1248 GB(侦4 0MBsed)Running ApplicationsApplication IDNameCor es Memor y per NodeSubmitted TimeUserStateDur ationapp-20171107212314.0001(tail)Spar k shell144 1024 0 MB2017/11/07 21 2314r ootRUNNING2 OhCompleted ApplicationsApplioition IDCor nMemor y per NodeSu

6、bmitted TimeUurSuteDur ationapp-2017110721170000Spar k shdl1441024 0 MB2017/11/0721 1746r ootFINISHEDMs6.1电力行业采用聚类方法进行主变油温分析第六章数据挖掘应用案例查看油温数据rootslavel spark#/usr/cstor/hadoop/bin/hdfs dfs-cat/34/in/kmeans_data.txt17/11/07 23:15:38 WARN util.NativeCodeLoader:Unable to load native-hadoop library for

7、your platform.using builtin-java classes where applicable 0.2 10000.2 9000.2 10500.4 15000.4 14500.4 15300.6 25000.6 24300.6 25200.8 20000.8 19600.8 20301.0 12001.0 11601.0 1230该数据文件分成多行,每行分别显示温度区间(经过转换)及其出现次数。6.1电力行业采用聚类方法进行主变油温分析第六章数据挖掘应用案例在Spar k集群上执行IGMeans程序(处理该数据集)rootslavel-#/usr/cstor/spark/

8、bin/spark-shell-master spark:/master:7077 scalaimport breeze.linalg.Vectorz DenseVector,squaredDistanceimport org.apache.spark.fSparkConf;SparkContextimport org.apache.spark.SparkContext._def parseVector(line:String):VectorDouble=DenseVector(line.split().map(_.toDouble)/*定义方法Vector,把每行数据转换成向量V6.1电力行

9、业采用聚类方法进行主变油温分析第六章数据挖掘应用案例在Spar k集群上执行IGMeans程序(处理该数据集)def closestPoint(p:VectorDoublez centers:ArrayVectorDouble):Int=var bestindex=0var closest=Double.Positivelnfinityfor(i -0 until centers.length)val tempDist=squaredDistance(pz centers(i)if(tempDist convergeDist)val closest=data.map(point=(closes

10、tPoint(point,kPoints),(point,1)/*找离point最近的中心点*/val pointStats=closest.reduceByKeycase(pl,ql),(p2,q2)=(pl+p2f ql+q2)val newPoints=pointStats.map pair=(pair._l/pair._2._l*(1.0/pa i r._2._2).co 11 ect As M a p()/*声明常量实例newPoints,并计算新的中心点*/6.1电力行业采用聚类方法进行主变油温分析第六章数据挖掘应用案例在Spar k集群上执行IGMeans程序(处理该数据集)te

11、mpDist=0.0for(i -0 until K)tempDist+=squaredDistance(kPoints(i)z newPoints(i)/*计算新旧中心点的距离*/for(newP-newPoints)kPoints(newP._l)=newP._2)println(Finished iteration(delta=+tempDist+)6.1电力行业采用聚类方法进行主变油温分析第六章数据挖掘应用案例在Spar k集群上执行IGMeans程序(处理该数据集)println(Final centers:)kPoints.foreach(println)/*打印输出结果*/Fin

12、al centers:DenseVector(0.4z 1493.3333333333333)DenseVector(0.5999999999999999r 2483.333333333333)DenseVector.S,1996.6666666666665)DenseVectol.0,1196.6666666666665)DenseVector(0.2z 983.3333333333333)大数据应用人才培养系列教材第六章数据挖掘应用案例6工电力行业采用聚类方法进行主变泄温分析6.2 银行信贷评价6.3 指数预测6客户分群的精准智熊营销6.5 使用WEKA避亍房屋是价 百题 6.2银行信贷评

13、价第六章数据挖掘应用案例评估机构会利用信用评分模型对客户的信息进行量化分析,从而评定客户的信用 等级,可以更好地控制风险,减少不良贷款的发生率。RansharN提出了两种方法进行信用评价,多重判别分析和神经网络,并且发现 神经网络分类器的预测结果显著优于统计回归模型。之后,有更多专家将神经网 络和回归及基因算法在客户信用评分中进行了对比。6.2银行信贷评价第六章数据挖掘应用案例神经网络(NN),就是构建一个含有输入层、输出层和隐含层的模型,其中隐含 层可以有多层,这组输入和输出单元相互连接,单元之间的每个连接都设置一个权 重。输入层中神经元数目根据数据集中的属性数目确定,输出层为一个神经元,经

14、 过训练,设定迭代次数和误差及求出每个神经元的权重,确定模型,对输入数据进 行预测。由于反向传播的英文叫做Back-Propagation,所以这个算法也常常被学者简 称为BP算法。反向传播算法分为两步进行:正向传播:输入的样本从输入层经过 隐单元一层一层进行处理,通过所有的隐层之后,传向输出层。反向传播:把误差 信号按原来正向传播的通路反向传回,并对每个隐层的各个神经元的权系数进行修 改,以使误差信号趋向最小。BP算法的实质是,求取误差函数最小值问题。6.2银行信贷评价第六章数据挖掘应用案例神经网络(NN),就是构建一个含有输入层、输出层和隐含层的模型,其中隐含 层可以有多层,这组输入和输出

15、单元相互连接,单元之间的每个连接都设置一个权 重。输入层中神经元数目根据数据集中的属性数目确定,输出层为一个神经元,经 过训练,设定迭代次数和误差及求出每个神经元的权重,确定模型,对输入数据进 行预测。由于反向传播的英文叫做Back-Propagation,所以这个算法也常常被学者简 称为BP算法。反向传播算法分为两步进行:正向传播:输入的样本从输入层经过 隐单元一层一层进行处理,通过所有的隐层之后,传向输出层。反向传播:把误差 信号按原来正向传播的通路反向传回,并对每个隐层的各个神经元的权系数进行修 改,以使误差信号趋向最小。BP算法的实质是,求取误差函数最小值问题。6.2银行信贷评价第六章

16、数据挖掘应用案例BPNN在WEKA中表现为MultiLayerPerceptron,其具体可调节参数有L,M,N。其中L为学习率,M为冲量,N为迭代次数。第一组实验:对数据进行10-folds Cross-validation(L=0.3,M=0.9,N=500,使用数据集为 China Credit Data)o实验结果如下:GoodBadGoodTP=113FP=37BadFN=43TN=48结果分析Typel error25.0%Type2 error47.3%HiteRate66.5%6.2银行信贷评价第六章数据挖掘应用案例(1)HitRate:命中率,即预测准确的数据量的百分比。TN

17、+TP HltRate=TN+FN+TP+FP(2)Typel error:将bad数据预测为good数据的百分比。FP Typelerror=Tp+pp(3)Type2 error:将good数据预测为bad数据的百分比FN re2err=TN+FN 6.2银行信贷评价第六章数据挖掘应用案例第二组实验:对数据进行 10-folds Cross-validation(L=0.3,M=0.9,N=500,使用数据集为German Credit Data)o实验结果如下:GoodBadGoodTP=465FP=235BadFN=142TN=158结果分析Typel error33.6%Type2

18、error47.3%HiteRate62.3%大数据应用人才培养系列教材第六章数据挖掘应用案例6工电力行业乘用聚类方法进行主变油遍分析6.2 银行信贷评价6.3 指数预测6.4 客户分群的精准智能营销6.5 使用WEKA诲亍房屋是价 习题6.3金融指数预测第六章数据挖掘应用案例金融市场的数据大都是时间序列数据,指这些数据是按照时间的排序取得的一系列观测值,如股票或期货价格、货币利率、外汇利率等。这些数据具有复杂的变化规律,而利用数学方法对其 进行分析和研究将有助于制定更为精确的定价和预测决策,对于金融投资与风险管理活动具有重要 的意义。金融市场中数据由于各种偶然因素的影响,即使不存在暗箱操作,

19、或没有什么重要新闻、重要 政策出台,也会表现一种小幅的随机波动。这些随机波动可以看成是信号的噪声,不具有分析和预测 的价值,而且这些随机波动往往严重地影响了进一步的分析和处理。因而在做金融事件序列的建模分 析之前,往往对数据进行预处理,消除这些噪音。小波消噪的步骤:L小波分解2、阀值处理3、小波消噪及重构支持向量机(support vector machine,SVM)是数据挖掘中的一项新技术,是借助于 最优化方法解决机器学习问题的新工具。6.3金融指数预测第六章数据挖掘应用案例国信证券公司曾经使用基于小波分析和支持向量机的指数预测模型对沪深300指数走势。选择了应用50个交易日为训练集预测5

20、个交易日的方法,绘制了下面的近一年沪深300预测图形。发现预测走势有滞后真实走势的现象,两者相关系数为0.78,预测每日涨跌的准确率为68.5%。如图所示,蓝色线是真实走势,红色线是预测走势。Forecast资料来源:国信证券经济研究所大数据应用人才培养系列教材第六章数据挖掘应用案例6工电力行业乘用聚类方法进行主变油遍分析62银行信贷阚介6.3 指数预测6.4 客户分群的精准智能营销6.5 使用WEKA两亍房屋定价习题6.4客户分群的精准营销第六章数据挖掘应用案例数据挖掘的价值包括:W.KUS/6.4客户分群的精准营销第六章数据挖掘应用案例公众客户、商业客户、大客户y业务理解数据理解客户信息、

21、客户消费及购买使用行为y数据准备选择、清洗、构造、整合、格式化y模型建立数据探索,因子分析,生成细分模型,模型分析,模型评估,模型发布6.4客户分群的精准营销第六章数据挖掘应用案例模型输入包括两部分:建模专家样本数据的输入和建模参数的输入,可以定义几组数据作为细 分变量。细分笠量来源细分变量描述通话范围本地通话国内长途国际长途活动范围省内漫游国内漫游国际漫游跨网情况网内通话运官商A通话运官商B通话固话细分笠量来源细分变量描述数据业务上网流量短信彩信客服营业厅现场办理网站办理手机APP办理电话办理6.4客户分群的精准营销第六章数据挖掘应用案例特征刻画首先进行客户群特征粗略定性比较分析,然后可以利

22、用透视图等工具对各客户群宽表 变量分类进行详细的定量刻画。表中是各组相对强弱势情况比较。分组号细分编 号强势特征弱势特征组1低使用率组1无无组21固话联系紧密组与固定电话通话多本地、省内长途漫游、省间长途、短信、IP、跨 运官商通话组3中低使用率组3与固定电话通话多省级长途,IP电话4无跨运官商通话组4跨网通话组5跨网通话时长,次数漫游6跨网通话时长,次数无组6短信使用组7短信,客服电话无组7本地通话组8本地通话时长,次数无1 I.J 16.4客户分群的精准营销第六章数据挖掘应用案例得到典型群体用户,采取相应的市场策略组号人群特征分析市场策略技术敏感组新业务使用频率高,是铁杆粉丝推广新业务先让

23、该组人尝试高端本地商务组大量本地通话,年龄在3 5岁以 上,可能是商务或者政府机关人员体现关怀,重点挽留中端移动商务组大量长途,漫游通话需求,估计 包括业务员,中端商旅人士推荐漫游话费包高端移动商务组1大量长途漫游,对资费不敏感赠送积分,礼品等学生组通话少,上网短信多推荐校园网业务大数据应用人才培养系列教材第六章数据挖掘应用案例6工电力行业委用聚类方法进行主变油温分析62银行信贷阚介6.3 指数预圆6.4 客户分群的精准智能营销6.5 使用WEKA进行房屋定价习题6.5房屋定价第六章数据挖掘应用案例WEKA的开始界面F.Weka GUI Chooseru%回 Program Visualiza

24、tion Tools HelpbWEKAThe Univer sity of WaikatoApplicationsExplorerExperimenterWaikato Environment for Knowledge AnalysisVersion 3,62(c)1999 2010The University of WaikatoHamilton,New ZealandKnowledgeFlowSimple CLI6.5房屋定价第六章数据挖掘应用案例选择Explorer后启动6.5房屋定价第六章数据挖掘应用案例WEKA 建议的加载数据的格式是 Attribute-Relation Fil

25、e Format(ARFF),可以在其中定义所加载数据的类型,然后再提供数据本身。在这个文件内,我们定义了每列以及每列所含内容。对于回归模型,只能有NUMERIC或DATE列。RELATION houseATTRIBUTE ATTRIBUTE ATTRIBUTE ATTRIBUTE ATTRIBUTE ATTRIBUTEhouseSize NUMERIC lotSize NUMERIC bedrooms NUMERIC granite NUMERIC bathroom NUMERIC sellingPrice NUMERICDATA3529,9191,6,0,0,205000 3247,100

26、61,5,1,1,224900 4032,10150,5,0,1,197900 2397,14156,4,1,0,189900 2200,9600,4,0,1,1950003536,19994,6,1,1,325000 2983,9365,5,0,1,2300006.5房屋定价第六章数据挖掘应用案例选择Open File按钮并选择在上一节中创建的ARFF文件6.5房屋定价第六章数据挖掘应用案例为了创建模型,单击Classify选项卡。第一个步骤是选择想要创建的这个模型,以便WEKA知道该如何处理数据以及如 何创建一个适当的模型:单击Choose按钮,然后扩展functions分支。选择LinearRegression叶。这会告诉WEKA我们 想要构建一个回归模型。选择了正确的模型后,WEKA Explorer应该类似于下图6.5房屋定价第六章数据挖掘应用案例根据样例数据,反推出房屋售价和几个因素之间的计算公式。习题:1.班级内每位同学提供一份隐去姓名的近三个月手机使用 情况,包括话费总额,话费构成,包含时间和时长的通话记 录(隐去号码),包含时间和时长的上网记录,汇总后。请 参考本书中的相关理论和软件,按照数据试着对用户进行分 类,预测用户下个月的手机使用情况。感谢聆听

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服