1、数据拾掘基础大数据应用人才培养系列教材第六章数据挖掘应用案例6.1电力行业采用聚类方法进行主变油温分析6、2银彳亍信贷评价6.3 指数预测6.4 客户分群的精淮智熊营销_6.5 使用WE*A型亍房屋房价百题6.1电力行业采用聚类方法进行主变油温分析第六章数据挖掘应用案例电力系统中的重要设备 有很多,如油浸式变压 器,其运行是否正常将 影响到电网能否安全稳 定运行,对其运行的监控 尤为重要。现有的变压器异常状态的识别方法通用性差、故障发现滞后且成本高昂,无法适应大数据时代国家电网的发展。6.1电力行业采用聚类方法进行主变油温分析第六章数据挖掘应用案例需求背景及采用的大数据分析方法在变压器运行的运
2、行周期中,油温状态是影响变压器运行和负载能力的重要因素。所以变压器油温异常的甄别对变压器及线路的安全运行具有很高的实用价值。为 了及时发现变压器油温异常,就需要对变压器平时正常运行时油温的状况有清晰 的了解并作为比对基准。采用大数据的方法,通过聚类分析,挖掘出变压器正常运行的油温分布状况,为 及时发现油温异常提供了判断依据。6.1电力行业采用聚类方法进行主变油温分析第六章数据挖掘应用案例需求背景及采用的大数据分析方法 把正常运行油温分成几个区间段,分析各区间段的油温出现次数分布,并计算出该区间 段的油温次数分布中心点。而根据中心点的偏离程度即阈值作为设备异常的预判是有较 大参考价值的。采用聚类
3、K-Means分析方法 在Spark集群上实现6.1电力行业采用聚类方法进行主变油温分析第六章数据挖掘应用案例Spar k集群C。master 8080SPC/1.6.0Spark Master at spark:/master:7077URL:spar k/master 7077REST URL:spar k/master 6066 m r mode)Alive Wor ker s:3Cor es in use:144 Total 144 UsedMemor y in use:374 4 GB Total 30 GB UsedApplicddons:1 Runnng 1 CompletedD
4、r iver s:0 Rumng.0 Compleled Status:AUtWor ker sWor ker IdWor kef-20171107211656.W 30 2 3.38765Mxkef-20171107211700-10 30 182 4M36O8 wkM.20171107211717-10 30 140 341296Addr ess10 30 2 3 3876510 30 182 43 4360810 30 140 3 41296Sia 随 Cor esAUVE 48(48 Used)AUVE 48(48 Used)ALIVE 48(48 Used)Memor y124 8
5、GB(1024 0 MB Used)124 8 GB(1024 0 MB Used)1248 GB(侦4 0MBsed)Running ApplicationsApplication IDNameCor es Memor y per NodeSubmitted TimeUserStateDur ationapp-20171107212314.0001(tail)Spar k shell144 1024 0 MB2017/11/07 21 2314r ootRUNNING2 OhCompleted ApplicationsApplioition IDCor nMemor y per NodeSu
6、bmitted TimeUurSuteDur ationapp-2017110721170000Spar k shdl1441024 0 MB2017/11/0721 1746r ootFINISHEDMs6.1电力行业采用聚类方法进行主变油温分析第六章数据挖掘应用案例查看油温数据rootslavel spark#/usr/cstor/hadoop/bin/hdfs dfs-cat/34/in/kmeans_data.txt17/11/07 23:15:38 WARN util.NativeCodeLoader:Unable to load native-hadoop library for
7、your platform.using builtin-java classes where applicable 0.2 10000.2 9000.2 10500.4 15000.4 14500.4 15300.6 25000.6 24300.6 25200.8 20000.8 19600.8 20301.0 12001.0 11601.0 1230该数据文件分成多行,每行分别显示温度区间(经过转换)及其出现次数。6.1电力行业采用聚类方法进行主变油温分析第六章数据挖掘应用案例在Spar k集群上执行IGMeans程序(处理该数据集)rootslavel-#/usr/cstor/spark/
8、bin/spark-shell-master spark:/master:7077 scalaimport breeze.linalg.Vectorz DenseVector,squaredDistanceimport org.apache.spark.fSparkConf;SparkContextimport org.apache.spark.SparkContext._def parseVector(line:String):VectorDouble=DenseVector(line.split().map(_.toDouble)/*定义方法Vector,把每行数据转换成向量V6.1电力行
9、业采用聚类方法进行主变油温分析第六章数据挖掘应用案例在Spar k集群上执行IGMeans程序(处理该数据集)def closestPoint(p:VectorDoublez centers:ArrayVectorDouble):Int=var bestindex=0var closest=Double.Positivelnfinityfor(i -0 until centers.length)val tempDist=squaredDistance(pz centers(i)if(tempDist convergeDist)val closest=data.map(point=(closes
10、tPoint(point,kPoints),(point,1)/*找离point最近的中心点*/val pointStats=closest.reduceByKeycase(pl,ql),(p2,q2)=(pl+p2f ql+q2)val newPoints=pointStats.map pair=(pair._l/pair._2._l*(1.0/pa i r._2._2).co 11 ect As M a p()/*声明常量实例newPoints,并计算新的中心点*/6.1电力行业采用聚类方法进行主变油温分析第六章数据挖掘应用案例在Spar k集群上执行IGMeans程序(处理该数据集)te
11、mpDist=0.0for(i -0 until K)tempDist+=squaredDistance(kPoints(i)z newPoints(i)/*计算新旧中心点的距离*/for(newP-newPoints)kPoints(newP._l)=newP._2)println(Finished iteration(delta=+tempDist+)6.1电力行业采用聚类方法进行主变油温分析第六章数据挖掘应用案例在Spar k集群上执行IGMeans程序(处理该数据集)println(Final centers:)kPoints.foreach(println)/*打印输出结果*/Fin
12、al centers:DenseVector(0.4z 1493.3333333333333)DenseVector(0.5999999999999999r 2483.333333333333)DenseVector.S,1996.6666666666665)DenseVectol.0,1196.6666666666665)DenseVector(0.2z 983.3333333333333)大数据应用人才培养系列教材第六章数据挖掘应用案例6工电力行业采用聚类方法进行主变泄温分析6.2 银行信贷评价6.3 指数预测6客户分群的精准智熊营销6.5 使用WEKA避亍房屋是价 百题 6.2银行信贷评
13、价第六章数据挖掘应用案例评估机构会利用信用评分模型对客户的信息进行量化分析,从而评定客户的信用 等级,可以更好地控制风险,减少不良贷款的发生率。RansharN提出了两种方法进行信用评价,多重判别分析和神经网络,并且发现 神经网络分类器的预测结果显著优于统计回归模型。之后,有更多专家将神经网 络和回归及基因算法在客户信用评分中进行了对比。6.2银行信贷评价第六章数据挖掘应用案例神经网络(NN),就是构建一个含有输入层、输出层和隐含层的模型,其中隐含 层可以有多层,这组输入和输出单元相互连接,单元之间的每个连接都设置一个权 重。输入层中神经元数目根据数据集中的属性数目确定,输出层为一个神经元,经
14、 过训练,设定迭代次数和误差及求出每个神经元的权重,确定模型,对输入数据进 行预测。由于反向传播的英文叫做Back-Propagation,所以这个算法也常常被学者简 称为BP算法。反向传播算法分为两步进行:正向传播:输入的样本从输入层经过 隐单元一层一层进行处理,通过所有的隐层之后,传向输出层。反向传播:把误差 信号按原来正向传播的通路反向传回,并对每个隐层的各个神经元的权系数进行修 改,以使误差信号趋向最小。BP算法的实质是,求取误差函数最小值问题。6.2银行信贷评价第六章数据挖掘应用案例神经网络(NN),就是构建一个含有输入层、输出层和隐含层的模型,其中隐含 层可以有多层,这组输入和输出
15、单元相互连接,单元之间的每个连接都设置一个权 重。输入层中神经元数目根据数据集中的属性数目确定,输出层为一个神经元,经 过训练,设定迭代次数和误差及求出每个神经元的权重,确定模型,对输入数据进 行预测。由于反向传播的英文叫做Back-Propagation,所以这个算法也常常被学者简 称为BP算法。反向传播算法分为两步进行:正向传播:输入的样本从输入层经过 隐单元一层一层进行处理,通过所有的隐层之后,传向输出层。反向传播:把误差 信号按原来正向传播的通路反向传回,并对每个隐层的各个神经元的权系数进行修 改,以使误差信号趋向最小。BP算法的实质是,求取误差函数最小值问题。6.2银行信贷评价第六章
16、数据挖掘应用案例BPNN在WEKA中表现为MultiLayerPerceptron,其具体可调节参数有L,M,N。其中L为学习率,M为冲量,N为迭代次数。第一组实验:对数据进行10-folds Cross-validation(L=0.3,M=0.9,N=500,使用数据集为 China Credit Data)o实验结果如下:GoodBadGoodTP=113FP=37BadFN=43TN=48结果分析Typel error25.0%Type2 error47.3%HiteRate66.5%6.2银行信贷评价第六章数据挖掘应用案例(1)HitRate:命中率,即预测准确的数据量的百分比。TN
17、+TP HltRate=TN+FN+TP+FP(2)Typel error:将bad数据预测为good数据的百分比。FP Typelerror=Tp+pp(3)Type2 error:将good数据预测为bad数据的百分比FN re2err=TN+FN 6.2银行信贷评价第六章数据挖掘应用案例第二组实验:对数据进行 10-folds Cross-validation(L=0.3,M=0.9,N=500,使用数据集为German Credit Data)o实验结果如下:GoodBadGoodTP=465FP=235BadFN=142TN=158结果分析Typel error33.6%Type2
18、error47.3%HiteRate62.3%大数据应用人才培养系列教材第六章数据挖掘应用案例6工电力行业乘用聚类方法进行主变油遍分析6.2 银行信贷评价6.3 指数预测6.4 客户分群的精准智能营销6.5 使用WEKA诲亍房屋是价 习题6.3金融指数预测第六章数据挖掘应用案例金融市场的数据大都是时间序列数据,指这些数据是按照时间的排序取得的一系列观测值,如股票或期货价格、货币利率、外汇利率等。这些数据具有复杂的变化规律,而利用数学方法对其 进行分析和研究将有助于制定更为精确的定价和预测决策,对于金融投资与风险管理活动具有重要 的意义。金融市场中数据由于各种偶然因素的影响,即使不存在暗箱操作,
19、或没有什么重要新闻、重要 政策出台,也会表现一种小幅的随机波动。这些随机波动可以看成是信号的噪声,不具有分析和预测 的价值,而且这些随机波动往往严重地影响了进一步的分析和处理。因而在做金融事件序列的建模分 析之前,往往对数据进行预处理,消除这些噪音。小波消噪的步骤:L小波分解2、阀值处理3、小波消噪及重构支持向量机(support vector machine,SVM)是数据挖掘中的一项新技术,是借助于 最优化方法解决机器学习问题的新工具。6.3金融指数预测第六章数据挖掘应用案例国信证券公司曾经使用基于小波分析和支持向量机的指数预测模型对沪深300指数走势。选择了应用50个交易日为训练集预测5
20、个交易日的方法,绘制了下面的近一年沪深300预测图形。发现预测走势有滞后真实走势的现象,两者相关系数为0.78,预测每日涨跌的准确率为68.5%。如图所示,蓝色线是真实走势,红色线是预测走势。Forecast资料来源:国信证券经济研究所大数据应用人才培养系列教材第六章数据挖掘应用案例6工电力行业乘用聚类方法进行主变油遍分析62银行信贷阚介6.3 指数预测6.4 客户分群的精准智能营销6.5 使用WEKA两亍房屋定价习题6.4客户分群的精准营销第六章数据挖掘应用案例数据挖掘的价值包括:W.KUS/6.4客户分群的精准营销第六章数据挖掘应用案例公众客户、商业客户、大客户y业务理解数据理解客户信息、
21、客户消费及购买使用行为y数据准备选择、清洗、构造、整合、格式化y模型建立数据探索,因子分析,生成细分模型,模型分析,模型评估,模型发布6.4客户分群的精准营销第六章数据挖掘应用案例模型输入包括两部分:建模专家样本数据的输入和建模参数的输入,可以定义几组数据作为细 分变量。细分笠量来源细分变量描述通话范围本地通话国内长途国际长途活动范围省内漫游国内漫游国际漫游跨网情况网内通话运官商A通话运官商B通话固话细分笠量来源细分变量描述数据业务上网流量短信彩信客服营业厅现场办理网站办理手机APP办理电话办理6.4客户分群的精准营销第六章数据挖掘应用案例特征刻画首先进行客户群特征粗略定性比较分析,然后可以利
22、用透视图等工具对各客户群宽表 变量分类进行详细的定量刻画。表中是各组相对强弱势情况比较。分组号细分编 号强势特征弱势特征组1低使用率组1无无组21固话联系紧密组与固定电话通话多本地、省内长途漫游、省间长途、短信、IP、跨 运官商通话组3中低使用率组3与固定电话通话多省级长途,IP电话4无跨运官商通话组4跨网通话组5跨网通话时长,次数漫游6跨网通话时长,次数无组6短信使用组7短信,客服电话无组7本地通话组8本地通话时长,次数无1 I.J 16.4客户分群的精准营销第六章数据挖掘应用案例得到典型群体用户,采取相应的市场策略组号人群特征分析市场策略技术敏感组新业务使用频率高,是铁杆粉丝推广新业务先让
23、该组人尝试高端本地商务组大量本地通话,年龄在3 5岁以 上,可能是商务或者政府机关人员体现关怀,重点挽留中端移动商务组大量长途,漫游通话需求,估计 包括业务员,中端商旅人士推荐漫游话费包高端移动商务组1大量长途漫游,对资费不敏感赠送积分,礼品等学生组通话少,上网短信多推荐校园网业务大数据应用人才培养系列教材第六章数据挖掘应用案例6工电力行业委用聚类方法进行主变油温分析62银行信贷阚介6.3 指数预圆6.4 客户分群的精准智能营销6.5 使用WEKA进行房屋定价习题6.5房屋定价第六章数据挖掘应用案例WEKA的开始界面F.Weka GUI Chooseru%回 Program Visualiza
24、tion Tools HelpbWEKAThe Univer sity of WaikatoApplicationsExplorerExperimenterWaikato Environment for Knowledge AnalysisVersion 3,62(c)1999 2010The University of WaikatoHamilton,New ZealandKnowledgeFlowSimple CLI6.5房屋定价第六章数据挖掘应用案例选择Explorer后启动6.5房屋定价第六章数据挖掘应用案例WEKA 建议的加载数据的格式是 Attribute-Relation Fil
25、e Format(ARFF),可以在其中定义所加载数据的类型,然后再提供数据本身。在这个文件内,我们定义了每列以及每列所含内容。对于回归模型,只能有NUMERIC或DATE列。RELATION houseATTRIBUTE ATTRIBUTE ATTRIBUTE ATTRIBUTE ATTRIBUTE ATTRIBUTEhouseSize NUMERIC lotSize NUMERIC bedrooms NUMERIC granite NUMERIC bathroom NUMERIC sellingPrice NUMERICDATA3529,9191,6,0,0,205000 3247,100
26、61,5,1,1,224900 4032,10150,5,0,1,197900 2397,14156,4,1,0,189900 2200,9600,4,0,1,1950003536,19994,6,1,1,325000 2983,9365,5,0,1,2300006.5房屋定价第六章数据挖掘应用案例选择Open File按钮并选择在上一节中创建的ARFF文件6.5房屋定价第六章数据挖掘应用案例为了创建模型,单击Classify选项卡。第一个步骤是选择想要创建的这个模型,以便WEKA知道该如何处理数据以及如 何创建一个适当的模型:单击Choose按钮,然后扩展functions分支。选择LinearRegression叶。这会告诉WEKA我们 想要构建一个回归模型。选择了正确的模型后,WEKA Explorer应该类似于下图6.5房屋定价第六章数据挖掘应用案例根据样例数据,反推出房屋售价和几个因素之间的计算公式。习题:1.班级内每位同学提供一份隐去姓名的近三个月手机使用 情况,包括话费总额,话费构成,包含时间和时长的通话记 录(隐去号码),包含时间和时长的上网记录,汇总后。请 参考本书中的相关理论和软件,按照数据试着对用户进行分 类,预测用户下个月的手机使用情况。感谢聆听