收藏 分销(赏)

商务数据分析与统计建模:chap5聚类分析.ppt

上传人:可**** 文档编号:10468481 上传时间:2025-05-29 格式:PPT 页数:45 大小:1.82MB 下载积分:10 金币
下载 相关 举报
商务数据分析与统计建模:chap5聚类分析.ppt_第1页
第1页 / 共45页
商务数据分析与统计建模:chap5聚类分析.ppt_第2页
第2页 / 共45页


点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,5.1,相似性的度量,5,.,2,系统聚类法,5,.,3,k,均值聚类法,5,.,4,案例,第,5,章 聚类分析,统计距离,但就大部分统计问题而言,欧氏距离是不能令人满意的。这里因为,每个坐标对欧氏距离的贡献是同等的。当坐标轴表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的办法是对坐标加权,使得变化较大的坐标比变化小的坐标有较小的权系数,这就产生了各种距离。,欧氏距离还有一个缺点,这就是当各个分量为不同性质的量时,,“,距离,”,的大小竟然与指标的单位有关。,统计距离,例如,横轴 代表重量(以,kg,为单位),纵轴,代表长度(以,cm,为单位)。有四个点,A,、,B,、,C,、,D,见图,1.1,,它们的坐标如图,1.1,所示,统计距离,这时,显然,AB,比,CD,要长。,结果,CD,反而比,AB,长!这显然是不够合理的。,现在,如果,用,mm,作单位,,单位保持不变,此时,A,坐标为(,0,,,50,),,C,坐标为(,0,,,100,),则,统计距离,因此,有必要建立一种距离,这种距离要能够体现各个变量在变差大小上的不同,以及有时存在着的相关性,还要求距离与各变量所用的单位无关。看来我们选择的距离要依赖于样本方差和协方差。因此,采用,“,统计距离,”,这个术语,以区别通常习惯用的欧氏距离。最常用的一种统计距离是印度统计学家马哈拉诺比斯(,Mahalanobis,)于,1936,年引入的距离,称为,“,马氏距离,”,。,统计距离,下面先用一个一维的例子说明欧氏距离与马氏距离在概率上的差异。,设有两个一维正态总体 。若有一个样品,其值在,A,处,,A,点距离哪个总体近些呢?,图,1-2,马氏距离,设,X,、,Y,从均值向量为,,协方差阵为的总体,G,中抽取的两个样品,定义,X,、,Y,两点之间的马氏距离为,(1),),(,),(,),(,1,/,2,Y,X,Y,X,Y,X,-,-,=,-,d,m,X,G,(2),),(,),(,),(,1,/,2,X,X,X,-,-,=,-,G,d,m,的马氏距离为,与总体,定义,距离的,4,条公理,设 表示一个点集,表示距离,它 是到 的函数,可以证明,马氏距离符合如下距离的四条基本公理,:,;,(,1,),,,(,2,)当且仅当 ;,(,3,),(,4,),1,相似性的度量,1,.,Q,型聚类,对样品进行聚类,即根据样品间的,“,靠近,”,程度来进行聚类,.,通常用统计距离来描述,.,设,常用的六种距离可表示如下:,欧式距离:,绝对距离:,1.,Q,型聚类,切氏距离:,明氏距离:,马氏距离:,兰氏距离:,其中,扩展的兰氏距离:,对变量进行聚类,即根据变量间的,“,相似,”,度来进行聚类,.,相关系数,其中,p,为变量数,,n,为个体数,2.,R,型聚类,变量的夹角余弦,其中,p,为变量数,,n,为变量维数,2.,R,型聚类,2,系统聚类法,1.聚类分析步骤,设有,n,个样品,,p,个变量,(1)先将每个个体看成一类,共,r,类,(,Q,型聚类,,r=n,;,R,型聚类,,r=p,);,(2)找出最相似的两类,合并成一个新类,得,r,-1,类,;,(3)在,r,-1类中,再找出最相似的两类合并,得,r,-2类;,(4)以此类推,将所有的,r,类合并成一大类.,2,系统聚类法,设,G,s,、,G,t,为两个类,,d,ij,为,G,s,中第,i,样品与,G,t,中第,j,样品之间的距离,,D,st,为,G,s,与,G,t,之间的距离.,(1),最小距离法,(single-linkage),2.,Q,型聚类相似程度的度量,(2),最大距离法,(complete-linkage),2.,Q,型聚类相似程度的度量,(3),中间距离法,它是对最短距离法和最长距离法的折中,2.,Q,型聚类相似程度的度量,(4),重心距离法(,centroid method,):,其中,和 分别表示,G,s,和,G,t,的重心.,2.,Q,型聚类相似程度的度量,(5),类平均距离法:,2.,Q,型聚类相似程度的度量,(6),离差平方和法,(Ward,法,),:,该基本思想 来自于方差分析,如果分类正确,同类样品的离差平方和较小,类与类之间的离差平方和较大,其中,2.,Q,型聚类相似程度的度量,设,G,s,和,G,t,为两个类,用,r,ij,表示,G,s,中第,i,个样品与,G,t,中第,j,个样品之间的相似系数,则,G,s,与,G,t,间的相似度通常用,R,st,度量,:,3.,R,型聚类相似程度的度量,分类数的确定,聚类分析的流程,距离矩阵函数,dist(),Method-the distance measure to be used.This must be one of,euclidean,maximum,manhattan,canberra,binary or minkowski.,例,(,数据文件为,eg,4.1,),表4.1 10种红葡萄酒的得分数据表,酒,颜色,x1,香味,x2,酸度,x3,甜度,x4,纯度,x5,果味,x6,1,4.65,4.22,5.01,4.5,4.15,4.12,2,6.32,6.11,6.21,6.85,6.52,6.33,3,4.87,4.6,4.95,4.15,4.02,4.11,4,4.88,4.68,4.43,4.12,4.03,4.14,5,6.73,6.65,6.72,6.13,6.51,6.36,6,7.45,7.56,7.6,7.8,7.2,7.18,7,8.1,8.23,8.01,7.95,8.31,6.26,8,8.42,8.54,8.12,7.88,8.26,7.98,9,6.45,6.81,6.52,6.31,6.27,6.06,10,7.5,7.32,7.42,7.52,7.1,6.95,表4.2 10种红葡萄酒最小距离法和最大距离法的合并顺序,合并次序,合并的类,合并后的新类,最小距离法合并距离,(,欧氏距离,),最大距离法合并距离,(,欧氏距离,),1,G,1,=6,10,0.484,0.484,2,G,2,=3,4,0.528,0.528,3,G,3,=7,8,0.544,0.544,4,G,4,=5,9,0.569,0.569,5,G,2,G,5,=1,3,4,0.58,0.872,6,G,4,G,6,=2,5,9,1.015,1.113,7,G,1,G,3,G,7,=6,10,7,8,1.86,2.315,8,G,6,G,7,G,8,=2,5,9,6,10,7,8,2.04,4.558,9,G,5,G,8,G,9,=1,3,4,2,5,9,6,10,7,8,4.835,9.371,最小距离法聚类的,R,过程为:,#eg4.1,系统聚类,#,假定数据存储目录为:,c:/data/,data4.1-read.table(c:/data/eg4.1.txt,header=T)#,将,eg4.1.txt,数据读入到,#data4.1,中,d-,dist,(data4.1,method=“euclidean”,diag=T,upper=F,p=2)#,采用欧氏距离,#,计算相似矩阵,d,method,为距离计算方法,包括,“,euclidean”,(欧氏距离),#“manhattan”,(绝对距离),“maximum”,(切氏距离),“minkowski”,(明,#,氏距离),canberra,(兰氏距离)等,;diag,为是否包括对角元素,upper,为,#,是否需要上三角元素,HC-,hclust,(d,method=single)#,采用最小距离法(,single,)聚类,#method,为系统聚类方法,包括,single,(最小距离法),complete,(最大,#,距离法),average,(类平均法),median,(中间距离法),centroid,(,#,重心法),ward,(,Ward,法)等,plot(HC)#,绘制聚类树状图,这个过程绘制的聚类树形状图如图,图 10种红葡萄酒最小距离法系统树状图,从图可以看出:,取合并距离为,4,则,10,种酒可以分为两类,:,第一类为,6,10,7,8,2,5,9,第二类为,1,3,4.,取合并距离为,2,则,10,种酒可以分为三类,:,第一类为,6,10,7,8,第二类为,2,5,9,第三类为,1,3,4.,HC-hclust(d,method=complete)#采用最大距离(complete)聚类,plot(HC)#绘制聚类树状图,最大距离法聚类的,R,程序为:,从图可以看出,如果取合并距离为,8,则,10,种酒可以分为两类,第一类为,6,10,7,8,2,5,9,第二类为,1,3,4,;如果取合并距离为,4,则,10,种酒可以分为三类,第一类为,6,10,7,8,第二类为,2,5,9,第三类为,1,3,4.,图 10种红葡萄酒最大距离法系统树状图,3,k,均值聚类法,1,.,基本思想,根据给定的参数,k,先把,n,个对象粗略的分为,k,类,然后按照某种最优原则(通常表示为一个准则函数)修改不合理的分类,直到准则函数收敛为止,就得到了一个最终的分类.,用,K,均值聚类法获得的聚类的特点:,各类本身尽可能紧凑,各类之间尽可能分开,。,k,均值聚类法 迭代示意图,5/29/2025,主编:费宇,例,(,数据文件为,eg,4.2,),表,全国31个省、市、自治区消费性支出数据(2011),地区,食品,x1,衣着,x2,居住,x3,家庭设备及用品,x4,交通通信,x5,文教娱乐,x6,医疗保健,x7,其他,x8,北京,6905.51,2265.88,1923.71,1562.55,3521.2,3306.82,1523.32,975.37,天津,6663.31,1754.98,1763.44,1174.62,2699.53,2116.01,1415.39,836.82,河北,3927.26,1425.99,1372.25,809.85,1526.6,1203.99,955.95,387.4,山西,3558.04,1461.9,1327.78,832.74,1487.66,1419.43,851.3,415.44,内蒙古,4962.4,2514.09,1418.6,1162.87,2003.54,1812.07,1239.36,765.13,青海,4260.27,1394.28,1055.15,723.23,1293.45,967.9,854.25,406.93,宁夏,4483.44,1701.73,1247.14,885.36,1637.61,1441.18,978.12,521.47,新疆,4537.46,1715.94,888.16,791.43,1377.67,1122.18,912.99,493.56,#eg4.2 系统聚类:k均值聚类,#打开数据文件eg4.2.xls,选取A1:I32区域,然后复制,data4.2-read.table(clipboard,header=T)#将eg4.2.xls数据读入到data4.2中,KM-,kmeans,(data4.2,4,nstart=20,algorithm=“Hartigan-Wong”)#聚类的个数为4,随机集合的个数为20,算法为“Hartigan-Wong”,其他备选算法为Lloyd,Forgy,MacQueen,sort,(KM$cluster)#对分类结果进行排序并查看分类情况,k,均值聚类,R,程序为:,这个过程得到以下结果:,天津 江苏 福建 北京 上海 浙江 广东 内蒙古 辽宁 安徽 山东,1 1 1 2 2 2 2 3 3 3 3,湖北 湖南 广西 海南 重庆 四川 陕西 河北 山西 吉林 黑龙江,3 3 3 3 3 3 3 4 4 4 4,江西 河南 贵州 云南 西藏 甘肃 青海 宁夏 新疆,4 4 4 4 4 4 4 4 4,聚类数,k,取,4,故,31,个地区分为四类.,如果将聚类数设定为,5,,则聚类结果可分为五类.,4 案例,#case4.1,打开数据文件,case4.1.xls,选取,B3:J149,区域,然后复制,dat-read.table(clipboard,header=T)#,将,case4.1.xls,数据读入到,dat,中,KM-,kmeans,(dat,4,nstart=20,algorithm=Hartigan-Wong)#,聚为,4,类,sort,(KM$cluster)#,对分类结果进行排序并查看分类情况,案例:世界146个国家和地区人文发展情况的聚类分析(数据文件为case4.1),聚类数设定为4,则,R,程序为:,这个过程将146个国家(地区)分为4类:,第,1,类:博茨瓦纳,南非,刚果(布),斯威士兰,肯尼亚布隆迪,尼日尔,刚果(金);,(低人文发展国家),第,2,类:挪威,澳大利亚,荷兰,美国,新西兰,加拿大,爱尔兰,德国葡萄牙,智利,古巴;,(超高人文发展国家),第,3,类:阿联酋,爱沙尼亚,斯洛伐克,卡塔尔,匈牙利中国,泰国越南,尼加拉瓜,摩洛哥;,(高人文发展国家),第,4,类:俄罗斯联邦,哈萨克斯坦,乌克兰,加蓬,玻利维亚,蒙古尼泊尔,海地,苏丹.,(中等人文发展国家),注:案例中我们设定的随机集合数为,20,,聚类算法为“,Hartigan-wong,”.,如果设定的随机集合个数不同,采用的聚类算法不同,得到的聚类结果可能有所不同.,建议读者采用不同的设定和聚类算法进行聚类分析,比较聚类的结果,.,变量的变换,聚类分析中的常用,R,函数,scale(data),dist(data),hclust(),plot(),rect.hclust(),cutree(),
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 考试专区 > 中考

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服