收藏 分销(赏)

Iris数据的结果分类.doc

上传人:xrp****65 文档编号:6661069 上传时间:2024-12-19 格式:DOC 页数:14 大小:427KB
下载 相关 举报
Iris数据的结果分类.doc_第1页
第1页 / 共14页
Iris数据的结果分类.doc_第2页
第2页 / 共14页
点击查看更多>>
资源描述
Iris数据的结果分类 摘 要 本文主要讨论了用快速聚类法对R.A.Fisher的Iris数据分类的问题。 针对问题一,由样本数目较大且已知分类数目为3,用快速聚类法并用欧式距离对样本分类。通过SAS软件快速聚类得到样本分类(见文中表1)。根据分类表得到这三类各观测值的取值范围,结合每一类的聚点得到结论如下:相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比第1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物,最后通过聚类的均值及标准差分析检验分类的合理性。 针对问题二,用快速聚类法并用绝对距离对样本分类。通过SAS软件快速聚类得到样本分类(见文中表6)。根据分类表得到这三类各观测值的取值范围,结合每一类的聚点得到结论如下:相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比第1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物,最后通过聚类与最终聚点的均值绝对值离差分析检验分类的合理性 针对问题三,用快速聚类法并用距离()对样本分类。通过SAS软件快速聚类得到样本分类(见文中表11)。根据分类表得到这三类各观测值的取值范围,结合每一类的聚点得到结论如下:相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比第1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物,最后通过聚类与最终聚点的均幂根离差分析检验分类的合理性。 聚类分析,是研究分类问题的一种多元统计方法,被广泛应用在经济、社会、人口等诸多方面。 关键词 快速聚类分析;欧氏距离;绝对距离;距离 一、问题重述 R.A.Fisher在1936发表的Iris数据中,研究某植物的萼片长、宽及花瓣长、宽。:萼片长,:萼片宽,:花瓣长,:花瓣宽。R.A.Fisher取了该植物3个种类,每个种类取50个样品,共150个样品。数据如表1(见附录) 问题一:用快速聚类法将表1数据分3类; 问题二:用快速聚类法并用绝对距离分3类,写出分类结果; 问题三:在题一、题二基础上,用快速聚类法并采用距离分3类,写出分类结果。 二、问题分析 针对问题一,采用快速聚类法将表1(见附录)数据分为3类。快速聚类法的步骤:选择聚点,可以通过以下三种方法:经验选择、最小最大原则和将样品随机分为K类,以每类的重心作为聚点。聚点是一批有代表性的样品,它的选择决定了初始分类,分类数给定后,选取过程会根据递推公式算出初始聚点;然后计算各数据与聚点的欧氏距离并分类,检验分类是否合理,不合理返回到第二步初始分类,修改分类,如此反复循环,直至分类合理。 针对问题二,与题一相似,首先先确定数据的聚点,采用绝对距离聚类分析时,最终聚点应是每一类的中位向量,确定聚点后,进行初步分类,然后计算数据间的绝对距离,根据各数据与聚点间的绝对距离进行分类。检验分类是否合理,修改分类,直至合理为止。 针对问题三,采用快速聚类法并利用距离将表1数据分为3类。与题一相似,先选择聚点,进行初始分类。采用距离进行快速聚类分析时,最终聚点是每一类的中心向量,代入距离公式,求出各数据与聚点的距离,并按大小分类。 三、基本假设 1、假设所有数据都有效; 2、假设所有花无重大变异,即无较大差异; 3、假设该植物样品的选取具有随机性,无人为主观干扰。 四、符号表示 符号 意义 快速聚类法采用欧氏距离下的聚点 快速聚类法利用绝对距离下的聚点 快速聚类法采用距离的聚点 快速聚类法按绝对距离的最终聚点 快速聚类法按距离的最终聚点 五、模型建立与求解 随着人类社会的发展与科学技术的进步,对分类学的要求也越来越高。只凭经验或专业知识对研究对象定性分类,这往往是不够的,有时不能进行确切的分类。于是数学被引进分类学中,形成了数值分类学。随着多元数据分析方法研究的深入,在数值分类学中形成了聚类分析这一学支,聚类分析是多远数据分析的重要组成部分([1])。本文样本量较大,将采用聚类分析法中快速聚类法对数据分类。 5.1快速聚类法将表1数据分为3类 本文数据样本容量较大,用快速聚类法分类。快速聚类是快速有效的聚类方法。快速聚类法先将样本数据粗略地分一下类,然后将按某种原则进行修正,直至分类比较合理为止。快速聚类的大致过程如图1所示 初始分类 分类是否合理 最终分类 选择聚点 选择聚点 合理 不合理 图1 快速聚类法步骤 用SAS系统中的proc astclus过程(见附录)得到以下结果。 快速聚类法按欧氏距离把表1数据分为3类,初始聚点是: ,, 它们对应的植物编号是19,58,117.分3类的结果见表1 表1 150个植物样品按欧氏距离分3类的结果 第1类 第2类 第3类 植物序号 1,6,10,18,26,31 36,37,40,42,44 47,51,52,54,55 56,59,60,61,64 65,68,69,72,73, 79, 80,88,89,92 96,97,101,102 107,108,113,116, 125,126,135,136 137,139,140,144 145146,150, 2,4,7,13,15,17 20,21,23,24,27 35,39,41,45,50 58,74,75,75,81 82,84,90,103,105 111,112,124,127 128,132,133,149 3,5,8,9,11,12 14,16,19,22,25 28,29,30,32,33 34,38,43,46,48 49,53,57,62,63 66,67,70,71,76 77,83,85,86,87 91,93,94,95,98, 99,100,104,106 109,110,114,115 117,118,119,120 121,122,129,130 131,134,138,141 142,143,147,148 频数 50 38 62 根据表1分类结合题一分析表1分类的实际意义: 表2 3类植物萼片及花瓣情况 项目 类别 萼片长 萼片宽 花瓣长 花瓣宽 1 43--58 19—24 10—19 1—6 2 62—79 25—38 51—69 16—25 3 49--70 19--34 30--56 10--20 从聚类的情况具体分析,相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比第1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物。 通过proc astclus过程可以得到聚类的大致情况,见表2 表3 150个植物样品按欧氏距离分3类情况 聚类 频数 均方根标准差 从聚点到观测 的最大距离 最近的聚类 聚类质心 间的距离 1 50 3.0801 16.3668 3 33.8883 2 35 3.9034 13.9967 3 18.1483 3 65 4.2247 18.0714 2 18.1483 通过proc astclus过程还可以得到按欧氏距离分3类这3类类内的均值及标准差见表3与表4 表4 按欧氏距离分3类的均值 聚类均值 聚类 x1 x2 x3 x4 1 50.26000000 34.10000000 14.68000000 2.46000000 2 68.65714286 30.88571429 57.77142857 21.42857143 3 59.30769231 27.40000000 44.29230769 14.49230769 表5 分3类的标准差 聚类标准差 聚类 x1 x2 x3 x4 1 3.794786972 4.338955014 1.899946294 1.053855894 2 4.910629869 2.908116720 4.608723916 2.671039832 3 4.993505397 3.126499640 5.272935250 2.979739276 平均数和标准差是反映数据集中趋势和离散程度的重要测量值。从表3中可以看出第1类的均值为与其聚点相近,第1类内变量各自对应的标准差分别为3.794786972,4.338955014,1.899946294,1.053855894,标准差偏小,说明第1类样品数据较为集中,与聚点偏差不大,分类较好。 第2类的均值为与其聚点相近,第2类内变量各自对应的标准差分别为4.910629869,2.908116720,4.608723916,2.671039832标准差偏小,说明第2类数据较为集中,与聚点偏差不大,分类较好。 第3类的均值为与其聚点相近,第3类内变量各自对应的标准差为4.993505397,3.126499640,5.272935250,2.979739276标准差较小,说明第3类数据较为集中,与聚点偏差不大,分类较好。 综上关于采用欧氏距离将附录中表1数据分3类这3类的均值及标准差的分析,这3类分类合理。 5.2用快速聚类法并用绝对距离分3类 距离与相似系数是聚类分析的出发点,距离是衡量样品间的相似度的量,不同的距离定义,得出的分类结果一般也不同。题一用的是欧氏距离。题二采用绝对距离进行快速聚类。 通过SAS系统中的proc astclus过程(见附录)得到以下结果 快速聚类法按绝对距离把表1(附录)数据分为3类,初始聚点是: ,, 它们对应的植物编号是19,58,117。 表6 按绝对距离分3类的结果 第1类 第2类 第3类 植物序号 1,6,10,18,26,31 36,37,40,42,44 47,51,52,54,55 56,59,60,61,64 65,68,69,72,73, 79, 80,88,89,92 96,97,101,102 107,108,113,116, 125,126,135,136 137,139,140,144 145,146,150 2,4,7,13,15,17 20,21,23,24,27 34,35,39,41,45 50,58,74,75 81,82,84,90,103 105,111,112,123 124 127,128,131 132,133,148,149 3,5,8,9,11,12 14,16,19,22,25 28,29,30,32,33 38,43,46,48 49,53,57,62,63 66,67,70,71,76 77,83,85,86,87 91,93,94,95,98, 99,100,104,106 109,110,114,115 117,118,119,120 121,122,129,130 134,138,141 142,143,147 频数 50 38 62 表6同题一的表1相比,题二中的第2类比题一的第2类多了序号为34、131、148的样本,而第3类相比题一减少了序号为34、131、148样本。 进一步地,根据表6数据结合题意分析分类的实际意义,总结如表6 表7 3类植物萼片及花瓣情况 项目 类别 萼片长 萼片宽 花瓣长 花瓣宽 1 43--58 19—24 10—19 1—6 2 62—79 25—38 51—69 15—25 3 49--70 19--34 30--56 10--20 从表7可以看出,相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物。 表8 150个植物样品按绝对距离分3类情况 聚类 频数 均值绝对离差 从聚点 到观测的 最大距离 最近的聚类 聚类中位数 间的距离 1 50 2.0459 22.0000 3 56.4996 2 38 3.0878 30.0000 3 28.5004 3 62 3.2213 30.4996 2 28.5004 通过proc astclus过程可以得到聚类的中位数,而在采用绝对距离进行 聚类分析时,最终聚点是每一类的中位向量。故聚类的最终聚点是: (表9数据保留两位小数) 表9 聚类的中位数 聚类中位数 聚类 x1 x2 x3 x4 1 50.00000117 34.00000091 14.99999810 2.00000104 2 67.00000183 30.00000219 56.00000183 21.00000055 3 58.49964345 27.99999836 44.99999863 14.00000000 通过proc astclus过程可以得到聚类与最终聚点的均值绝对离差,各观测值与最终聚点的均值绝对离差可以反映数据的离散程度: 结果见表10,并分析。 表10 聚类与最终聚点的均值绝对离差 与最终聚点的均值绝对离差 聚类 x1 x2 x3 x4 1 2.959183675 3.122448983 1.428571429 0.673469389 2 3.891891898 2.189189206 3.864864877 2.405405420 3 3.901639344 2.475409837 4.196721313 2.311475410 从表10可以看出,第1类样品各变量与最终聚点的均值绝对离差分别为2.959183675,3.122448983,1.428571429,0.673469389;第2类样品各变量与最终聚点的均值绝对离差为3.891891898,2.189189206, 3.864864877,2.405405420;第3类样品各变量与最终聚点的均值绝对离差为3.901639344,2.475409837,4.196721313,2.311475410;可以看出均值绝对离差都很小,说明数据分类较好。 5.3快速聚类法并采用距离将表1数据分3类 通过SAS系统中的proc astclus过程(见附录)得到以下结果 快速聚类法按距离把表1(附录)数据分为3类,初始聚点是: ,, 它们对应的植物编号是19,58,117。 表11 150个样品植物按分3类结果 第1类 第2类 第3类 植物序号 1,6,10,18,26,31 36,37,40,42,44 47,51,52,54,55 56,59,60,61,64 65,68,69,72,73, 79, 80,88,89,92 96,97,101,102 107,108,113,116, 125,126,135,136 137,139,140,144 145146,150, 2,4,7,13,15,17 20,21,23,24,27 35,39,41,45,50 58,74,75,75,81 82,84,90,103,105 111,112,124,127 128,132,131,133, 148,149 3,5,8,9,11,12 14,16,19,22,25 28,29,30,32,33 34,38,43,46,48 49,53,57,62,63 66,67,70,71,76 77,83,85,86,87 91,93,94,95,98, 99,100,104,106 109,110,114,115 117,118,119,120 121,122,129,130 134,138,141,142 143,147 频数 50 37 63 表11同题一的表1相比,题三中的第2类比题一的第2类多了序号为34、131样本,而第3类相比题一减少了序号为34、131样本。 进一步地,根据表11的数据结合具体题意探讨题三分类的实际意义,总结如表12 表12 3类植物萼片及花瓣情况 项目 类别 萼片长 萼片宽 花瓣长 花瓣宽 1 43--58 19—24 10—19 1—6 2 62—79 25—38 51—69 15—25 3 49--70 19--34 30--56 10--20 从表12可以看出,相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比第1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物。 表13 150个植物样品按距离分3类情况 聚类 频数 均幂根离差 从聚点 到观测的 最大距离 最近的聚类 聚类中心 间的距离 1 50 2.5847 17.7239 3 39.3820 2 37 3.5440 18.7399 3 20.9349 3 63 3.7348 19.6577 2 20.9349 在采用距离进行快速聚类时,最终聚点是每一类的中心向量。数据见表14 故最终聚点(表中数据保留两位小数)是 ; 表14距离进行快速聚类的聚类中心 聚类中心 聚类 x1 x2 x3 x4 1 50.15519545 34.09490612 14.70805444 2.22020269 2 68.10338329 30.71719801 56.95991128 21.12598479 3 58.98129253 27.45976743 44.45822332 14.21868489 在采用距离进行快速聚类时,通过proc astclus过程可以得到各聚类与最终聚点的均幂根离差,各观测值与最终聚点的均幂根离差可以反映各类数据的离散程度进而检验分类的合理性: 数据结果见表15,分析如: 表15 各观测值与最终聚点的均幂根离差 与最终聚点的均幂根离差 聚类 x1 x2 x3 x4 1 3.414683310 3.746237604 1.681445166 0.918881035 2 4.394022331 2.488035021 4.382797474 2.675404444 3 4.375899628 2.831501041 4.791177060 2.711656489 从表15可以看出,第1类各观测值与最终聚点的均幂根离差分别为3.414683310,3.746237604,1.681445166,0.918881035。 第2类各观测值与最终聚点的均幂根离差为4.3940223312.488035021,4.382797474,2.675404444。 第3类各观测值与最终聚点的均幂根离是4.375899628,2.831501041 4.791177060,2.711656489;这3类与最终聚点的均幂根离差都较小,说明分类合理。 六、模型评价与推广 优点: 1.时间复杂度低; 2.用距离进行聚类分析,有较强的稳健性; 3. 聚类分析模型结论直观,形式简明易于理解和实现。 缺点: 1.算法对初选值敏感; 2.如果样本量较大,计算较为麻烦,且难以获得聚类结论。 推广: 聚类分析,是研究分类问题的一种多元统计方法,是多元统计中研究“物以类聚”的一种方法。在经济、社会、人口等诸多方面的研究中,都需要采用聚类分析做分析研究。过去人们主要靠经验做定性分类处理,很少利用数学方法和原理,所以许多的分类往往带有主观性和任意性,不能解释客观事物内在的本质差别和联系,特别是对于多因素、多指标的分类问题。 聚类分析正处于发展阶段,理论上虽然不很完善,但由于它能够解决许多实际问题,所以现在越来越来多的收到人们的重视。 参考文献 [1] 范金城,梅长林,数据分析,北京:科学出版,2002. 附录 表1 Iris数据 序号 类别 x1 x2 x3 x4 1 1 50 33 14 2 2 3 64 28 56 22 3 2 65 28 46 15 4 3 67 31 56 24 5 3 63 28 51 15 6 1 46 34 14 3 7 3 69 31 51 23 8 2 62 22 45 15 9 2 59 32 48 18 10 1 46 36 10 2 11 2 61 30 46 14 12 2 60 27 51 16 13 3 65 30 52 20 14 2 56 25 39 11 15 3 65 30 55 18 16 3 58 27 51 19 17 3 68 32 59 23 18 1 51 33 17 5 19 2 57 28 45 13 20 3 62 34 54 23 21 3 77 38 67 22 22 2 63 33 47 16 23 3 67 33 57 25 24 3 76 30 66 21 25 3 49 25 45 17 26 1 55 35 13 2 27 3 67 30 52 23 28 2 70 32 47 14 29 2 64 32 45 15 30 2 61 28 40 13 31 1 48 31 16 2 32 3 59 30 51 18 33 2 55 24 38 11 34 3 63 25 50 19 35 3 64 32 53 23 36 1 52 34 14 2 37 1 49 36 14 1 38 2 54 30 45 15 39 3 79 38 64 20 40 1 44 32 13 2 41 3 67 33 57 21 42 1 50 35 16 6 43 2 58 26 40 12 44 1 44 30 13 2 45 3 77 28 67 20 46 3 63 27 49 18 47 1 47 32 16 2 48 2 55 26 44 12 49 2 50 23 33 10 50 3 72 32 60 18 51 1 48 30 14 3 52 1 51 38 16 2 53 3 61 30 49 18 54 1 48 34 19 2 55 1 50 30 16 2 56 1 50 32 12 2 57 3 61 26 56 14 58 3 64 28 56 21 59 1 43 30 11 1 60 1 58 40 12 2 61 1 51 38 19 4 62 2 67 31 44 14 63 3 62 28 48 18 64 1 49 30 14 2 65 1 51 35 14 2 66 2 56 30 45 15 67 2 58 27 41 10 68 1 50 34 16 4 69 1 46 32 14 2 70 2 60 29 45 15 71 2 57 26 35 10 72 1 57 44 15 4 73 1 50 36 14 2 74 3 77 30 61 23 75 3 63 34 56 24 76 3 58 27 51 19 77 2 57 19 42 13 78 3 72 30 58 16 79 1 54 34 15 4 80 1 52 42 15 1 81 3 71 30 59 21 82 3 64 31 55 18 83 3 60 30 48 18 84 3 63 29 56 18 85 2 49 24 33 10 86 2 56 27 42 13 87 2 57 30 42 12 88 1 55 42 14 2 89 1 49 31 15 2 90 3 77 26 69 23 91 3 60 22 50 15 92 1 54 39 17 4 93 2 66 29 46 13 94 2 52 27 39 14 95 2 60 34 45 16 96 1 50 34 15 2 97 1 44 19 14 2 98 2 50 20 35 10 99 2 55 24 37 10 100 2 58 27 39 12 101 1 47 32 13 2 102 1 46 31 15 2 103 3 69 32 57 23 104 2 62 29 43 13 105 3 74 28 61 19 106 2 59 30 42 15 107 1 51 34 15 2 108 1 50 35 13 3 109 3 56 28 49 20 110 2 60 22 40 10 111 3 73 29 63 18 112 3 67 25 58 18 113 1 49 31 15 1 114 2 17 31 47 15 115 2 13 23 44 13 116 1 54 37 15 2 117 2 56 30 41 13 118 2 63 25 49 15 119 2 61 28 47 12 120 2 64 29 43 13 121 2 51 25 30 11 122 2 57 28 41 13 123 3 65 30 58 22 124 3 69 31 54 21 125 1 54 39 13 4 126 1 51 35 14 3 127 3 72 36 61 25 128 3 65 32 51 20 129 2 61 29 47 14 130 2 56 29 36 13 131 2 69 31 49 15 132 3 64 27 53 19 133 3 68 30 55 21 134 2 55 25 40 13 135 1 48 34 16 2 136 1 48 30 14 1 137 1 45 23 13 3 138 3 57 25 50 20 139 1 57 38 17 3 140 1 51 38 15 3 141 2 55 23 40 13 142 2 66 30 44 14 143 2 68 28 48 14 144 1 54 34 17 2 145 1 51 37 15 4 146 1 52 35 15 2 147 3 58 28 51 24 148 2 67 30 50 17 149 3 63 33 60 25 150 1 53 37 15 2 1、 快速聚类法将表1数据分为3类 PROC FASTCLUS DATA=sas1 MAXCLUSTERS=3 OUT=fcl; ID c1; RPOC SORT DATA=fcl OUT=sortfcl; BY cluster; PROC PRINT DATA=sortfcl; RUN; 2、用快速聚类法并用绝对距离分3类 PROC FASTCLUS DATA=sas1 MAXCLUSTERS=3 OUT=fcl LEAST=1; ID c1; RPOC SORT DATA=fcl OUT=sortfcl; BY cluster; PROC PRINT DATA=sortfcl; RUN; 3、用快速聚类法并采用距离分3类 PROC FASTCLUS DATA=sas1 MAXCLUSTERS=3 OUT=fcl LEAST=1.5; ID c1; RPOC SORT DATA=fcl OUT=sortfcl; BY cluster; PROC PRINT DATA=sortfcl; RUN; 14
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 百科休闲 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服