收藏 分销(赏)

基于快速聚类法的植物分类.doc

上传人:xrp****65 文档编号:5964230 上传时间:2024-11-24 格式:DOC 页数:22 大小:535.50KB 下载积分:10 金币
下载 相关 举报
基于快速聚类法的植物分类.doc_第1页
第1页 / 共22页
基于快速聚类法的植物分类.doc_第2页
第2页 / 共22页


点击查看更多>>
资源描述
基于快速聚类法的植物分类 摘 要 本文主要讨论根据某植物的萼片及花瓣的长宽数据运用快速聚类法进行分类的问题。 针对问题一,将数据录入EXCEL表格,运用快速聚类法并采用欧氏距离将Iris数据分成3类,利用SAS软件求解可得3类的频数分别为51、35及64。 针对问题二,同问题一的做法但采用绝对距离将数据分成3类,利用SAS软件求解可得3类的频数分别为51、37及62。 针对问题三,同问题一的做法但采用距离()将数据分成3类,利用SAS软件求解可得3类的频数分别为51、37及62。 在分类数不确定的情况下将模型进行推广,利用快速聚类法和SAS软件对各类结果进行比较分析,得出较好的分类。 关键词 快速聚类法;SAS软件;欧氏距离;绝对距离;距离 一、问题重述 植物是生命的主要形态之一,不同种类的植物形状一般不同。土壤环境,空气,阳光等都会影响植物的种类及形状,通过观察植物的形态对人类更好的了解植物有很大作用。现对某三种不同种类的植物的叶片及花瓣的长、宽进行调查。为此,取三个种类的植物,每个种类取50个样本,分别测量出每个样本的萼片长、宽及花瓣长、宽。为了更准确地将植物分类,根据题目中所给数据,解决以下问题: 问题一:用快速聚类法将这些数据分成3类,并写出分类结果; 问题一:用快速聚类法并采用绝对距离将这些数据分成3类,写出分类结果; 问题一:用快速聚类法并采用距离()将这些数据分成3类,写出分类结果。 二、问题分析 聚类分析是研究分类问题的多元数据分析方法,为了解植物的本质特征,往往需要划分不同的类型去研究,当样品容量较大时,采用快速聚类法比较准确,快速聚类法先将样品粗略的分一下类,然后再按某种原则进行修改,直至分类比较合理为止。本文数据量较大,采取快速聚类法进行分类快速有效。 取某植物的三个种类,每个种类取50个样本,分别测量出每个样本的萼片长、宽及花瓣长、宽。利用SAS软件对Iris数据运用快速聚类法分别采用欧氏距离、绝对距离及距离(),从中选择出适当的聚点,进而对数据进行分类。 三、基本假设 1.数据均真实有效可操作; 2.样本均是随机选取; 3.不考虑人为因素,检测仪器精确度不同的影响。 四、符号表示 萼片长 萼片宽 花瓣长 花瓣宽 第种类的样本 五、模型的建立与求解 5.1 快速聚类法(欧式距离) 利用SAS软件对Iris数据采用欧氏距离进行快速聚类分析(见附录中程序1),初始聚点如表1所示: 表1 初始聚点 聚类 1 58.00000000 40.00000000 12.00000000 2.00000000 2 77.00000000 38.00000000 67.00000000 22.00000000 3 57.00000000 19.00000000 42.00000000 13.00000000 聚点1、2和3对应的样品号分别为60、21和77号。分3类的聚类结果如表(见附录中表1)所示,从聚类的情况具体分析,第一类属于萼长居中,萼宽最宽,花瓣长和宽最小的样品,大部分为种;第二类属于萼长最长,萼宽居中,花瓣长和宽最大的样品,大部分为种;第一类属于萼长和萼宽最小,花瓣长和宽居中的样品,大部分为种。三种植物总共150个样本分为三类,第一类包含51个样本,离聚点的最大距离是18.0043;第二类包含35个样本,离聚点的最大距离是13.7788;第三类包含64个样本,离聚点的最大距离是17.9732。 聚类的大致情况见表2: 表2 150个样品分3类情况 类号 频数 类内到聚点最大距离 最邻近类 至最邻近类距离 1 51 18.0043 3 33.6434 2 35 13.7788 3 18.3632 3 64 17.9732 2 18.3632 类间距离有助于分析类间的接近程度,第3类与第2类的距离最小,为18.3632,所以第3类与第2类最相近。 三个类的变量的样本均值与标准差如表3和表4所示: 表3 三个类的变量的样本均值 聚类 1 50.23529412 34.05882353 14.68627451 2.76470588 2 68.74285714 30.62857143 57.91428571 21.17142857 3 59.17187500 27.28125000 44.23437500 14.29687500 表4 三个类的变量的样本标准差 聚类 1 3.707226647 4.305400166 1.783145491 2.413199000 2 4.978440916 3.430706618 4.686472576 2.369980321 3 4.933058832 3.108966806 5.293728507 2.931382942 根据样本均值与标准差可知:1、2、3类的数据基本都集中在均值附近,第三类的数据分布没有第一类集中。 5.2 快速聚类法(绝对距离) 利用SAS软件对Iris数据采用绝对距离进行快速聚类分析(见附录中程序2),初始聚点如表5所示: 表5 初始聚点 聚类 1 58.00000000 40.00000000 12.00000000 2.00000000 2 77.00000000 38.00000000 67.00000000 22.00000000 3 57.00000000 19.00000000 42.00000000 13.00000000 聚点1、2和3对应的样品号分别为为60、21和77号。聚类中位数如表6所示: 表6 聚类中位数 聚类 1 50.00000103 34.00000061 14.99999789 2.00000114 2 67.00000229 30.00000247 56.99999817 21.00000046 3 58.50018768 27.49810117 44.99999863 13.99999909 分3类的聚类结果如表(见附录中表2)所示,由表6和附录中表2可得第一类属于萼长最小,萼宽最宽,花瓣长和宽最小的样品,大部分为种;第二类属于萼长最长,萼宽居中,花瓣长和宽最大的样品,大部分为种;第三类属于萼长居中,萼宽最小,花瓣长和宽居中的样品,大部分为种。三种植物总共150个样本分为三类,第一类包含51个样本,离聚点的最大距离是30;第二类包含37个样本,离聚点的最大距离是29;第三类包含62个样本,离聚点的最大距离是29.9983。 聚类的大致情况见表7: 表7 150个样品分3类情况 类号 频数 类内到聚点最大距离 最邻近类 至最邻近类距离 1 51 30.0000 3 57.0021 2 37 29.0000 3 30.0017 3 62 29.9983 2 30.0017 类间距离有助于分析类间的接近程度,第3类与第2类的距离最小,为 30.0017,所以第3类与第2类最相近。 5.3 快速聚类法(距离()) 利用SAS软件对Iris数据采用距离进行快速聚类分析(相关程序见附录中程序3),初始聚点如表8所示: 表8 初始聚点 聚类 1 58.00000000 40.00000000 12.00000000 2.00000000 2 77.00000000 38.00000000 67.00000000 22.00000000 3 57.00000000 19.00000000 42.00000000 13.00000000 聚点1、2和3对应的样品号分别为60、21和77号,最终聚点如表8所示: 表8 最终聚点 聚类 1 50.13276928 34.04720500 14.69124606 2.32597683 2 68.15731175 30.60310465 57.07646869 20.99938469 3 58.85575966 27.28895885 44.36794359 14.01182953 分3类聚类结果如表(见附录中表3)所示,由表8和附录中表3可得第一类属于萼长最小,萼宽最宽,花瓣长和宽最小的样品,大部分为种;第二类属于萼长最长,萼宽最小,花瓣长和宽最大的样品,大部分为种;第三类属于萼长居中,萼宽最小,花瓣长和宽居中的样品,大部分为种。 三种植物总共150个样本分为三类,第一类包含51个样本,离聚点的最大距离是21.1702;第二类包含37个样本,离聚点的最大距离是18.5932;第三类包含62个样本,离聚点的最大距离是19.7812。 聚类的大致情况见表9: 表9 150个样品分3类情况 类号 频数 类内到聚点最大距离 最邻近类 至最邻近类距离 1 51 21.1702 3 39.1485 2 37 18.5932 3 21.2817 3 62 19.7812 2 21.2817 类间距离有助于分析类间的近似(或接近)程度,可知第三类与第二类的距离最小,为21.2817,所以第三类与第二类最接近。 六、模型评价与推广 6.1模型评价 优点: (1)利用数学软件SAS对模型进行分析,具有科学性; (2)采用的快速聚类法有成熟的理论基础,可信度较高; (3)该模型建立所用的数学工具和聚类分析理论较简单,便于操作。 缺点: (1)样本数据稍少,得出的分类方法可能与实际情况相违背; (2)尚未用快速分类法讨论其他的分类数,可能不是最优分类; (3)快速分类法自身有限制,无法对模型有全面、细致的分类求解。 6.2模型推广 将样本分为其他的类数,运用快速聚类法、利用SAS软件分别求解,通过综合比较得出最优分类个数;运用快速聚类法得出的分类方法,以此植物的不同种类的萼片及花瓣长宽数据为依据进行简单分类,便于对此植物的管理,也可以推广到其他植物或动物的分类。 参考文献 [1] 范金城,梅长林,数据分析[M],北京:科学出版社,2002. 附录 表1 三种植物个样本聚类结果 观测 聚类 与种子的距离 观测 聚类 与种子的距离 观测 聚类 与种子的距离 1 1 1.4941 51 1 4.6901 101 1 4.2584 2 2 6.7619 52 1 4.2928 102 1 5.2894 3 3 6.0822 53 3 6.0428 103 2 2.5801 4 2 4.4486 54 1 4.9186 104 3 8.1103 5 3 7.0347 55 1 4.3405 105 2 6.3238 6 1 4.2974 56 1 3.4778 106 3 3.9408 7 2 7.8096 57 3 11.2936 107 1 1.1276 8 3 5.9631 58 2 6.752 108 1 1.9596 9 1 18.0043 59 1 9.248 109 3 7.6049 10 1 6.6522 60 1 10.168 110 3 8.6975 11 3 3.2316 61 1 6.0209 111 2 12.6961 12 3 6.2596 62 3 8.3558 112 2 7.2703 13 2 8.1888 63 3 5.1914 113 1 3.7543 14 3 8.1779 64 1 4.3653 114 3 8.5428 15 2 6.7816 65 1 1.5894 115 3 5.9327 16 3 7.6315 66 3 4.3897 116 1 4.8484 17 2 2.4745 67 3 6.3057 117 3 6.1072 18 1 3.4721 68 1 1.8195 118 3 5.918 19 3 3.0988 69 1 4.82 119 3 3.7447 20 2 9.4863 70 3 1.6792 120 3 5.3765 21 2 13.3213 71 3 11.3416 121 3 17.9732 22 3 7.0161 72 1 12.0918 122 3 4.9907 23 2 5.1176 73 1 2.2089 123 2 4.6608 24 2 9.872 74 2 8.0658 124 2 4.6822 25 3 11.0569 75 2 8.0988 125 1 6.5542 26 1 5.1977 76 3 7.6315 126 1 1.4131 27 2 7.3114 77 3 9.4152 127 2 7.1361 28 3 11.6311 78 2 6.0765 128 2 9.0475 29 3 6.4038 79 1 3.975 129 3 3.0753 30 3 5.4261 80 1 8.33 130 3 9.8625 31 1 4.0821 81 2 1.823 131 3 10.9171 32 3 7.4168 82 2 7.4335 132 2 9.1026 33 3 9.6756 83 3 5.2358 133 2 4.0485 34 3 7.8984 84 2 8.0285 134 3 7.3075 35 2 8.107 85 3 16.9276 135 1 2.7038 36 1 2.0429 86 3 4.8983 136 1 5.0056 37 1 2.9798 87 3 5.363 137 1 12.3533 38 3 6.1167 88 1 9.3177 138 3 8.1521 39 2 13.1145 89 1 3.4008 139 1 8.1672 40 1 6.8225 90 2 13.7788 140 1 4.0338 41 2 3.6955 91 3 7.4548 141 3 8.1903 42 1 3.6241 92 1 6.743 142 3 7.0522 43 3 5.9753 93 3 6.9486 143 3 9.0534 44 1 7.6669 94 3 9.6125 144 1 4.4849 45 2 11.6843 95 3 6.7272 145 1 3.2954 46 3 6.316 96 1 0.8614 146 1 2.1641 47 1 4.1251 97 1 16.331 147 3 11.2511 48 3 5.5333 98 3 16.3151 148 3 9.6756 49 3 16.5624 99 3 10.8076 149 2 7.8352 50 2 4.6033 100 3 6.685 150 1 4.1204 表2 三种植物个样本聚类结果 观测 聚类 与种子的距离 观测 聚类 与种子的距离 观测 聚类 与种子的距离 1 1 2 51 1 8 101 1 7 2 2 7 52 1 6 102 1 7 3 3 10.9979 53 3 13.0017 103 2 6 4 2 5 54 1 6 104 3 11.0021 5 3 12.0017 55 1 5 105 2 15 6 1 6 56 1 5 106 3 7.0017 7 2 11 57 3 14.9979 107 1 1 8 3 9.9979 58 2 6 108 1 4 9 1 30 59 1 16 109 3 13.0021 10 1 11 60 1 17 110 3 15.9979 11 3 6.0017 61 1 11 111 2 25 12 3 9.9979 62 3 13.0017 112 2 9 13 2 8 63 3 11.0017 113 1 5 14 3 13.9983 64 1 6 114 3 15.0017 15 2 7 65 1 3 115 3 10.9979 16 3 11.9983 66 3 6.0021 116 1 7 17 2 7 67 3 8.9983 117 3 10.0021 18 1 7 68 1 3 118 3 10.9979 19 3 3.0021 69 1 7 119 3 7.0017 20 2 14 70 3 4.0017 120 3 10.0017 21 2 29 71 3 16.9983 121 3 28.9983 22 3 14.0017 72 1 19 122 3 7.0021 23 2 7 73 1 3 123 2 4 24 2 18 74 2 16 124 2 6 25 3 14.9983 75 2 12 125 1 13 26 1 8 76 3 11.9983 126 1 4 27 2 7 77 3 13.9983 127 2 19 28 3 18.0017 78 2 11 128 2 11 29 3 11.0017 79 1 6 129 3 6.0017 30 3 9.0017 80 1 11 130 3 14.0021 31 1 6 81 2 6 131 2 17 32 3 13.0017 82 2 9 132 2 12 33 3 16.9983 83 3 11.0017 133 2 3 34 3 16.9979 84 2 9 134 3 11.9983 35 2 11 85 3 28.9983 135 1 3 36 1 3 86 3 6.9983 136 1 8 37 1 5 87 3 9.0021 137 1 19 38 3 8.0021 88 1 14 138 3 14.9983 39 2 28 89 1 4 139 1 14 40 1 10 90 2 28 140 1 6 41 2 3 91 3 12.9979 141 3 13.9983 42 1 6 92 1 13 142 3 11.0017 43 3 8.9983 93 3 11.0017 143 3 13.0017 44 1 12 94 3 12.9983 144 1 6 45 2 23 95 3 10.0017 145 1 6 46 3 12.9979 96 1 2.05E-08 146 1 3 47 1 6 97 1 22 147 3 17.0021 48 3 7.9983 98 3 29.9983 148 2 11 49 3 28.9983 99 3 18.9983 149 2 14 50 2 13 100 3 8.9983 150 1 6 表3 三种植物个样本聚类结果 观测 聚类 与种子的距离 观测 聚类 与种子的距离 观测 聚类 与种子的距离 1 1 1.5237 51 1 5.353 101 1 4.9039 2 2 6.0266 52 1 4.7492 102 1 5.8305 3 3 7.7943 53 3 8.6719 103 2 3.0307 4 2 3.9365 54 1 5.3155 104 3 8.0422 5 3 9.0217 55 1 4.6024 105 2 9.422 6 1 4.4981 56 1 3.8583 106 3 4.373 7 2 7.0785 57 3 12.5155 107 1 1.1138 8 3 7.1761 58 2 5.7515 108 1 2.4056 9 1 21.1702 59 1 10.8644 109 3 9.6652 10 1 7.7266 60 1 11.9272 110 3 9.7729 11 3 4.5451 61 1 7.313 111 2 16.132 12 3 7.6748 62 3 9.7865 112 2 7.5121 13 2 6.9987 63 3 7.6265 113 1 4.0741 14 3 8.7658 64 1 4.6751 114 3 10.8306 15 2 5.8818 65 1 1.8413 115 3 7.01 16 3 9.4753 66 3 4.8783 116 1 5.5392 17 2 3.7326 67 3 6.1263 117 3 6.4782 18 1 4.567 68 1 2.4016 118 3 7.8205 19 3 2.7851 69 1 5.2681 119 3 4.905 20 2 9.6046 70 3 2.9033 120 3 6.4874 21 2 18.3607 71 3 11.8321 121 3 19.7812 22 3 9.4734 72 1 13.8838 122 3 4.742 23 2 5.523 73 1 2.3219 123 2 3.9891 24 2 13.4066 74 2 11.1767 124 2 3.4542 25 3 11.7101 75 2 8.3868 125 1 8.0859 26 1 5.8236 76 3 9.4753 126 1 2.0175 27 2 6.3447 77 3 9.8797 127 2 10.8713 28 3 13.8779 78 2 7.3843 128 2 8.1434 29 3 8.1759 79 1 4.627 129 3 4.5325 30 3 5.7772 80 1 8.9282 130 3 10.1398 31 1 4.6778 81 2 3.9763 131 2 11.4353 32 3 9.5608 82 2 6.5888 132 2 8.8601 33 3 10.6657 83 3 7.5084 133 2 2.3153 34 3 10.9846 84 2 7.381 134 3 7.6553 35 2 7.6571 85 3 19.0689 135 1 2.8488 36 1 2.2266 86 3 4.5304 136 1 5.6299 37 1 3.3152 87 3 5.6666 137 1 13.7703 38 3 6.5201 88 1 10.4799 138 3 10.4972 39 2 17.7903 89 1 3.6183 139 1 9.6369 40 1 7.4909 90 2 18.5932 140 1 4.4513 41 2 2.9151 91 3 9.1627 141 3 8.9109 42 1 4.4912 92 1 8.3898 142 3 8.2703 43 3 5.8743 93 3 8.4209 143 3 10.7354 44 1 8.7121 94 3 9.7713 144 1 5.0384 45 2 15.7917 95 3 7.8312 145 1 4.0727 46 3 8.8943 96 1 0.5575 146 1 2.4519 47 1 4.6902 97 1 17.6764 147 3 13.5788 48 3 5.2739 98 3 18.988 148 2 9.338 49 3 18.8131 99 3 12.0004 149 2 9.3138 50 2 7.2141 100 3 6.4123 150 1 4.7299 程序1: data pjsr; input x1-x4; cards; 50 33 14 2 64 28 56 22 65 25 46 15 67 31 56 24 63 28 51 15 46 34 14 3 69 31 51 23 62 22 45 15 59 32 18 18 46 36 10 2 61 30 46 14 60 27 51 16 65 30 52 20 56 25 39 11 65 30 55 18 58 27 51 19 68 32 59 23 51 33 17 5 57 28 45 13 62 34 54 23 77 38 67 22 63 33 47 16 67 33 57 25 76 30 66 21 49 25 45 17 55 35 13 2 67 30 52 23 70 32 47 14 64 32 45 15 61 28 40 13 48 31 16 2 59 30 51 18 55 24 38 11 63 25 50 19 64 32 53 23 52 34 14 2 49 36 14 1 54 30 45 15 79 38 64 20 44 32 13 2 67 33 57 21 50 35 16 6 58 26 40 12 44 30 13 2 77 28 67 20 63 27 49 18 47 32 16 2 55 26 44 12 50 23 33 10 72 32 60 18 48 30 14 3 51 38 16 2 61 30 49 18 48 34 19 2 50 30 16 2 50 32 12 2 61 26 56 14 64 28 56 21 43 30 11 1 58 40 12 2 51 38 19 4 67 31 44 14 62 28 48 18 49 30 14 2 51 35 14 2 56 30 45 15 58 27 41 10 50 34 16 4 46 32 14 2 60 29 45 15 57 26 35 10 57 44 15 4 50 36 14 2 77 30 61 23 63 34 56 24 58 27 51 19 57 19 42 13 72 30 58 16 54 34 15 4 52 42 15 1 71 30 59 21 64 31 55 18 60 30 48 18 63 29 56 18 49 24 33 10 56 27 42 13 57 30 42 12 55 42 14 2 49 31 15 2 77 26 69 23 60 22 50 15 54 39 17 4 66 29 46 13 52 27 39 14 60 34 45 16 50 34 15 2 44 19 14 2 50 20 35 10 55 24 37 10 58 27 39 12 47 32 13 2 46 31 15 2 69 32 57 23 52 29 43 13 74 28 61 19 59 30 42 15 51 34 15 2 50 35 13 3 56 28 49 20 60 22 40 10 73 20 63 18 67 25 58 18 49 31 15 1 67 31 47 15 63 23 44 13 54 37 15 2 56 30 41 13 63 25 49 14 61 28 47 12 64 29 43 13 51 25 30 10 57 28 41 13 65 30 58 22 69 31 54 21 54 39 13 4 51 35 14 3 72 36 61 25 65 32 51 20 61 29 47 14 56 29 36 13 69 31 49 15 64 27 53 19 68 30 55 21 55 25 40 13 48 34 16 2 48 30 14 1 45 23 13 3 57 25 50 20 57 38 17 3 51 38 15 3 55 23 40 13 66 30 44 14 68 28 48 14 54 34 17 2 51 37 15 4 52 35 15 2 58 28 51 24 67 30 50 17 63 33 60 25 53 37 15 2 ; proc cluster data=pjsr method=single OUTTREE=tree nonorm; run; proc fastclus data=pjsr out=a1 maxc=3 cluster=c distance list; data b1 b2 b3; set a1; if c=1 then output b1; if c=2 then output b2; if c=3 then output b3; proc print data=b1; proc print data=b2; proc print data=b3; run; 程序2: data pjsr; input x1-x4; cards; 50 33 14 2 64 28 56 22 65 25 46 15 67 31 56 24 63 28 51 15 46 34 14 3 69 31 51 23 62 22 45 15 59 32 18 18 46 36 10 2 61 30 46 14 60 27 51 16 65 30 52 20 56 25 39 11 65 30 55 18 58 27 51 19 68 32 59 23 51 33 17 5 57 28 45 13 62 34 54 23 77 38 67 22 63 33 47 16 67 33 57 25 76 30 66 21 49 25 45 17 55 35 13 2 67 30 52 23 70 32 47 14 64 32 45 15 61 28 40 13 48 31 16 2 59 30 51 18 55 24 38 11 63 25 50 19 64 32 53 23 52 34 14 2 49 36 14 1 54 30 45 15 79 38 64 20 44 32 13 2 67 33 57 21 50 35 16 6 58 26 40 12 44 30 13 2 77 28 67 20 63 27 49 18 47 32 16 2 55 26 44 12 50 23 33 10 72 32 60 18 48 30 14 3 51 38 16 2 61 30 49 18 48 34 19 2 50 30 16 2 50 32 12 2 61 26 56 14 64 28 56 21 43 30 11 1 58 40 12 2 51 38 19 4 67 31 44 14 62 28 48 18 49 30 14 2 51 35 14 2 56 30 45 15 58 27 41 10 50 34 16 4 46 32 14 2 60 29 45 15 57 26 35 10 57 44 15 4 50 36 14 2 77 30 61 23 63 34 56 24 58 27 51 19 57 19 42 13 72 30 58 16 54 34 15 4 52 42 15 1 71 30 59 21 64 31 55 18 60 30 48 18 63 29 56 18 49 24 33 10 56 27 42 13 57 30 42 12 55 42 14 2 49 31 15 2 77 26 69 23 60 22 50 15 54 39 17 4 66 29 46 13 52 27 39 14 60 34 45 16 50 34 15 2 44 19 14 2 50 20 35 10 55 24 37 10 58 27 39 12 47 32 13 2 46 31 15 2 69 32 57 23 52 29 43 13 74 28 61 19 59 30 42 15 51 34 15 2 50 35 13 3 56 28 49 20 60 22 40 10 73 20 63 18 67 25 58
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服