资源描述
基于快速聚类法的植物分类
摘 要 本文主要讨论根据某植物的萼片及花瓣的长宽数据运用快速聚类法进行分类的问题。
针对问题一,将数据录入EXCEL表格,运用快速聚类法并采用欧氏距离将Iris数据分成3类,利用SAS软件求解可得3类的频数分别为51、35及64。
针对问题二,同问题一的做法但采用绝对距离将数据分成3类,利用SAS软件求解可得3类的频数分别为51、37及62。
针对问题三,同问题一的做法但采用距离()将数据分成3类,利用SAS软件求解可得3类的频数分别为51、37及62。
在分类数不确定的情况下将模型进行推广,利用快速聚类法和SAS软件对各类结果进行比较分析,得出较好的分类。
关键词 快速聚类法;SAS软件;欧氏距离;绝对距离;距离
一、问题重述
植物是生命的主要形态之一,不同种类的植物形状一般不同。土壤环境,空气,阳光等都会影响植物的种类及形状,通过观察植物的形态对人类更好的了解植物有很大作用。现对某三种不同种类的植物的叶片及花瓣的长、宽进行调查。为此,取三个种类的植物,每个种类取50个样本,分别测量出每个样本的萼片长、宽及花瓣长、宽。为了更准确地将植物分类,根据题目中所给数据,解决以下问题:
问题一:用快速聚类法将这些数据分成3类,并写出分类结果;
问题一:用快速聚类法并采用绝对距离将这些数据分成3类,写出分类结果;
问题一:用快速聚类法并采用距离()将这些数据分成3类,写出分类结果。
二、问题分析
聚类分析是研究分类问题的多元数据分析方法,为了解植物的本质特征,往往需要划分不同的类型去研究,当样品容量较大时,采用快速聚类法比较准确,快速聚类法先将样品粗略的分一下类,然后再按某种原则进行修改,直至分类比较合理为止。本文数据量较大,采取快速聚类法进行分类快速有效。
取某植物的三个种类,每个种类取50个样本,分别测量出每个样本的萼片长、宽及花瓣长、宽。利用SAS软件对Iris数据运用快速聚类法分别采用欧氏距离、绝对距离及距离(),从中选择出适当的聚点,进而对数据进行分类。
三、基本假设
1.数据均真实有效可操作;
2.样本均是随机选取;
3.不考虑人为因素,检测仪器精确度不同的影响。
四、符号表示
萼片长
萼片宽
花瓣长
花瓣宽
第种类的样本
五、模型的建立与求解
5.1 快速聚类法(欧式距离)
利用SAS软件对Iris数据采用欧氏距离进行快速聚类分析(见附录中程序1),初始聚点如表1所示:
表1 初始聚点
聚类
1
58.00000000
40.00000000
12.00000000
2.00000000
2
77.00000000
38.00000000
67.00000000
22.00000000
3
57.00000000
19.00000000
42.00000000
13.00000000
聚点1、2和3对应的样品号分别为60、21和77号。分3类的聚类结果如表(见附录中表1)所示,从聚类的情况具体分析,第一类属于萼长居中,萼宽最宽,花瓣长和宽最小的样品,大部分为种;第二类属于萼长最长,萼宽居中,花瓣长和宽最大的样品,大部分为种;第一类属于萼长和萼宽最小,花瓣长和宽居中的样品,大部分为种。三种植物总共150个样本分为三类,第一类包含51个样本,离聚点的最大距离是18.0043;第二类包含35个样本,离聚点的最大距离是13.7788;第三类包含64个样本,离聚点的最大距离是17.9732。
聚类的大致情况见表2:
表2 150个样品分3类情况
类号
频数
类内到聚点最大距离
最邻近类
至最邻近类距离
1
51
18.0043
3
33.6434
2
35
13.7788
3
18.3632
3
64
17.9732
2
18.3632
类间距离有助于分析类间的接近程度,第3类与第2类的距离最小,为18.3632,所以第3类与第2类最相近。
三个类的变量的样本均值与标准差如表3和表4所示:
表3 三个类的变量的样本均值
聚类
1
50.23529412
34.05882353
14.68627451
2.76470588
2
68.74285714
30.62857143
57.91428571
21.17142857
3
59.17187500
27.28125000
44.23437500
14.29687500
表4 三个类的变量的样本标准差
聚类
1
3.707226647
4.305400166
1.783145491
2.413199000
2
4.978440916
3.430706618
4.686472576
2.369980321
3
4.933058832
3.108966806
5.293728507
2.931382942
根据样本均值与标准差可知:1、2、3类的数据基本都集中在均值附近,第三类的数据分布没有第一类集中。
5.2 快速聚类法(绝对距离)
利用SAS软件对Iris数据采用绝对距离进行快速聚类分析(见附录中程序2),初始聚点如表5所示:
表5 初始聚点
聚类
1
58.00000000
40.00000000
12.00000000
2.00000000
2
77.00000000
38.00000000
67.00000000
22.00000000
3
57.00000000
19.00000000
42.00000000
13.00000000
聚点1、2和3对应的样品号分别为为60、21和77号。聚类中位数如表6所示:
表6 聚类中位数
聚类
1
50.00000103
34.00000061
14.99999789
2.00000114
2
67.00000229
30.00000247
56.99999817
21.00000046
3
58.50018768
27.49810117
44.99999863
13.99999909
分3类的聚类结果如表(见附录中表2)所示,由表6和附录中表2可得第一类属于萼长最小,萼宽最宽,花瓣长和宽最小的样品,大部分为种;第二类属于萼长最长,萼宽居中,花瓣长和宽最大的样品,大部分为种;第三类属于萼长居中,萼宽最小,花瓣长和宽居中的样品,大部分为种。三种植物总共150个样本分为三类,第一类包含51个样本,离聚点的最大距离是30;第二类包含37个样本,离聚点的最大距离是29;第三类包含62个样本,离聚点的最大距离是29.9983。
聚类的大致情况见表7:
表7 150个样品分3类情况
类号
频数
类内到聚点最大距离
最邻近类
至最邻近类距离
1
51
30.0000
3
57.0021
2
37
29.0000
3
30.0017
3
62
29.9983
2
30.0017
类间距离有助于分析类间的接近程度,第3类与第2类的距离最小,为
30.0017,所以第3类与第2类最相近。
5.3 快速聚类法(距离())
利用SAS软件对Iris数据采用距离进行快速聚类分析(相关程序见附录中程序3),初始聚点如表8所示:
表8 初始聚点
聚类
1
58.00000000
40.00000000
12.00000000
2.00000000
2
77.00000000
38.00000000
67.00000000
22.00000000
3
57.00000000
19.00000000
42.00000000
13.00000000
聚点1、2和3对应的样品号分别为60、21和77号,最终聚点如表8所示:
表8 最终聚点
聚类
1
50.13276928
34.04720500
14.69124606
2.32597683
2
68.15731175
30.60310465
57.07646869
20.99938469
3
58.85575966
27.28895885
44.36794359
14.01182953
分3类聚类结果如表(见附录中表3)所示,由表8和附录中表3可得第一类属于萼长最小,萼宽最宽,花瓣长和宽最小的样品,大部分为种;第二类属于萼长最长,萼宽最小,花瓣长和宽最大的样品,大部分为种;第三类属于萼长居中,萼宽最小,花瓣长和宽居中的样品,大部分为种。
三种植物总共150个样本分为三类,第一类包含51个样本,离聚点的最大距离是21.1702;第二类包含37个样本,离聚点的最大距离是18.5932;第三类包含62个样本,离聚点的最大距离是19.7812。
聚类的大致情况见表9:
表9 150个样品分3类情况
类号
频数
类内到聚点最大距离
最邻近类
至最邻近类距离
1
51
21.1702
3
39.1485
2
37
18.5932
3
21.2817
3
62
19.7812
2
21.2817
类间距离有助于分析类间的近似(或接近)程度,可知第三类与第二类的距离最小,为21.2817,所以第三类与第二类最接近。
六、模型评价与推广
6.1模型评价
优点:
(1)利用数学软件SAS对模型进行分析,具有科学性;
(2)采用的快速聚类法有成熟的理论基础,可信度较高;
(3)该模型建立所用的数学工具和聚类分析理论较简单,便于操作。
缺点:
(1)样本数据稍少,得出的分类方法可能与实际情况相违背;
(2)尚未用快速分类法讨论其他的分类数,可能不是最优分类;
(3)快速分类法自身有限制,无法对模型有全面、细致的分类求解。
6.2模型推广
将样本分为其他的类数,运用快速聚类法、利用SAS软件分别求解,通过综合比较得出最优分类个数;运用快速聚类法得出的分类方法,以此植物的不同种类的萼片及花瓣长宽数据为依据进行简单分类,便于对此植物的管理,也可以推广到其他植物或动物的分类。
参考文献
[1] 范金城,梅长林,数据分析[M],北京:科学出版社,2002.
附录
表1 三种植物个样本聚类结果
观测
聚类
与种子的距离
观测
聚类
与种子的距离
观测
聚类
与种子的距离
1
1
1.4941
51
1
4.6901
101
1
4.2584
2
2
6.7619
52
1
4.2928
102
1
5.2894
3
3
6.0822
53
3
6.0428
103
2
2.5801
4
2
4.4486
54
1
4.9186
104
3
8.1103
5
3
7.0347
55
1
4.3405
105
2
6.3238
6
1
4.2974
56
1
3.4778
106
3
3.9408
7
2
7.8096
57
3
11.2936
107
1
1.1276
8
3
5.9631
58
2
6.752
108
1
1.9596
9
1
18.0043
59
1
9.248
109
3
7.6049
10
1
6.6522
60
1
10.168
110
3
8.6975
11
3
3.2316
61
1
6.0209
111
2
12.6961
12
3
6.2596
62
3
8.3558
112
2
7.2703
13
2
8.1888
63
3
5.1914
113
1
3.7543
14
3
8.1779
64
1
4.3653
114
3
8.5428
15
2
6.7816
65
1
1.5894
115
3
5.9327
16
3
7.6315
66
3
4.3897
116
1
4.8484
17
2
2.4745
67
3
6.3057
117
3
6.1072
18
1
3.4721
68
1
1.8195
118
3
5.918
19
3
3.0988
69
1
4.82
119
3
3.7447
20
2
9.4863
70
3
1.6792
120
3
5.3765
21
2
13.3213
71
3
11.3416
121
3
17.9732
22
3
7.0161
72
1
12.0918
122
3
4.9907
23
2
5.1176
73
1
2.2089
123
2
4.6608
24
2
9.872
74
2
8.0658
124
2
4.6822
25
3
11.0569
75
2
8.0988
125
1
6.5542
26
1
5.1977
76
3
7.6315
126
1
1.4131
27
2
7.3114
77
3
9.4152
127
2
7.1361
28
3
11.6311
78
2
6.0765
128
2
9.0475
29
3
6.4038
79
1
3.975
129
3
3.0753
30
3
5.4261
80
1
8.33
130
3
9.8625
31
1
4.0821
81
2
1.823
131
3
10.9171
32
3
7.4168
82
2
7.4335
132
2
9.1026
33
3
9.6756
83
3
5.2358
133
2
4.0485
34
3
7.8984
84
2
8.0285
134
3
7.3075
35
2
8.107
85
3
16.9276
135
1
2.7038
36
1
2.0429
86
3
4.8983
136
1
5.0056
37
1
2.9798
87
3
5.363
137
1
12.3533
38
3
6.1167
88
1
9.3177
138
3
8.1521
39
2
13.1145
89
1
3.4008
139
1
8.1672
40
1
6.8225
90
2
13.7788
140
1
4.0338
41
2
3.6955
91
3
7.4548
141
3
8.1903
42
1
3.6241
92
1
6.743
142
3
7.0522
43
3
5.9753
93
3
6.9486
143
3
9.0534
44
1
7.6669
94
3
9.6125
144
1
4.4849
45
2
11.6843
95
3
6.7272
145
1
3.2954
46
3
6.316
96
1
0.8614
146
1
2.1641
47
1
4.1251
97
1
16.331
147
3
11.2511
48
3
5.5333
98
3
16.3151
148
3
9.6756
49
3
16.5624
99
3
10.8076
149
2
7.8352
50
2
4.6033
100
3
6.685
150
1
4.1204
表2 三种植物个样本聚类结果
观测
聚类
与种子的距离
观测
聚类
与种子的距离
观测
聚类
与种子的距离
1
1
2
51
1
8
101
1
7
2
2
7
52
1
6
102
1
7
3
3
10.9979
53
3
13.0017
103
2
6
4
2
5
54
1
6
104
3
11.0021
5
3
12.0017
55
1
5
105
2
15
6
1
6
56
1
5
106
3
7.0017
7
2
11
57
3
14.9979
107
1
1
8
3
9.9979
58
2
6
108
1
4
9
1
30
59
1
16
109
3
13.0021
10
1
11
60
1
17
110
3
15.9979
11
3
6.0017
61
1
11
111
2
25
12
3
9.9979
62
3
13.0017
112
2
9
13
2
8
63
3
11.0017
113
1
5
14
3
13.9983
64
1
6
114
3
15.0017
15
2
7
65
1
3
115
3
10.9979
16
3
11.9983
66
3
6.0021
116
1
7
17
2
7
67
3
8.9983
117
3
10.0021
18
1
7
68
1
3
118
3
10.9979
19
3
3.0021
69
1
7
119
3
7.0017
20
2
14
70
3
4.0017
120
3
10.0017
21
2
29
71
3
16.9983
121
3
28.9983
22
3
14.0017
72
1
19
122
3
7.0021
23
2
7
73
1
3
123
2
4
24
2
18
74
2
16
124
2
6
25
3
14.9983
75
2
12
125
1
13
26
1
8
76
3
11.9983
126
1
4
27
2
7
77
3
13.9983
127
2
19
28
3
18.0017
78
2
11
128
2
11
29
3
11.0017
79
1
6
129
3
6.0017
30
3
9.0017
80
1
11
130
3
14.0021
31
1
6
81
2
6
131
2
17
32
3
13.0017
82
2
9
132
2
12
33
3
16.9983
83
3
11.0017
133
2
3
34
3
16.9979
84
2
9
134
3
11.9983
35
2
11
85
3
28.9983
135
1
3
36
1
3
86
3
6.9983
136
1
8
37
1
5
87
3
9.0021
137
1
19
38
3
8.0021
88
1
14
138
3
14.9983
39
2
28
89
1
4
139
1
14
40
1
10
90
2
28
140
1
6
41
2
3
91
3
12.9979
141
3
13.9983
42
1
6
92
1
13
142
3
11.0017
43
3
8.9983
93
3
11.0017
143
3
13.0017
44
1
12
94
3
12.9983
144
1
6
45
2
23
95
3
10.0017
145
1
6
46
3
12.9979
96
1
2.05E-08
146
1
3
47
1
6
97
1
22
147
3
17.0021
48
3
7.9983
98
3
29.9983
148
2
11
49
3
28.9983
99
3
18.9983
149
2
14
50
2
13
100
3
8.9983
150
1
6
表3 三种植物个样本聚类结果
观测
聚类
与种子的距离
观测
聚类
与种子的距离
观测
聚类
与种子的距离
1
1
1.5237
51
1
5.353
101
1
4.9039
2
2
6.0266
52
1
4.7492
102
1
5.8305
3
3
7.7943
53
3
8.6719
103
2
3.0307
4
2
3.9365
54
1
5.3155
104
3
8.0422
5
3
9.0217
55
1
4.6024
105
2
9.422
6
1
4.4981
56
1
3.8583
106
3
4.373
7
2
7.0785
57
3
12.5155
107
1
1.1138
8
3
7.1761
58
2
5.7515
108
1
2.4056
9
1
21.1702
59
1
10.8644
109
3
9.6652
10
1
7.7266
60
1
11.9272
110
3
9.7729
11
3
4.5451
61
1
7.313
111
2
16.132
12
3
7.6748
62
3
9.7865
112
2
7.5121
13
2
6.9987
63
3
7.6265
113
1
4.0741
14
3
8.7658
64
1
4.6751
114
3
10.8306
15
2
5.8818
65
1
1.8413
115
3
7.01
16
3
9.4753
66
3
4.8783
116
1
5.5392
17
2
3.7326
67
3
6.1263
117
3
6.4782
18
1
4.567
68
1
2.4016
118
3
7.8205
19
3
2.7851
69
1
5.2681
119
3
4.905
20
2
9.6046
70
3
2.9033
120
3
6.4874
21
2
18.3607
71
3
11.8321
121
3
19.7812
22
3
9.4734
72
1
13.8838
122
3
4.742
23
2
5.523
73
1
2.3219
123
2
3.9891
24
2
13.4066
74
2
11.1767
124
2
3.4542
25
3
11.7101
75
2
8.3868
125
1
8.0859
26
1
5.8236
76
3
9.4753
126
1
2.0175
27
2
6.3447
77
3
9.8797
127
2
10.8713
28
3
13.8779
78
2
7.3843
128
2
8.1434
29
3
8.1759
79
1
4.627
129
3
4.5325
30
3
5.7772
80
1
8.9282
130
3
10.1398
31
1
4.6778
81
2
3.9763
131
2
11.4353
32
3
9.5608
82
2
6.5888
132
2
8.8601
33
3
10.6657
83
3
7.5084
133
2
2.3153
34
3
10.9846
84
2
7.381
134
3
7.6553
35
2
7.6571
85
3
19.0689
135
1
2.8488
36
1
2.2266
86
3
4.5304
136
1
5.6299
37
1
3.3152
87
3
5.6666
137
1
13.7703
38
3
6.5201
88
1
10.4799
138
3
10.4972
39
2
17.7903
89
1
3.6183
139
1
9.6369
40
1
7.4909
90
2
18.5932
140
1
4.4513
41
2
2.9151
91
3
9.1627
141
3
8.9109
42
1
4.4912
92
1
8.3898
142
3
8.2703
43
3
5.8743
93
3
8.4209
143
3
10.7354
44
1
8.7121
94
3
9.7713
144
1
5.0384
45
2
15.7917
95
3
7.8312
145
1
4.0727
46
3
8.8943
96
1
0.5575
146
1
2.4519
47
1
4.6902
97
1
17.6764
147
3
13.5788
48
3
5.2739
98
3
18.988
148
2
9.338
49
3
18.8131
99
3
12.0004
149
2
9.3138
50
2
7.2141
100
3
6.4123
150
1
4.7299
程序1:
data pjsr;
input x1-x4;
cards;
50 33 14 2
64 28 56 22
65 25 46 15
67 31 56 24
63 28 51 15
46 34 14 3
69 31 51 23
62 22 45 15
59 32 18 18
46 36 10 2
61 30 46 14
60 27 51 16
65 30 52 20
56 25 39 11
65 30 55 18
58 27 51 19
68 32 59 23
51 33 17 5
57 28 45 13
62 34 54 23
77 38 67 22
63 33 47 16
67 33 57 25
76 30 66 21
49 25 45 17
55 35 13 2
67 30 52 23
70 32 47 14
64 32 45 15
61 28 40 13
48 31 16 2
59 30 51 18
55 24 38 11
63 25 50 19
64 32 53 23
52 34 14 2
49 36 14 1
54 30 45 15
79 38 64 20
44 32 13 2
67 33 57 21
50 35 16 6
58 26 40 12
44 30 13 2
77 28 67 20
63 27 49 18
47 32 16 2
55 26 44 12
50 23 33 10
72 32 60 18
48 30 14 3
51 38 16 2
61 30 49 18
48 34 19 2
50 30 16 2
50 32 12 2
61 26 56 14
64 28 56 21
43 30 11 1
58 40 12 2
51 38 19 4
67 31 44 14
62 28 48 18
49 30 14 2
51 35 14 2
56 30 45 15
58 27 41 10
50 34 16 4
46 32 14 2
60 29 45 15
57 26 35 10
57 44 15 4
50 36 14 2
77 30 61 23
63 34 56 24
58 27 51 19
57 19 42 13
72 30 58 16
54 34 15 4
52 42 15 1
71 30 59 21
64 31 55 18
60 30 48 18
63 29 56 18
49 24 33 10
56 27 42 13
57 30 42 12
55 42 14 2
49 31 15 2
77 26 69 23
60 22 50 15
54 39 17 4
66 29 46 13
52 27 39 14
60 34 45 16
50 34 15 2
44 19 14 2
50 20 35 10
55 24 37 10
58 27 39 12
47 32 13 2
46 31 15 2
69 32 57 23
52 29 43 13
74 28 61 19
59 30 42 15
51 34 15 2
50 35 13 3
56 28 49 20
60 22 40 10
73 20 63 18
67 25 58 18
49 31 15 1
67 31 47 15
63 23 44 13
54 37 15 2
56 30 41 13
63 25 49 14
61 28 47 12
64 29 43 13
51 25 30 10
57 28 41 13
65 30 58 22
69 31 54 21
54 39 13 4
51 35 14 3
72 36 61 25
65 32 51 20
61 29 47 14
56 29 36 13
69 31 49 15
64 27 53 19
68 30 55 21
55 25 40 13
48 34 16 2
48 30 14 1
45 23 13 3
57 25 50 20
57 38 17 3
51 38 15 3
55 23 40 13
66 30 44 14
68 28 48 14
54 34 17 2
51 37 15 4
52 35 15 2
58 28 51 24
67 30 50 17
63 33 60 25
53 37 15 2
;
proc cluster data=pjsr method=single OUTTREE=tree nonorm;
run;
proc fastclus data=pjsr out=a1 maxc=3 cluster=c distance list;
data b1 b2 b3;
set a1;
if c=1 then output b1;
if c=2 then output b2;
if c=3 then output b3;
proc print data=b1;
proc print data=b2;
proc print data=b3;
run;
程序2:
data pjsr;
input x1-x4;
cards;
50 33 14 2
64 28 56 22
65 25 46 15
67 31 56 24
63 28 51 15
46 34 14 3
69 31 51 23
62 22 45 15
59 32 18 18
46 36 10 2
61 30 46 14
60 27 51 16
65 30 52 20
56 25 39 11
65 30 55 18
58 27 51 19
68 32 59 23
51 33 17 5
57 28 45 13
62 34 54 23
77 38 67 22
63 33 47 16
67 33 57 25
76 30 66 21
49 25 45 17
55 35 13 2
67 30 52 23
70 32 47 14
64 32 45 15
61 28 40 13
48 31 16 2
59 30 51 18
55 24 38 11
63 25 50 19
64 32 53 23
52 34 14 2
49 36 14 1
54 30 45 15
79 38 64 20
44 32 13 2
67 33 57 21
50 35 16 6
58 26 40 12
44 30 13 2
77 28 67 20
63 27 49 18
47 32 16 2
55 26 44 12
50 23 33 10
72 32 60 18
48 30 14 3
51 38 16 2
61 30 49 18
48 34 19 2
50 30 16 2
50 32 12 2
61 26 56 14
64 28 56 21
43 30 11 1
58 40 12 2
51 38 19 4
67 31 44 14
62 28 48 18
49 30 14 2
51 35 14 2
56 30 45 15
58 27 41 10
50 34 16 4
46 32 14 2
60 29 45 15
57 26 35 10
57 44 15 4
50 36 14 2
77 30 61 23
63 34 56 24
58 27 51 19
57 19 42 13
72 30 58 16
54 34 15 4
52 42 15 1
71 30 59 21
64 31 55 18
60 30 48 18
63 29 56 18
49 24 33 10
56 27 42 13
57 30 42 12
55 42 14 2
49 31 15 2
77 26 69 23
60 22 50 15
54 39 17 4
66 29 46 13
52 27 39 14
60 34 45 16
50 34 15 2
44 19 14 2
50 20 35 10
55 24 37 10
58 27 39 12
47 32 13 2
46 31 15 2
69 32 57 23
52 29 43 13
74 28 61 19
59 30 42 15
51 34 15 2
50 35 13 3
56 28 49 20
60 22 40 10
73 20 63 18
67 25 58
展开阅读全文