资源描述
Iris数据的结果分类
摘 要 本文主要讨论了用快速聚类法对R.A.Fisher的Iris数据分类的问题。
针对问题一,由样本数目较大且已知分类数目为3,用快速聚类法并用欧式距离对样本分类。通过SAS软件快速聚类得到样本分类(见文中表1)。根据分类表得到这三类各观测值的取值范围,结合每一类的聚点得到结论如下:相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比第1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物,最后通过聚类的均值及标准差分析检验分类的合理性。
针对问题二,用快速聚类法并用绝对距离对样本分类。通过SAS软件快速聚类得到样本分类(见文中表6)。根据分类表得到这三类各观测值的取值范围,结合每一类的聚点得到结论如下:相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比第1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物,最后通过聚类与最终聚点的均值绝对值离差分析检验分类的合理性
针对问题三,用快速聚类法并用距离()对样本分类。通过SAS软件快速聚类得到样本分类(见文中表11)。根据分类表得到这三类各观测值的取值范围,结合每一类的聚点得到结论如下:相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比第1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物,最后通过聚类与最终聚点的均幂根离差分析检验分类的合理性。
聚类分析,是研究分类问题的一种多元统计方法,被广泛应用在经济、社会、人口等诸多方面。
关键词 快速聚类分析;欧氏距离;绝对距离;距离
一、问题重述
R.A.Fisher在1936发表的Iris数据中,研究某植物的萼片长、宽及花瓣长、宽。:萼片长,:萼片宽,:花瓣长,:花瓣宽。R.A.Fisher取了该植物3个种类,每个种类取50个样品,共150个样品。数据如表1(见附录)
问题一:用快速聚类法将表1数据分3类;
问题二:用快速聚类法并用绝对距离分3类,写出分类结果;
问题三:在题一、题二基础上,用快速聚类法并采用距离分3类,写出分类结果。
二、问题分析
针对问题一,采用快速聚类法将表1(见附录)数据分为3类。快速聚类法的步骤:选择聚点,可以通过以下三种方法:经验选择、最小最大原则和将样品随机分为K类,以每类的重心作为聚点。聚点是一批有代表性的样品,它的选择决定了初始分类,分类数给定后,选取过程会根据递推公式算出初始聚点;然后计算各数据与聚点的欧氏距离并分类,检验分类是否合理,不合理返回到第二步初始分类,修改分类,如此反复循环,直至分类合理。
针对问题二,与题一相似,首先先确定数据的聚点,采用绝对距离聚类分析时,最终聚点应是每一类的中位向量,确定聚点后,进行初步分类,然后计算数据间的绝对距离,根据各数据与聚点间的绝对距离进行分类。检验分类是否合理,修改分类,直至合理为止。
针对问题三,采用快速聚类法并利用距离将表1数据分为3类。与题一相似,先选择聚点,进行初始分类。采用距离进行快速聚类分析时,最终聚点是每一类的中心向量,代入距离公式,求出各数据与聚点的距离,并按大小分类。
三、基本假设
1、假设所有数据都有效;
2、假设所有花无重大变异,即无较大差异;
3、假设该植物样品的选取具有随机性,无人为主观干扰。
四、符号表示
符号
意义
快速聚类法采用欧氏距离下的聚点
快速聚类法利用绝对距离下的聚点
快速聚类法采用距离的聚点
快速聚类法按绝对距离的最终聚点
快速聚类法按距离的最终聚点
五、模型建立与求解
随着人类社会的发展与科学技术的进步,对分类学的要求也越来越高。只凭经验或专业知识对研究对象定性分类,这往往是不够的,有时不能进行确切的分类。于是数学被引进分类学中,形成了数值分类学。随着多元数据分析方法研究的深入,在数值分类学中形成了聚类分析这一学支,聚类分析是多远数据分析的重要组成部分([1])。本文样本量较大,将采用聚类分析法中快速聚类法对数据分类。
5.1快速聚类法将表1数据分为3类
本文数据样本容量较大,用快速聚类法分类。快速聚类是快速有效的聚类方法。快速聚类法先将样本数据粗略地分一下类,然后将按某种原则进行修正,直至分类比较合理为止。快速聚类的大致过程如图1所示
初始分类
分类是否合理
最终分类
选择聚点
选择聚点
合理
不合理
图1 快速聚类法步骤
用SAS系统中的proc astclus过程(见附录)得到以下结果。
快速聚类法按欧氏距离把表1数据分为3类,初始聚点是:
,,
它们对应的植物编号是19,58,117.分3类的结果见表1
表1 150个植物样品按欧氏距离分3类的结果
第1类
第2类
第3类
植物序号
1,6,10,18,26,31
36,37,40,42,44
47,51,52,54,55
56,59,60,61,64
65,68,69,72,73,
79, 80,88,89,92
96,97,101,102
107,108,113,116,
125,126,135,136
137,139,140,144
145146,150,
2,4,7,13,15,17
20,21,23,24,27
35,39,41,45,50
58,74,75,75,81
82,84,90,103,105
111,112,124,127
128,132,133,149
3,5,8,9,11,12
14,16,19,22,25
28,29,30,32,33
34,38,43,46,48
49,53,57,62,63
66,67,70,71,76
77,83,85,86,87
91,93,94,95,98,
99,100,104,106
109,110,114,115
117,118,119,120
121,122,129,130
131,134,138,141
142,143,147,148
频数
50
38
62
根据表1分类结合题一分析表1分类的实际意义:
表2 3类植物萼片及花瓣情况
项目
类别
萼片长
萼片宽
花瓣长
花瓣宽
1
43--58
19—24
10—19
1—6
2
62—79
25—38
51—69
16—25
3
49--70
19--34
30--56
10--20
从聚类的情况具体分析,相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比第1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物。
通过proc astclus过程可以得到聚类的大致情况,见表2
表3 150个植物样品按欧氏距离分3类情况
聚类
频数
均方根标准差
从聚点到观测
的最大距离
最近的聚类
聚类质心
间的距离
1
50
3.0801
16.3668
3
33.8883
2
35
3.9034
13.9967
3
18.1483
3
65
4.2247
18.0714
2
18.1483
通过proc astclus过程还可以得到按欧氏距离分3类这3类类内的均值及标准差见表3与表4
表4 按欧氏距离分3类的均值
聚类均值
聚类
x1
x2
x3
x4
1
50.26000000
34.10000000
14.68000000
2.46000000
2
68.65714286
30.88571429
57.77142857
21.42857143
3
59.30769231
27.40000000
44.29230769
14.49230769
表5 分3类的标准差
聚类标准差
聚类
x1
x2
x3
x4
1
3.794786972
4.338955014
1.899946294
1.053855894
2
4.910629869
2.908116720
4.608723916
2.671039832
3
4.993505397
3.126499640
5.272935250
2.979739276
平均数和标准差是反映数据集中趋势和离散程度的重要测量值。从表3中可以看出第1类的均值为与其聚点相近,第1类内变量各自对应的标准差分别为3.794786972,4.338955014,1.899946294,1.053855894,标准差偏小,说明第1类样品数据较为集中,与聚点偏差不大,分类较好。
第2类的均值为与其聚点相近,第2类内变量各自对应的标准差分别为4.910629869,2.908116720,4.608723916,2.671039832标准差偏小,说明第2类数据较为集中,与聚点偏差不大,分类较好。
第3类的均值为与其聚点相近,第3类内变量各自对应的标准差为4.993505397,3.126499640,5.272935250,2.979739276标准差较小,说明第3类数据较为集中,与聚点偏差不大,分类较好。
综上关于采用欧氏距离将附录中表1数据分3类这3类的均值及标准差的分析,这3类分类合理。
5.2用快速聚类法并用绝对距离分3类
距离与相似系数是聚类分析的出发点,距离是衡量样品间的相似度的量,不同的距离定义,得出的分类结果一般也不同。题一用的是欧氏距离。题二采用绝对距离进行快速聚类。
通过SAS系统中的proc astclus过程(见附录)得到以下结果
快速聚类法按绝对距离把表1(附录)数据分为3类,初始聚点是:
,,
它们对应的植物编号是19,58,117。
表6 按绝对距离分3类的结果
第1类
第2类
第3类
植物序号
1,6,10,18,26,31
36,37,40,42,44
47,51,52,54,55
56,59,60,61,64
65,68,69,72,73,
79, 80,88,89,92
96,97,101,102
107,108,113,116,
125,126,135,136
137,139,140,144
145,146,150
2,4,7,13,15,17
20,21,23,24,27
34,35,39,41,45
50,58,74,75
81,82,84,90,103
105,111,112,123
124 127,128,131
132,133,148,149
3,5,8,9,11,12
14,16,19,22,25
28,29,30,32,33
38,43,46,48
49,53,57,62,63
66,67,70,71,76
77,83,85,86,87
91,93,94,95,98,
99,100,104,106
109,110,114,115
117,118,119,120
121,122,129,130
134,138,141
142,143,147
频数
50
38
62
表6同题一的表1相比,题二中的第2类比题一的第2类多了序号为34、131、148的样本,而第3类相比题一减少了序号为34、131、148样本。
进一步地,根据表6数据结合题意分析分类的实际意义,总结如表6
表7 3类植物萼片及花瓣情况
项目
类别
萼片长
萼片宽
花瓣长
花瓣宽
1
43--58
19—24
10—19
1—6
2
62—79
25—38
51—69
15—25
3
49--70
19--34
30--56
10--20
从表7可以看出,相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物。
表8 150个植物样品按绝对距离分3类情况
聚类
频数
均值绝对离差
从聚点
到观测的
最大距离
最近的聚类
聚类中位数
间的距离
1
50
2.0459
22.0000
3
56.4996
2
38
3.0878
30.0000
3
28.5004
3
62
3.2213
30.4996
2
28.5004
通过proc astclus过程可以得到聚类的中位数,而在采用绝对距离进行
聚类分析时,最终聚点是每一类的中位向量。故聚类的最终聚点是:
(表9数据保留两位小数)
表9 聚类的中位数
聚类中位数
聚类
x1
x2
x3
x4
1
50.00000117
34.00000091
14.99999810
2.00000104
2
67.00000183
30.00000219
56.00000183
21.00000055
3
58.49964345
27.99999836
44.99999863
14.00000000
通过proc astclus过程可以得到聚类与最终聚点的均值绝对离差,各观测值与最终聚点的均值绝对离差可以反映数据的离散程度:
结果见表10,并分析。
表10 聚类与最终聚点的均值绝对离差
与最终聚点的均值绝对离差
聚类
x1
x2
x3
x4
1
2.959183675
3.122448983
1.428571429
0.673469389
2
3.891891898
2.189189206
3.864864877
2.405405420
3
3.901639344
2.475409837
4.196721313
2.311475410
从表10可以看出,第1类样品各变量与最终聚点的均值绝对离差分别为2.959183675,3.122448983,1.428571429,0.673469389;第2类样品各变量与最终聚点的均值绝对离差为3.891891898,2.189189206,
3.864864877,2.405405420;第3类样品各变量与最终聚点的均值绝对离差为3.901639344,2.475409837,4.196721313,2.311475410;可以看出均值绝对离差都很小,说明数据分类较好。
5.3快速聚类法并采用距离将表1数据分3类
通过SAS系统中的proc astclus过程(见附录)得到以下结果
快速聚类法按距离把表1(附录)数据分为3类,初始聚点是:
,,
它们对应的植物编号是19,58,117。
表11 150个样品植物按分3类结果
第1类
第2类
第3类
植物序号
1,6,10,18,26,31
36,37,40,42,44
47,51,52,54,55
56,59,60,61,64
65,68,69,72,73,
79, 80,88,89,92
96,97,101,102
107,108,113,116,
125,126,135,136
137,139,140,144
145146,150,
2,4,7,13,15,17
20,21,23,24,27
35,39,41,45,50
58,74,75,75,81
82,84,90,103,105
111,112,124,127
128,132,131,133,
148,149
3,5,8,9,11,12
14,16,19,22,25
28,29,30,32,33
34,38,43,46,48
49,53,57,62,63
66,67,70,71,76
77,83,85,86,87
91,93,94,95,98,
99,100,104,106
109,110,114,115
117,118,119,120
121,122,129,130
134,138,141,142
143,147
频数
50
37
63
表11同题一的表1相比,题三中的第2类比题一的第2类多了序号为34、131样本,而第3类相比题一减少了序号为34、131样本。
进一步地,根据表11的数据结合具体题意探讨题三分类的实际意义,总结如表12
表12 3类植物萼片及花瓣情况
项目
类别
萼片长
萼片宽
花瓣长
花瓣宽
1
43--58
19—24
10—19
1—6
2
62—79
25—38
51—69
15—25
3
49--70
19--34
30--56
10--20
从表12可以看出,相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比第1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物。
表13 150个植物样品按距离分3类情况
聚类
频数
均幂根离差
从聚点
到观测的
最大距离
最近的聚类
聚类中心
间的距离
1
50
2.5847
17.7239
3
39.3820
2
37
3.5440
18.7399
3
20.9349
3
63
3.7348
19.6577
2
20.9349
在采用距离进行快速聚类时,最终聚点是每一类的中心向量。数据见表14
故最终聚点(表中数据保留两位小数)是
;
表14距离进行快速聚类的聚类中心
聚类中心
聚类
x1
x2
x3
x4
1
50.15519545
34.09490612
14.70805444
2.22020269
2
68.10338329
30.71719801
56.95991128
21.12598479
3
58.98129253
27.45976743
44.45822332
14.21868489
在采用距离进行快速聚类时,通过proc astclus过程可以得到各聚类与最终聚点的均幂根离差,各观测值与最终聚点的均幂根离差可以反映各类数据的离散程度进而检验分类的合理性:
数据结果见表15,分析如:
表15 各观测值与最终聚点的均幂根离差
与最终聚点的均幂根离差
聚类
x1
x2
x3
x4
1
3.414683310
3.746237604
1.681445166
0.918881035
2
4.394022331
2.488035021
4.382797474
2.675404444
3
4.375899628
2.831501041
4.791177060
2.711656489
从表15可以看出,第1类各观测值与最终聚点的均幂根离差分别为3.414683310,3.746237604,1.681445166,0.918881035。
第2类各观测值与最终聚点的均幂根离差为4.3940223312.488035021,4.382797474,2.675404444。
第3类各观测值与最终聚点的均幂根离是4.375899628,2.831501041
4.791177060,2.711656489;这3类与最终聚点的均幂根离差都较小,说明分类合理。
六、模型评价与推广
优点:
1.时间复杂度低;
2.用距离进行聚类分析,有较强的稳健性;
3. 聚类分析模型结论直观,形式简明易于理解和实现。
缺点:
1.算法对初选值敏感;
2.如果样本量较大,计算较为麻烦,且难以获得聚类结论。
推广:
聚类分析,是研究分类问题的一种多元统计方法,是多元统计中研究“物以类聚”的一种方法。在经济、社会、人口等诸多方面的研究中,都需要采用聚类分析做分析研究。过去人们主要靠经验做定性分类处理,很少利用数学方法和原理,所以许多的分类往往带有主观性和任意性,不能解释客观事物内在的本质差别和联系,特别是对于多因素、多指标的分类问题。
聚类分析正处于发展阶段,理论上虽然不很完善,但由于它能够解决许多实际问题,所以现在越来越来多的收到人们的重视。
参考文献
[1] 范金城,梅长林,数据分析,北京:科学出版,2002.
附录
表1 Iris数据
序号
类别
x1
x2
x3
x4
1
1
50
33
14
2
2
3
64
28
56
22
3
2
65
28
46
15
4
3
67
31
56
24
5
3
63
28
51
15
6
1
46
34
14
3
7
3
69
31
51
23
8
2
62
22
45
15
9
2
59
32
48
18
10
1
46
36
10
2
11
2
61
30
46
14
12
2
60
27
51
16
13
3
65
30
52
20
14
2
56
25
39
11
15
3
65
30
55
18
16
3
58
27
51
19
17
3
68
32
59
23
18
1
51
33
17
5
19
2
57
28
45
13
20
3
62
34
54
23
21
3
77
38
67
22
22
2
63
33
47
16
23
3
67
33
57
25
24
3
76
30
66
21
25
3
49
25
45
17
26
1
55
35
13
2
27
3
67
30
52
23
28
2
70
32
47
14
29
2
64
32
45
15
30
2
61
28
40
13
31
1
48
31
16
2
32
3
59
30
51
18
33
2
55
24
38
11
34
3
63
25
50
19
35
3
64
32
53
23
36
1
52
34
14
2
37
1
49
36
14
1
38
2
54
30
45
15
39
3
79
38
64
20
40
1
44
32
13
2
41
3
67
33
57
21
42
1
50
35
16
6
43
2
58
26
40
12
44
1
44
30
13
2
45
3
77
28
67
20
46
3
63
27
49
18
47
1
47
32
16
2
48
2
55
26
44
12
49
2
50
23
33
10
50
3
72
32
60
18
51
1
48
30
14
3
52
1
51
38
16
2
53
3
61
30
49
18
54
1
48
34
19
2
55
1
50
30
16
2
56
1
50
32
12
2
57
3
61
26
56
14
58
3
64
28
56
21
59
1
43
30
11
1
60
1
58
40
12
2
61
1
51
38
19
4
62
2
67
31
44
14
63
3
62
28
48
18
64
1
49
30
14
2
65
1
51
35
14
2
66
2
56
30
45
15
67
2
58
27
41
10
68
1
50
34
16
4
69
1
46
32
14
2
70
2
60
29
45
15
71
2
57
26
35
10
72
1
57
44
15
4
73
1
50
36
14
2
74
3
77
30
61
23
75
3
63
34
56
24
76
3
58
27
51
19
77
2
57
19
42
13
78
3
72
30
58
16
79
1
54
34
15
4
80
1
52
42
15
1
81
3
71
30
59
21
82
3
64
31
55
18
83
3
60
30
48
18
84
3
63
29
56
18
85
2
49
24
33
10
86
2
56
27
42
13
87
2
57
30
42
12
88
1
55
42
14
2
89
1
49
31
15
2
90
3
77
26
69
23
91
3
60
22
50
15
92
1
54
39
17
4
93
2
66
29
46
13
94
2
52
27
39
14
95
2
60
34
45
16
96
1
50
34
15
2
97
1
44
19
14
2
98
2
50
20
35
10
99
2
55
24
37
10
100
2
58
27
39
12
101
1
47
32
13
2
102
1
46
31
15
2
103
3
69
32
57
23
104
2
62
29
43
13
105
3
74
28
61
19
106
2
59
30
42
15
107
1
51
34
15
2
108
1
50
35
13
3
109
3
56
28
49
20
110
2
60
22
40
10
111
3
73
29
63
18
112
3
67
25
58
18
113
1
49
31
15
1
114
2
17
31
47
15
115
2
13
23
44
13
116
1
54
37
15
2
117
2
56
30
41
13
118
2
63
25
49
15
119
2
61
28
47
12
120
2
64
29
43
13
121
2
51
25
30
11
122
2
57
28
41
13
123
3
65
30
58
22
124
3
69
31
54
21
125
1
54
39
13
4
126
1
51
35
14
3
127
3
72
36
61
25
128
3
65
32
51
20
129
2
61
29
47
14
130
2
56
29
36
13
131
2
69
31
49
15
132
3
64
27
53
19
133
3
68
30
55
21
134
2
55
25
40
13
135
1
48
34
16
2
136
1
48
30
14
1
137
1
45
23
13
3
138
3
57
25
50
20
139
1
57
38
17
3
140
1
51
38
15
3
141
2
55
23
40
13
142
2
66
30
44
14
143
2
68
28
48
14
144
1
54
34
17
2
145
1
51
37
15
4
146
1
52
35
15
2
147
3
58
28
51
24
148
2
67
30
50
17
149
3
63
33
60
25
150
1
53
37
15
2
1、 快速聚类法将表1数据分为3类
PROC FASTCLUS DATA=sas1 MAXCLUSTERS=3 OUT=fcl;
ID c1;
RPOC SORT DATA=fcl OUT=sortfcl;
BY cluster;
PROC PRINT DATA=sortfcl;
RUN;
2、用快速聚类法并用绝对距离分3类
PROC FASTCLUS DATA=sas1 MAXCLUSTERS=3 OUT=fcl LEAST=1;
ID c1;
RPOC SORT DATA=fcl OUT=sortfcl;
BY cluster;
PROC PRINT DATA=sortfcl;
RUN; 3、用快速聚类法并采用距离分3类
PROC FASTCLUS DATA=sas1 MAXCLUSTERS=3 OUT=fcl LEAST=1.5;
ID c1;
RPOC SORT DATA=fcl OUT=sortfcl;
BY cluster;
PROC PRINT DATA=sortfcl;
RUN;
14
展开阅读全文