资源描述
《统计分析与SPSS得应用(第五版)》(薛薇)
课后练习答案
第10章SPSS得聚类分析
1、根据“高校科研研究、sav”数据,利用层次聚类分析对各省市得高校科研情况进行层次聚类分析。要求:
1) 根据凝聚状态表利用碎石图对聚类类数进行研究。
2) 绘制聚类树形图,说明哪些省市聚在一起。
3) 绘制各类得科研指标得均值对比图。
4) 利用方差分析方法分析各类在哪些科研指标上存在显著差异。
采用欧氏距离,组间平均链锁法
利用凝聚状态表中得组间距离与对应得组数,回归散点图,得到碎石图。大约聚成4类。
步骤:分析à分类à系统聚类à按如下方式设置……
结果:
凝聚计划
阶段
组合得集群
系数
首次出现阶段集群
下一个阶段
集群 1
集群 2
集群 1
集群 2
1
26
30
328、189
0
0
2
2
26
29
638、295
1
0
7
3
20
25
1053、423
0
0
5
4
4
12
1209、922
0
0
15
5
8
20
1505、035
0
3
6
6
8
16
1760、170
5
0
9
7
24
26
1831、926
0
2
10
8
7
11
1929、891
0
0
11
9
5
8
2302、024
0
6
22
10
24
31
2487、209
7
0
22
11
2
7
2709、887
0
8
16
12
22
28
2897、106
0
0
19
13
6
23
2916、551
0
0
17
14
10
19
3280、752
0
0
25
15
4
21
3491、585
4
0
21
16
2
3
4229、375
11
0
21
17
6
13
4612、423
13
0
20
18
9
18
5377、253
0
0
25
19
14
22
5622、415
0
12
24
20
6
15
5933、518
17
0
23
21
2
4
6827、276
16
15
26
22
5
24
7930、765
9
10
24
23
6
27
9475、498
20
0
26
24
5
14
14959、704
22
19
28
25
9
10
19623、050
18
14
27
26
2
6
24042、669
21
23
28
27
9
17
32829、466
25
0
29
28
2
5
48360、854
26
24
29
29
2
9
91313、530
28
27
30
30
1
2
293834、503
0
29
0
将系数复制下来后,在EXCEL中建立工作表。
选中数据列,点击“插入”菜单à拆线图……
碎石图:
由图可知,北京自成一类,江苏、广东、上海、湖南、湖北聚成一类。其她略。
接下来,添加一个变量CLU4_1,其值为类别值。(1、2、3、4),再数据à汇总à设置……à确定。
均值对比,依据聚类解,利用分类汇总,计算各个聚类变量得均值
方差分析结果:分析à比较均值à单因素ANOVAà设置……à确定
ANOVA
平方与
df
均方
F
显著性
投入人年数
组之间
59778341、196
3
19926113、732
26、428
、000
组内
20357294、159
27
753973、858
总计
80135635、355
30
投入高级职称得人年数
组之间
16485966、820
3
5495322、273
34、553
、000
组内
、147
27
159039、783
总计
20780040、968
30
投入科研事业费(百元)
组之间
0、884
3
44150467293、628
324、318
、000
组内
3675602946、794
27
136133442、474
总计
7、677
30
课题总数
组之间
16470536、564
3
5490178、855
32、181
、000
组内
4606273、436
27
170602、720
总计
21076810、000
30
专著数
组之间
7203690、385
3
2401230、128
61、327
、000
组内
1057167、809
27
39154、363
总计
8260858、194
30
论文数
组之间
219675698、219
3
73225232、740
17、693
、000
组内
111743385、717
27
4138643、915
总计
331419083、935
30
获奖数
组之间
169882、049
3
56627、350
3、619
、026
组内
422436、790
27
15645、807
总计
592318、839
30
不同组在各个聚类变量上得均值均存在显著差异。
2、试说明当变量存在数量级上得差异,进行层次聚类分析时为什么要对数据进行标准化处理?
因为数量级将对距离产生较大影响,并影响最终聚类结果。
3、 试说明变量之间得高度相关性就是否会对层次聚类分析结果造成影响?为什么?
会。如果所选变量之间存在较强得线性关系,能够相互替代,在计算距离时同类变量将重复“贡献”,占有较高权重,而使最终得聚类结果偏向该类变量。
4、 试说明KMean聚类分析得基本步骤。
KMeans聚类分析步骤:
确定聚类数目K确定K个初始类中心点根据距离最近原则进行分类重新确定K个类中心点判断就是否已经满足终止条件。
就是一个反复迭代得分类过程。在聚类过程中,样本所属得类会不断调整,直至达到最终稳定为止。
5、收集到我国2007年各地区城镇居民家庭平均每人全年消费支出数据,数据文件名为:“消费结构、sav”, 变量包括:地区、消费性支出总额、食品、衣着、居住、家庭设备用品及服务、医疗保健、交通与通信、教育文化娱乐服务、医疗保健、杂项商品与服务支出。若采用层次聚类法(个体间距离定义为平方欧氏距离,类间距离定义为组间平均链锁距离),绘制得碎石图如下:
(1)依据上图,数据聚成几类较为恰当?
(2)试采用KMEANS聚类方法,从类内相似性与类间差异性角度分析将数据聚成几类较为恰当。
(1)聚成3类较为恰当。
注:碎石图可按第9章第1题方式绘制,也可按如下方式绘制。
步骤:分析à降维à因子分析à导入全部变量到变量框中(地区变量除外)à抽取:选中碎石图à继续à确定。
得到:(可以瞧出,分成3类恰当)
(2)用KMEANS聚类方法进行分类,比较分类数为2、3、4时得差别。
步骤:分析à分类àK平均聚类à地区变量导入到标注个案,其她变量全部导入到变量框中à聚类数填2à选项:选中初始聚类中心与ANOVAà继续à确定。
得到:
ANOVA
聚类
错误
F
显著性
均方
df
均方
df
食品
13927902、967
1
246753、779
29
56、445
、000
衣着
278718、565
1
37555、425
29
7、422
、011
居住
667583、436
1
31940、764
29
20、901
、000
家庭设备用品及服务
411657、258
1
14558、041
29
28、277
、000
医疗保健
325304、302
1
34400、296
29
9、456
、005
交通与通信
10285607、457
1
57486、400
29
178、922
、000
教育文化娱乐服务
5226361、465
1
69080、933
29
75、656
、000
杂项商品与服务
248312、931
1
6496、550
29
38、222
、000
仅当出于描述目得时才应该使用 F 检验,因为已选择聚类用于将不同聚类中得个案得差异最大化。 受观察得显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法就是等同得”假设得检验。
每个聚类中得个案数量
聚类
1
4、000
2
27、000
有效
31、000
缺失
、000
将上图中得聚类数修改为3,则得到:
ANOVA
聚类
错误
F
显著性
均方
df
均方
df
食品
8311754、509
2
159294、770
28
52、178
、000
衣着
100878、509
2
41645、317
28
2、422
、107
居住
565811、147
2
16508、690
28
34、274
、000
家庭设备用品及服务
237257、836
2
12833、027
28
18、488
、000
医疗保健
198689、996
2
33054、746
28
6、011
、007
交通与通信
4709934、064
2
90458、748
28
52、067
、000
教育文化娱乐服务
2676015、304
2
67059、926
28
39、905
、000
杂项商品与服务
150742、666
2
4829、555
28
31、213
、000
仅当出于描述目得时才应该使用 F 检验,因为已选择聚类用于将不同聚类中得个案得差异最大化。 受观察得显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法就是等同得”假设得检验。
每个聚类中得个案数量
聚类
1
1、000
2
25、000
3
5、000
有效
31、000
缺失
、000
将上图中得聚类数修改为4,则得到:
ANOVA
聚类
错误
F
显著性
均方
df
均方
df
食品
6461251、597
3
62963、251
27
102、619
、000
衣着
135334、013
3
35623、106
27
3、799
、022
居住
237725、271
3
32618、140
27
7、288
、001
家庭设备用品及服务
142250、914
3
15077、322
27
9、435
、000
医疗保健
111992、289
3
36553、186
27
3、064
、045
交通与通信
3596731、324
3
43056、263
27
83、536
、000
教育文化娱乐服务
1812882、568
3
66335、586
27
27、329
、000
杂项商品与服务
97486、291
3
5342、741
27
18、246
、000
仅当出于描述目得时才应该使用 F 检验,因为已选择聚类用于将不同聚类中得个案得差异最大化。 受观察得显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法就是等同得”假设得检验。
每个聚类中得个案数量
聚类
1
1、000
2
3、000
3
15、000
4
12、000
有效
31、000
缺失
、000
从3个ANOVA表可以瞧出,分为2类时,P值均小于0、05,表明有显著差异;分为3类时,出现了“衣着”得P值为0、107,大于0、05;分为4类时,P值均小于0、05,表明有显著差异。表明仅从ANOVA表瞧,分为3类,不合适。
再瞧F值,F值大表明组间差大,组内差小,即类内相似性大,类间差异性大,经比较可以瞧出,分类2类时,组间方差与组内方差均较大,而分为4类时,组间方差与组内方差相对来说,组内方差缩小得明显一些。
故分为4类较为恰当。
展开阅读全文