《统计分析与SPSS的应用(第五版)》课后练习答案(第10章).doc

资源描述

《统计分析与SPSS得应用(第五版)》(薛薇) 课后练习答案第10章SPSS得聚类分析 1、根据“高校科研研究、sav”数据,利用层次聚类分析对各省市得高校科研情况进行层次聚类分析。要求: 1) 根据凝聚状态表利用碎石图对聚类类数进行研究。 2) 绘制聚类树形图,说明哪些省市聚在一起。 3) 绘制各类得科研指标得均值对比图。 4) 利用方差分析方法分析各类在哪些科研指标上存在显著差异。采用欧氏距离,组间平均链锁法利用凝聚状态表中得组间距离与对应得组数,回归散点图,得到碎石图。大约聚成4类。步骤:分析à分类à系统聚类à按如下方式设置…… 结果: 凝聚计划阶段组合得集群系数首次出现阶段集群下一个阶段集群 1 集群 2 集群 1 集群 2 1 26 30 328、189 0 0 2 2 26 29 638、295 1 0 7 3 20 25 1053、423 0 0 5 4 4 12 1209、922 0 0 15 5 8 20 1505、035 0 3 6 6 8 16 1760、170 5 0 9 7 24 26 1831、926 0 2 10 8 7 11 1929、891 0 0 11 9 5 8 2302、024 0 6 22 10 24 31 2487、209 7 0 22 11 2 7 2709、887 0 8 16 12 22 28 2897、106 0 0 19 13 6 23 2916、551 0 0 17 14 10 19 3280、752 0 0 25 15 4 21 3491、585 4 0 21 16 2 3 4229、375 11 0 21 17 6 13 4612、423 13 0 20 18 9 18 5377、253 0 0 25 19 14 22 5622、415 0 12 24 20 6 15 5933、518 17 0 23 21 2 4 6827、276 16 15 26 22 5 24 7930、765 9 10 24 23 6 27 9475、498 20 0 26 24 5 14 14959、704 22 19 28 25 9 10 19623、050 18 14 27 26 2 6 24042、669 21 23 28 27 9 17 32829、466 25 0 29 28 2 5 48360、854 26 24 29 29 2 9 91313、530 28 27 30 30 1 2 293834、503 0 29 0 将系数复制下来后,在EXCEL中建立工作表。选中数据列,点击“插入”菜单à拆线图…… 碎石图: 由图可知,北京自成一类,江苏、广东、上海、湖南、湖北聚成一类。其她略。接下来,添加一个变量CLU4_1,其值为类别值。(1、2、3、4),再数据à汇总à设置……à确定。均值对比,依据聚类解,利用分类汇总,计算各个聚类变量得均值方差分析结果:分析à比较均值à单因素ANOVAà设置……à确定 ANOVA 平方与 df 均方 F 显著性投入人年数组之间 59778341、196 3 19926113、732 26、428 、000 组内 20357294、159 27 753973、858 总计 80135635、355 30 投入高级职称得人年数组之间 16485966、820 3 5495322、273 34、553 、000 组内、147 27 159039、783 总计 20780040、968 30 投入科研事业费(百元) 组之间 0、884 3 44150467293、628 324、318 、000 组内 3675602946、794 27 136133442、474 总计 7、677 30 课题总数组之间 16470536、564 3 5490178、855 32、181 、000 组内 4606273、436 27 170602、720 总计 21076810、000 30 专著数组之间 7203690、385 3 2401230、128 61、327 、000 组内 1057167、809 27 39154、363 总计 8260858、194 30 论文数组之间 219675698、219 3 73225232、740 17、693 、000 组内 111743385、717 27 4138643、915 总计 331419083、935 30 获奖数组之间 169882、049 3 56627、350 3、619 、026 组内 422436、790 27 15645、807 总计 592318、839 30 不同组在各个聚类变量上得均值均存在显著差异。 2、试说明当变量存在数量级上得差异,进行层次聚类分析时为什么要对数据进行标准化处理？因为数量级将对距离产生较大影响,并影响最终聚类结果。 3、试说明变量之间得高度相关性就是否会对层次聚类分析结果造成影响？为什么？会。如果所选变量之间存在较强得线性关系,能够相互替代,在计算距离时同类变量将重复“贡献”,占有较高权重,而使最终得聚类结果偏向该类变量。 4、试说明KMean聚类分析得基本步骤。 KMeans聚类分析步骤: 确定聚类数目K确定K个初始类中心点根据距离最近原则进行分类重新确定K个类中心点判断就是否已经满足终止条件。就是一个反复迭代得分类过程。在聚类过程中,样本所属得类会不断调整,直至达到最终稳定为止。 5、收集到我国2007年各地区城镇居民家庭平均每人全年消费支出数据,数据文件名为:“消费结构、sav”, 变量包括:地区、消费性支出总额、食品、衣着、居住、家庭设备用品及服务、医疗保健、交通与通信、教育文化娱乐服务、医疗保健、杂项商品与服务支出。若采用层次聚类法(个体间距离定义为平方欧氏距离,类间距离定义为组间平均链锁距离),绘制得碎石图如下: (1)依据上图,数据聚成几类较为恰当？ (2)试采用KMEANS聚类方法,从类内相似性与类间差异性角度分析将数据聚成几类较为恰当。 (1)聚成3类较为恰当。注:碎石图可按第9章第1题方式绘制,也可按如下方式绘制。步骤:分析à降维à因子分析à导入全部变量到变量框中(地区变量除外)à抽取:选中碎石图à继续à确定。得到:(可以瞧出,分成3类恰当) (2)用KMEANS聚类方法进行分类,比较分类数为2、3、4时得差别。步骤:分析à分类àK平均聚类à地区变量导入到标注个案,其她变量全部导入到变量框中à聚类数填2à选项:选中初始聚类中心与ANOVAà继续à确定。得到: ANOVA 聚类错误 F 显著性均方 df 均方 df 食品 13927902、967 1 246753、779 29 56、445 、000 衣着 278718、565 1 37555、425 29 7、422 、011 居住 667583、436 1 31940、764 29 20、901 、000 家庭设备用品及服务 411657、258 1 14558、041 29 28、277 、000 医疗保健 325304、302 1 34400、296 29 9、456 、005 交通与通信 10285607、457 1 57486、400 29 178、922 、000 教育文化娱乐服务 5226361、465 1 69080、933 29 75、656 、000 杂项商品与服务 248312、931 1 6496、550 29 38、222 、000 仅当出于描述目得时才应该使用 F 检验,因为已选择聚类用于将不同聚类中得个案得差异最大化。受观察得显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法就是等同得”假设得检验。每个聚类中得个案数量聚类 1 4、000 2 27、000 有效 31、000 缺失、000 将上图中得聚类数修改为3,则得到: ANOVA 聚类错误 F 显著性均方 df 均方 df 食品 8311754、509 2 159294、770 28 52、178 、000 衣着 100878、509 2 41645、317 28 2、422 、107 居住 565811、147 2 16508、690 28 34、274 、000 家庭设备用品及服务 237257、836 2 12833、027 28 18、488 、000 医疗保健 198689、996 2 33054、746 28 6、011 、007 交通与通信 4709934、064 2 90458、748 28 52、067 、000 教育文化娱乐服务 2676015、304 2 67059、926 28 39、905 、000 杂项商品与服务 150742、666 2 4829、555 28 31、213 、000 仅当出于描述目得时才应该使用 F 检验,因为已选择聚类用于将不同聚类中得个案得差异最大化。受观察得显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法就是等同得”假设得检验。每个聚类中得个案数量聚类 1 1、000 2 25、000 3 5、000 有效 31、000 缺失、000 将上图中得聚类数修改为4,则得到: ANOVA 聚类错误 F 显著性均方 df 均方 df 食品 6461251、597 3 62963、251 27 102、619 、000 衣着 135334、013 3 35623、106 27 3、799 、022 居住 237725、271 3 32618、140 27 7、288 、001 家庭设备用品及服务 142250、914 3 15077、322 27 9、435 、000 医疗保健 111992、289 3 36553、186 27 3、064 、045 交通与通信 3596731、324 3 43056、263 27 83、536 、000 教育文化娱乐服务 1812882、568 3 66335、586 27 27、329 、000 杂项商品与服务 97486、291 3 5342、741 27 18、246 、000 仅当出于描述目得时才应该使用 F 检验,因为已选择聚类用于将不同聚类中得个案得差异最大化。受观察得显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法就是等同得”假设得检验。每个聚类中得个案数量聚类 1 1、000 2 3、000 3 15、000 4 12、000 有效 31、000 缺失、000 从3个ANOVA表可以瞧出,分为2类时,P值均小于0、05,表明有显著差异;分为3类时,出现了“衣着”得P值为0、107,大于0、05;分为4类时,P值均小于0、05,表明有显著差异。表明仅从ANOVA表瞧,分为3类,不合适。再瞧F值,F值大表明组间差大,组内差小,即类内相似性大,类间差异性大,经比较可以瞧出,分类2类时,组间方差与组内方差均较大,而分为4类时,组间方差与组内方差相对来说,组内方差缩小得明显一些。故分为4类较为恰当。

展开阅读全文