1、统计分析与SPSS得应用(第五版)(薛薇)课后练习答案第10章SPSS得聚类分析1、根据“高校科研研究、sav”数据,利用层次聚类分析对各省市得高校科研情况进行层次聚类分析。要求:1) 根据凝聚状态表利用碎石图对聚类类数进行研究。2) 绘制聚类树形图,说明哪些省市聚在一起。3) 绘制各类得科研指标得均值对比图。4) 利用方差分析方法分析各类在哪些科研指标上存在显著差异。采用欧氏距离,组间平均链锁法利用凝聚状态表中得组间距离与对应得组数,回归散点图,得到碎石图。大约聚成4类。步骤:分析分类系统聚类按如下方式设置 结果:凝聚计划阶段组合得集群系数首次出现阶段集群下一个阶段集群 1集群 2集群 1集
2、群 212630328、18900222629638、295107320251053、42300544121209、922001558201505、03503668161760、170509724261831、926021087111929、89100119582302、02406221024312487、209702211272709、88708161222282897、1060019136232916、55100171410193280、7520025154213491、585402116234229、37511021176134612、42313020189185377、25300251
3、914225622、41501224206155933、5181702321246827、276161526225247930、76591024236279475、498200262451414959、7042219282591019623、050181427262624042、6692123282791732829、46625029282548360、854262429292991313、5302827303012293834、5030290将系数复制下来后,在EXCEL中建立工作表。选中数据列,点击“插入”菜单拆线图 碎石图:由图可知,北京自成一类,江苏、广东、上海、湖南、湖北聚成一类。其
4、她略。接下来,添加一个变量CLU4_1,其值为类别值。(1、2、3、4),再数据汇总设置确定。均值对比,依据聚类解,利用分类汇总,计算各个聚类变量得均值方差分析结果:分析比较均值单因素ANOVA设置确定ANOVA平方与df均方F显著性投入人年数组之间59778341、196319926113、73226、428、000组内20357294、15927753973、858总计80135635、35530投入高级职称得人年数组之间16485966、82035495322、27334、553、000组内、14727159039、783总计20780040、96830投入科研事业费(百元)组之间0、8
5、84344150467293、628324、318、000组内3675602946、79427136133442、474总计7、67730课题总数组之间16470536、56435490178、85532、181、000组内4606273、43627170602、720总计21076810、00030专著数组之间7203690、38532401230、12861、327、000组内1057167、8092739154、363总计8260858、19430论文数组之间219675698、219373225232、74017、693、000组内111743385、717274138643、915总
6、计331419083、93530获奖数组之间169882、049356627、3503、619、026组内422436、7902715645、807总计592318、83930不同组在各个聚类变量上得均值均存在显著差异。2、试说明当变量存在数量级上得差异,进行层次聚类分析时为什么要对数据进行标准化处理?因为数量级将对距离产生较大影响,并影响最终聚类结果。3、 试说明变量之间得高度相关性就是否会对层次聚类分析结果造成影响?为什么?会。如果所选变量之间存在较强得线性关系,能够相互替代,在计算距离时同类变量将重复“贡献”,占有较高权重,而使最终得聚类结果偏向该类变量。4、 试说明KMean聚类分析得
7、基本步骤。KMeans聚类分析步骤:确定聚类数目K确定K个初始类中心点根据距离最近原则进行分类重新确定K个类中心点判断就是否已经满足终止条件。就是一个反复迭代得分类过程。在聚类过程中,样本所属得类会不断调整,直至达到最终稳定为止。5、收集到我国2007年各地区城镇居民家庭平均每人全年消费支出数据,数据文件名为:“消费结构、sav”, 变量包括:地区、消费性支出总额、食品、衣着、居住、家庭设备用品及服务、医疗保健、交通与通信、教育文化娱乐服务、医疗保健、杂项商品与服务支出。若采用层次聚类法(个体间距离定义为平方欧氏距离,类间距离定义为组间平均链锁距离),绘制得碎石图如下:(1)依据上图,数据聚成
8、几类较为恰当?(2)试采用KMEANS聚类方法,从类内相似性与类间差异性角度分析将数据聚成几类较为恰当。(1)聚成3类较为恰当。注:碎石图可按第9章第1题方式绘制,也可按如下方式绘制。步骤:分析降维因子分析导入全部变量到变量框中(地区变量除外)抽取:选中碎石图继续确定。得到:(可以瞧出,分成3类恰当)(2)用KMEANS聚类方法进行分类,比较分类数为2、3、4时得差别。步骤:分析分类K平均聚类地区变量导入到标注个案,其她变量全部导入到变量框中聚类数填2选项:选中初始聚类中心与ANOVA继续确定。得到:ANOVA聚类错误F显著性均方df均方df食品13927902、9671246753、7792
9、956、445、000衣着278718、565137555、425297、422、011居住667583、436131940、7642920、901、000家庭设备用品及服务411657、258114558、0412928、277、000医疗保健325304、302134400、296299、456、005交通与通信10285607、457157486、40029178、922、000教育文化娱乐服务5226361、465169080、9332975、656、000杂项商品与服务248312、93116496、5502938、222、000仅当出于描述目得时才应该使用 F 检验,因为已选择聚类
10、用于将不同聚类中得个案得差异最大化。 受观察得显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法就是等同得”假设得检验。每个聚类中得个案数量聚类14、000227、000有效31、000缺失、000将上图中得聚类数修改为3,则得到:ANOVA聚类错误F显著性均方df均方df食品8311754、5092159294、7702852、178、000衣着100878、509241645、317282、422、107居住565811、147216508、6902834、274、000家庭设备用品及服务237257、836212833、0272818、488、000医疗保健198689、99
11、6233054、746286、011、007交通与通信4709934、064290458、7482852、067、000教育文化娱乐服务2676015、304267059、9262839、905、000杂项商品与服务150742、66624829、5552831、213、000仅当出于描述目得时才应该使用 F 检验,因为已选择聚类用于将不同聚类中得个案得差异最大化。 受观察得显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法就是等同得”假设得检验。每个聚类中得个案数量聚类11、000225、00035、000有效31、000缺失、000将上图中得聚类数修改为4,则得到:ANOVA聚
12、类错误F显著性均方df均方df食品6461251、597362963、25127102、619、000衣着135334、013335623、106273、799、022居住237725、271332618、140277、288、001家庭设备用品及服务142250、914315077、322279、435、000医疗保健111992、289336553、186273、064、045交通与通信3596731、324343056、2632783、536、000教育文化娱乐服务1812882、568366335、5862727、329、000杂项商品与服务97486、29135342、7412718
13、、246、000仅当出于描述目得时才应该使用 F 检验,因为已选择聚类用于将不同聚类中得个案得差异最大化。 受观察得显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法就是等同得”假设得检验。每个聚类中得个案数量聚类11、00023、000315、000412、000有效31、000缺失、000从3个ANOVA表可以瞧出,分为2类时,P值均小于0、05,表明有显著差异;分为3类时,出现了“衣着”得P值为0、107,大于0、05;分为4类时,P值均小于0、05,表明有显著差异。表明仅从ANOVA表瞧,分为3类,不合适。再瞧F值,F值大表明组间差大,组内差小,即类内相似性大,类间差异性大,经比较可以瞧出,分类2类时,组间方差与组内方差均较大,而分为4类时,组间方差与组内方差相对来说,组内方差缩小得明显一些。故分为4类较为恰当。