方差分析与非参数检验.doc

资源描述

精选文档北京建筑大学理学院信息与计算科学专业实验报告课程名称《数据分析》实验名称方差分析与非参数检验实验地点基C-423 日期2017.3.30 【实验目的】（1）熟悉数据的基本统计与非参数检验分析方法；（2）熟悉撰写数据分析报告的方法；（3）熟悉常用的数据分析软件SPSS。【实验要求】根据各个题目的具体要求，完成实验报告。【实验内容】 1、附件给出某年房屋价格的相关数据，请选用恰当的分析方法，对影响房屋价格的因素进行分析。(注意数据要调整成标准的格式，变量值、组别（字符变量转换成数值变量）)(单因素方差分析选择其中两个因素、双因素方差分析选择其中任一对因素即可) 2、附件给出管理才能评分的相关数据，请选用恰当的分析方法，分析该评分数据是否服从正态分布。 3、附件给出了某体育比赛的两位裁判打分数据，请选用恰当的分析方法，检验该两组评分分布是否有显著差异。(注意数据要调整成标准的格式，变量值、组别) 4、附件给出了减肥茶数据，请选用恰当方法分析，检验该减肥茶是否对减肥有显著效果。(注意数据要调整成标准的格式，变量值、组别) 【分析报告】 1、对影响房屋价格的因素进行分析。(单因素方差分析选择其中两个因素、双因素方差分析选择其中任一对因素即可)。表1-1（a）装修状况对均价影响的单因素方差分析结果均价平方和 df 均方 F 显著性组间 79.180 1 79.180 62.408 .000 组内 230.914 182 1.269 总数 310.094 183 表1-1（b）所在区县对均价影响单因素方差分析结果均价平方和 df 均方 F 显著性组间 91.919 3 30.640 25.279 .000 组内 218.174 180 1.212 总数 310.094 183 表1-1（a）是装修状况对均价影响的单因素方差分析结果。可以看到：观测变量均价的离差平方总和为310.094；如果仅考虑装修状况单个因素的影响，则均价总变差中，不同装修状况可解释的变差为79.180，抽样误差引起的变差为230.914，它们的方差分别为79.180和1.269，相除所得的F统计量的观测值为62.408，对应的概率P-值近似为0.如果显著性水平α为0.05，由于概率P-值小于显著性水平α，应拒绝原假设，认为不同装修状况对均价的平均值产生了显著影响，不同装修状况对均价的影响效应不全为0。表1-1（b）是所在区县对均价影响单因素方差分析结果。可以看到：如果仅考虑所在区县单个因素的影响，则均价总变差310.094中不同所在区县可解释的变差为91.919，抽样误差引起的变差为218.174，它们的方差分别为30.640和1.212，相除所得的F统计量的观测值为25.279，对应的概率P-值近似为0。如果显著性水平α为0.05，由于概率P-值小于显著性水平α，应拒绝原假设，认为不同所在区县对均价的平均值产生了显著影响，不同所在区县对均价的影响效应不全为0。对比表1-1（a）和表1-1（b）容易发现：如果从单因素的角度考虑，装修状况对均价的影响比所在区县大。表1-2（a）不同装修状况下均价的基本描述统计量及95%置信区间均价 N 均值标准差标准误均值的 95% 置信区间极小值极大值下限上限 0 84 2.467 .5797 .0632 2.341 2.593 .8 3.9 1 100 3.784 1.4320 .1432 3.500 4.068 1.0 8.6 总数 184 3.183 1.3017 .0960 2.993 3.372 .8 8.6 表1-2（a）表明，在2个不同装修状况下分别有84、100两个样本。“1”，即“精装修”的平均均价高于“0”“毛胚”。可在图1-3（a）中得到印证。表1-2（b) 方差齐性检验均价 Levene 统计量 df1 df2 显著性 28.807 1 182 .000 图1-3（a）不同装修状况下均价均值折线图表1-2（b）表明，不同装修状况下均价的方差齐性检验统计量的观测值为28.807，概率P-值为0。如果显著性水平α为0.05，由于概率P-值小于显著性水平α，因此应拒绝原假设，认为不同装修状况下对均价的总体方差有显著差异，满足方差分析的前提。表1-2（c）不同区县位置下均价的基本描述统计量及95%置信区间均价 N 均值标准差标准误均值的 95% 置信区间极小值极大值下限上限 1 58 4.021 1.6360 .2148 3.591 4.451 2.0 8.6 2 38 2.837 .6395 .1037 2.626 3.047 1.7 4.3 3 52 3.285 .8749 .1213 3.041 3.528 1.8 5.6 4 36 2.051 .5719 .0953 1.858 2.245 .8 3.5 总数 184 3.183 1.3017 .0960 2.993 3.372 .8 8.6 表1-2（c）中，“1”“2”“3”“4”分别对应区县“朝阳”“丰台”“海淀”“通州”在4个区县中各有58、38、52、36个样本。朝阳的均价最高，丰台区与海淀区居中，通州区最低。这些结论同样可在图1-3（b）中印证。方差齐性检验均价 Levene 统计量 df1 df2 显著性 15.627 3 180 .000 图1-3（b）不同所在区县均价均值折线图表1-2（d）表明，如果显著性水平α为0.05，由于概率P-值小于显著性水平α，因此应拒绝原假设，认为不同所在区县下对均价的总体方差有显著差异，满足方差分析的前提。表1-3 均价多因素方差分析的非饱和模型-主体间效应的检验因变量:均价源 III 型平方和 df 均方 F Sig. 校正模型 139.280a 7 19.897 20.501 .000 截距 1254.722 1 1254.722 1292.814 .000 装修状况 24.181 1 24.181 24.915 .000 所在区县 40.804 3 13.601 14.014 .000 误差 170.814 176 .971 总计 2174.020 184 校正的总计 310.094 183 a. R 方 = .449（调整 R 方 = .427）表1-3中，可以看到：观测变量的总变差SST为310.094，它被分解为三个部分，分别是：由装修状况不同引起的变差24.181，由所在区县引起的变差40.804，由随机因素引起的变差170.814。这些变差除以各自的自由度后，得到各自的方差，并可计算出各F检验统计量的观测值和一定自由度下的概率P-值，均为0。如果显著性水平α为0.05，由于其概率P-值小于显著性水平α，所以应拒绝原假设，可以认为不同装修状况、所在区县下的均价总体均值存在显著差异，对均价的效应不同时为0，各自不同的水平给均价带来了显著影响。该结论与单因素方差分析是一致的。 2、分析该评分数据是否服从正态分布。表2-1 单样本 Kolmogorov-Smirnov 检验管理才能评分 N 90 正态参数a,b 均值 487.6778 标准差 88.28005 最极端差别绝对值 .066 正 .066 负 -.041 Kolmogorov-Smirnov Z .630 渐近显著性(双侧) .822 a. 检验分布为正态分布。 b. 根据数据计算得到。表2—1表明，数据的均值为487.6778，标准差为88.28005。最大绝对差值为0.066，最大正差为0.066，最小负差为-0.041，概率P-值为0.822。如果显著性水平α为0.05，由于其概率P-值大于显著性水平α，所以不应拒绝原假设，没有充分理由推翻该评分数据的总体分布为正态分布的假设。 3、检验该两组评分分布是否有显著差异。表3-1（a）秩组别 N 秩均值秩和得分等级 1 31 32.50 1007.50 2 29 28.36 822.50 总数 60 表3-1（b）检验统计量a 得分等级 Mann-Whitney U 387.500 Wilcoxon W 822.500 Z -.962 渐近显著性(双侧) .336 a. 分组变量: 组别表3—1（a）和3—1（b）中，可以看到：从1、2两组中，即中美裁判中分别抽取了31和29个样本，两个秩和分别为1007.50和822.50；W统计量应采取中国裁判的秩和WX；U，Z统计量分别为387.500和-0.962。由于是小样本，因此采用U统计量的精确概率。如果显著性水平α为0.05，由于其概率P-值大于显著性水平α，所以不应拒绝原假设，认为中美裁判打分不存在显著差异。 4、检验该减肥茶是否对减肥有显著效果。表4-1（a）频率 N 喝后体重 - 喝茶前体重负差分a 44 正差分b 1 结c 0 总数 45 a. 喝后体重 < 喝茶前体重 b. 喝后体重 > 喝茶前体重 c. 喝后体重 = 喝茶前体重表4-1（b）检验统计量a 喝后体重 - 喝茶前体重 Z -6.261 渐近显著性(双侧) .000 a. 符号检验由表4-1（a）和4-1（b）可知，喝茶后体重低于喝茶前体重的有44人，远高于喝茶前的有1人。双侧的二项分布累计概率为0。如果显著性水平α为0.05，由于其概率P-值小于显著性水平α，所以拒绝原假设，喝减肥茶后的体重分布有显著差异，喝减肥茶有显著效果。【实验总结】通过这次的实验，我熟悉了数据的基本统计与非参数检验分析方法，数据分析报告的方法，熟悉了常用的数据分析软件SPSS。（范文素材和资料部分来自网络，供参考。可复制、编制，期待你的好评与关注）

展开阅读全文