资源描述
精选文档
北京建筑大学
理学院信息与计算科学专业实验报告
课程名称《数据分析》实验名称 方差分析与非参数检验 实验地点 基C-423 日期2017.3.30
【实验目的】
(1)熟悉数据的基本统计与非参数检验分析方法;
(2)熟悉撰写数据分析报告的方法;
(3)熟悉常用的数据分析软件SPSS。
【实验要求】
根据各个题目的具体要求,完成实验报告。
【实验内容】
1、附件给出某年房屋价格的相关数据,请选用恰当的分析方法,对影响房屋价格的因素进行分析。(注意数据要调整成标准的格式,变量值、组别(字符变量转换成数值变量))(单因素方差分析选择其中两个因素、双因素方差分析选择其中任一对因素即可)
2、附件给出管理才能评分的相关数据,请选用恰当的分析方法,分析该评分数据是否服从正态分布。
3、附件给出了某体育比赛的两位裁判打分数据,请选用恰当的分析方法,检验该两组评分分布是否有显著差异。(注意数据要调整成标准的格式,变量值、组别)
4、附件给出了减肥茶数据,请选用恰当方法分析,检验该减肥茶是否对减肥有显著效果。(注意数据要调整成标准的格式,变量值、组别)
【分析报告】
1、对影响房屋价格的因素进行分析。(单因素方差分析选择其中两个因素、双因素方差分析选择其中任一对因素即可)。
表1-1(a)
装修状况对均价影响的单因素方差分析结果
均价
平方和
df
均方
F
显著性
组间
79.180
1
79.180
62.408
.000
组内
230.914
182
1.269
总数
310.094
183
表1-1(b)
所在区县对均价影响单因素方差分析结果
均价
平方和
df
均方
F
显著性
组间
91.919
3
30.640
25.279
.000
组内
218.174
180
1.212
总数
310.094
183
表1-1(a)是装修状况对均价影响的单因素方差分析结果。可以看到:观测变量均价的离差平方总和为310.094;如果仅考虑装修状况单个因素的影响,则均价总变差中,不同装修状况可解释的变差为79.180,抽样误差引起的变差为230.914,它们的方差分别为79.180和1.269,相除所得的F统计量的观测值为62.408,对应的概率P-值近似为0.如果显著性水平α为0.05,由于概率P-值小于显著性水平α,应拒绝原假设,认为不同装修状况对均价的平均值产生了显著影响,不同装修状况对均价的影响效应不全为0。
表1-1(b)是所在区县对均价影响单因素方差分析结果。可以看到:如果仅考虑所在区县单个因素的影响,则均价总变差310.094中不同所在区县可解释的变差为91.919,抽样误差引起的变差为218.174,它们的方差分别为30.640和1.212,相除所得的F统计量的观测值为25.279,对应的概率P-值近似为0。如果显著性水平α为0.05,由于概率P-值小于显著性水平α,应拒绝原假设,认为不同所在区县对均价的平均值产生了显著影响,不同所在区县对均价的影响效应不全为0。
对比表1-1(a)和表1-1(b)容易发现:如果从单因素的角度考虑,装修状况对均价的影响比所在区县大。
表1-2(a)
不同装修状况下均价的基本描述统计量及95%置信区间
均价
N
均值
标准差
标准误
均值的 95% 置信区间
极小值
极大值
下限
上限
0
84
2.467
.5797
.0632
2.341
2.593
.8
3.9
1
100
3.784
1.4320
.1432
3.500
4.068
1.0
8.6
总数
184
3.183
1.3017
.0960
2.993
3.372
.8
8.6
表1-2(a)表明,在2个不同装修状况下分别有84、100两个样本。“1”,即“精装修”的平均均价高于“0”“毛胚”。可在图1-3(a)中得到印证。
表1-2(b)
方差齐性检验
均价
Levene 统计量
df1
df2
显著性
28.807
1
182
.000
图1-3(a) 不同装修状况下均价均值折线图
表1-2(b)表明,不同装修状况下均价的方差齐性检验统计量的观测值为28.807,概率P-值为0。如果显著性水平α为0.05,由于概率P-值小于显著性水平α,因此应拒绝原假设,认为不同装修状况下对均价的总体方差有显著差异,满足方差分析的前提。
表1-2(c)
不同区县位置下均价的基本描述统计量及95%置信区间
均价
N
均值
标准差
标准误
均值的 95% 置信区间
极小值
极大值
下限
上限
1
58
4.021
1.6360
.2148
3.591
4.451
2.0
8.6
2
38
2.837
.6395
.1037
2.626
3.047
1.7
4.3
3
52
3.285
.8749
.1213
3.041
3.528
1.8
5.6
4
36
2.051
.5719
.0953
1.858
2.245
.8
3.5
总数
184
3.183
1.3017
.0960
2.993
3.372
.8
8.6
表1-2(c)中,“1”“2”“3”“4”分别对应区县“朝阳”“丰台”“海淀”“通州”在4个区县中各有58、38、52、36个样本。朝阳的均价最高,丰台区与海淀区居中,通州区最低。这些结论同样可在图1-3(b)中印证。
方差齐性检验
均价
Levene 统计量
df1
df2
显著性
15.627
3
180
.000
图1-3(b) 不同所在区县均价均值折线图
表1-2(d)表明,如果显著性水平α为0.05,由于概率P-值小于显著性水平α,因此应拒绝原假设,认为不同所在区县下对均价的总体方差有显著差异,满足方差分析的前提。
表1-3
均价多因素方差分析的非饱和模型-主体间效应的检验
因变量:均价
源
III 型平方和
df
均方
F
Sig.
校正模型
139.280a
7
19.897
20.501
.000
截距
1254.722
1
1254.722
1292.814
.000
装修状况
24.181
1
24.181
24.915
.000
所在区县
40.804
3
13.601
14.014
.000
误差
170.814
176
.971
总计
2174.020
184
校正的总计
310.094
183
a. R 方 = .449(调整 R 方 = .427)
表1-3中,可以看到:观测变量的总变差SST为310.094,它被分解为三个部分,分别是:由装修状况不同引起的变差24.181,由所在区县引起的变差40.804,由随机因素引起的变差170.814。这些变差除以各自的自由度后,得到各自的方差,并可计算出各F检验统计量的观测值和一定自由度下的概率P-值,均为0。如果显著性水平α为0.05,由于其概率P-值小于显著性水平α,所以应拒绝原假设,可以认为不同装修状况、所在区县下的均价总体均值存在显著差异,对均价的效应不同时为0,各自不同的水平给均价带来了显著影响。该结论与单因素方差分析是一致的。
2、 分析该评分数据是否服从正态分布。
表2-1
单样本 Kolmogorov-Smirnov 检验
管理才能评分
N
90
正态参数a,b
均值
487.6778
标准差
88.28005
最极端差别
绝对值
.066
正
.066
负
-.041
Kolmogorov-Smirnov Z
.630
渐近显著性(双侧)
.822
a. 检验分布为正态分布。
b. 根据数据计算得到。
表2—1表明,数据的均值为487.6778,标准差为88.28005。最大绝对差值为0.066,最大正差为0.066,最小负差为-0.041,概率P-值为0.822。如果显著性水平α为0.05,由于其概率P-值大于显著性水平α,所以不应拒绝原假设,没有充分理由推翻该评分数据的总体分布为正态分布的假设。
3、 检验该两组评分分布是否有显著差异。
表3-1(a)
秩
组别
N
秩均值
秩和
得分等级
1
31
32.50
1007.50
2
29
28.36
822.50
总数
60
表3-1(b)
检验统计量a
得分等级
Mann-Whitney U
387.500
Wilcoxon W
822.500
Z
-.962
渐近显著性(双侧)
.336
a. 分组变量: 组别
表3—1(a)和3—1(b)中,可以看到:从1、2两组中,即中美裁判中分别抽取了31和29个样本,两个秩和分别为1007.50和822.50;W统计量应采取中国裁判的秩和WX;U,Z统计量分别为387.500和-0.962。由于是小样本,因此采用U统计量的精确概率。如果显著性水平α为0.05,由于其概率P-值大于显著性水平α,所以不应拒绝原假设,认为中美裁判打分不存在显著差异。
4、检验该减肥茶是否对减肥有显著效果。
表4-1(a)
频率
N
喝后体重 - 喝茶前体重
负差分a
44
正差分b
1
结c
0
总数
45
a. 喝后体重 < 喝茶前体重
b. 喝后体重 > 喝茶前体重
c. 喝后体重 = 喝茶前体重
表4-1(b)
检验统计量a
喝后体重 - 喝茶前体重
Z
-6.261
渐近显著性(双侧)
.000
a. 符号检验
由表4-1(a)和4-1(b)可知,喝茶后体重低于喝茶前体重的有44人,远高于喝茶前的有1人。双侧的二项分布累计概率为0。如果显著性水平α为0.05,由于其概率P-值小于显著性水平α,所以拒绝原假设,喝减肥茶后的体重分布有显著差异,喝减肥茶有显著效果。
【实验总结】
通过这次的实验,我熟悉了数据的基本统计与非参数检验分析方法,数据分析报告的方法,熟悉了常用的数据分析软件SPSS。
(范文素材和资料部分来自网络,供参考。可复制、编制,期待你的好评与关注)
展开阅读全文