资源描述
综合实验一 数据的统计描述和分析
一、实验目的
1.掌握数据的统计描述、参数估计、假设检验和回归分析的基本概念与原理,及用MINITAB实现的方法;
2.练习综合运用数理统计知识解决一些实际问题。
二、实验内容
从某个寄宿制中学高三学生中随机抽取32名男生的身高、体重和体育课的成绩如下表
身高
体重
成绩
身高
体重
成绩
身高
体重
成绩
167
179
168
187
173
176
170
170
162
177
179
50
63
54
79
62
70
57
57
53
67
68
85
93
78
91
68
86
81
76
71
67
75
172
170
177
172
166
174
141
169
167
169
167
61
58
67
62
53
62
63
56
64
64
53
83
84
79
87
81
83
63
76
85
71
79
169
166
163
175
173
169
167
163
158
175
50
66
66
69
64
59
56
51
44
69
80
74
91
86
83
81
83
66
70
69
(1) 给出这些数据的直观的图形描述.
(2) 根据这些数据对全校的学生的平均身高和体重做出估计.
(3) 若普通中学的同龄男生的平均身高为168.3cm,平均体重为56.2kg, 你能否认为该中学学生的身高、体重与普通中学相比有显著性区别。 ()
(4) 身高和体重对体育成绩有何影响?
三、实验思路分析:
1.首先要对这些数据进行直观的图形描述,用MINITAB来进行统计描述,可以以身高,体重,成绩为三个变量,分别做三个频率直方图,按照基本实验的做法,先将数据分组,然后计算好各自的频数,频率,最后用软件画图;
2.根据数据来对平均身高和体重做估计,涉及到参数估计,由于样本空间的方差未知,即正态总体方差未知,对均值的区间估计,用1-Sample T来进行;
3.由提示可知这两个正态总体(身高,体重)的均值,可是方差未知,这里是对两个正态分布的参数分别进行比较,即分别对两个正态总体所进行的单边假设检验,由于选取的统计量为T统计量,故运用的是t检验法,其中用到的是1-Sample T来进行;
4.(1)由于身高和体重是两个变量因素,因此这里是对双因素试验的方差分析.又由于这两个因素对试验指标起作用,且各因素不同水平的搭配也对试验指标起作用,因此这里是对有交互作用的双因素试验的方差分析,可仿照例题,运用Stat>ANOVA>Balanced ANOVA来试验。
(2)也可以用回归分析的方法来试验,参照例题,用Stat>Regression> Regression。
四、实验步骤:
(1)绘图:
1.编写MINITAB程序
首先是对身高的图形描述,编写如下:
MTB > set c1
DATA>输入身高的原始数据
DATA> end
因为身高数据中最高身高为187,最低身高为141,故可以分为5组。
MTB > code (140:149.9)145 (150:159.9)155 (160:169.9)165 (170:179.9)175 (180:189.9)185 c1 c2
MTB > tally c2;
SUBC> all.
结果显示:
Tally for Discrete Variables: C2
C2 Count CumCnt Percent CumPct
145 1 1 3.13 3.13
155 1 2 3.13 6.25
165 14 16 43.75 50.00
175 15 31 46.88 96.88
185 1 32 3.13 100.00
N= 32
接着选择命令Graph中的Histogram,选择其中的simple式样,在Graph栏中键入C1,点击OK,有图:
其中C1 C2 的表格分布为
C1
167
179
168
187
173
176
170
170
C2
165
175
165
185
175
175
175
175
C1
162
177
179
172
170
177
172
166
C2
165
175
175
175
175
175
175
165
C1
174
141
169
167
169
167
169
166
C2
175
145
165
165
165
165
165
165
C1
163
175
173
169
167
163
158
175
C2
165
175
175
165
165
165
155
175
再重复一次以上步骤,在Graph栏中键入C2,有图:
2.按照以上步骤,依次给体重,成绩两因素的数据作图形描述;
对体重的图形描述:
MTB > set c3
DATA>输入数据
DATA> end
MTB > code (40:44.9)42.5 (45:49.9)47.5 (50:54.9)52.5 (55:59.9)57.5 (60:64.9)62.5 (65:69.9)67.5 (70:74.9)72.5 (75:79.9)77.5 c3 c4
MTB > tally c4;
SUBC> all.
结果显示:
Tally for Discrete Variables: C4
C4 Count CumCnt Percent CumPct
42.5 1 1 3.13 3.13
52.5 7 8 21.88 25.00
57.5 6 14 18.75 43.75
62.5 9 23 28.13 71.88
67.5 7 30 21.88 93.75
72.5 1 31 3.13 96.88
77.5 1 32 3.13 100.00
N= 32
接着选择命令Graph中的Histogram,选择其中的simple式样,在Graph栏中键入C3,C4,点击OK,有图:
3.对成绩的描述:
MTB > set c5
DATA>输入数据
DATA> end
MTB > code (60:64.9)62.5 (65:69.9)67.5 (70:74.9)72.5 (75:79.9)77.5 (80:84.9)82.5 (85:89.9)87.5 (90:94.9)92.5 c5 c6
MTB > tally c6;
SUBC> all.
Tally for Discrete Variables: C6
C6 Count CumCnt Percent CumPct
62.5 1 1 3.13 3.13
67.5 4 5 12.50 15.63
72.5 4 9 12.50 28.13
77.5 6 15 18.75 46.88
82.5 9 24 28.13 75.00
87.5 5 29 15.63 90.63
92.5 3 32 9.38 100.00
N= 32
接着选择命令Graph中的Histogram,选择其中的simple式样,在Graph栏中键入C5,C6,点击OK,有图:
(2)对全校学生进行平均身高和体重的区间估计:
1.对平均身高的估计:
先输入原始数据,并把数据列命名为C1;
选择Stat> Basic Statistics> 1-sample t;
在Variables栏中,键入C1;
Click ok
结果显示:
One-Sample T: C1
Variable N Mean StDev SE Mean 95% CI
C1 32 169.688 7.822 1.383 (166.867, 172.508)
2.对体重的估计:
同理可求体重的区间范围,以同样的步骤得
结果显示:
One-Sample T: C1
Variable N Mean StDev SE Mean 95% CI
C1 32 60.5313 7.4096 1.3098 (57.8598, 63.2027)
(3)已知平均身高为168.3CM,平均体重为56.2KG,分别运用1-Sample T来进行单边检验;
程序如下:
1. 先输入身高的原始数据,并把数据列命名为C1;
2. 选择Stat> Basic Statistics> 1-sample t;
3. 在Variables栏中,键入C1;
4. 在Test mean 栏中键入168.3;
5. 单击Options,在Confidence level栏中,键入95.0,在Alternative栏中选greater than ;
6. Click ok
结果显示:
Test of mu = 168.3 vs > 168.3
95%
Lower
Variable N Mean StDev SE Mean Bound T P
C1 32 169.688 7.822 1.383 167.343 1.00 0.162
对体重的单边检验:
7. 先输入体重的原始数据,并把数据列命名为C2;
8. 选择Stat> Basic Statistics> 1-sample t;
9. 在Variables栏中,键入C2;
10. 在Test mean 栏中键入56.2;
11. 单击Options,在Confidence level栏中,键入95.0,在Alternative栏中选greater than ;
12. Click ok
Test of mu = 56.2 vs > 56.2
95%
Lower
Variable N Mean StDev SE Mean Bound T P
C2 32 60.5313 7.4096 1.3098 58.3104 3.31 0.001
(4) 身高和体重对体育成绩的影响:
1.先用双因素试验的方差分析来进行实验:
步骤如下:
2.用回归分析的方法来实验:
步骤如下:
输入原始数据;(C1——身高,C2——体重,C3——成绩)
选择Stat>Regression> Regression;
在Response栏中,键入C3;
在Predictors栏中,键入C1 C2;
点击OK
结果显示:
Regression Analysis: C3 versus C1, C2
The regression equation is
C3 = 0.6 + 0.465 C1 - 0.010 C2
Predictor Coef SE Coef T P
Constant 0.63 28.35 0.02 0.982
C1 0.4648 0.1945 2.39 0.024
C2 -0.0100 0.2053 -0.05 0.961
S = 7.13824 R-Sq = 21.3% R-Sq(adj) = 15.9%
Analysis of Variance
Source DF SS MS F P
Regression 2 401.04 200.52 3.94 0.031
Residual Error 29 1477.68 50.95
Total 31 1878.72
Source DF Seq SS
C1 1 400.92
C2 1 0.12
五.实验结果分析:
1.绘出的直方图如上;
2.根据数据对全校的学生的身高和体重的估计为:
全校的学生的平均身高的区间估计是 (166.867, 172.508) 而平均体重区间估计是(57.8598, 63.2027);
3.通过实验检验得,该中学学生的身高和体重与普通中学相比,对于身高,其P=0.162>a=0.05,故接受原假设,可认为该中学学生的身高与普通中学相比没有显著性区别;而对于体重,其P= 0.001<0.05,拒绝原假设,故可认为该中学学生的体重与普通中学相比有显著性区别;
4.以C1为身高,C2为体重,C3为成绩得, 实验所得的回归方程为C3 = 0.6 + 0.465 C1 - 0.010 C2,由于P=0.031大于0.01,由回归方程统计检验知线性方程很大程度上无效.
完成者:杨栋 陈洪璋 冼玉钧
专业、班级:2007生物科学二班
学号:200730710201,200730710226 200730710227
展开阅读全文