资源描述
《统计信息应用软件上机实验指导书》
(编写人 李灿)
湖南商学院信息系
2005-4-10
编写说明
为了方便教师教学,提高学生运用统计信息应用软件的能力,以更好的适应信息社会对现代化定量分析人才的需求,为社会培养现代化的高级专门人才,以及更好地配合统计信息应用软件课程的案例教学改革,我在教学的过程中精心编写了此本《统计信息应用软件》上机试验指导书(SPSS12.0统计软件)。
在编写的过程中得到了信息系领导龚曙明教授、欧阳资生博士以及统计学教研室各位老师的支持,在此我表示感谢。
由于时间仓促,本人水平有限,错误之处敬请各位专家学者指正,本人邮箱:xlican@。
李 灿
2004.3
目 录
试验一、数据统计处理………………………………3
试验二、单变量频率分配分析………………………4
试验三、T-TEST过程……………………………….6
试验四、聚类分析……………………………………9
试验五、因子分析………………………………….14
试验六、判别分析……………………………………17.
试验七、多元方差分析………………………………21
试验一、数据统计处理
试验目的:通过上机试验,使学生掌握数据统计处理基本原理,熟悉数据文件的处理,具体包括数据的输入、数据变量的定义、数据资料的统计处理等软件操作过程,能对软件输出结果进行分析。
实验题目:某班进行其中考试成绩分析,首先输入全班36人的学号、性别、数学、无力、化学、外语和语文成绩,如表1所示:存为aa.sys文件,现按以下要求操作。
表1 某班期终考试成绩
学号
性别
数学
物理
化学
外语
语文
学号
性别
数学
物理
化学
外语
语文
0301
女
88
93
65
72
86
0319
女
56
64
66
75
74
0302
女
87
93
68
78
91
0320
女
598
71
70
74
78
0303
女
82
98
71
81
86
0321
男
68
74
76
78
75
0304
男
70
83
缺考
90
92
0322
女
71
68
71
70
82
0305
男
80
88
79
88
85
0323
女
74
56
64
68
84
0306
男
78
90
78
82
88
0324
男
76
84
82
92
94
0307
女
70
80
72
76
90
0325
男
91
88
88
94
90
0308
男
71
78
83
78
94
0326
女
87
91
90
88
90
0309
男
74
74
76
78
86
0327
男
93
95
94
96
88
0310
男
77
78
81
缺考
76
0328
男
84
86
86
88
92
0311
男
66
86
85
83
85
0329
女
90
92
90
91
89
0312
女
73
70
74
75
91
0330
男
61
68
70
74
82
0313
男
68
82
72
76
76
0331
男
76
75
81
56
62
0314
女
81
89
91
88
91
0332
女
81
68
78
88
81
0315
女
55
84
86
91
84
0333
男
67
71
90
68
72
0316
女
64
75
74
78
89
0334
女
78
76
81
91
79
0317
男
61
66
68
70
80
0335
男
85
81
72
89
69
0318
女
缺考
54
58
68
72
0336
女
88
91
72
76
92
(1) 定义缺失值。
(2) 计算个人平均成绩,按平均分从大到小进行排序,挑选出学习成绩最好、最差的3个同学。
(3) 求这5门课的平均成分和标准差。
(4) 将各门成绩按5级分类(优、良、中、及格和不及格)贴标签,求其频数分布,查看哪一分数段人最多。
(5) 将数学和物理成绩做一散点分布图。
(6) 将数据文件、输出结果和图形分别存盘保存。
试验二、单变量频率分配分析
试验目的:通过上机试验,使学生掌握频率分配分析基本原理,熟悉频率分配分析软件操作过程,能对软件输出结果进行分析。
实验题目:某单位对100名健康女大学生测定了血清蛋白含量(serum,克/升)如下表所示。试做单变量频率分配分析并作直方图。
74.3
78.8
68.8
78.0
70.4
80.5
80.5
69.7
71.2
73.5
79.5
75.6
75.0
78.8
72.0
72.0
72.0
74.3
71.2
72.0
75.0
73.5
78.8
74.3
75.8
65.0
74.3
71.2
69.7
68.0
73.5
75.0
72.0
64.3
75.8
80.3
69.7
74.3
73.5
73.5
75.8
75.8
68.8
76.5
70.4
71.2
81.2
75.0
70.4
68.0
74.0
72.0
76.5
74.3
76.5
77.6
67.3
72.0
75.0
74.3
73.5
79.5
73.5
74.7
65.0
76.5
81.6
75.4
72.7
72.7
37.2
76.5
72.7
70.4
77.2
68.8
67.3
67.3
67.3
72.7
75.8
73.5
75.0
72.7
73.5
73.5
72.7
81.6
70.3
74.3
73.5
79.5
70.4
76.5
72.7
77.2
84.3
75.0
76.5
70.4
实验分析:
频率分配表
Frequency
Percent
Valid Percent
Cumulative Percent
Valid
65以下
3
3.0
3.0
3.0
65-70
13
13.0
13.0
16.0
70-75
46
46.0
46.0
62.0
75-80
31
31.0
31.0
93.0
80以上
7
7.0
7.0
100.0
Total
100
100.0
100.0
从以上频数分布表中可以知道,100名健康女大学生血清蛋白含量在65克/升的占3%,65-70克/升的占13%,70-75克/升的占46%,75-80克/升的占31%,80克/升以上的占7%。
1、 65克/升以下
2、 65-70克/升
3、 70-75克/升
4、 75-80克/升
5、 80克/升以上
从以上直方图可以看出100名健康女大学生血清蛋白含量基本上与正态曲线一致,这说明,健康女大学生血清蛋白含量基本合理。
试验三、T-TEST过程
试验目的:通过上机试验,使学生掌握T-TEST过程基本原理,熟悉T-TEST过程分析软件操作过程,能对软件输出结果进行分析。
实验题目:
10个病号每人都做了3种不同的减肥治疗。下面的数据和命令用来表示体重减轻的变化情况(单位:公斤/月)。
ID(个案号)
T1(治疗1)
T2(治疗2)
T3(治疗3)
01
1.35
1.27
1.33
02
1.28
1.31
1.26
03
1.40
2.05
2.01
04
1.28
1.37
1.32
05
1.36
1.27
1.35
06
.99
1.32
1.48
07
1.65
1.58
1.73
08
1.01
1.08
1.21
09
1.15
1.18
1.66
10
1.33
1.34
1.32
1、请用SPSS的T-TEST过程,检验治疗1于治疗3,治疗2于治疗3之间体重变化的“均值相等的原假设”。
2、创建一个新变量T,它等于治疗1于治疗3体重减轻之差,并使用Frequencies过程。试比较1题与2题的结果。计算变量T的均值、标准偏差和标准误差。
实验分析:1、由于三种减肥治疗效果具有相关性,因此采用配对样本T检验。Analyze菜单中选择compare means,进而选择paired-samples T test 。分别将T1与T3同时选入paired variables栏,然后将T2与T3同时选入,确定。得结果:
T-Test
表1
表2
表3
由表1可见,各类治疗方法减轻体重的平均数,标准差和标准误差。可见治疗1的减肥效果比较稳定,治疗3次之,治疗2效果因个人身体状况不同差异较大。
由表2可见,治疗1与治疗3的相关性不明显(Sig值=0.257>0.05,未通过显著性检验),而治疗2与治疗3的效果比较相似,呈现较强的相关性(Sig值=0.004<0.05,通过显著性检验)。
由表3可见,治疗1与治疗3的效果之间存在明显的差别,它通过了T检验(Sig值=0.044<0.05,通过显著性检验),而治疗2与治疗3的效果比较相似,没有显著差别(Sig值=0.110>0.05,未通过显著性检验),可见与表2得出的结论一致。
2、通过 transform中的compute菜单可计算得到新变量T,通过frequencies程序结果如下:
由上表可见新变量T的平均值为-0.187,标准误差为0.07969,标准差为0.25202。
与第一题的结果比较可见,T的均值、标准误差和标准差与第一题中的治疗1与治疗3配对T检验的结果一致,可见配对样本T检验的原假设是将两样本之差与0比较,H0:X1-X2=0, H1:X1-X2≠0,其中t= 。
练习题:
1、用大白鼠配成八对,每对分别喂以正常饲料和缺乏维生素E饲料,过一段时间,测得两组大白鼠肝中维生素A的含量如下:
大白鼠对号
正常饲料组
缺乏维生素E饲料组
1
2
3
4
5
6
7
8
3550
2000
3000
3950
3800
3750
3450
3050
2450
2400
1800
3200
3250
2700
2500
1750
试比较两组维生素A含量有无差别?
2、用某药物治疗不同病情的老年慢性支气管炎病人,疗效如下表。
某药疗效数据:
疗效
单纯性
单纯性合并肺气肿
控制
65
42
显效
18
6
有效
30
23
无效
13
11
试比较两种病情的疗效?
试验四、聚类分析
试验目的:通过上机试验,使学生掌握聚类分析的基本原理,熟悉快速聚类分析与分层聚类分析操作过程,能对软件输出结果进行分析。
实验题目1:快速聚类分析
某集团公司为研究下属不同企业的经营特点,调查了20个企业的盈利能力、领导才干、组织文化和员工发展等4项指标(变量),将这20个企业按照各自的特点分成4种类型。
数据表:
实验分析:
(1)第一类的企业有F、G和Q,盈利能力比较强,其他方面相对较弱;
第二类的企业有B、D、E、H、J、O、R、S和T,各方面的能力比较平衡,综合能力强;
第三类的企业有A、C、I、K、L和P,组织文化和员工发展比较突出;
第四类的企业有M和N,盈利能力和领导才干比较强。
(2)每一例的各案数(Numbers of case in each cluster),可见3例在第一类中,9例在第二类中,6例在第三类中,2例在第四类中。
(3)最终聚类中心间的距离(distances between final cluster centers),即4种聚类中心两两间的欧氏距离。第一类到第二类的距离是37.663,第一类到第三类的距离是27.500,第一类到第四类的距离是29.095,第二类到第三类的距离是32.896,第二类到第四类的距离是28.321,第三类到第四类的距离是41.783。
实验题目2:分层聚类分析
为了研究世界各国森林、草原资源的分布规律,共抽取了21个国家的数据,每个国家4项指标,原始数据见表1。试用该数据对国别进行聚类分析。
国别
森林面积
(万公顷)
森林覆盖率(%)
林木蓄积量
(亿立方米)
草原面积
(万公顷)
中国
11978.00
12.50
93.50
31908.00
美国
28446.00
30.40
202.00
23754.00
日本
2501.00
67.20
24.80
58.00
德国
1028.00
28.40
14.00
599.00
英国
210.00
8.60
1.50
1147.00
法国
1458.00
26.70
16.00
1288.00
意大利
635.00
21.10
3.60
514.00
加拿大
32613.00
32.70
192.80
2385.00
澳大利亚
10700.00
13.90
10.50
45190.00
前苏联
92000.00
41.10
841.50
37370.00
捷克
458.00
35.80
8.90
168.00
波兰
868.00
27.80
11.40
405.00
匈牙利
161.00
17.40
2.50
129.00
南斯拉夫
929.00
36.30
11.40
640.00
罗马尼亚
634.00
26.70
11.30
447.00
保加利亚
385.00
34.70
2.50
200.00
印度
6748.00
20.50
29.00
1200.00
印度尼西
2180.00
84.00
33.70
1200.00
尼日利亚
1490.00
16.10
.80
2090.00
墨西哥
4850.00
24.60
32.60
7450.00
巴西
57500.00
67.60
238.00
15900.00
实验分析:
由于是对个案聚类,采用R型聚类。在数据编辑器中打开该数据文件,运行结果如下:
表1:样本总体统计结果:
Case Processing Summary(a,b)
Cases
Valid
Missing
Total
N
Percent
N
Percent
N
Percent
21
100.0
0
.0
21
100.0
a Squared Euclidean Distance used
b Average Linkage (Between Groups)
表2:聚结表
Agglomeration Schedule
Stage
Cluster Combined
Coefficients
Stage Cluster First Appears
Next Stage
Cluster 1
Cluster 2
Cluster 1
Cluster 2
1
7
15
4580.650
0
0
6
2
11
16
6395.170
0
0
5
3
4
14
11551.170
0
0
4
4
4
12
61130.685
3
0
6
5
11
13
72812.905
2
0
7
6
4
7
114992.105
4
1
7
7
4
11
410706.019
6
5
9
8
6
18
532624.580
0
0
10
9
4
5
871022.475
7
0
11
10
6
19
959232.110
8
0
11
11
4
6
2810959.030
9
10
12
12
3
4
3764010.613
0
11
13
13
3
17
34176880.902
12
0
14
14
3
20
60118208.169
13
0
18
15
1
9
178051698.960
0
0
18
16
2
8
473998139.930
0
0
17
17
2
21
853922083.445
16
0
19
18
1
3
1542260836.373
15
14
19
19
1
2
1829449692.582
18
17
20
20
1
10
8299084550.993
19
0
0
表3:冰柱图(省去)
图4:树状图
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
意大利 7 òø
罗马尼亚 15 òú
德国 4 òú
南斯拉夫 14 òú
波兰 12 òú
捷克 11 òú
保加利亚 16 òú
匈牙利 13 òú
英国 5 òú
法国 6 òú
印度尼西 18 òú
尼日利亚 19 òú
日本 3 òôòòòòòòòø
印度 17 òú ùòø
墨西哥 20 ò÷ ó ó
中国 1 òûòòòòòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø
澳大利亚 9 ò÷ ó ó
美国 2 òòòûòø ó ó
加拿大 8 òòò÷ ùòòòòò÷ ó
巴西 21 òòòòò÷ ó
前苏联 10 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
试验五、因子分析
试验目的:通过上机试验,使学生掌握因子分析的基本原理,熟悉因子分析操作过程,能对软件输出结果进行分析。
实验题目:选择10名游泳选手作为受试者,观察他们的气力、耐力、速度和协调4方面,所得测验成绩如表5所示。试分析这4项体能的共同因素。
表5
1(气力)
2(耐力)
3(速度)
4(协调)
1
2
3
4
5
6
7
8
9
10
11
9
9
8
6
2
5
12
15
1
9
8
11
13
5
6
7
11
12
6
7
11
5
15
6
9
4
4
11
4
4
13
4
14
11
9
8
5
13
6
答:对于10名游泳选手的因素:“气力”,“耐力”,“速度”,“协调”,经过转轴后,可看出气力和耐力为一类,将其命名为“体能因子”,速度和协调为一类,将其命名为“致胜因子”,所以经过分析可以分为以上两个因子。
练习题:
已知某地19-22岁年龄组城市男学生身体形态指针包括身高(x1,cm),坐高(x2,cm),体重(x3,kg),胸围(x4,cm),肩宽(x5,cm)与骨盆宽(x6,cm)的数据如表16.8所示。
表16.8
D-f
X1
X2
X3
X4
X5
X6
1
173.28
93.62
60.10
86.72
38.97
27.51
2
172.09
92.83
60.38
87.39
38.62
27.82
3
171.46
92.73
59.74
85.59
38.83
27.46
4
170.08
92.25
58.04
85.92
38.33
27.29
5
170.61
92.36
59.67
87.46
38.38
27.14
6
171.69
92.85
59.44
87.45
38.19
27.10
7
171.46
92.93
58.70
87.06
38.58
27.36
8
171.60
93.28
59.75
88.03
38.68
27.22
9
171.60
92.26
60.50
87.63
38.79
26.63
10
171.16
92.62
58.72
87.11
38.19
27.18
11
170.04
92.17
56.95
88.08
38.24
27.65
12
170.27
91.94
56.00
84.52
37.16
26.81
13
170.61
92.50
57.34
85.61
38.52
27.36
14
171.39
92.44
58.92
85.37
38.83
26.47
15
171.83
92.79
56.85
85.35
38.58
27.03
对这6项体验指针的作因素分析。
试验六、判别分析
试验目的:通过上机试验,使学生掌握判别分析的基本原理,熟悉判别分析操作过程,能对软件输出结果进行分析。
实验题目:从心电图的5个不同指针中对健康人(c=1)、硬化症患者冠心病患者的数据如下表,试作判别分析。
实验分析:
Tests of Equality of Group Means
Wilks' Lambda
F
df1
df2
Sig.
X1
.853
1.729
2
20
.203
X2
.598
6.713
2
20
.006
X3
.773
2.939
2
20
.076
X4
.754
3.266
2
20
.059
X5
.701
4.272
2
20
.029
Eigenvalues
Function
Eigenvalue
% of Variance
Cumulative %
Canonical Correlation
1
1.229(a)
71.4
71.4
.743
2
.493(a)
28.6
100.0
.575
a First 2 canonical discriminant functions were used in the analysis.
Standardized Canonical Discriminant Function Coefficients
Function
1
2
X1
.655
.241
X2
-1.477
1.000
X3
-.196
-.449
X4
.979
.138
X5
1.321
-.850
Canonical Discriminant Function Coefficients
Function
1
2
X1
.300
.110
X2
-.024
.016
X3
-.060
-.137
X4
2.303
.326
X5
.709
-.456
(Constant)
-12.611
-1.068
Unstandardized coefficients
主要结果分析:
(1)输出各组变量的统计量(Group Statistics),总变量的均数(Mean),标准差(std. deviation)等。
(2)Wilks’Lambda检验:
x1(p>0.05) x2(p<0.05) x3(p>0.05) x4(p>0.05) x5(p<0.05)
(3)典型判别函数摘要(summary of canonical discriminant function coefficients)
典型判别函数 特征值 方差百分比 累计百分比
(function) (eigenvalue) (% of variance) (cumulative %)
1 1.229 71.4 71.4
2 0.493 28.6 100.0
(4)标准化典型判别函数(standardized canonical discriminant function coefficients).
ZFunc1=0.655x1-1.477x2-0.196x3+0.979x4+1.321x5
ZFunc2=0.241x1+1.000x2-0.449x3+0.138x4-0.850x5
(5)典型判别函数(canonical discriminant function)。
Func1=-12.611+0.300x1-0.024x2-0.060x3+2.303x4+0.709x5
Func2=-1.068+0.110x1+0.016x2-0.137x3+0.326x4-0.456x5
(6)各类先验概率(prior probabilities for groups)。
1-健康人:0.478
2-硬化症患者:0.304
3-冠心病患者:0.217
(7)各类判别函数(classification function coefficients),即费雪尔线性判别函数(fisher’s linear discriminant functions),又称分类函数。
Cfunc1=-385.845+8.027x1-0.463x2+0.082x3+107.502x4+30.071x5(健康人)
Cfunc2=-360.048+7.468x1-0.400x2+0.112x3+102.841x4+28.244x5(硬化症患者)
Cfunc3=-359.993+7.306x1-0.433x2+0.356x3+102.553x4+29.178x5(冠心病患者)
判别函数用于将观测值分类,即将新例观测值代入三个判别函数中,哪一个判别函数值最大,就判为哪一类。
试验七、多元方差分析
试验目的:通过上机试验,使学生掌握方差分析的基本原理,熟悉方差分析操作过程,能对软件输出结果进行分析。
实验题目1:已知3组贫血病患者,其血红蛋白浓度(x1,%)及红细胞计数(x2,万/mm3)的数据如下表,试作单因素多元方差分析。
A组
B组
C组
X1
X2
X1
X2
X1
X2
3.9
4.2
3.7
4.0
4.4
5.2
2.7
2.4
3.6
5.5
2.9
3.3
210
190
240
170
220
230
160
260
240
180
200
300
4.8
4.7
5.4
4.5
4.6
4.4
5.9
5.5
4.3
5.1
270
180
230
245
270
220
290
220
290
290
4.4
3.7
2.9
4.5
3.3
4.5
3.8
3.7
250
305
240
330
230
195
275
310
实验分析:通过spss11.5分析得到以下结果:
Descriptives
N
Mean
Std. Deviation
Std. Error
95% Confidence Interval for Mean
Minimum
Maximum
Lower Bound
Upper Bound
X1
1
12
3.817
.9389
.2710
3.220
4.413
2.4
5.5
2
10
4.920
.5329
.1685
4.539
5.301
4.3
5.9
3
8
3.850
.5855
.2070
3.360
4.340
2.9
4.5
Total
30
4.193
.8824
.1611
3.864
4.523
2.4
5.9
X2
1
12
216.667
40.3019
11.6342
191.060
242.273
160.0
300.0
2
10
250.500
37.5980
11.8895
223.604
277.396
180.0
290.0
3
8
266.875
46.1316
16.3100
228.308
305.442
195.0
330.0
Total
30
241.333
45.0466
8.2243
224.513
258.154
160.0
330.0
Test of Homogeneity of Variances
Levene Statistic
df1
df2
Sig.
X1
1.418
2
27
.260
X2
.284
2
27
.755
ANOVA
Sum of Squares
df
Mean Square
F
Sig.
X1
Between Groups
7.926
2
3.963
7.302
.003
Within Groups
14.653
27
.543
Total
22.579
29
X2
Between Groups
13360.63
2
6680.313
3.965
.031
Within Groups
45486.04
27
1684.668
Total
58846.67
29
Multivariate Test Results
Value
F
Hypothesis df
Error df
Sig.
Pillai`s trace
Wilks lambda
Hotelling`s trace
Roy`slargest root
.566
.503
.853
.642
5.323
5.335
5.333
8.662
4.000
4.000
4.000
2.000
54.000
52.000
50.000
27.000
.001
.001
.001
.001
Multiple Comparisons
LSD
Mean Difference (I-J)
Std. Error
Sig.
95% Confidence Interval
Dependent Variable
(I) GROUP
(J) GROUP
Lower Bound
Upper Bound
X1
1
2
-1.103
.3154
.002
-1.751
-.456
3
-.033
.3362
.922
-.723
.657
2
1
1.103
.3154
.002
.456
1.751
3
1.070
.3494
.005
.353
1.787
3
1
.033
.3362
.922
-.657
.723
2
-1.070
.3494
.005
-1.787
-.353
X2
1
2
-33.833
17.5743
.065
-69.893
2.226
3
-50.208
18.7343
.012
-88.648
-11.769
2
1
33.833
17.5743
.065
-2.226
69.893
3
-16.375
19.4692
.408
-56.323
23.573
3
1
50.208
18.7343
.012
11.769
88.648
2
16.375
19.4692
.408
-23.573
56.323
* The mean difference is significant at the .05 level.
主要结果分析
(1)描述性统计量(Descriptive Statistics)
平均数(Mean)
标准差(Std. Deviation)
血红蛋白浓度(x1,%)
A组
3.817
.9389
B组
4.920
.53
展开阅读全文