《统计信息应用软件》上机试验指导书(SPSS).doc

资源描述

《统计信息应用软件上机实验指导书》（编写人李灿）湖南商学院信息系 2005-4-10 编写说明为了方便教师教学，提高学生运用统计信息应用软件的能力，以更好的适应信息社会对现代化定量分析人才的需求，为社会培养现代化的高级专门人才，以及更好地配合统计信息应用软件课程的案例教学改革，我在教学的过程中精心编写了此本《统计信息应用软件》上机试验指导书（SPSS12.0统计软件）。在编写的过程中得到了信息系领导龚曙明教授、欧阳资生博士以及统计学教研室各位老师的支持，在此我表示感谢。由于时间仓促，本人水平有限，错误之处敬请各位专家学者指正，本人邮箱：xlican@。李灿 2004．3 目录试验一、数据统计处理………………………………3 试验二、单变量频率分配分析………………………4 试验三、T-TEST过程……………………………….6 试验四、聚类分析……………………………………9 试验五、因子分析………………………………….14 试验六、判别分析……………………………………17. 试验七、多元方差分析………………………………21 试验一、数据统计处理试验目的：通过上机试验，使学生掌握数据统计处理基本原理，熟悉数据文件的处理，具体包括数据的输入、数据变量的定义、数据资料的统计处理等软件操作过程，能对软件输出结果进行分析。实验题目：某班进行其中考试成绩分析，首先输入全班36人的学号、性别、数学、无力、化学、外语和语文成绩，如表1所示：存为aa.sys文件，现按以下要求操作。表1 某班期终考试成绩学号性别数学物理化学外语语文学号性别数学物理化学外语语文 0301 女 88 93 65 72 86 0319 女 56 64 66 75 74 0302 女 87 93 68 78 91 0320 女 598 71 70 74 78 0303 女 82 98 71 81 86 0321 男 68 74 76 78 75 0304 男 70 83 缺考 90 92 0322 女 71 68 71 70 82 0305 男 80 88 79 88 85 0323 女 74 56 64 68 84 0306 男 78 90 78 82 88 0324 男 76 84 82 92 94 0307 女 70 80 72 76 90 0325 男 91 88 88 94 90 0308 男 71 78 83 78 94 0326 女 87 91 90 88 90 0309 男 74 74 76 78 86 0327 男 93 95 94 96 88 0310 男 77 78 81 缺考 76 0328 男 84 86 86 88 92 0311 男 66 86 85 83 85 0329 女 90 92 90 91 89 0312 女 73 70 74 75 91 0330 男 61 68 70 74 82 0313 男 68 82 72 76 76 0331 男 76 75 81 56 62 0314 女 81 89 91 88 91 0332 女 81 68 78 88 81 0315 女 55 84 86 91 84 0333 男 67 71 90 68 72 0316 女 64 75 74 78 89 0334 女 78 76 81 91 79 0317 男 61 66 68 70 80 0335 男 85 81 72 89 69 0318 女缺考 54 58 68 72 0336 女 88 91 72 76 92 （1）定义缺失值。（2）计算个人平均成绩，按平均分从大到小进行排序，挑选出学习成绩最好、最差的3个同学。（3）求这5门课的平均成分和标准差。（4）将各门成绩按5级分类（优、良、中、及格和不及格）贴标签，求其频数分布，查看哪一分数段人最多。（5）将数学和物理成绩做一散点分布图。（6）将数据文件、输出结果和图形分别存盘保存。试验二、单变量频率分配分析试验目的：通过上机试验，使学生掌握频率分配分析基本原理，熟悉频率分配分析软件操作过程，能对软件输出结果进行分析。实验题目：某单位对100名健康女大学生测定了血清蛋白含量（serum，克/升）如下表所示。试做单变量频率分配分析并作直方图。 74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5 79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0 75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0 73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5 75.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.0 74.0 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.3 73.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.7 37.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.7 75.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.3 73.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4 实验分析：频率分配表 Frequency Percent Valid Percent Cumulative Percent Valid 65以下 3 3.0 3.0 3.0 65-70 13 13.0 13.0 16.0 70-75 46 46.0 46.0 62.0 75-80 31 31.0 31.0 93.0 80以上 7 7.0 7.0 100.0 Total 100 100.0 100.0 从以上频数分布表中可以知道，100名健康女大学生血清蛋白含量在65克/升的占3%，65-70克/升的占13%，70-75克/升的占46%，75-80克/升的占31%，80克/升以上的占7%。 1、 65克/升以下 2、 65-70克/升 3、 70-75克/升 4、 75-80克/升 5、 80克/升以上从以上直方图可以看出100名健康女大学生血清蛋白含量基本上与正态曲线一致，这说明，健康女大学生血清蛋白含量基本合理。试验三、T-TEST过程试验目的：通过上机试验，使学生掌握T-TEST过程基本原理，熟悉T-TEST过程分析软件操作过程，能对软件输出结果进行分析。实验题目： 10个病号每人都做了3种不同的减肥治疗。下面的数据和命令用来表示体重减轻的变化情况（单位：公斤/月）。 ID（个案号） T1（治疗1） T2（治疗2） T3（治疗3） 01 1.35 1.27 1.33 02 1.28 1.31 1.26 03 1.40 2.05 2.01 04 1.28 1.37 1.32 05 1.36 1.27 1.35 06 .99 1.32 1.48 07 1.65 1.58 1.73 08 1.01 1.08 1.21 09 1.15 1.18 1.66 10 1.33 1.34 1.32 1、请用SPSS的T-TEST过程，检验治疗1于治疗3，治疗2于治疗3之间体重变化的“均值相等的原假设”。 2、创建一个新变量T，它等于治疗1于治疗3体重减轻之差，并使用Frequencies过程。试比较1题与2题的结果。计算变量T的均值、标准偏差和标准误差。实验分析：1、由于三种减肥治疗效果具有相关性，因此采用配对样本T检验。Analyze菜单中选择compare means，进而选择paired-samples T test 。分别将T1与T3同时选入paired variables栏，然后将T2与T3同时选入，确定。得结果： T-Test 表1 表2 表3 由表1可见，各类治疗方法减轻体重的平均数，标准差和标准误差。可见治疗1的减肥效果比较稳定，治疗3次之，治疗2效果因个人身体状况不同差异较大。由表2可见，治疗1与治疗3的相关性不明显（Sig值＝0.257>0.05，未通过显著性检验），而治疗2与治疗3的效果比较相似，呈现较强的相关性（Sig值＝0.004<0.05，通过显著性检验）。由表3可见，治疗1与治疗3的效果之间存在明显的差别，它通过了T检验（Sig值＝0.044<0.05，通过显著性检验），而治疗2与治疗3的效果比较相似，没有显著差别（Sig值＝0.110>0.05，未通过显著性检验），可见与表2得出的结论一致。 2、通过 transform中的compute菜单可计算得到新变量T，通过frequencies程序结果如下：由上表可见新变量T的平均值为-0.187，标准误差为0.07969，标准差为0.25202。与第一题的结果比较可见，T的均值、标准误差和标准差与第一题中的治疗1与治疗3配对T检验的结果一致，可见配对样本T检验的原假设是将两样本之差与0比较，H0:X1-X2=0, H1:X1-X2≠0，其中t= 。练习题： 1、用大白鼠配成八对，每对分别喂以正常饲料和缺乏维生素E饲料，过一段时间，测得两组大白鼠肝中维生素A的含量如下：大白鼠对号正常饲料组缺乏维生素E饲料组 1 2 3 4 5 6 7 8 3550 2000 3000 3950 3800 3750 3450 3050 2450 2400 1800 3200 3250 2700 2500 1750 试比较两组维生素A含量有无差别？ 2、用某药物治疗不同病情的老年慢性支气管炎病人，疗效如下表。某药疗效数据：疗效单纯性单纯性合并肺气肿控制 65 42 显效 18 6 有效 30 23 无效 13 11 试比较两种病情的疗效？试验四、聚类分析试验目的：通过上机试验，使学生掌握聚类分析的基本原理，熟悉快速聚类分析与分层聚类分析操作过程，能对软件输出结果进行分析。实验题目1：快速聚类分析某集团公司为研究下属不同企业的经营特点，调查了20个企业的盈利能力、领导才干、组织文化和员工发展等4项指标（变量），将这20个企业按照各自的特点分成4种类型。数据表：实验分析：（1）第一类的企业有F、G和Q，盈利能力比较强，其他方面相对较弱；第二类的企业有B、D、E、H、J、O、R、S和T，各方面的能力比较平衡，综合能力强；第三类的企业有A、C、I、K、L和P，组织文化和员工发展比较突出；第四类的企业有M和N，盈利能力和领导才干比较强。（2）每一例的各案数（Numbers of case in each cluster）,可见3例在第一类中，9例在第二类中，6例在第三类中，2例在第四类中。（3）最终聚类中心间的距离（distances between final cluster centers）,即4种聚类中心两两间的欧氏距离。第一类到第二类的距离是37.663，第一类到第三类的距离是27.500，第一类到第四类的距离是29.095，第二类到第三类的距离是32.896，第二类到第四类的距离是28.321，第三类到第四类的距离是41.783。实验题目2：分层聚类分析为了研究世界各国森林、草原资源的分布规律，共抽取了21个国家的数据，每个国家4项指标，原始数据见表1。试用该数据对国别进行聚类分析。国别森林面积（万公顷）森林覆盖率（%）林木蓄积量（亿立方米）草原面积（万公顷）中国 11978.00 12.50 93.50 31908.00 美国 28446.00 30.40 202.00 23754.00 日本 2501.00 67.20 24.80 58.00 德国 1028.00 28.40 14.00 599.00 英国 210.00 8.60 1.50 1147.00 法国 1458.00 26.70 16.00 1288.00 意大利 635.00 21.10 3.60 514.00 加拿大 32613.00 32.70 192.80 2385.00 澳大利亚 10700.00 13.90 10.50 45190.00 前苏联 92000.00 41.10 841.50 37370.00 捷克 458.00 35.80 8.90 168.00 波兰 868.00 27.80 11.40 405.00 匈牙利 161.00 17.40 2.50 129.00 南斯拉夫 929.00 36.30 11.40 640.00 罗马尼亚 634.00 26.70 11.30 447.00 保加利亚 385.00 34.70 2.50 200.00 印度 6748.00 20.50 29.00 1200.00 印度尼西 2180.00 84.00 33.70 1200.00 尼日利亚 1490.00 16.10 .80 2090.00 墨西哥 4850.00 24.60 32.60 7450.00 巴西 57500.00 67.60 238.00 15900.00 实验分析：由于是对个案聚类，采用R型聚类。在数据编辑器中打开该数据文件，运行结果如下：表1：样本总体统计结果： Case Processing Summary(a,b) Cases Valid Missing Total N Percent N Percent N Percent 21 100.0 0 .0 21 100.0 a Squared Euclidean Distance used b Average Linkage (Between Groups) 表2：聚结表 Agglomeration Schedule Stage Cluster Combined Coefficients Stage Cluster First Appears Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2 1 7 15 4580.650 0 0 6 2 11 16 6395.170 0 0 5 3 4 14 11551.170 0 0 4 4 4 12 61130.685 3 0 6 5 11 13 72812.905 2 0 7 6 4 7 114992.105 4 1 7 7 4 11 410706.019 6 5 9 8 6 18 532624.580 0 0 10 9 4 5 871022.475 7 0 11 10 6 19 959232.110 8 0 11 11 4 6 2810959.030 9 10 12 12 3 4 3764010.613 0 11 13 13 3 17 34176880.902 12 0 14 14 3 20 60118208.169 13 0 18 15 1 9 178051698.960 0 0 18 16 2 8 473998139.930 0 0 17 17 2 21 853922083.445 16 0 19 18 1 3 1542260836.373 15 14 19 19 1 2 1829449692.582 18 17 20 20 1 10 8299084550.993 19 0 0 表3：冰柱图（省去）图4：树状图 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 意大利 7 òø 罗马尼亚 15 òú 德国 4 òú 南斯拉夫 14 òú 波兰 12 òú 捷克 11 òú 保加利亚 16 òú 匈牙利 13 òú 英国 5 òú 法国 6 òú 印度尼西 18 òú 尼日利亚 19 òú 日本 3 òôòòòòòòòø 印度 17 òú ùòø 墨西哥 20 ò÷ ó ó 中国 1 òûòòòòòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø 澳大利亚 9 ò÷ ó ó 美国 2 òòòûòø ó ó 加拿大 8 òòò÷ ùòòòòò÷ ó 巴西 21 òòòòò÷ ó 前苏联 10 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ 试验五、因子分析试验目的：通过上机试验，使学生掌握因子分析的基本原理，熟悉因子分析操作过程，能对软件输出结果进行分析。实验题目：选择10名游泳选手作为受试者，观察他们的气力、耐力、速度和协调4方面，所得测验成绩如表5所示。试分析这4项体能的共同因素。表5 1（气力） 2（耐力） 3（速度） 4（协调） 1 2 3 4 5 6 7 8 9 10 11 9 9 8 6 2 5 12 15 1 9 8 11 13 5 6 7 11 12 6 7 11 5 15 6 9 4 4 11 4 4 13 4 14 11 9 8 5 13 6 答：对于10名游泳选手的因素：“气力”，“耐力”，“速度”，“协调”，经过转轴后，可看出气力和耐力为一类，将其命名为“体能因子”，速度和协调为一类，将其命名为“致胜因子”，所以经过分析可以分为以上两个因子。练习题：已知某地19－22岁年龄组城市男学生身体形态指针包括身高（x1,cm），坐高（x2,cm），体重（x3,kg），胸围（x4,cm），肩宽（x5,cm）与骨盆宽（x6,cm）的数据如表16.8所示。表16.8 D-f X1 X2 X3 X4 X5 X6 1 173.28 93.62 60.10 86.72 38.97 27.51 2 172.09 92.83 60.38 87.39 38.62 27.82 3 171.46 92.73 59.74 85.59 38.83 27.46 4 170.08 92.25 58.04 85.92 38.33 27.29 5 170.61 92.36 59.67 87.46 38.38 27.14 6 171.69 92.85 59.44 87.45 38.19 27.10 7 171.46 92.93 58.70 87.06 38.58 27.36 8 171.60 93.28 59.75 88.03 38.68 27.22 9 171.60 92.26 60.50 87.63 38.79 26.63 10 171.16 92.62 58.72 87.11 38.19 27.18 11 170.04 92.17 56.95 88.08 38.24 27.65 12 170.27 91.94 56.00 84.52 37.16 26.81 13 170.61 92.50 57.34 85.61 38.52 27.36 14 171.39 92.44 58.92 85.37 38.83 26.47 15 171.83 92.79 56.85 85.35 38.58 27.03 对这6项体验指针的作因素分析。试验六、判别分析试验目的：通过上机试验，使学生掌握判别分析的基本原理，熟悉判别分析操作过程，能对软件输出结果进行分析。实验题目：从心电图的5个不同指针中对健康人(c=1)、硬化症患者冠心病患者的数据如下表，试作判别分析。实验分析： Tests of Equality of Group Means Wilks' Lambda F df1 df2 Sig. X1 .853 1.729 2 20 .203 X2 .598 6.713 2 20 .006 X3 .773 2.939 2 20 .076 X4 .754 3.266 2 20 .059 X5 .701 4.272 2 20 .029 Eigenvalues Function Eigenvalue % of Variance Cumulative % Canonical Correlation 1 1.229(a) 71.4 71.4 .743 2 .493(a) 28.6 100.0 .575 a First 2 canonical discriminant functions were used in the analysis. Standardized Canonical Discriminant Function Coefficients Function 1 2 X1 .655 .241 X2 -1.477 1.000 X3 -.196 -.449 X4 .979 .138 X5 1.321 -.850 Canonical Discriminant Function Coefficients Function 1 2 X1 .300 .110 X2 -.024 .016 X3 -.060 -.137 X4 2.303 .326 X5 .709 -.456 (Constant) -12.611 -1.068 Unstandardized coefficients 主要结果分析：（1）输出各组变量的统计量（Group Statistics），总变量的均数（Mean），标准差（std. deviation）等。（2）Wilks’Lambda检验： x1(p>0.05) x2(p<0.05) x3(p>0.05) x4(p>0.05) x5(p<0.05) （3）典型判别函数摘要（summary of canonical discriminant function coefficients）典型判别函数特征值方差百分比累计百分比（function）（eigenvalue）（% of variance）（cumulative %） 1 1.229 71.4 71.4 2 0.493 28.6 100.0 （4）标准化典型判别函数（standardized canonical discriminant function coefficients）. ZFunc1=0.655x1-1.477x2-0.196x3+0.979x4+1.321x5 ZFunc2=0.241x1+1.000x2-0.449x3+0.138x4-0.850x5 （5）典型判别函数(canonical discriminant function)。 Func1=-12.611+0.300x1-0.024x2-0.060x3+2.303x4+0.709x5 Func2=-1.068+0.110x1+0.016x2-0.137x3+0.326x4-0.456x5 （6）各类先验概率(prior probabilities for groups)。 1-健康人：0.478 2-硬化症患者：0.304 3-冠心病患者：0.217 （7）各类判别函数(classification function coefficients)，即费雪尔线性判别函数(fisher’s linear discriminant functions)，又称分类函数。 Cfunc1=-385.845+8.027x1-0.463x2+0.082x3+107.502x4+30.071x5(健康人) Cfunc2=-360.048+7.468x1-0.400x2+0.112x3+102.841x4+28.244x5(硬化症患者) Cfunc3=-359.993+7.306x1-0.433x2+0.356x3+102.553x4+29.178x5(冠心病患者) 判别函数用于将观测值分类，即将新例观测值代入三个判别函数中，哪一个判别函数值最大，就判为哪一类。试验七、多元方差分析试验目的：通过上机试验，使学生掌握方差分析的基本原理，熟悉方差分析操作过程，能对软件输出结果进行分析。实验题目1：已知3组贫血病患者，其血红蛋白浓度(x1,%)及红细胞计数(x2,万/mm3)的数据如下表，试作单因素多元方差分析。 A组 B组 C组 X1 X2 X1 X2 X1 X2 3.9 4.2 3.7 4.0 4.4 5.2 2.7 2.4 3.6 5.5 2.9 3.3 210 190 240 170 220 230 160 260 240 180 200 300 4.8 4.7 5.4 4.5 4.6 4.4 5.9 5.5 4.3 5.1 270 180 230 245 270 220 290 220 290 290 4.4 3.7 2.9 4.5 3.3 4.5 3.8 3.7 250 305 240 330 230 195 275 310 实验分析：通过spss11.5分析得到以下结果： Descriptives N Mean Std. Deviation Std. Error 95% Confidence Interval for Mean Minimum Maximum Lower Bound Upper Bound X1 1 12 3.817 .9389 .2710 3.220 4.413 2.4 5.5 2 10 4.920 .5329 .1685 4.539 5.301 4.3 5.9 3 8 3.850 .5855 .2070 3.360 4.340 2.9 4.5 Total 30 4.193 .8824 .1611 3.864 4.523 2.4 5.9 X2 1 12 216.667 40.3019 11.6342 191.060 242.273 160.0 300.0 2 10 250.500 37.5980 11.8895 223.604 277.396 180.0 290.0 3 8 266.875 46.1316 16.3100 228.308 305.442 195.0 330.0 Total 30 241.333 45.0466 8.2243 224.513 258.154 160.0 330.0 Test of Homogeneity of Variances Levene Statistic df1 df2 Sig. X1 1.418 2 27 .260 X2 .284 2 27 .755 ANOVA Sum of Squares df Mean Square F Sig. X1 Between Groups 7.926 2 3.963 7.302 .003 Within Groups 14.653 27 .543 Total 22.579 29 X2 Between Groups 13360.63 2 6680.313 3.965 .031 Within Groups 45486.04 27 1684.668 Total 58846.67 29 Multivariate Test Results Value F Hypothesis df Error df Sig. Pillai`s trace Wilks lambda Hotelling`s trace Roy`slargest root .566 .503 .853 .642 5.323 5.335 5.333 8.662 4.000 4.000 4.000 2.000 54.000 52.000 50.000 27.000 .001 .001 .001 .001 Multiple Comparisons LSD Mean Difference (I-J) Std. Error Sig. 95% Confidence Interval Dependent Variable (I) GROUP (J) GROUP Lower Bound Upper Bound X1 1 2 -1.103 .3154 .002 -1.751 -.456 3 -.033 .3362 .922 -.723 .657 2 1 1.103 .3154 .002 .456 1.751 3 1.070 .3494 .005 .353 1.787 3 1 .033 .3362 .922 -.657 .723 2 -1.070 .3494 .005 -1.787 -.353 X2 1 2 -33.833 17.5743 .065 -69.893 2.226 3 -50.208 18.7343 .012 -88.648 -11.769 2 1 33.833 17.5743 .065 -2.226 69.893 3 -16.375 19.4692 .408 -56.323 23.573 3 1 50.208 18.7343 .012 11.769 88.648 2 16.375 19.4692 .408 -23.573 56.323 * The mean difference is significant at the .05 level. 主要结果分析 (1)描述性统计量(Descriptive Statistics) 平均数（Mean）标准差（Std. Deviation）血红蛋白浓度(x1,%) A组 3.817 .9389 B组 4.920 .53

展开阅读全文