1、第六章 方差分析一 实验目的1 理解方差分析的概念、原理及作用;2 掌握用 SPSS 进行单因素、双因素及协方差分析的方法;3 结合参考资料了解方差分析的其它方法及作用。二 方差分析的原理方差分析的基本原理是认为不同处理组的均值间的差别基本来源有两个:(1)随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示,记作w SS ,组内自由度w df ;(2)实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值 与总均值之偏差的总平方和表示,记作b SS ,组间自由度b df 。三 实验过程1. 某农场为了比较4种不同品种的
2、小麦产量的差异,选择土壤条件基本相同的土地,分成16块,将每一个品种在4块试验田上试种,测得小表亩产量(kg)的数据如表6.17所示(数据文件为data6-4.sav),试问不同品种的小麦的平均产量在显著性水平0.05和0.01下有无显著性差异。(数据来源:SPSS实用统计分析 郝黎仁,中国水利水电出版社)表6.17 小麦产量的实测数据品种A1A2A3A4产量277.5244.2249.2273276.4249.5244.2240.9271236.8252.8257.4272.4239251.4266.5实验步骤:第1步 分析:由于有一个因素(小麦),而且是4种饲料。故不能用独立样本T 检验(
3、仅适用两组数据),这里可用单因素方差分析;第2步 数据的组织:分成两列,一列是试验田的产量(output),另一列是小麦品种(breed)(A、B、C、D);第3步 方差相等的齐性检验:由于方差分析的前提是各个水平下(这里是不同品种的小麦产量)的总体服从方差相等的正态分布。其中正态分布的要求并不是很严格,但对于方差相等的要求是比较严格的。因此必须对方差相等的前提进行检验。从SPSS的数据管理窗口中选择analyzecompare meansOne-Way ANOVA,将小麦产量(output)选入dependent list框中,将品种(breed)选入factor框中,点开Options,选
4、中Homogeneity of variance test(方差齐性检验),点开post hoc multiple comparisons,将significance level的值在两次实验时分别设置为0.01和0.05。如下图所示:实验结果及分析:在0.05的显著性水平下不同小麦的等齐性检验:方差齐性检验的H0假设是方差相等,从上表可看出Sig.=0.0460.05,说明应该接受H0假设。几种小麦的方差检验结果(如下):组间平方和为2263.482,自由度(df)为3,均方为754.494;组内平方和为744.715,自由度为12,均方为62.060,;F统计量为12.518。由于组间比较
5、的相伴概率Sig(P值)=0.0010.01,所以接受H0假设(四种小麦产量无显著性差异),组间比较的相伴概率Sig(P值)=0.0010.05,说明应该接受H0假设。组间平方和为77.500,自由度(df)为3,均方为25.833;组内平方和为216.333,自由度为20,均方为10.817;2.388。由于组间比较的相伴概率Sig(P值)=0.990.05,故应接受H0假设(四种轮胎的寿命无显著性差异),说明四种轮胎的寿命无显著性差异。如果想进一步了解空间是哪种和其他组有显著性的均值差别(即哪种轮胎更好),就需要在多个样本均值间进行两两比较。单击 Post Hoc 按钮,打开击 Post
6、Hoc 按钮,打开One-Way ANOVA:Post Hoc MultipleComparisions 对话框,如图所示。在其中可以选择一种或几种比较分析的方法。输出结果为:从上面分析我们可以看出,B型轮胎相比于A、C、D、要好,D型轮胎的寿命最短。3. 某超市将同一种商品做3种不同的包装(A)并摆放在3个不同的货架区(B)进行销售试验,随机抽取3天的销售量作为样本,具体资料见表6.20。要求检验:在显著性水平0.05下商品包装、摆放位置及其搭配对销售情况是否有显著性影响。(数据来源:应用统计学 耿修林,科学出版社;数据文件:data6-7.sav)表6.20 销售样本资料B1B2B3A15
7、,6,46,8,74,3,5A27,8,85,5,63,6,4A33,2,46,6,58,9,6实验步骤:第1 步 分析:需要研究不同教学方法和不同性别对数学成绩的影响。这是一个多因素(双因素)方差分析问题。第2 步 按Analyze|General Linear Model|Univariate 的步骤打开Univariate 对话框。并将“销量”变量移入Dependent Variable 框中,将“包装”和“摆放位置”移入Fixed Factor(s)中,如图:第3 步 单击Options,由于方差分析的前提上方差相等,故应进行方差齐性检验,选中“Homogeneity tests”;第
8、4 步。打开Univariate:Post Hoc Multiple Comparisons for Observed Means对话框,在其中选出需要进行比较分析的对话框,这里选“组别”,再选择一种方差相等时的检验模型和不相等时的检验模型;第5 步 选择建立多因素方差分析的模型种类。打开Model 对话框,本例用默认的Full factorial模型。这种模型将观察变量总的变异平方和分解为多个控制变量对观察变量的独立部分、多个控制变量交互作用部分以及随机变量影响部分。第6 步 以图形方式展示交互效果。如果各因素间无交互效果,则各个水平对应的图形应近于平行,否则相交。点开Plots,选择两个变
9、量之交互作用,如图:第7 步 对控制变量各个水平上的观察变量的差异进行对比检验。选择Contrasts 对话框,对两种因素均进行对比分析,方法用Simple 方法,并以最后一个水平的观察变量均值为标准。(选择Contrasts 方式后需单击Change 进行确认)第8 步 运行结果及分析。实验结果及分析:分组描述:方差齐性检验结果:是对销量进行方差齐性检验的结果,可以看出方差无显著差异,应用前面的LSD 方法的结果 如下:多因素方差分析及交互检验:该表是进行多因素方差分析的主要部分,由于指定建立饱和模型,因此总的离差平方和分为3个部分:多个控制变量对观察量的独立作用、交互作用及随机变量的影响。
10、关于多个控制变量的独立作用部分。不同包装贡献离差平方和为0.963,均方0.481 不同摆放位置贡献离差平方和为3.185,均方为1.593,这说明摆放位置比包装影响大。从相伴概率来看,都小于0.05,说明两者均有影响。关于多个控制变量的交互作用部分,这里组别与性别的交互作用的离差平方和为61.259,均方为15.315,F 值与相伴概率为14.259 和0.000。表明它们的交互作用对观察结果造成了显著影响。Error 部分是随机变量影响部分。上图是包装变量的均值比较结果,可以看第1,2 组与第3 组比较的均值差异均显著。下图是摆放位置变量的均值比较结果,可以看第1,2 组与第3 组比较的均
11、值差异均显著。4. 研究杨树一年生长量与施用氮肥和钾肥的关系。为了研究这种关系,一共进行了18个样地的栽培实验,测定杨树苗的一年生长量、初始高度、全部实验条件(包括氮肥量和钾肥量)及实验结果(杨树苗的生长量)数据如表6.21,请在显著水平0.05下检验氮肥量、钾肥量及树苗初始高度中哪些对杨树的生长有显著性影响。(数据来源:生物数学模型的统计学基础李勇,科学出版社;数据文件:data6-8.sav)表6.21 杨树栽培试验数据序号氮肥量钾肥量树苗初高生长量序号氮肥量钾肥量树苗初高生长量1少04.51.8510多06.52.152少06211多061.993少041.612多06.52.064少1
12、2.56.5213多12.541.935少12.572.0414多12.562.16少12.551.9115多12.55.52.157少2572.416多2554.28少2554.2517多2562.39少2552.118多255.54.25实验步骤:第1 步 分析:入学成绩肯定会对最后成绩有所影响,这里着重分析不同教学方法的影响,就应该将生长量的影响去除。就应该用到协方差分析。第2 步 按以下步骤analyze|general linear model|univariate,将树苗初高为协变量,并按以下设置:第3 步 其它设置与多因素方差分析大同小异。实验结果及分析:可以看出氮肥量和初始高度
13、的影响是不显著的,而钾肥量的影响是显著的。第八章 相关分析一 实验目的1 理解相关分析的概念、原理及在统计中的作用;2 掌握用 SPSS 进行两个变量间的相关分析;3 掌握用 SPSS 进行偏相关分析;4 掌握用 SPSS 进行距离分析。二 相关分析的基本概念及原理1、基本概念人们在实践中发现,变量之间关系分为两种类型:函数关系和相关关系。函数关系是变量间的一咱确定性关系。但是,在实际问题中,变量间的关系往往并不是那么简单,也就是说,变量之间有着密切关系,但又不能由一个(或几个)变量的值确定另一个变量的值,这种变量之间的关系是不确定性关系,称为相关关系。其特点是:一个变量的取值不能由另一个变量
14、唯一确定,即当自变量x取某个值时,因变量y的值可能会有多个。这种关系不确定的变量显然不能用函数形式予以描述,但也不是杂乱无章、无规律可循的。2 基本数学原理为了准确度量两个变量之间关系的密切程度,用相关系数来度量。对两个变量之间线性相关程度的度量称为简单相关系数。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 ;若根据样本数据计算的,称为样本相关系数,记为r 。r0,正相关,表明自变量和因变量呈相同方向变化;r0,负相关;r的绝对值愈接近1,表示x,y愈接近线性相关。当|r|=1时,y的取值完全依赖于x,两者为函数关系,是完全的线性关系;r的绝对值愈接近0,表示x,y愈没有线性相关
15、关系。当 r=0,表示两个变量之间不存在线性相关系。当0r=0.8,视为高度相关;0.5=|r|0.8,视为中度相关;|r|0,双尾检验的相伴概率为0.0000,同时双尾检测的相伴概率值Sig.=0.0000,说明呈正相关,而相伴概率值Sig.=0.130.05,因此应接受零假设(H0:两个变量之间不具相关性),即说明百米名次不受跳高名称的显著性影响。6. 某公司太阳镜销售情况如表8.19所示,请分析销售量与平均价格、广告费用和日照时间之间的关系,并说明此题用偏相关分析是否有实际意义(显著性水平为0.05)。(数据来源:SPSS for Windows统计分析(第3版) 卢纹岱,电子工业出版社
16、;数据文件:data8-8.sav)表8.19 某公司销售太阳镜的数据月份123456789101112销量759014818324226327831825620014080价格6.86.563.532.92.62.13.13.64.24.2广告费用2567222528302218102日照时间2.444.26.888.410.411.59.66.13.42实验步骤:第1步 分析:这3个因素彼此均有影响,分析时应对销售量与另外三个因素分别求偏相关,在销售量与一个因素的相关时控制其他因素的影响,然后比较相关系数,按3个因素对太阳镜销售量的影响的大小排序。第2步 定义变量:月份、销量、价格、广告费
17、用、日照时间。第3步 按Analyze|Correlate|Partial顺序启动偏相关分析的主对话框,指定分析变量和控制变量,第一次分析变量为销量与价格的偏相关系数,其余为控制变量。在主对话框中使用系统默认的双尾检验,显示实际的显著性概率。实验结果及分析: 从上图可以看出,广告费用和价格为控制变量,日照时间和销量关系密切,相关系数为0.886,双尾检测的相伴概率为0.001,明显小于显著水平0.05.故应该拒绝零假设,说明太阳镜的销量与日照时间存在显著的相关性。同理可知,销量与广告费用关系密切,与价格不存在显著的相关性。如下图:7. 某动物产下3个幼仔,现分别对3个幼仔的长、体重、四肢总长、
18、头重进行测量,试就这几个测量数据而言,用距离分析法分析3个幼仔的相似性,数据如表8.20所示。(数据文件为:data8-9.sav)表8.20 三个幼仔的数据指标序号长体重四肢总长头重150215100112512201101235222011212实验步骤:第1步 分析:这是一个求个案间的相关性(相似性)问题。第2步 按Analyze|Correlate|Distances打开Distance对话框,并选Between Cases(个案之间)和Similarities(相似性),如图7-2所示,其它不作任何设置,运行。实验结果及分析:从Pearson相关系数可看出,3个幼仔极相似,特别是第2
19、个和第3个。第九章 回归分析一 实验目的1 理解回归分析的概念、原理及在统计中的作用;2 掌握用 SPSS 进行线性回归、曲线回归的方法;3 根据线性回归、曲线回归等方法探索其它回归方法。二 回归分析的原理自变量与因变量之间呈线性关系时,我们可以构造线性回归方程。根据参与线性回归的自变量个数的多少,可将线性回归分为一元线性回归和多元线性回归。1 一元线性回归(1) 基本数学原理1) 回归模型与参数的确定一元线性回归研究因变量与一个自变量之间的关系。其回归模型为:y = a + bx ,式中,y 为因变量,x 为自变量,a,b 为待定参数(其中b 称为回归系数)。通常采用最小二乘法来确定上面两个
20、待定参数,即要求观测值与利用上面回归模型得到的拟合值的平方和最小。差值平方和达到最小时的模型参数便作为待定参数的最终取值,代入模型,便可以确定回归方程。2)线性回归下的统计检验通过样本数据建立一个回归方程后,不能立即就用于对某个实际问题的预测。因为,应用最小二乘法求得的样本回归直线对总体回归直线的近似,这种近似是否合理,必须对其作各种统计检验。2 多元线性回归当因变量与两个或两个以上的因素有线性关系时,用多元线性回归进行研究。多元线性回归与一元线性回归一样,进行多元线性回归还是需要进行回归系数的检验,需要估计回归系数的置信区间,需要进行 预测与假设检验等方面的讨论。所不同的是,由于多元回归涉及
21、到多个自变量,进行回归时就要考虑各个自变量之间的关系,如它们是否存在共线性的问题。另外,还有异常值和强影响点等问题。多元回归的方法有:Remove(强迫剔除法)、Backward(后向水去法)、Forward(前向逐步法)。三 实验过程3. 合金钢的强度y与钢材中碳的含量x有密切的关系,为了冶炼出符合要求强度的钢,常常通过控制钢水中的碳含量来达到目的,因此需要了解y与x之间的关系,数据如表9.27所示,现对x和y进行一元线性回归分析。(数据文件为:data9-5.sav)表9.27 碳含量与钢强度数据碳含量0.030.040.050.070.090.10.120.150.170.2钢强度40.
22、539.54141.543424547.55356实验步骤:第1 步 按Analyze|Regression|Linear Regression 的顺序打开Linear Regression 对话框,打开Statistics 对话框,选择Confidence interval 和Estimates 运行,如下图:实验结果及分析:引入或剔除变量表输出的是被引入或从回归方程中被剔除的变量,这里选用是的Enter 方法,表示全部进入。模型综述表从这部分结果看出相关系数R=0.95,判定系数R2=0.903。说明样本回归方程的代表性强。方差分析表方差分析表是对回归方程进行显著性检验的情况。从结果看,相
23、伴概率Sig.0.05,说明自变量x 与因变量y 之间确有线性关系。回归系数表从两系数的相伴概率来看均0.05,说明均具有显著性意义,说明回归系数是显著的,则回归方程为: y = 35.451+ 92.641x4. 某公司太阳镜销售情况如表8.17,销售量与平均价格、广告费用和日照时间之间的关系作多元线性回归分析。(数据文件:data8-8.sav)表8.19 某公司销售太阳镜的数据月份123456789101112销量759014818324226327831825620014080价格6.86.563.532.92.62.13.13.64.24.2广告费用25672225283022181
24、02日照时间2.444.26.888.410.411.59.66.13.42实验步骤:第1 步 分析:显然是采用多重线性回归分析方法;第2 步 建立数据文件,变量名为月份、销量、价格、广告费用、日照时间;第3 步 按Analyze|Regression|linear的顺序打开Linear Regression 主对话框, 并将销量设为因变量,其余变量设为自变量。将“月份”变量设置为case label。如下图:第4 步 单击Statistics 按钮,打开Linear Regression:Statistics 对话框,并选择Estimates、model fit、descriptives和D
25、urbin-Watson。如下:第5 步 打开Linear Regression:Plots 框,作如下设置:第6 步 打开Linear Regression:save 框,在save对话框里选择保存未标准预测值、标准预测值、未标准预测值残差、标准预测值残差。第7 步 在options对话框里按默认设置。实验结果及分析:相关系数矩阵表:从表中可以看出自变量的相关系数分别为-0.922、0.964、0.973,单尾检验的显著性概率也很小,说明三个自变量与因变量的关系均较密切。引入或剔除变量表:模型概述表:由上图数据可知,销量与另外三个变量有很强的线性关系。方差分析表:回归系数表:残差统计表:图形
26、:5 研究青春发育阶段的年龄与远视率的变化关系,测得数据如表9.28所示,请对x与y的关系进行曲线估计。(数据来源:统计学(第二版) 袁卫,高等教育出版社;数据文件:data9-6.sav)表9.28 青春发育阶段年龄与远视率的变化关系年龄(x)6789101112131415161718远视率(y)63.6461.0638.8413.7514.58.074.414.272.091.022.513.122.98实验步骤:第1 步 分析:先用散点图的形式进行分析,看究竟是否具有线性相关性;按Graph|Legacy Dialogs|Scatter/Dot顺序打开Scatterplot 对话框,并
27、选择Simple Scatter,点击Define,并作如下图设置:实验结果及分析1:从上面的图形看出,远视率y 随着年龄x 的提高而逐渐降低,而且年龄达到一定水平后,远视率的减幅变小得不明显。因此用线性回归模型表示x,y 的关系是不恰当的。我们也不知道哪种拟合效果更好,于是就应先找拟合效果好的模型。实验步骤:第2 步 现在进行曲线估计。Analyze|Regression|Curve Estimation,将里面的模型全选上,看哪种模型拟合效果更好,如下图。实验结果及分析2:从拟合优度(Rsq 即R2)来看,quadratic和cubic效果较好(因为其Rsq 值较大),于是就选quadra
28、tic和cubic来进行。重新进行上面的过程,只选以上两种模型。实验步骤:第3 步重新进行上面的过程,只选以上两种模型。实验结果及分析:以Quadrtic为例,其方程为:y=192.085-26.567X1+0.908X2拟合结果图:实验心得与体会在这一周的时间里,开始的时候由于初次接触这个软件,觉得学习SPSS是很有乐趣的事,对它充满了热诚。可是后来面对全是英文的软件,一整天下来对着那些繁锁的数据都不懂怎样分析,在不断地把书上的英文翻译和书上的例题看了很多次之后,感觉对SPSS16.0有了一点入门的理解,再后来经过两三次课的不断摸索,对SPSS便不再感觉那么陌生,按照实验指导书上的提示,可以较轻松地完成实验内容。在上完实验课写实验报告的过程中,我又重新地把每个题目做了一次,发现这软件虽然是英文版的,但是只要我们多练习,多去理解每个英文选项的含义,我们在做数据分析的时候就不会有那么多的苦恼。在SPSS学习中,对它的认识由浅入深,循序渐进,实践中遇到的各种问题也逐个攻克,学习这种在日常工作中有价值的分析方法,使我们更能轻易应付日后的社会的信息工作。27