spss统计分析及应用教程-相关和回归分析.ppt

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第,6,章相关和回归分析,1,第,6,章相关和回归分析,本章学习目标,理解相关和回归分析的基本思想、原理与两者之间关系；,明确相关和回归分析的实验目的、实验步骤和实验内容；,掌握实验结果的统计分析；,熟练使用散点图；,相关和回归分析应用在经济管理数据分析中的应用。,2,第,6,章相关和回归分析,相关和回归分析是分析客观事物之间相关性的数量分析方法。客观事物之间的关系可分为函数关系和统计关系。函数关系指客观事物之间的一一对应关系，即当一组变量取一定值时，另一变量,y,可以依确定的函数取唯一确定的值。统计关系指客观事物之间的一种非一一对应关系，即当一组变量取一定值时，另一变量,y,无法依确定的函数取唯一确定的值。事物之间的函数关系比较容易分析，而事物之间的统计关系不像函数关系那样直接。相关和回归分析正是以不同的方式处理事物间的统计关系。,。,3,实验一相关分析,实验目的,了解相关分析的方法原理；,熟练掌握相关分析的,SPSS,操作命令；,熟练应用三个常用相关系数的计算方法及其数据测度要求；,运用相关分析解决管理学实际问题的能力。,4,实验一单一样本,t,检验,准备知识,简单相关分析的概念,统计学中，相关分析是以分析变量间的线性关系为主，是研究它们之间线性相关密切程度一种统计方法。它是通过几个描述相关关系的统计量来确定相关的密切程度和线性相关的方向。这些统计量包括皮尔逊（,Pearson,）相关系数、斯皮尔曼（,Spearman,）和肯德尔（,Kendall,）秩相关系数，一般用符号,r,来表示。,5,准备知识,简单相关分析的概念,相关系数具有一些特性：,(1),它的取值极限在,-1,和,+1,之间，即,-1r+1,。,(2),它具有对称性，即,X,与,Y,之间的相关系数和,Y,与,X,之间的相关系数相同。,(3),它与原点和测度都无关，即如果定义和，其中，且,c,和,d,都是常数，则和之间的,r,无异于原始变量,X,与,Y,之间的,r,。,(4),如果,X,和,Y,统计上独立的，则它们之间的相关系数,r=0,；但反过来，,r=0,不等于说,X,和,Y,是独立的。,(5),它仅是线性关联的一个度量，不能用于描述非线性关系。,6,相关系数的计算方法,皮尔逊（,Pearson,）相关系数,通常，仅对刻度级,(Scale),变量计算皮尔逊（,Pearson,）相关系数，公式为：,其中，分别为，（,i=1,2,n,）的算术平均值。,7,相关系数的计算方法,斯皮尔曼和肯德尔秩相关关系,用于反映两个序次或等级变量的相关程度。计算,Spearman,相关数据时，要求先对原始变量的数据排序，根据秩使用,Spearman,相关系数公式进行计算。公式可为：,式中，、分别是，的秩。、分别是变量、的平均值。至于肯德尔秩相关系数的计算公式，此处不再列出。,8,关于相关系数统计意义的检验,我们通常利用样本来研究总体的特性，由于抽样误差的存在，样本中两个变量之间的相关系数不为,0,，不能直接就断定总体中两个变量间的相关系数不是,0,，而必须进行检验。,给出显著性水平,，做出判断。对给定的显著性水平，与检验统计量相对应的,p,值进行比较：当,p,值（,SPSS,中常用,Sig,值来表示）小于显著性水平,，则拒绝原假设，认为相关系数不为零。如,=0.05,，,P=0.01,，则,P,，拒绝零假设，即两个变量相关系数,r0,，计算得到的相关系数是有意义，可以对它进行说明两个变量之间的相关程度：反之，当,p,值大于显著性水平,，则不能拒绝原假设，认为相关系数为零，不能根据计算得到的相关系数来说明两者之间相关程度。,9,实验一相关分析,实验内容,某大学一年级,12,名女生的胸围（,cm,）、肺活量（,L,）身高（,m,）,数据见表,6-1-1,。试分析胸围与肺活量两个变量之间相关关系。,10,表,6-1-1,胸围、肺活量与身高相关数据表,11,实验步骤,（,1,）,绘制散点图，以判断两个变量之间有无线性相关趋势，见图,12,（,2,）从菜单上依次选择“分析,相关,双变量（二元相关）”命令，打开对话框，如图,6-1-2,所示。选择“胸围”、“肺活量”到变量框；选择“相关系数,-pearson”,、“显著性检验,-,双侧检验”、“标记显著性相关”。单击“确定”按钮。,13,实验结果,胸围与肺活量相关性,14,实验分析,胸围与肺活量相关性,由结果表可以看出，变量间相关系数是用,2*2,方阵形式出现的。每一行和每一列的两个变量对应的单元格就是这两个变量相关分析结果，有三个数字，分别为,Pearson,相关性、显著性（双侧）、,N,（样本量）。如表格中黑色单元格所示。胸围与肺活量的,Pearson,相关系数为,0.549,，显著性检验为,0.064,，样本量为,12,。如果单从相关系数可以看出两者是正相关的而且具有中等相关性。但是，显著性检验,0.064,0.05,接受原假设，所以,Pearson,相关系数为,0.549,的值没有通过显著检验。根据这,12,个小样本来推断该大学一年级女生胸围与肺活量之间的没有线性相关性。,15,实验二偏相关分析,实验目的,准确理解偏相关分析的方法原理和使用前提；,熟练掌握偏相关分析的,SPSS,操作；,了解偏相关分析在中介变量运用方法。,16,实验二偏相关分析,准备知识,偏相关分析的概念,在多元相关分析中，由于其他变量的影响，,Pearson,相关系数只是从表面上反映两个变量相关性，相关系数不能真正反映两个变量间的线性相关程度，甚至会给出相关的假想。因此，在有些场合中，简单的,Pearson,相关系数并不是测量相关关系的本质性统计量。当其他变量控制后，给定的任意两个变量之间的相关系数叫做偏相关系数。偏相关系数才是真正反映两个变量相关关系的统计量。,17,偏相关系数的计算公式,设有,n,个变量，,，,，每两个变量间的简单相关关系，即皮尔逊（,Pearson,）相关系数所构成的相关系数对称矩阵为：,其中，,i,j=1,2,n,。,18,偏相关系数的计算公式,如设,为此矩阵的行列式，既,，则变量,与,之间的偏相关关系为：,其中分别为中元素的代数余子式。,19,实验二偏相关分析,实验内容,研究人员收集了,26,个旅游景点某年的商店投资数据、游客增长率和风景区的经济增长率。问景区商业投资是否确实导致了风景区的经济增长率？,20,实验二偏相关分析,实验步骤,（,1,）在,SPSSl7.0,中打开数据文件,6-2.sav,，通过选择“文件,打开”命令将数据调入,SPSSl7.0,的工作文件窗口。,21,旅游投资数据文件,22,（,2,）从菜单上依次选择“分析,-,相关,-,偏相关”命令，打开其对话框，如图所示。选择“商业投资”与“经济增长”作为相关分析变量，送入变量框中；选择“游客增长率”作为控制变量，用箭头送入右边的控制框中。,23,（,3,）点击“选项”按钮，见图，选择零阶相关系数（也就是两两简单相关系数，可以用与偏相关系数比较）。点击“继续”按钮回到主分析框。点击“确定”按钮。,24,实验结果,描述性统计分析,25,偏相关分析,26,实验三,简单线性回归分析,实验目的,准确理解简单线性回归分析的方法原理；,熟练掌握简单线性回归分析的,SPSS,操作与分析；,了解相关性与回归分析之间关系；,培养运用简单线性回归分析解决实际问题的能力。,27,知识准备,线性回归分析问题,线性回归分析一般解决以下问题：第一，确定因变量与若干自变量之间的定量表达式，通常称为回归方程式，并确定它们联系的密切程度；第二，通过控制可控变量的数值，利用求出的回归方程式来预测或控制因变量的取值和精度；第三，进行自变量分析，找出影响因素最为显著的，以区别重要因素和次要因素。,回归分析主要研究变量之间的线性相关关系时，称为线性回归分析，否则称为非线性回归分析。又按照自变量多少分为一元线性回归和多元线性回归。,28,知识准备,简单线性回归分析的理论模型,其理论假设为：,简单线性回归的主要任务是根据样本数据求出未知参数和,的估计值和，从而得到估计的回归方程：,29,知识准备,SPSS,线性回归分析的数据要求,线性回归过程中包括一元、多元线性回归、多元逐步回归。可以给出所求回归方程的回归系数估计值（即回归系数参数估计和区间估计）、协方差矩阵、复相关系数,R,、方差分析表、因变量的最佳预测值等，还可以输出变量值的散点图等图形。,线性回归过程对数据的要求是：自变量和因变量必须是具有刻度级测度的数值型变量；标志或分类变量，必须记录为二元的哑变量（虚拟变量）或者其他类型的对立变量。,对于因变量的所有观察值（样本）应该认为是来自于相互独立的等方差的正态总体（,i.i.d,），并且因变量与各个自变量之间应具有一定的线性关系。,30,简单线性回归分析中的统计检验和残差分析,拟合优度检验,定线性回归直线拟合优度的检验统计为：,式中，,=SST,，称为总平方和，,=SSR,，称为回归平方和，,SSE=SST-SSR=,称为残差平方和。称为判定系数或拟合效度等。,31,简单线性回归分析中的统计检验和残差分析,F,检验,回归方程显著性检验的统计量为,F,统计量：,式中，,p,为自变量个数，,n,为样本观测个数。对于一元线性回归方程，,p=1,。同时注意到，即拟合优度越好，,F,值越大，越有可能是显著的，方程成立可能性越大。说明,R,方是直观地体现出拟合效果，而,F,是统计量定量说明这个效果是否显著，一般两者配套使用。,32,简单线性回归分析中的统计检验和残差分析,DW,检验,在回归模型的诊断中，有一个非常重要的回归模型假设需要诊断，那就是回归模型中的误差项的独立性。如果误差项不独立，那么对回归模型的任何估计与假设所作出的结论都是不可靠的。其参数称为,DW,。取值范围是,0,DW,4,统计学意义如下：当残差与自变量互为独立时，,DW2,；当相邻两点的残差为正相关时，,DW,2,；当相邻两点的残差为负相关时，,DW,2,。,33,简单线性回归分析中的统计检验和残差分析,残差分析,所谓残差就是指回归方程计算得到的预测值与实际值之间的误差：,它是回归模型中的估计值，有多个形成的序列称为残差序列。可通过残差序列分析来证实模型假设。常以预测值,为横轴，以误差为纵轴（或学生化残差），绘制残差的散点图。如果散点图呈现明显的规律性，则认为存在自相关性，或者存在非线性、非常数方差的问题。利用残差图还可以判断模型的拟合效果。在残差图中，如果各点呈随机状，并绝大部分落在范围（,68%,的点落在内，,96%,的点落在之中），说明模型对于数据的拟合效果较好。,34,知识准备,简单线性回归分析的基本步骤,样本数据绘制散点图,1,回归分析之前，需要对样本资料是否满足要求进行判断。可以先使用相关分析法确定自变量与因变量之间的相关系数，或者运用散点图,(Scatter),功能，产生直观的散点图，观察自变量与因变量之间关系，以及奇异值等情况。如果图中发现有明显远离主体的观测值，则称之为异常点（,Outlier,），这些点很可能对正确评价两变量之间关系有较大影响。,35,知识准备,简单线性回归分析的基本步骤,观察数据的分布,2,分析因变量的正态性、方差齐性，确定是否可以进行线性回归分析。模型拟合完毕，通过残差分析结果来考察模型是否可靠。如果变量进行了变换，则应重新绘制散点图并观察数据分布。,36,知识准备,简单线性回归分析的基本步骤,估计参数，建立回归预测模型,3,利用检验统计量对回归预测模型进行显著性检验，得到拟合回归直线。,37,知识准备,简单线性回归分析的基本步骤,残差分析,4,考察数据是否符合模型假设条件，主要包括以下两个方面。首先残差是否独立？实际上就是考察因变量取值是否相互独立，采用,Durbin-Watson,，,DW,残差序列相关性进行分析，其取值范围为：,0,DW,4,。统计意义为：若,DW2,，表明相邻两点的残差项相互独立；若,0,DW,2,，表明相邻两点的残差项正相关；若,2,DW,4,，表明相邻两点的残差项负相关。其次，考察残差分布是否为正态？实际上就是考察因变量趋势是否服从正太分布，可以采用残差列表及相关指标法进行分析，直方图是图示法观察用的。,38,知识准备,简单线性回归分析的基本步骤,利用回归模型进行预测，分析评价预测值,5,线性回归用于预测时，其适用范围一般不应超出样本中自变量的取值范围，此时求得的预测值成为内插（,Interpolation,）,而超出自变量取值范围所得到的预测值成为外延（,Extrapolation,）。若无充分理由说明现有自变量范围以外的两变量间仍然是线性关系，则应尽量避免不合理的外延。同时线性模型的预测效果不及非线性模型，所以一般不用线性模型来开展预测功能。,39,相关分析与回归分析关系,概念关系,相关分析与回归分析有密切的关系，它们都是研究变量之间线性关系的统计分析方法。但是两者又有区别。相关分析中的变量视为随机变量，仅研究变量之间是否存在线性关系；而回归分析中研究的变量分为因变量和自变量，因变量是随机变量，又成为被解释变量，自变量又称为解释变量，是可以加以控制的变量。,40,相关分析与回归分析关系,虽然因果分析研究一个变量对另一个（些）变量的依赖关系，但它并不一定意味着因果关系。用,Kendall,和,Stuart,的话说：“一个统计关系式，不管多强也不管多么有启发性，却永远不能确定因果方面的联系：对因果关系的理念，必须来自统计学以外，最终来自这种或那种理论”。,41,实验三,简单线性回归分析,实验内容,下表给出,1960-1972,年之间的美国制造业的每百名雇员的辞退率与失业率。试分析辞退率,Y,和失业率,X,的线性关系。,42,实验三协方差分析,实验步骤,（,1,）进入线性回归分析的对话框。选择“分析,-,回归,-,线性”命令。弹出回归分析对话框。,43,回归分析对话框,44,（,2,）选择分析变量。将“辞退率”送入因变量分析框；将“失业率”送入自变量分析框。,45,(3),在方法,M,框中回归分析方法。,46,进入法,(Enter),：所选择的自变量全部进入回归模型，该选项是默认方式。,逐步回归法,(Stepwise),：它是向前选择法与向后剔除法的结合。根据在选项,O,对话框中设定，首先根据方差结果选择符合要求的自变量且对因变量贡献最大的进入方程。然后根据向后剔除法，将模型中,F,值最小的且符合剔除要求的变量剔除出模型，重复进行，直到回归方程中的自变量均符合进入模型，模型外的自变量都不符合进入模型要求为止。,47,消去法,(Remove),：建立回归方程时，根据设定的要求剔除部分自变量。,后向剔除法,(Backward),：先建立全模型，根据在选项,O,对话框中设定，每次剔除一个最不符合要求的变量，直到回归模型中不再含有不符合要求的自变量为止。,向前选择法,(Forward),：从模型中无自变量开始，根据在选项,O,对话框中设定，每次将一个最符合的变量进入模型，直止所有符合要求的变量都进入模型为止。第一个进入模型的变量应该与因变量间的相关系数绝对值最大。如果指定的依据是,F,值，每次将方差分析的,F,值最大的进入模型。,48,（,4,）选择分析统计量。,单击统计量,S,按钮，弹出对话框，如图所示。,49,回归系数：,估计,(E),选项：输出回归系数、的标准误、标准化回归系数,beta,、对回归系数进行检验的,t,值、,t,值的双侧检验的显著性水平,sig,。,置信区间（,Confidence intervals,）选项：显示每个回归系数或协方差矩阵指定置信度的置信区间。,协方差矩阵（,Convariance matrix,）选项：输出非标准化回归系数的协方差矩阵、各变量的相关系数矩阵。,50,与模型拟合及其拟合效果有关的选择项,模型拟合度（,Model fit,）选项,:,输出复相关系数,R,、复相关系数,R2,及其修正值、估计值的标准误、,ANOVA,方差分析表、引入模型和从模型中剔除的变量。这是系统默认选择项。,R,方变化（,R squared chang,）选项：由于添加或删除自变量而产生的,R2,统计量的变化。如果较大，说明进入和从方程中剔除的变量有可能是一个较好的回归变量。,51,与模型拟合及其拟合效果有关的选择项,部分相关和偏相关性（,Part and partial correlation,）选项,:,输出部分相关系数（表明当一个自变量进入回归方程后，,R2,增加了多少）、偏相关系数（表示排除了其他自变量对因变量的影响后，与因变量的相关程度）、零阶相关系数（变量之间的简单相关系数）。,共线性诊断（,Collinearity diagnostics,）选项,:,共线性（或多重共线性）指一个自变量是其他自变量的线性函数。输出用来诊断各变量共线性问题的各种统计量和容限值。,52,有关残差（,Residuals,）分析的选择项,Durbin-Watson,选项,:,输出,Durbin-Watson,统计量以及可能是奇异值的观察量诊断表。,个案诊断（,Case diagnostics,）选项,:,输出观测量诊断表。,离群值（,Outliers and standard deviation,）选项,设置奇异值的判据，默认值为,3,。所有观测量选项，输出所有观察量的残差值。,离群值（,Outliers and standard deviation,）选项,设置奇异值的判据，默认值为,3,。所有观测量选项，输出所有观察量的残差值。,53,（,5,）选择分析（,O,）选项，如图所示。,54,步进方法标准,:,设置变量进入模型或从模型中剔除的判据。,使用,F,的概率选项：以,F,检验的概率作为变量进入模型或从模型中剔除的判据。系统默认值为,0.05,。当一个变量的,sig,值,0.05,时，该变量进入回归方程；当一个变量的,sig,值,0.10,时，该变量从回归方程中删除。可以在其后的编辑框中输入自定义值，但是进入值要小于删除值。,使用,F,值选项：以,F,值作为变量进入模型或从模型中剔除的判据。系统默认进入,F,值,3.84,，,F,值,2.71,时从模型中删除该变量。,55,步进方法标准,:,设置变量进入模型或从模型中剔除的判据。,使用,F,的概率选项：以,F,检验的概率作为变量进入模型或从模型中剔除的判据。系统默认值为,0.05,。当一个变量的,sig,值,0.05,时，该变量进入回归方程；当一个变量的,sig,值,0.10,时，该变量从回归方程中删除。可以在其后的编辑框中输入自定义值，但是进入值要小于删除值。,使用,F,值选项：以,F,值作为变量进入模型或从模型中剔除的判据。系统默认进入,F,值,3.84,，,F,值,2.71,时从模型中删除该变量。,56,在等式中包含常量（,Include constant in equation,）选项：在回归方程中包含常数项，这是默认选择项。,本例选择,SPSS,系统默认。单击“继续”按钮,57,（,6,）选择绘制（,T,）选项，弹出绘制对话框。图可以帮助检验数据的正态性、线性和方差相等的假设。还可以帮助识别离群值、异常观察值和有影响的观测量等非常正数据。,58,散点图。可以绘制以下各项中的任意两种：,DEPENDNT,（因变量）、*,ZPRED(,标准化预测值,),、*,ZRESID(,标准化残差,),、*,DRESID(,剔除残差,),、*,ADJPRED(,调整的预测值,),、*,SRESID(,学生化的残差,),、*,SDRESID(,学生化的已删除残差,),。针对标准化预测值绘制标准化残差，以检查线性关系和等方差性。,59,产生所有部分图（,P,）选项：输出每一个自变量的残差相对于因变量残差的散点图。要生成部分图，方程中必须至少有两个自变量。,标准化残差图选项：可以获取直方图，输出带有正态曲线的标准化残差的直方图；标准化残差的正态概率图（,R,），即,P-P,图，检查残差的正态性。,60,（,7,）单击保存（,S,）选项,弹出保存变量对话框，见图所示。,预测值（,Predicted Values,）选项,回归模型对每个个案预测值。,未标准化（,U,）：非标准化，模型为因变量预测的值。,标准化（,R,）：每个预测值转换为其标准化形式。,调节（,J,）：当某观测量从回归系数的计算中排除时，观测量的预测值。,均值预测值的,S.E.,：预测值的标准误，对于自变量具有相同值的观测量所对应的因变量的均值的标准差的估计。,61,残差,未标准化（,N,）：未标准化残差，因变量的实际值与模型预测值之间的差。,标准化（,A,）：标准化残差，残差除以其标注差的估计。标准化残差也称为,Pearson,残差，它的均值为,0,，标准差为,1,。,学生化（,S,）：学生化残差，残差除以其随观测量变化的标准差的估计，这取决于每个观测量的自变量值与自变量均值之间的距离。,删除（,L,）：剔除残差，当某个观测量从回归系数的计算中排除时，该观测量的残差，是因变量的值和经调整的预测值之差。,学生化已删除（,E,）：学生化剔除差，一个观测量的剔除残差除以其标准误。,62,距离,Mahalanobis,距离（,H,）：马哈拉诺比斯距离，简称为马氏距离，是一个测量自变量观测值中有多少观测值与所有观测值均值不同的测度，把马氏距离数值大的观测值视为极端值。,Cook,距离（,K,）：库克距离，如果一个特殊的观察值被排除在回归系数的计算之外时，库克距离用于测量所有观测量的残差将会有多大的变化。当将库克距离数值大的观测量排除在回归分析的计算时，会导致回归系数发生根本变化。,杠杆值（,G,）：用于度量某个点对回归拟合的影响。集中的杠杆值范围为从,0,（对拟合无影响）到（,N-1,）,/N,。,63,预测区间（,Prediction Intervals,）,均值,(M),：均值预测区间的上下限。,单值,(I):,因变量的单个观测量的预测区间。,置信区间,(C):,预测区间的置信概率，在小框中输入,1,99.99,之间的值。,64,预测区间（,Prediction Intervals,）,标准化,DiFit(T):,标准化的,DiFit,值。如果此值大于其临界值的绝对值，则可以认定此观测量为影响点。,协方差比率（,V,）：剔除一个影响点的协方差矩阵与全部观测量的协方差矩阵的比率。如果比率接近于,1,，则说明被排除的观测量不能显著改变协方差矩阵。,65,系数统计,将回归系数保存到数据集或数据文件。可以在同一会话中继续使用数据集，但不会将其另存为文件，除非在会话结束前，将其保存为文件。数据集名称必须符合变量名命名规则。,将模型信息输出到,XML,文件,将参数估计值及其协方差导出到指定的,XML,格式的文件。,这里不保存任何值，然后单击“继续”命令返回,66,实验结果,模型汇总,67,方差分析表,68,模型系数表,69,实验四多元线性回归分析,实验目的,准确理解简单线性回归分析的方法原理；,熟练掌握简单线性回归分析的,SPSS,操作与分析；,了解相关性与回归分析之间关系；,培养运用简单线性回归分析解决实际问题的能力。,70,知识准备,多元线性回归分析基本原理,（,1,）多元线性回归模型是指含有多个自变量的线性回归模型，用于解释因变量与其它多个自变量之间的线性关系。,线性回归的一般数学模式是：,式中因变量,Y,的变化由两个部分来解释：一是由,P,个自变量,x,的变化引起的,Y,变化部分；二是由其他随机因素引起的,Y,的变化部分。,71,知识准备,多元线性回归分析基本原理,（,2,）,SPSS,线性回归分析过程作了,n,次观测，得到观测值为：,其中，分别为第,i,次观测时自变量,的取值；为因变量,Y,的观测值。,72,知识准备,多元线性回归分析基本原理,（,3,）回归分析需要对模型中的未知参数作出估计，分别称为回归常数和偏回归系数。偏回归系数表示假设在其他所有自变量不变的情况下，某一个自变量变化引起的因变量变化的比率。,对建立的回归方程进行回归系数显著性检验，即检验假设。即第,i,个偏回归系数与,0,无显著差异。检验的显著性统计量为,t,统计量。,73,知识准备,多元线性回归分析基本原理,（,4,）多元线性回归方程显著性检验的零假设为：,，检验的统计量为,F,统计量，如果检验拒绝,H,。,则认为回归方程有效。与一元回归方程相同，在多元回归中也使用判定系数来解释回归模型中自变量的变异在因变量变异中所占的比率，此时反映的是,Y,的变异由自变量联合解释的比例，因此，称为复判定系数（,Multiple coefficient of determination,）。,74,知识准备,多元线性回归分析基本原理,（,4,）多元线性回归方程显著性检验的零假设为：,同时，复判定系数的值随着进入回归方程的自变量个数,P,（或样本容量的大小）的增加而增大。因此，为了消除自变量个数以及样本量的大小对判定系数的影响，引入了经调整的判定系数（,Adjusted R Square,）。调整的判定系数的公式是：,Adjusted,其中,p,为自变量的个数，,n,为观测量的数目。可以看出，自变量个数大于,1,时，其值小于判定系数。自变量个数越多，与判定系数的差值越大。,75,多元线性回归分析基本步骤,1,根据研究问题，确定因变量与自变量，并初步设定多元线性回归方程,2,估计方程参数，确定估计多元线性回归方程。,3,利用统计量对回归预测模型进行各项显著性检验。,4,检验通过后，可以利用回归模型进行预测，分析评价预测值。,76,实验三,简单线性回归分析,实验内容,本例使用,6-4,数据文件，建立一个以“初始工资”、“工作经验”、“受教育年限”等为自变量，“当前工资”为因变量的回归模型。,77,员工工资与工作经验,78,实验步骤,1.,散点图,直观地观察自变量与因变量之间关系是否有线性特点。,（,1,）按“图形”“散点”“简单分布”顺序展开，如图所示的对话框。单击”定义”出现图,6-4-2,简单散点图对话框。,79,1.,散点图,单击”定义”出现图简单散点图对话框。,（,2,）将变量“初始工资”、“当前工资”依次放入,Y,轴与,X,轴，单击“确定”按钮。结果如下图：,80,81,生成图形见图,6-4-3,，根据同样操作方法，以“当前工资”为,Y,轴，分别以其他几个自变量为,X,的散点图。,82,回归模型操作,(1),按“分析”“回归”“线性”顺序展开，选择“当前工资”作为因变量进入因变量,(D),框中。选择“初始工资”、“工作经验”、“工作时间”、“受教育年限”变量作为自变量进入自变量,(I),框中。在方法,(M),框中选择逐步回归法作为分析方式。见图线性回归主对话框。,83,回归模型操作,（,2,）单击统计量,(S),按钮，打开如图,6-4-5,对话框。在回归系数一栏中选择估计,(E),、模型拟合度,(M),、共线性诊断,(L),；在残差一栏中选择,Durbin-Watson(U),、个案诊断中的离群值,(O),参数框中键入,3,，表示设置观察量标准差大于等于,3,，为奇异值。单击“继续”按钮，返回主对话框。,84,回归模型操作,（,3,）单击保存按钮，打开图对话框。选择距离一栏中的,Mahalanobis,距离,(H),、,Cook,距离,(K),、杠杆值,(G),；选择影响统计量一栏中的标准化,DfBeta(Z),、标准化,DfFit(T),、协方差比率,(V),，用来确定影响点，单击继续按钮，返回主对话框。,85,回归模型操作,（,4,）为了从图形上检查模型的线性和方差齐性等，做散点图。单击绘制,(T),按钮，打开绘图对话框，将变量,ZPRED,与,ZRESID,分别放入,X,、,Y,框中；标准化残差图中选择直方图,(H),、正态概率图,(R),。单击“继续”按钮，返回主对话框。,86,回归模型操作,（,5,）在主对话框中，单击选项,(O),按钮，选择在等式中包含常量,(I),。单击继续按钮，返回主对话框。,（,6,）提交系统执行结果。,87,实验结果,回归方程,88,拟合过程模型汇总,89,方差分析,90,回归系数分析,91,已排除的变量,92,共线性诊断,93,案例奇异值诊断,94,残差统计量,95,残差分布直方图,96,观测量累计概率图,97,当前工资的预测值与其学生化残差散点图,98,实验五曲线估计,实验目的,准确理解曲线回归的方法原理；,熟练掌握曲线估计的,SPSS,操作与分析；,掌握根据,11,种曲线模型，选择建立简单又适合的模型；,掌握利用曲线回归方程进行预测。,99,知识准备,非线性模型的基本内容,曲线估计问题，即曲线拟合问题。现实中，变量之间的关系往往不是简单的线性关系，而是呈现某种曲线或非线性关系。此时，选择适当的曲线拟合可以更加准确地反映实际情况。,变量之间的非线性关系可以划分为本质线性关系和本质非线性关系。所谓本质线性关系是指变量形式上虽表现为非线性关系，但可以通过变量转化方式变换为线性关系，并可最终进行线性回归分析，建立线性模型。本质非线性关系是指变量之间不仅形式上为非线性关系，而且也无法通过转化为线性关系。,PSS,的曲线估计（,Curve Estimation,）就是用来解决这类问题的。它提供了包括线性回归在内的,11,种不同的曲线估计回归模型。,100,拟合模型,101,曲线估计的基本步骤,1,根据数据资料绘制散点图，应用必要的专业知识和经验，大致选定曲线类型。,2,选择多个曲线回归预测模型，估计参数。,3,利用输出的统计量对回归预测模型进行各项显著性检验。,4,选择一种最合适的曲线模型，并进行预测和分析评价。,102,实验五曲线估计,实验内容,某公司有一种新产品上市，选择,8,个地区做试销活动。收集了试销广告投入与销量的数据,(,数据文件,6-5),，结果见表。问广告投入与销量之间的关系？,103,实验步骤,（,1,）绘制散点图。选择“图形,-,散点,-,简单分布,-,定义”命令，“销售”变量放入,Y,轴，“广告投入”放入,X,轴，按“确定”按钮得到散点图，见图所示。从图中看出二者的斜率有逐渐减缓的曲线趋势，因此，选用二次曲线模型、三次曲线模型和对数曲线模型。,104,(2),选择“分析,-,回归,-,曲线估计”命令，显示曲线估计对话框，如图所示。将“销售”放入因变量框（,D,），将“广告投入”放入变量框。如果自变量是时间变量或观测量序号,ID,，可以选择时间，这时曲线估计产生一个时间变量，观测量之间的时间长度视为均匀的。,105,(3),选择分析变量。,在等式中包含常量（,D,）：估计回归方程式中的常数项,根据模型绘图（,O,）：对照自变量绘制因变量的值，每个模型产生一个单独的曲线。,模型：,11,种常用曲线。此处选中二次项、对数、立方等选项，线性选项是默认的。,显示,ANOVA,表格（,Y,）：为每个选定的模式输出方差分析表。,106,（,4,）保存（,A,）,。如图所示。,保存变量：对于每个选定的模型，可以保存预测值、残差和预测区间。此处三个都选中。,预测个案：在数据集中，如果选择时间而不是变量作为自变量，则可以指定超出时间序列结尾的预测期。可以选择以下选项之一。,从估计期到最后一个个案的预测（,L,）：在估计期内的观测量的基础上预测文件中所有观测量的值。,预测范围（,T,）：根据估计期的观测量，预测指定日期、时间或观测号范围内的值。此功能用于预测超出时间序列中最后一个观测量的值,。,107,实验结果,线性模型,108,对数模型,109,二次曲线模型,110,三次曲线,111,不同图形的拟合结果,112,数据文件中的新变量保存情况,113,实验六二项,logistic,回归分析,实验目的,准确理解二项,logistic,回归分析的方法原理；,熟练掌握二项,logistic,回归分析的,SPSS,操作；,明确了解二项,logistic,回归方程参数的意义及其解释；,能运用二项,logistic,回归分析解决实际问题。,114,知识准备,logistic,回归介绍,一般的回归模型中，应变量为刻度变量，并且理论上要求其服从正态分布等,LINE(,线性、独立、正态、等方差,),假定条件。,logistic,回归与它们的主要区别在于：因变量的类型不同。通过一组解释变量或自变量，采用,logistic,回归，可以预测一个分类变量每一分类发生的概率。解释变量可以使刻度变量或分类变量或两者的混合。如果解释变量均为刻度数据，则可以采用判别分析等方法进行分析。通常情况下，,logistic,回归对预测变量的假定条件较少，所以,logistic,回归更为常用。,115,知识准备,logistic,回归介绍,分类变量可以分为有序变量（序次级）和无序变量（名义级）。后者分为二项分类变量和无序多项分类变量两种情况。如候选人是否会当选（二项分类）？消费者对某个产品使用满意程度分为很满意、一般、不满意，结果变量满意程度为有序分类变量；不同人群将会选择不同品牌（联想、苹果、戴尔等）的电脑，这里的结果变量电脑品牌为无序多项分类变量。,116,知识准备,二项,logistic,回归模型,令因变量,Y,服从二项分布，其二项分类的取值分别为,0,，,1,，,Y=1,的总体概率为,（,Y=1,），则,K,个自变量分别为,X1,，,X2,，,，,XK,所对应的,logistic,回归模型为：,（,6-6-1,）,或,（,6-6-2,）,117,知识准备,二项,logistic,回归模型,公式（,6-6-1,）与公式（,6-6-2,）可以互相推导。公式（,6-6-1,）通常被称为,logistic,回归预测模型，将某一个个体的自变量,Xj,值（,x1,x2,xk,）代入公式（,6-6-1,），在求得回归系数估计值的情况下，可以得到该个体概率,（,Y=1,）的预测值（或称估计值，），即,（,6-6-3,）,logistic,回归模型实际上是对概率,（,Y=1,）进行了,logit,变换后的线性回归模型，所以通常也称,logistic,回归模型为,logit,模型。通过,logit,变换，使,0,1,范围取值的,（,Y=1,），变成了,-,+,范围取值的,logit,值。,118,知识准备,二项,logistic,回归方程参数的意义及其解释,在一般线性回归模型中，通过普通最小二乘法求解回归系数。在二项分类,logistic,回归模型中，通过最大似然估计法求解回归参数。为了理解二项分类,logistic,回归模型参数的意义，需要先理解优势（,Odds,）与优势比（,Odds Rations,）的概念。,一个事件的优势被定义为它发生的可能性与不发生的可能性之比。例如，抛一枚硬币后，其正面向上的优势为,0.5/0.5=1,；从,52,张桥牌

展开阅读全文