SPSS回归分析过程详解PPT.ppt

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第,10,章回归分析,介绍：,1,、回归分析的概念和模型,2,、回归分析的过程,1,回归分析的概念,寻求有关联（相关）的变量之间的关系,主要内容：,从一组样本数据出发，确定这些变量间的定量关系式,对这些关系式的可信度进行各种统计检验,从影响某一变量的诸多变量中，判断哪些变量的影响显著，哪些不显著,利用求得的关系式进行预测和控制,2,回归分析的模型,按是否线性分：线性回归模型和非线性回归模型,按自变量个数分：简单的一元回归，多元回归,基本的步骤：利用,SPSS,得到模型关系式，是否是我们所要的，要看回归方程的显著性检验（,F,检验）和回归系数,b,的显著性检验,(T,检验,),，还要看拟合程度,R,2,(,相关系数的平方,一元回归用,R Square,，多元回归用,Adjusted R Square,),3,回归分析的,过程,在回归过程中包括：,Liner,：线性回归,Curve Estimation,：曲线估计,Binary Logistic,：二分变量逻辑回归,Multinomial Logistic,：多分变量逻辑回归,Ordinal,序回归,Probit,：概率单位回归,Nonlinear,：非线性回归,Weight Estimation,：加权估计,2-Stage Least squares,：二段最小平方法,Optimal Scaling,最优编码回归,我们只讲前面,3,个简单的（一般教科书的讲法）,4,10.1,线性回归,(Liner),一元线性回归方程,:y=a+bx,a,称为截距,b,为回归直线的斜率,用,R,2,判定系数,判定一个线性回归直线的拟合程度：用来说明用自变量解释因变量变异的程度（所占比例）,多元线性回归方程,:y=b,0,+b,1,x,1,+b,2,x,2,+,+b,n,x,n,b,0,为常数项,b,1,、,b,2,、,、,b,n,称为,y,对应于,x,1,、,x,2,、,、,x,n,的偏回归系数,用,Adjusted R,2,调整判定系数,判定一个多元线性回归方程的拟合程度：用来说明用自变量解释因变量变异的程度（所占比例）,一元线性回归模型的确定,:,一般先做散点图,(Graphs-Scatter-Simple),以便进行简单地观测（如：,Salary,与,Salbegin,的关系,),若散点图的趋势大概呈线性关系，可以建立线性方程，若不呈线性分布，可建立其它方程模型，并比较,R,2,(-1),来确定一种最佳方程式（曲线估计）,多元线性回归一般采用逐步回归方法,-,Stepwise,5,逐步回归方法的基本思想,对全部的自变量,x,1,x,2,.,x,p,按它们对,Y,贡献的大小进行比较，并通过,F,检验法，选择偏回归平方和显著的变量进入回归方程，每一步只引入一个变量，同时建立一个偏回归方程。当一个变量被引入后，对原已引入回归方程的变量，逐个检验他们的偏回归平方和。如果由于引入新的变量而使得已进入方程的变量变为不显著时，则及时从偏回归方程中剔除。在引入了两个自变量以后，便开始考虑是否有需要剔除的变量。只有当回归方程中的所有自变量对,Y,都有显著影响而不需要剔除时，在考虑从未选入方程的自变量中，挑选对,Y,有显著影响的新的变量进入方程。不论引入还是剔除一个变量都称为一步。不断重复这一过程，直至无法剔除已引入的变量，也无法再引入新的自变量时，逐步回归过程结束。,6,10.1.6,线性回归分析实例,p240,实例：,P240Data07-03,建立一个以初始工资,Salbegin,、工作经验,prevexp,、工作时间,jobtime,、工作种类,jobcat,、受教育年限,edcu,等为自变量，当前工资,Salary,为因变量的回归模型。,先做数据散点图,观测因变量,Salary,与自变量,Salbegin,之间关系是否有线性特点,Graphs-Scatter-Simple,X Axis,：,Salbegin,Y Axis,：,Salary,若散点图的趋势大概呈线性关系，可以建立线性回归模型,Analyze-Regression-Linear,Dependent:Salary,Independents:Salbegin,prevexp,jobtime,jobcat,edcu,等变量,Method:,Stepwise,比较有用的结果：,拟合程度,Adjusted R,2,：,越接近,1,拟合程度越好,回归方程的显著性检验,Sig,回归系数表,Coefficients,的,Model,最后一个中的回归系数,B,和显著性检验,Sig,得模型：,Salary=-15038.6+1.37Salbegin+5859.59jobcat-,19.55prevexp+154.698jobtime+539.64edcu,7,10.2,曲线估计,(Curve Estimation),对于,一元回归,，若散点图的趋势不呈线性分布，可以利用曲线估计方便地进行线性拟合,(liner),、二次拟合,(Quadratic),、三次拟合,(Cubic),等。采用哪种拟合方式主要取决于各种拟合模型对数据的充分描述,(,看修正,Adjusted R,2,-1),不同模型的表示,模型名称,回归方程,相应的线性回归方程,Linear(,线性,),Y=b,0,+b,1,t,Quadratic(,二次,),Y=b,0,+b,1,t+b,2,t,2,Compound(,复合,),Y=b,0,(b,1,t,),Ln(Y)=ln(b,0,)+ln(b,1,)t,Growth(,生长,),Y=e,b0+b1t,Ln(Y)=b,0,+b,1,t,Logarithmic(,对数,),Y=b,0,+b,1,ln(t),Cubic(,三次,),Y=b,0,+b,1,t+b,2,t,2,+b,3,t,3,S,Y=e,b0+b1/t,Ln(Y)=b,0,+b,1,/,t,Exponential(,指数,),Y=b,0,*,e,b1*t,Ln(Y)=ln(b,0,)+b,1,t,Inverse(,逆,),Y=b,0,+b,1,/t,Power(,幂,),Y=b,0,(t,b1,),Ln(Y)=ln(b,0,)+b,1,ln(t),Logistic(,逻辑,),Y=1/(1/u+b,0,b,1,t,),Ln(1/Y-1/u)=ln(b,0,+ln(b,1,)t),8,10.2.3,曲线估计,(Curve Estimation),分析实例,实例,P247 Data11-01,：有关汽车数据，看,mpg(,每加仑汽油行驶里程,),与,weight(,车重,),的关系,先做散点图,(Graphs-Scatter-Simple),：,weight(X),、,mpg(Y),，看每加仑汽油行驶里程数,mpg(Y),随着汽车自重,weight(X),的增加而减少的关系，也发现是曲线关系,建立若干曲线模型（可试着选用所有模型,Models),Analyze-Regression-Curve Estimation,Dependent:mpg,Independent:weight,Models:,全选,(,除了最后一个逻辑回归,),选,Plot models,：输出模型图形,比较有用的结果：各种模型的,Adjusted R,2,，并比较哪个大，结果是指数模型,Compound,的,Adjusted R,2,=0.70678,最好（拟合情况可见图形窗口）,结果方程为：,mpg=60.15*0.999664,weight,说明：,Growth,和,Exponential,的结果也相同，也一样。,9,10.3,二项逻辑回归,(Binary Logistic),在现实中，经常需要判断一些事情是否将要发生，候选人是否会当选？为什么一些人易患冠心病？为什么一些人的生意会获得成功？此问题的特点是因变量只有两个值，不发生,(0),和发生,(1),。这就要求建立的模型必须因变量的取值范围在,0,1,之间。,Logistic,回归模型,Logistic,模型：在逻辑回归中，可以直接预测观测量相对于某一事件的发生概率。包含一个自变量的回归模型和多个自变量的回归模型公式：,其中：,z=B,0,+B,1,X,1,+,B,p,X,p,(P,为自变量个数）。某一事件不发生的概率为,Prob(no event),1-Prob(event),。因此最主要的是求,B,0,B,1,B,p,(,常数和系数,),数据要求：因变量应具有二分特点。自变量可以是分类变量和定距变量。,如果自变量是分类变量应为二分变量或被重新编码为指示变量。指示变量有两种编码方式。,回归系数：,几率和概率的区别。几率,=,发生的概率,/,不发生的概率。如从,52,张桥牌中抽出一张,A,的几率为,(4/52)/(48/52)=1/12,，而其概率值为,4/52=1/13,根据回归系数表，可以写出回归模型公式中的,z,。然后根据回归模型公式,Prob(event),进行预测。,10,10.3.3,二项逻辑回归,(Binary Logistic),实例,实例,P255 Data11-02,：乳腺癌患者的数据进行分析，变量为：年龄,age,患病时间,time,肿瘤扩散等级,pathscat,（,3,种）,肿瘤大小,pathsize,肿瘤史,histgrad,（,3,种）和癌变部位的淋巴结是否含有癌细胞,ln_yesno,，建立一个模型，对癌变部位的淋巴结是否含有癌细胞,ln_yesno,的情况进行预测。,Analyze-Regression-Binary Logistic,Dependent:ln_yesno,Covariates:age,time,pathscat,pathsize,histgrad,比较有用的结果：在,Variables in Equation,表中的各变量的系数（,B,），可以写出,z=-0.86-0.331pathscat+0.415pathsize,0.023age+0.311histgrad,。,根据回归模型公式,Prob(event)=1/(1+e,-z,),，就可以计算一名年龄为,60,岁、,pathsize,为,1,、,histgrad,为,1,、,pathscat,为,1,的患者，其淋巴结中发现癌细胞的概率为,1/(1+e,-(-1.845),)=0.136,(Prob(event)0.5,预测事件将会发生）,11,补充：回归分析,以下的讲义是吴喜之教授有关回归分析的讲义，很简单，但很实用,12,定量变量的线性回归分析,对例,1(highschoo.sav),的两个变量的数据进行线性回归，就是要找到一条直线来最好地代表散点图中的那些点。,13,检验问题等,对于系数,b,1,=0,的检验,对于拟合的,F,检验,R,2,(,决定系数,),及修正的,R,2,.,14,多个自变量的回归,如何解释拟合直线,?,什么是逐步回归方法,?,15,自变量中有定性变量的回归,例,1,(highschoo.sav),的数据中,还有一个自变量是定性变量,“,收入,”,以虚拟变量或哑元,(dummy variable),的方式出现,;,这里收入的,“,低,”,“,中,”,“,高,”,，用,1,2,3,来代表,.,所以,如果要用这种哑元进行前面回归就没有道理了,.,以例,1,数据为例,可以用下面的模型来描述,:,16,自变量中有定性变量的回归,现在只要估计,b,0,b,1,和,a,1,a,2,a,3,即可。,哑元的各个参数,a,1,a,2,a,3,本身只有相对意义,，无法三个都估计，只能够在有约束条件下才能够得到估计。,约束条件可以有很多选择,，一种默认的条件是把一个参数设为,0,，比如,a,3,=0,，这样和它有相对意义的,a,1,和,a,2,就可以估计出来了。,对于例,1,，对,b,0,b,1,a,1,a,2,a,3,的估计分别为,28.708,0.688,-11.066,-4.679,0,。这时的拟合直线有三条，对三种家庭收入各有一条,:,17,SPSS,实现,(,hischool.sav,),Analize,General linear model,Univariate,，,在,Options,中选择,Parameter Estimates,，,再在主对话框中把因变量（,s1,）选入,Dependent Variable,，把定量自变量,(j3),选入,Covariate,，把定量因变量（,income,）选入,Factor,中。,然后再点击,Model,，在,Specify Model,中选,Custom,，,再把两个有关的自变量选入右边，再在下面,Building Term,中选,Main effect,。,Continue-OK,，就得到结果了。输出的结果有回归系数和一些检验结果。,18,注意,这里进行的线性回归，仅仅是回归的一种，也是历史最悠久的一种。,但是，任何模型都是某种近似；,线性回归当然也不另外。,它被长期广泛深入地研究主要是因为数学上相对简单。,它已经成为其他回归的一个基础。,总应该用批判的眼光看这些模型。,19,SPSS,的,回归分析,自变量和因变量都是定量变量时的线性回归分析：,菜单：,Analize,Regression,Linear,把有关的自变量选入,Independent,，把因变量选入,Dependent,，然后,OK,即可。如果自变量有多个（多元回归模型，选,Method:,Stepwise,），只要都选入就行。,20,SPSS,的,回归分析,自变量中有定性变量（哑元）和定量变量而因变量为定量变量时的线性回归分析,(,hischool.sav,),菜单：,Analize,General linear model,Univariate,，,在,Options,中选择,Parameter Estimates,，,再在主对话框中把,因变量,（,s1,）选入,Dependent Variable,，把,定量自变量,(j3),选入,Covariate,，把,定性因变量,（,income,）选入,Factor,中。,点击,Model,，在,Specify Model,中选,Custom,，再把两个有关的自变量选入右边，再在下面,Building Term,中选,Main effect,。然后就,Continue-OK,。,21,

展开阅读全文