资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第,9,章 线性回归分析,9.1,一元线性回归,9.2,多元线性回归,9.3,逐步回归,9.4,spss,在回归中的应用,“回归”一词的由来,“,回归,”这个词最先由由英国著名统计学家,F.,高尔顿(,Francis,Galton,)在,19,世纪末期研究孩子及他们的父母的身高时提出来的。高尔顿研究发现,父母和孩子的身高有这样的一个趋势:父母高,儿女就高;父母矮,儿女也矮。但是高个父母的儿女们平均起来并不像他们的父母那样高。儿女辈的平均身高将“退化”到或者说“回归”到全体人口的平均身高。对于比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高高。,“回归”一词的由来,Galton,把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他发展的研究两个数值变量的方法称为回归分析。,这也叫高尔顿的“普遍回归定律”。高尔顿在智力遗传的方面也得到了类似的结果:一般来说,天才是要遗传的。但是天才的后代却要比他们的父辈们平庸,也就是他们的智力水平将“回归”到中等水平;而一个智商一般的父母,其孩子却可能是个天才!,尽管“回归”这个名称的由来具有其特定的含义,人们在研究大量的问题中变量,x,与,y,之间的关系并不具有这种“回归”的含义,但借用这个词把研究变量,x,与,y,之间的统计关系的数学方法称为“回归分析”,也算是对高尔顿这个伟大的统计学家的一种纪念。,回归分析主要解决以下几方面问题,从一组样本数据出发,确定变量之间的数学关系式,对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著,利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度,回归分析与相关分析的区别,相关分析中,变量,x,变量,y,处于平等的地位;回归分析中,变量,y,称为因变量,处在被解释的地位,,x,称为自变量,用于预测因变量的变化,相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量,x,对,变量,y,的影响大小,还可以由回归方程进行预测和控制,回归模型的类型,一个自变量,两个及两个以上自变量,回归模型,多元回归,一元回归,线性回归,非线性回归,线性回归,非线性回归,9.1,一元线性回归,9.1.1,一元线性回归模型,9.1.2,参数的最小二乘估计,9.1.3,回归方程的显著性检验,9.1.1,一元线性回归模型,当只涉及一个自变量时称为一元回归,若因变量,y,与自变量,x,之间为线性关系时称为一元线性回归,对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系,描述因变量,y,如何依赖于自变量,x,和误差项,的方程称为回归模型,一元线性回归模型,对于只涉及一个自变量的简单线性回归模型可表示为,y,=,b,0,+,b,1,x,+,e,模型中,,y,是,x,的线性函数,(,部分,),加上误差项,线性部分反映了由于,x,的变化而引起的,y,的变化,误差项,是随机变量,反映了除,x,和,y,之间的线性关系之外的随机因素对,y,的影响,是不能由,x,和,y,之间的线性关系所解释的变异性,0,和,1,称为模型的参数,一元线性回归模型,(基本假定),误差,项,是一个期望值为,0,的随机变量,即,E,(,)=0,。,对于一个给定的,x,值,,y,的期望值为,E,(,y,)=,0,+,1,x,对于所有的,x,值,,的方差,2,都相同,误差项,是一个服从正态分布的随机变量,且相互独立。,即,N,(0,2,),独立性意味着对于一个特定的,x,值,它所对应的,与其他,x,值所对应的,不相关,对于一个特定的,x,值,它所对应的,y,值与其他,x,所对应的,y,值也不相关,回归方程,(概念要点),描述,y,的平均值或期望值如何依赖于,x,的方程称为回归方程,简单线性回归方程的形式如下,E,(,y,)=,0,+,1,x,方程的图示是一条直线,因此也称为直线回归方程,0,是回归直线在,y,轴上的截距,是当,x,=0,时,y,的期望值,1,是直线的斜率,称为回归系数,表示当,x,每变动一个单位时,,y,的平均变动值,估计,(,经验,),的回归,方程,简单线性回归中估计的回归方程为,其中:是估计的回归直线在,y,轴上的截距,是直线的斜率,它表示对于一个给定的,x,的值,是,y,的估计值,也表示,x,每变动一个单位时,,y,的平均变动值,用样本统计量 和 代替回归方程中的未知参数 和 ,就得到了,估计的回归方程,总体回归参数,和,是未知的,必需利用样本数据去估计,9.1.2,参数,0,和,1,的最小二乘估计,最小二乘估计法,使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即,最小二乘法,(图示),x,y,(,x,n,y,n,),(,x,1,y,1,),(,x,2,y,2,),(,x,i,y,i,),e,i,=,y,i,-,y,i,最小二乘法,(,和 的计算公式,),根据最小二乘法的要求,可得求解,和 的标准方程如下,估计方程的求法,(实例),【,例,】,根据例,9.1,中的数据,配合人均消费金额对人均国民收入的回归方程,根据,和 的求解公式得,估计,(,经验,),方程,人均消费金额对人均国民收入的回归方程为,y=,54.005,+,0.526,x,9.1.3,回归方程的显著性检验,拟合优度检验(判定系数,r,2,检验),回归方程的显著性检验(,F,检验),回归系数的显著性检验(,t,检验),离差平方和的分解,因变量,y,的取值是不同的,,y,取值的这种波动称为变差。变差来源于两个方面,由于自变量,x,的取值不同造成的,除,x,以外的其他因素,(,如,x,对,y,的非线性影响、测量误差等,),的影响,对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示,离差平方和的分解,(图示),x,y,y,离差分解图,离差平方和的分解,(三个平方和的关系),2.,两端平方后求和有,从,图上看有,SST,=,SSR,+,SSE,总变差平方和,(,SST,),回归平方和,(,SSR,),残差平方和,(,SSE,),离差平方和的分解,(三个平方和的意义,),总平方和,(,SST,),反映因变量的,n,个观察值与其均值的总离差,回归平方和,(,SSR,),反映自变量,x,的变化对因变量,y,取值变化的影响,或者说,是由于,x,与,y,之间的线性关系引起的,y,的取值变化,也称为可解释的平方和,残差平方和,(,SSE,),反映除,x,以外的其他因素对,y,取值的影响,也称为不可解释的平方和或剩余平方和,判定系数,r,2,回归平方和占总离差平方和的比例,反映回归直线的拟合程度,取值范围在,0,1,之间,r,2,1,,,说明回归方程拟合的越好;,r,2,0,,,说明回归方程拟合的越差,判定系数等于相关系数的平方,即,r,2,(,r,),2,R,2,=0.998,回归方程的显著性检验,(,线性关系的检验,),检验自变量和因变量之间的线性关系是否显著,具体方法是将回归离差平方和,(,SSR,),同剩余离差平方和,(,SSE,),加以比较,应用,F,检验来分析二者之间的差别是否显著,如果是显著的,两个变量之间存在线性关系,如果不显著,两个变量之间不存在线性关系,回归方程的显著性检验,(,检验,的步骤),提出假设,H,0,:,线性关系不显著,2.,计算检验统计量,F,确定显著性水平,,并根据分子自由度,1,和分母自由度,n,-2,找出临界值,F,作出决策:若,F,F,或,P,拒绝,H,0,;,若,F,接受,H,0,回归方程的显著性检验,(,方差分析表,),(续前例),spss,输出的方差分析表,P=0.000,t,,,或,P,拒绝,H,0,;,t,接受,H,0,回归系数的显著性检验,(实例),提出假设,H,0,:,b,1,=0,人均收入与人均消费之间无线性关系,H,1,:,b,1,0,人均收入与人均消费之间有线性关系,计算检验的统计量,t,=65.0758,t,=2.201,,,拒绝,H,0,,,表明,人均收入与人均消费之间有线性关系,对前例的回归系数进行显著性检验,(,0.05,),回归系数的显著性检验,(,spss,输出的结果),P,0,=0.0000.05,常数项显著不为零,P,1,=0.000,F,,或,P,拒绝,H,0,;,若,F,接受,H,0,回归系数的显著性检验,如果,F,检验已经表明了回归模型总体上是显著的,那么回归系数的检验就是用来确定每一个单个的自变量,x,i,对因变量,y,的影响是否显著,对每一个自变量都要单独进行检验,应用,t,检验,在多元线性回归中,回归方程的显著性检验,不再等价于,回归系数的显著性检验,回归系数的显著性检验,(步骤),提出假设,H,0,:,b,i,=0 (,自变量,x,i,与,因变量,y,没有线性关系,),H,1,:,b,i,0 (,自变量,x,i,与,因变量,y,有线性关系,),计算检验的统计量,t,确定显著性水平,,并进行决策,t,t,,或,P,拒绝,H,0,;,t,接受,H,0,一个二元线性回归的例子,销售额、人口数和年人均收入数据,地区,编号,销售额,(万元),y,人口数,(,万人,),x,1,年,人均收入,(,元,),x,2,1,2,3,4,5,6,7,8,9,10,33.3,35.5,27.6,30.4,31.9,53.1,35.6,29.0,35.1,34.5,32.4,29.1,26.3,31.2,29.2,40.7,29.8,23.0,28.2,26.9,1250,1650,1450,1310,1310,1580,1490,1520,1620,1570,【,例,】,一家百货公司在,10,个地区设有经销分公司。公司认为商品销售额与该地区的人口数和年人均收入有关,并希望建立它们之间的数量关系式,以预测销售额。有关数据如下表。试确定销售额对人口数和年人均收入的线性回归方程,并分析回归方程的拟合程度,对线性关系和回归系数进行显著性检验,(,=0.05),。,一个二元线性回归的例子,spss,输出的结果,),销售额与人口数和年人均收入的二元回归方程为,:,9.3,逐步回归,基本思想是:,在考虑,Y,对一群变量(,X,1,X,2,X,k,),回归时,从变量(,X,1,X,2,X,k,)中,逐步选出对已解释变差的贡献最大的变量,进入回归方程,.,判别依据,:,统计量,F,j,的值,f,j,最大的,x,j,先进入方程,最后一个进入方程的变量也应满足,P,多重共线,4,、随机扰动项相关,=,序列自相关,时间序列数据经常出现序列相关,5,、随机扰动项方差不等于常数,=,异方差,截面数据时,经常出现异方差,多重共线性的定义,多重共线性:在多元线性回归模型中,解释变量之间存在着完全的线性关系或近似的线性关系,完全多重共线性,近似多重共线性,4.2,多重共线性的后果,(,1,)参数估计值不确定;,(,2,)参数估计值的方差无限大;,多重共线性的识别与处理,实际运用中多重共线性主要有以下几种类型表现,:,(1),整个模型的方差分析检验结果为,P,。,(2),专业上认为应该有统计学意义的自变量检验结果却无统计学意义。,(3),自变量的偏回归系数取值大小甚至符号明显与实际情况相违背,难以解释。,(4),增加或删除一个自变量或一条记录,自变量偏回归系数发生较大变化。,以上情况最终使得所得到的线性回归模型,特别是其中的偏回归系数难以有合乎专业知识的解释。对于多重共线性的识别,可以通过以下统计量,:,(1),容忍度,(Tolerance):,是解释变量 与其他解释变量间的复相关系数的平方,表明了解释变量之间的线性相关程度。,容忍度取值在,0-1,之间,越接近于,0,表示多重共线性越强,越接近于,1,表示多重共线性越弱,(2),方差膨胀因子,(Variance inflation factor,VIF):,等于容忍度的倒数。显然,,VIF,越大,多重共线性问题越大。,通常,,VIF,大于等于,10,,说明解释变量之间有严重的多重共线性。,(3),特征根,CEigenvalue,):,对模型中常数项及所有自变量计算主成分,如果自变量问存在较强的线性相关关系,则前面的几个主成分数值较大,而后面的几个主成分较小,甚至接近,0,。,(4),条件指数,(Condition Index):,等于最大的主成分与当前主成分的比值的算术平方根。所以第一个主成分相对应的条件指数总为,1,。同样,如果几个条件指数较大,(,如大于,30),,则提示存在多重共线性。,产生多重共线性的背景,(,1,),时间序列数据中经济变量在时间上常有共同的变动趋势;,时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。,(,2,),经济变量之间本身具有内在联系(常在截面数据中出现);,横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。,一般经验,对于采用,时间序列数据,作样本、以简单线性形式建立的计量经济学模型,往往存在多重共线性。,以,截面数据,作样本时,问题不那么严重,但多重共线性仍然是存在的。,多重共线性的修正方法:逐步回归法,剔除不重要的解释变量,可采用逐步回归法完成。,基本思想:,用逐步回归法发现产生共线性的解释变量,将其剔除,从而减少共线性的影响。,这既是判断是否存在多重共线性的方法,也是解决多重共线性的方法。,9.6,曲线估计,在,一元回归分析中,一般首先绘制自变量和因变量间的散点图,然后通过数据在散点图中的分布特点选择所要进行回归分析的类型,是使用线性回归还是非线性回归。,然而,在实际问题中,用户往往不能确定究竟该选择何种函数模型更接近样本数据,这时可以采用曲线估计的方法。其具体步骤如下:,曲线估计的步骤,首先根据实际问题本身特点,同时选择几种模型,然后,,SPSS,自动完成模型的参数估计,并显示,R,2,、,F,检验值、相伴概率值。,最后,选择具有,R,2,最大的模型作为此问题的回归模型,并作一些预测。,SPSS,提供的曲线估计模型,(1),SPSS,提供的曲线估计模型,(2),例,居民家庭教育支出与消费性支出的关系。,
展开阅读全文