资源描述
*,多元线性回归分析,实际中经常要遇到分析两个或多个变量间关系的情况,有时是希望了解某个变量对另一个变量的影响强度,有时则是要了解变量间联系的密切程度,前者用回归分析来实现,后者则需要用相关分析实现。,相关分析和回归分析概述,回归分析的一般步骤,1.,确定回归方程中的解释变量和被解释变量,2.,确定回归模型,3.,建立回归模型,4.,对回归方程进行检验,5.,利用回归方程进行预测,回归分析分为两类,一、线性回归分析,二、非线性回归(曲线回归),1.,可通过变量代换转换成线性关系,例如:,2.,并非所有的非线性模型都可以化为线性模型,P,元线性回归模型,称为回归常数和偏回归系数,,称为随机误差,它表明:被解释变量,y,的变化可由两部分解释,;,第一,有,p,个解释变量,x,的变化引起的,y,的变化部分;第二,由其他随机因素引起的,y,的变化部分,即,多元线性回归模型的统计检验,一、回归方程的拟合优度检验:判定系数,二、回归方程的显著性检验,(F,检验,),三、回归系数的显著性检验(,t,检验)、,四、残差分析,(DW,检验),一、拟合优度检验,回归方程的拟合优度检验是检验样本的数据点聚集在回归线周围的密集程度,从而评价回归方程对样本数据的代表程度。,拟合优度从对被解释变量,y,取值变化的成因分析入手。,被解释变量,y,的变化可由两部分解释:第一,有,p,个解释变量,x,的变化引起的,y,的变化部分;第二,由其他随机因素引起的,y,的变化部分,.,定义由第一部分引起的,y,的变差平方和为,ESS,,称为回归平方和;由随机因素引起的,y,的变差平方和称为剩余平方和,RSS,SST,称为总离差平方和,其中有,TSS=ESS+RSS,离差平方和的分解,(图示),x,y,y,离差分解图,离差平方和的分解,(三个平方和的关系),2.,两端平方后求和有,从,图上看有,TSS,=E,SS,+R,SS,总变差平方和,(,T,SS,),回归平方和,(,E,SS,),残差平方和,(,R,SS,),判定,系数,反映了回归方程所能解释的变差的比例,该统计量越接近于,1,,模型的拟合优度越高。,在应用过程中发现,如果在模型中增加一个解释变量,,R,2,往往增大,,这就给人一个错觉:,要使得模型拟合得好,只要增加解释变量即可,。,但是,现实情况往往是,由增加解释变量个数引起的,R,2,的增大与拟合好坏无关,,,R,2,需调整,。,调整的判定系数,(,adjusted coefficient,ofdetermination,),在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以,调整的思路是,:,将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响,:,其中:,n-k,-1,为残差平方和的自由度,,n,-1,为总体平方和的自由度。,二、回归方程的显著性检验,(F,检验,),方程的显著性检验正是要检验被解释变量与所有解释变量之间的线性关系是否显著,用线性模型来描述他们之间的关系是否恰当。,1,、方程显著性的,F,检验,即检验模型,Y,i,=,0,+,1,X,1i,+,2,X,2i,+,k,X,ki,+,i,i=1,2,n,中的参数,j,是否显著不为,0,。,可,提出如下原假设与备择假设:,H,0,:,0,=,1,=,2,=,k,=0,H,1,:,j,不全为,0,零假设成立:即各个回归系数同时与零无显著差异。它意味着当偏回归系数同时为,0,时,无论各个 取值如何变化都不会引起,y,的线性变化所有,x,无法解释,y,的线性变化,,y,与,x,的全体不存在线性关系,不能用线性模型来描述和反映他们之间的关系,F,检验的,思想,来自于总离差平方和的分解式:,TSS=ESS+RSS,如果这个比值较大,则,X,的联合体对,Y,的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。,因此,可通过该比值的大小对总体线性关系进行推断,。,根据数理统计学中的知识,在原假设,H,0,成立的条件下,统计量,服从自由度为,(,k,n,-,k,-,1),的,F,分布,给定显著性水平,,可得到临界值,F,(,k,n-k-,1,),,,由样本求出统计量,F,的数值,通过,F,F,(,k,n-k-,1,),或,F,F,(,k,n-k-,1,),来拒绝或接受原假设,H,0,,以判定原方程,总体上,的线性关系是否显著成立。,2,.,拟合优度检验与方程显著性检验存在以下关系,或,三、回归系数的显著性检验(,t,检验),方程的,总体线性,关系显著,每个解释变量,对被解释变量的影响都是显著的,回归系数的显著性检验的主要目的是研究回归方程中的,每个解释变量,与被解释变量之间是否存在显著的线性关系,也就是研究解释变量能否有效的解释被解释变量的线性变化以决定是否作为解释变量被保留在模型中。,这一检验是由对变量的,t,检验完成的。,2,、,t,检验,设计原假设与备择假设:,H,1,:,i,0,给定显著性水平,,可得到临界值,t,/2,(,n-k-,1,),,,由样本求出统计量,t,的数值,通过,|t|,t,/2,(,n-k-,1,),或,|t|,t,/2,(,n-k-,1,),来拒绝或接受原假设,H,0,,,从而,判定对应的解释变量是否应包括在模型中。,H,0,:,i,=0,(,i=1,2k,),当零假设成立时,即,i=0,,意味着回归系数,i,为,0,时,无论,取值如何变化都不会引起,y,的线性变化,无法解释,y,的线性变化,他们之间不存在线性关系,不应保留在线性方程中。,四、残差分析,残差是指由回归方程计算所得的预测值与实际样本值之间的差距,定义为,它是回归模型 的估计值,由多个 形成的序列称为残差序列,如果回归方程能够很好的反映被解释变量的特征和变化规律,那么残差序列中不应包含明显的规律性和趋势性。,残差的独立性分析,残差序列应满足,,表示残差序列的前期与后期数值之间不存在相关关系,即不存在自相关,用于克服回归方程多重共线性的影响。判断方法:,D-W,检验,DW=4,,残差序列存在完全负自相关;,DW=(2,,,4),残差序列自相关;,DW=2,,残差序列无自相关;,DW=(0,,,2),残差序列存在正自相关;,DW=0,,残差序列存在完全正自相关。,如果残差序列存在自相关,说明方程没能够充分说明被解释变量的变化规律,还留着一些规律性没有解释,也就认为方程中遗漏了一些较为重要的解释变量;或者,变量存在取值滞后性;或者,回归模型选择不合适,不应选用线性模型等。,一、回归方程的拟合优度检验:判定系数,二、回归方程的显著性检验,(F,检验,),三、回归系数的显著性检验(,t,检验),四、残差分析,(DW,检验),
展开阅读全文