1、1复习:复习:一元回归一元回归:分析一个应变量与一个自变量之分析一个应变量与一个自变量之间的线性关系。间的线性关系。其其回归模型:回归模型:Y=+X+(总(总体)体)由样本计算的由样本计算的回归方程:回归方程:2一、多元线性回归一、多元线性回归一、多元线性回归一、多元线性回归(一一一一)概述概述概述概述 1.1.模型模型模型模型 回归模型:回归模型:回归模型:回归模型:Y=Y=0 0+1 1X X1 1+2 2X X2 2+mmX Xm m+即因变量与多个自变量间存在线性关系。即因变量与多个自变量间存在线性关系。即因变量与多个自变量间存在线性关系。即因变量与多个自变量间存在线性关系。Y Y为因
2、变量,随机变量,取定量观察值。为因变量,随机变量,取定量观察值。为因变量,随机变量,取定量观察值。为因变量,随机变量,取定量观察值。X X1 1,X X2 2,X Xmm为自变量,选定或随机变量。为自变量,选定或随机变量。为自变量,选定或随机变量。为自变量,选定或随机变量。0 0为常数项。为常数项。为常数项。为常数项。1 1,2 2,mm为偏回归系数。为偏回归系数。为偏回归系数。为偏回归系数。为随机误差为随机误差为随机误差为随机误差(或称残差或称残差或称残差或称残差,residual),residual),N(0,N(0,),是因,是因,是因,是因变量变量变量变量Y Y总变异中不能为自变量解释
3、的部分。总变异中不能为自变量解释的部分。总变异中不能为自变量解释的部分。总变异中不能为自变量解释的部分。3 偏回归系数偏回归系数(partial regression coefficient)j(j=1,2,m)的意义:的意义:在其他自变量固定不变的情况下,自变量在其他自变量固定不变的情况下,自变量在其他自变量固定不变的情况下,自变量在其他自变量固定不变的情况下,自变量 X Xj j 每改变一个单位,单独引起因变量每改变一个单位,单独引起因变量每改变一个单位,单独引起因变量每改变一个单位,单独引起因变量Y Y平均改平均改平均改平均改变变变变 j j 个单位。个单位。个单位。个单位。由样本计算的
4、回归方程:由样本计算的回归方程:42.特点特点 多元线性回归较简单线性回归的多元线性回归较简单线性回归的 ,回归方程估计精度,回归方程估计精度,预,预报、控制效果报、控制效果。53.前提条件(前提条件(LINE)线性线性线性线性(linear)(linear)应变量应变量应变量应变量 与自变量的关系是线性的与自变量的关系是线性的与自变量的关系是线性的与自变量的关系是线性的 。独立性独立性独立性独立性(independence)(independence)随机误差项在不同样本点之间是独立的,无随机误差项在不同样本点之间是独立的,无随机误差项在不同样本点之间是独立的,无随机误差项在不同样本点之间是
5、独立的,无自相关性。自相关性。自相关性。自相关性。正态性正态性正态性正态性(normality)(normality)随机误差项服从正态分布;随机误差项服从正态分布;随机误差项服从正态分布;随机误差项服从正态分布;方差齐性方差齐性方差齐性方差齐性(equal variance)(equal variance)随机误差项在不同的样本点的方差相同随机误差项在不同的样本点的方差相同随机误差项在不同的样本点的方差相同随机误差项在不同的样本点的方差相同 。6(二二)参数估计参数估计 1.依依最小二乘法原理最小二乘法原理,令,令 2.求偏导数得正规方程组求偏导数得正规方程组7 推导得正规方程组:推导得正规
6、方程组:推导得正规方程组:推导得正规方程组:nbnb0 0+b+b1 1 x x1 1+b+b2 2 x x2 2+b+bm m x xmm=y y b b0 0 x x1 1+b+b1 1 x x1 12 2+b+b2 2 x x1 1 x x2 2 +b+bm m x x1 1 x xmm=x x1 1y y b b0 0 x x2 2+b+b1 1 x x2 2 x x1 1+b+b2 2 x x2 22 2 +b+bm m x x2 2 x xmm=x x2 2y y b b0 0 x xmm+b+b1 1 x xmm x x1 1+b+b2 2 x xmm x x2 2 +b+bm
7、m x xmm2 2=x xmmy y m+184.求偏回归系数求偏回归系数 方法:矩阵法方法:矩阵法方法:矩阵法方法:矩阵法 正规方程组的矩阵表达正规方程组的矩阵表达正规方程组的矩阵表达正规方程组的矩阵表达,令令令令:原始数据。原始数据。原始数据。原始数据。9 系数矩阵系数矩阵系数矩阵系数矩阵10 常数项矩阵常数项矩阵常数项矩阵常数项矩阵11正规方程组的矩阵表达形式:正规方程组的矩阵表达形式:方程回归系数(正规方程组的解):方程回归系数(正规方程组的解):为为 的转置矩阵,的转置矩阵,为为 的逆矩阵。的逆矩阵。1213(三三)回归方程的假设检验及回归效果粗评回归方程的假设检验及回归效果粗评
8、1.1.方差分析检验回归方程有无统计学意义方差分析检验回归方程有无统计学意义方差分析检验回归方程有无统计学意义方差分析检验回归方程有无统计学意义 H H 0 0:1 1=2 2=m m=0=0,H H 1 1:至少有一个至少有一个至少有一个至少有一个 j j 0 0 ,或各或各或各或各 j j (j=1,2,(j=1,2,m),m)不全为不全为不全为不全为0 0 ;=0.05=0.05;14 若若若若 F F F F F F F F(m,n-m-1)(m,n-m-1)(m,n-m-1)(m,n-m-1),P P P P ,拒绝,拒绝,拒绝,拒绝 H H H H 0 0 0 0,则,则,则,则总
9、的来说,自变量总的来说,自变量总的来说,自变量总的来说,自变量X X X X 与与与与 Y Y Y Y 间存在线性回归关系。间存在线性回归关系。间存在线性回归关系。间存在线性回归关系。需由偏回归系数的假设检验才能确定究竟是哪一个需由偏回归系数的假设检验才能确定究竟是哪一个需由偏回归系数的假设检验才能确定究竟是哪一个需由偏回归系数的假设检验才能确定究竟是哪一个或哪几个自变量与或哪几个自变量与或哪几个自变量与或哪几个自变量与 Y Y Y Y 间存在线性回归关系。间存在线性回归关系。间存在线性回归关系。间存在线性回归关系。152.2.粗评回归效果粗评回归效果确定系数确定系数 R R 2 2 (coe
10、fficient of determination)(coefficient of determination)R R2 2=SS=SS回回回回 /SS/SS总总总总 R R R R 2 2 2 2意义意义意义意义:在:在:在:在Y Y的总变异中,由自变量建立的线的总变异中,由自变量建立的线的总变异中,由自变量建立的线的总变异中,由自变量建立的线 性回归方程所能解释的比例。性回归方程所能解释的比例。性回归方程所能解释的比例。性回归方程所能解释的比例。R 2的假设检验的假设检验 (与回归方程假设检验等价)(与回归方程假设检验等价)HH0 0:总体的确定系数:总体的确定系数:总体的确定系数:总体的
11、确定系数 =0=0,HH1 1:总体的确定系数:总体的确定系数:总体的确定系数:总体的确定系数 0 0,=0.05=0.05;16(四四四四)偏回归系数的假设检验偏回归系数的假设检验偏回归系数的假设检验偏回归系数的假设检验 1.1.目的目的目的目的 了解各自变量对了解各自变量对了解各自变量对了解各自变量对 Y Y 作用的大小,剔除不重作用的大小,剔除不重作用的大小,剔除不重作用的大小,剔除不重要的自变量,使方程要的自变量,使方程要的自变量,使方程要的自变量,使方程“最优最优最优最优”。2.2.思路思路思路思路 对对对对 b b j j 作假设检验(方差分析法或作假设检验(方差分析法或作假设检验
12、(方差分析法或作假设检验(方差分析法或 t t 检验法),无统计学意义者不能保留在方程检验法),无统计学意义者不能保留在方程检验法),无统计学意义者不能保留在方程检验法),无统计学意义者不能保留在方程里,重建回归方程,直到最新的方程:里,重建回归方程,直到最新的方程:里,重建回归方程,直到最新的方程:里,重建回归方程,直到最新的方程:方程中所有自变量均有统计学意义而方程方程中所有自变量均有统计学意义而方程外所有自变量均无统计意义止外所有自变量均无统计意义止。173.对对各偏回归系数各偏回归系数各偏回归系数各偏回归系数bj作作假设检验的方法假设检验的方法假设检验的方法假设检验的方法 H H 0
13、0:j j =0=0,H H 1 1:j j 0 0,=0.05=0.05 方差分析法方差分析法方差分析法方差分析法 偏回归平方和偏回归平方和偏回归平方和偏回归平方和 是指将是指将是指将是指将 从回归从回归从回归从回归 方程里剔除后所引起回归平方和的减少方程里剔除后所引起回归平方和的减少方程里剔除后所引起回归平方和的减少方程里剔除后所引起回归平方和的减少 量,它间接反映自变量量,它间接反映自变量量,它间接反映自变量量,它间接反映自变量 对因变量的贡对因变量的贡对因变量的贡对因变量的贡 献大小。献大小。献大小。献大小。18 t 检验法检验法 方法一方法一:,为偏回归系数估计值为偏回归系数估计值
14、b j 的标准误。的标准误。方法二:方法二:S y 12m多元回归的误差多元回归的误差(剩余剩余)标准差标准差 C j j A 1 主对角线上的元素。主对角线上的元素。19 P262 例例15-1求得回归方程为:求得回归方程为:回归方程检验:回归方程检验:P0.01 R2=0.6008 偏回归系数检验结论:偏回归系数检验结论:只有只有X3、X4对血糖的影响有统计学对血糖的影响有统计学意义。意义。204.4.自变量的筛选的方法自变量的筛选的方法(1)后退法后退法(backward selection)建立含全部自变量的回归方程,剔除建立含全部自变量的回归方程,剔除建立含全部自变量的回归方程,剔除
15、建立含全部自变量的回归方程,剔除 方程中偏回归平方和最小且无统计学方程中偏回归平方和最小且无统计学方程中偏回归平方和最小且无统计学方程中偏回归平方和最小且无统计学 意义的自变量;意义的自变量;意义的自变量;意义的自变量;重建回归方程,再剔除方程中偏回归重建回归方程,再剔除方程中偏回归重建回归方程,再剔除方程中偏回归重建回归方程,再剔除方程中偏回归 平方和最小且无统计学意义的自变量;平方和最小且无统计学意义的自变量;平方和最小且无统计学意义的自变量;平方和最小且无统计学意义的自变量;重复重复重复重复 ,直到无自变量被剔除为止。,直到无自变量被剔除为止。,直到无自变量被剔除为止。,直到无自变量被剔
16、除为止。此法计算量大。此法计算量大。此法计算量大。此法计算量大。21(2)前进法前进法(forward selection)把方程外偏回归把方程外偏回归把方程外偏回归把方程外偏回归 平方和最大且有统平方和最大且有统平方和最大且有统平方和最大且有统 计学意义的自变量引入回归方程内;计学意义的自变量引入回归方程内;计学意义的自变量引入回归方程内;计学意义的自变量引入回归方程内;每引入一个自变量,重建一次回归方程;每引入一个自变量,重建一次回归方程;每引入一个自变量,重建一次回归方程;每引入一个自变量,重建一次回归方程;重复重复重复重复 ,直到无自变量被引入为止。,直到无自变量被引入为止。,直到无自
17、变量被引入为止。,直到无自变量被引入为止。此法建立的回归方程有时不够精练。此法建立的回归方程有时不够精练。此法建立的回归方程有时不够精练。此法建立的回归方程有时不够精练。22(3)逐步筛选法逐步筛选法(stepwise selection)此法集向前引入法和向后剔除法的优点。此法集向前引入法和向后剔除法的优点。此法集向前引入法和向后剔除法的优点。此法集向前引入法和向后剔除法的优点。向前每引入一个自变量后,都要对方程里向前每引入一个自变量后,都要对方程里向前每引入一个自变量后,都要对方程里向前每引入一个自变量后,都要对方程里所有的自变量作假设检验,剔除无所有的自变量作假设检验,剔除无所有的自变量
18、作假设检验,剔除无所有的自变量作假设检验,剔除无 统计学意义统计学意义统计学意义统计学意义者,再引入新的自变量,再检验,再剔除,者,再引入新的自变量,再检验,再剔除,者,再引入新的自变量,再检验,再剔除,者,再引入新的自变量,再检验,再剔除,直到不能再引入和再剔除为止。,直到不能再引入和再剔除为止。,直到不能再引入和再剔除为止。,直到不能再引入和再剔除为止。235.5.回归方程回归效果的评价回归方程回归效果的评价 (自变量筛选评判标准)(自变量筛选评判标准)确定系数:确定系数:R R2 2 校正确定系数校正确定系数:R2c=1(1 R 2)(n 1)/(n m 1)剩余标准差:S SY Y,1
19、2m12m AIC,CpAIC,Cp统计量等。统计量等。246.6.评价各自变量对因变量相对贡献的大小评价各自变量对因变量相对贡献的大小 对已进入回归方程的自变量,因其各自的单位不对已进入回归方程的自变量,因其各自的单位不对已进入回归方程的自变量,因其各自的单位不对已进入回归方程的自变量,因其各自的单位不同,不能直接进行比较,需用同,不能直接进行比较,需用同,不能直接进行比较,需用同,不能直接进行比较,需用标准偏回归系数标准偏回归系数 (standardized partial regression coefficient)(standardized partial regression co
20、efficient)来比较。来比较。来比较。来比较。方法一方法一方法一方法一 25 方法二方法二方法二方法二 将原始数据作标准正态变换后,再将原始数据作标准正态变换后,再将原始数据作标准正态变换后,再将原始数据作标准正态变换后,再 用变换后的变量作回归方程,得到用变换后的变量作回归方程,得到用变换后的变量作回归方程,得到用变换后的变量作回归方程,得到 。标准正态变换:标准正态变换:标准正态变换:标准正态变换:7.7.建立建立建立建立 的回归方程的回归方程的回归方程的回归方程 愈大,愈大,愈大,愈大,X X j j 对对对对 Y Y 的影响亦愈大。的影响亦愈大。的影响亦愈大。的影响亦愈大。由于由
21、于 没有量纲,因此可以相互比较大小,没有量纲,因此可以相互比较大小,反映自变量对应变量的相对作用大小。反映自变量对应变量的相对作用大小。26(五五)复相关系数复相关系数 R (multiple correlation coefficient)意义意义:m 个自变量共同对因变量个自变量共同对因变量Y 线性相关关系的密切程度。线性相关关系的密切程度。取值取值:0 R 1 。27(六六)多元线性回归方程的应用多元线性回归方程的应用 1.描述描述 Y 与与 X i 的线性关系。的线性关系。2.表达表达 X i 对对 Y 作用的大小,分析影响因素,作用的大小,分析影响因素,进行筛选。进行筛选。3.预测预
22、报:两种用途预测预报:两种用途 参数参数 的的CI估计估计 y i 容许区间容许区间(或预测区间)的估计或预测区间)的估计 4.统计控制统计控制 28参数参数 的估计(难点)的估计(难点)给定给定 时,相应时,相应 的总体参数的总体参数 的的1-可信区间为:可信区间为:的标准误:的标准误:29 描述描述描述描述 个体个体个体个体y y 值的变异度值的变异度值的变异度值的变异度给定给定给定给定 后,后,后,后,y y i i 的容许区间的容许区间的容许区间的容许区间 确定参考值范围确定参考值范围确定参考值范围确定参考值范围 质量控制质量控制质量控制质量控制y y i i 的的的的 1 1 的容许
23、区间:的容许区间:的容许区间:的容许区间:y y i i的的的的标准差标准差标准差标准差:样品样品样品样品 i i 各自变量的行向量,各自变量的行向量,各自变量的行向量,各自变量的行向量,样品样品样品样品 i i 各自变量的列向量。各自变量的列向量。各自变量的列向量。各自变量的列向量。30哑变量哑变量(dummy variable)n n分类变量的数量化n n若是k分类,则用(k-1)个哑变量再如职业。31违背回归模型基本假设的情形 n n多重共线性(multicollinearity)n n异方差性(variance heterogeneity)n n自相关(auto-correlation
24、)32多重共线性(multicollinearity)n n对于多元线性回归模型要求各自变量之间不存在明显的线性相关,否则,将使回归系数的估计发生困难,导致最小二导致最小二乘法失效乘法失效。33以下问题的发生,在排除了数据质量、样本的代表性有问题等因素后,应该考虑是由于自变量之间的线性关系造成的,称为多重共线性。n1)在某个检验水平在某个检验水平下,回归方程的统计检验下,回归方程的统计检验P,而,而分别各偏回归系数的检验均出现分别各偏回归系数的检验均出现P的矛盾现象;的矛盾现象;n2)偏回归系数的估计值明显地与实际情况不符,如偏回偏回归系数的估计值明显地与实际情况不符,如偏回归系数的符号与专业
25、知识知道的情况相反,或者是偏回归系数的符号与专业知识知道的情况相反,或者是偏回归系数的绝对值大(或小)得不可信;归系数的绝对值大(或小)得不可信;n3)根据专业知识,该自变量与因变量之间关系密切,而根据专业知识,该自变量与因变量之间关系密切,而偏回归系数的检验结果却偏回归系数的检验结果却P;n4)增加(或剔除)一个变量,或者改变(或删除)一个增加(或剔除)一个变量,或者改变(或删除)一个观察值,引起偏回归系数的估计值发生大的变化。观察值,引起偏回归系数的估计值发生大的变化。34多重共线性的识别 简便的方法是以自变量简便的方法是以自变量简便的方法是以自变量简便的方法是以自变量X X1 1,X,X
26、2 2,X,Xmm中的一个中的一个中的一个中的一个(如(如(如(如X Xj j)作为因变量,其余)作为因变量,其余)作为因变量,其余)作为因变量,其余mm1 1个自变量作为自变个自变量作为自变个自变量作为自变个自变量作为自变量建立回归方程,这样可以建立量建立回归方程,这样可以建立量建立回归方程,这样可以建立量建立回归方程,这样可以建立mm个回归方程。分别个回归方程。分别个回归方程。分别个回归方程。分别计算这计算这计算这计算这mm个方程的个方程的个方程的个方程的方差膨胀因子方差膨胀因子(variance inflation(variance inflation factor,VIF)factor
27、,VIF):VIFVIFj j=(1-R=(1-R2 2j j)-1-1,j=1,2,k,j=1,2,k 其中其中其中其中R R2 2j j是变量是变量是变量是变量X Xj j对模型中其他对模型中其他对模型中其他对模型中其他m-1m-1个自变量回归个自变量回归个自变量回归个自变量回归的决定系数。若的决定系数。若的决定系数。若的决定系数。若VIFVIFj j(j=1,2,mj=1,2,m)中最大的一个值)中最大的一个值)中最大的一个值)中最大的一个值大于大于大于大于1010,表明多重共线性可能严重地影响最小二乘估,表明多重共线性可能严重地影响最小二乘估,表明多重共线性可能严重地影响最小二乘估,表
28、明多重共线性可能严重地影响最小二乘估计。计。计。计。35多重共线性的解决办法 虽有很多文献加以讨论,但目前虽有很多文献加以讨论,但目前尚无十全十美尚无十全十美的办法的办法,大体上这些方法可以归为三类:,大体上这些方法可以归为三类:n一是筛选自变量,通过将引起多重共线性的变量从模型中一是筛选自变量,通过将引起多重共线性的变量从模型中剔除出去,从而解决多重共线性问题,如逐步回归法剔除出去,从而解决多重共线性问题,如逐步回归法(stepwise regression)就是成功应用的一种方法;就是成功应用的一种方法;n二是适当选取参数估计方法,如利用有偏估计替代最小二二是适当选取参数估计方法,如利用有
29、偏估计替代最小二乘法,岭回归分析乘法,岭回归分析(ridge regression)、主成分回归分析(详、主成分回归分析(详见第见第20章)等;章)等;n三是其它方法,如通过改变变量定义形式(差分法),或三是其它方法,如通过改变变量定义形式(差分法),或增加样本含量,使增加样本含量,使Cov(B)计算公式中分母项增大以减少方计算公式中分母项增大以减少方差,提高估计精度差,提高估计精度,或利用已知信息得到变量之间的线性关或利用已知信息得到变量之间的线性关系代入方程,减少自变量个数等方法。系代入方程,减少自变量个数等方法。36异方差性(variance heterogeneity)n不满足不满足e
30、i的方差是一个常数的方差是一个常数(i=1,2,n)。n如果出现异方差性,使得参数的假设检验和可信区间的建如果出现异方差性,使得参数的假设检验和可信区间的建立发生困难、回归方程的预测精度降低。立发生困难、回归方程的预测精度降低。n很难说哪一种检验方法是最好的,常用的方法有:图求检很难说哪一种检验方法是最好的,常用的方法有:图求检验法、等级相关检验法、验法、等级相关检验法、Glejser检验、检验、Goldfeld-Quandt检检验、验、Bartlett检验等。检验等。n克服异方差性的方法有变量变换后再建立模型、加权最小克服异方差性的方法有变量变换后再建立模型、加权最小二乘法(二乘法(WLS)
31、、广义最小二乘法()、广义最小二乘法(GLS)等)等。37多元回归分析的注意事项 n(1)回归分析要有实际意义,线性回归用于预测时,最好不回归分析要有实际意义,线性回归用于预测时,最好不要外推。要外推。n(2)注意线性回归分析的应用条件(注意线性回归分析的应用条件(LINE)n(3)方程与变量的检验方程与变量的检验 回归方程有统计学意义,并不表示回归方程有统计学意义,并不表示方程中每个自变量均有统计学意义,因此除了对方程进行方程中每个自变量均有统计学意义,因此除了对方程进行检验,还要对每个自变量的作用进行检验。检验,还要对每个自变量的作用进行检验。n(4)变量的筛选方法很多,最常用的是逐步前进法和逐步后变量的筛选方法很多,最常用的是逐步前进法和逐步后退法。用逐步回归分析所得结果不一定是全局最优的,而退法。用逐步回归分析所得结果不一定是全局最优的,而是局部最优的。是局部最优的。理论上剔除变量和选择变量是同一个界值。理论上剔除变量和选择变量是同一个界值。但实际分但实际分析时我们总选两个界值,析时我们总选两个界值,P 剔剔略大于略大于P 选选,或,或F 剔剔略小于略小于F 选选,以免计算机进入以免计算机进入“死循环死循环”。n(5)样本含量样本含量 作多元回归分析需要的样本含量作多元回归分析需要的样本含量n:至少是至少是所研究的变量数所研究的变量数m的的1020 倍。倍。