第4章多元线性回归模型.pdf

资源描述

1、第4章多元线性回归模型学习目标-知识目标：了解多元线性回归模型的基本假设、掌握其估计方法以及检验程序。-技能目标：在其计算过程中充分利用进行计算，通过本章的学习熟练地掌握了和运用，尤其是对中矩阵逆及相乘的运算。-能力目标：会建立多元线性回归模型，会对多元线性回归模型进行估计、统计检验并进行经济预测。拿出一个案例能够独立的对其进行模型设定、参数估计、统计检验和预测。第4章多元线性回归模型4.1 多元线性回归模型及假定4.2 多元线性回归模型的参数估计4.3 多元线性回归模型的统计检验 4.4多元线性回归模型的置信区间4.5 受约束回归4.6 案例分析4.1多元线性回归模型及假定4.1.

2、1多元线性回归模型4.1.2多元线性回归模型的若干假定4.1.1多元线性回归模型多元线性回归模型的一般形式K=o+1XX2,+3%i-其中A是解释变量的数目。给定样本（凡七/2”/口”121则上述模型表示为，匕二夕0+/lx”+Ax2i+及*H+%丫2=我+B1X2+夕 2X22+BkXk2+U2Y=Bo+01X1n+贷2+.+BkXkn+U-K=BN 跖+田+Axj%匕=Bo+1X12+B2X22 Pkkl+2 E=A)+B1X1n+2X2+BkXkn+Un经济意义：匕与x存在线性关系，后者是前者的重要解释变量；代数意义：匕与的存在线性关系；几何意义：匕表示一个多维平面。多元总体回归函数E

3、(K X”,X2,X4.)=4+1Xi+恪卢+恪该函数又称为条件期望函数，表明在给定X”JI下y的分布的(总体)均值与X/存在着函数关系。多元线性回归模型表示的个随机方程的矩阵表达式Y=X/3+uY=X/3+u其中x=yiY=%nxlXuX2BX21 XrX?2AAAXk2xkn Iwaix(4+l)(k+l)xl样本回归函数用来估计总体回归函数=片+Xu+82X2,+Ax友其随机表示式匕=冗+xi+/+妙忻+/生称为残差或剩余项，可看成是总体回归函数中随机扰动项的近似替代。样本回归函数的矩阵表达：Y=Xfi 或 Y=X+e回其中：A e2P=A 右=:人 eB L xi无（4+i）xi4

4、.1.2多元线性回归模型的若干假定假定1解释变量是非随机的，即在重复抽样中,解释变量取固定值,且相互之间互不相关（无多重共线性）。假定2随机干扰项与解释变量之间不相关。Cov(%,X/=0 j=,k;i=1,2,E(Xu)=E1 Xi1/XiX?2 Xk2=0X.Kn假定3随机干扰项服从零均值,同方差，零协方差。假定4随机干扰项服从正态分布。假定5正确设定回归模型。(1)选择了正确的变量进入模型；(2)对模型的形式进行正确的设定；(3)对模型的解释变量、被解释变量以及随机干扰项做了正确的假定。上述假定条件称为多元线性回归模型的经典假定。在本章，我们假定以上条件都成立。4.2多元线性回归模型

5、的参数估计4.2.1 普通最小二乘法4.2.2 极大似然法估计4.2.3 参数估计量的性质4.2.1普通最小二乘法1.普通最小二乘估计利用最小二乘法估计模型的参数，同样应该使残差平方和达到最小，即=2 耳-A-p2x2i Axj取最小值。根据多元函数的极值原理，可得如下方程组：z(4-A-区-BkXQ=o人人人人Z(K 坊BXBX?-瓦 XQXL 0(421)叵(工-坊-四X瓦XL J3kxki)xki=0(4.2.1)写成矩阵形式为：(XX)8=X.(4.2.3)式(4.2.1)和式(423)叫做正规方程组。由式(4.2.3)可得这就是向量尸的OLS估计值。R=(XX)T XY2.

6、随机干扰项方差估计值的普通最小二乘估计可以证明：随机干扰项的方差的无偏估计为42CT 二-H k 4.2.2极大似然法估计这种估计思想认为，当从模型总体随机抽取组样本观测值后，最合理的参数估计量应该使从模型中抽取该组样本观测值的概率最大。将样本观测值联合概率函数称为似然函数，通过似然函数极大化以求得总体参数估计量的方法被称为极大似然法。对于多元线性回归模型Yi=禺+BiXii+P2x2i+-+/3kXki+i=1,2,，.N(0)工N(X,)耳的概率函数为1 口匕一(为+用X,+不豕21+自X股+%.)FP(X)=r=e 2。,”12ay/27r匕是相互独立的，所以匕是随机抽取的组样

7、本观测值的联合概率，即似然函数为）二尸（匕，舄匕）=尸（匕）尸（舄）尸（匕）1-(Y-xpy(Y-xp)-e 2b n(2乃户0n由于历上是单调函数，所以使其极大的参数值也将使L极大。lnL=-ln(2)-ln(cr2)-)(Y-X/3)f(Y-X/3)2 2 2cr求使对数似然函数极大的参数值，可得：8=X2(Y-X/3y(Y-X Ed CT-=-n4.2.3参数估计量的性质1.线性性参数估计量是线性估计量，即是随机变量y的线性函数。=(XX)1XY=CY显然，参数估计量是随机变量V的线性函数，所以是线性估计量。2.无偏性所以,Y=Xj3+u,E(u)=QE()=E(XX)1XY=用“

8、)*(北+)=+(XX)Tx()二B3.最小方差性p=(XT)TXY=(XX)T XXf3+)=尸+(XX)T XuE(uu)=用单位矩阵，Cov()=Ey-E(82-E(皆)=E(p-尸后-)=EXX)1 XuuXX)1 =(XX)1X(/)X(XX)T=(XX)1Xa2I(XX)1=axfxy14.随机误差项方差估计量的性质由于被解释变量的估计值与观察值之间的残差e=Y-X=X/3+u-X(XX)1=X”u X(XX)1 XXf3+u)=u-X(XX)1 Xu=(/-X(XX)1 X)u=Mu由于M2=M 所以残差平方和为de=MMuE(efe)=E(u(I-X(XX)1 Xf)u)=a2

9、tr(I-X(XX)1 X，)=)(i.-y)+s(i-Y)2=E(K g)2+2 6(g P)+Z(Z-Y)2=Zd)2+0+Z(R)2=RSS+ESS即总离差平方和分解为回归平方和与残差平方和两部分。(2)多元样本决定系数上与拟合优度检验多元样本决定系数=1壁TSS TSS因为0VES5V窗S 所以总有甯的数值越接近1,表明F中总离差平方和中可由样本回归线解释的部分越大，残差平方和越小，样本回归线与样本观测值的拟合程度越高;反之则拟合得越差。用作为度量回归值。对样本观测值耳拟合优度的指标，显然其数值越接近1越好。在例41中，计算可得TSS=1137612645 RSS=24040.

10、432ESS=TSS-RSS=1113572213上二里=1-壁=0.979TSSTSS(3)修正样本决定系数炉的大小与模型中解释变量的数目有关，解释变量的个数越多，它的值就越大，在实际运用中需要对其进行调整。调整的思想是将残差平方和与总离差平方和之比的分子分母分别用各自的自由度去除，变成均方差之比，以剔除解释变量个数对拟合优度的影响。于是，修正的样本决定系数为无2=1 _ RSS/(n-k-l)TSS/(-1)调整的可决系数与未经调整的可决系数之间存在如下关系：京二1 一黑田始工其中，是样本观测值的个数，4是解释变量的个数。在实际应用中，及2或甯究竟要多大才算模型通过了检验，没

11、有绝对的标准，要视具体情况而定。拟合优度并不是评价模型优劣的唯一标准必须对回归方程和模型中各参数的估计量作进一步的显著性检验在例4-1 中，R2 n-k-1=1-(1-0.979)|=0.9762.赤池信息准则和施瓦茨准则赤池信息准则(AIC)AIC=一三 3 n n施瓦茨准则(SC)SC=-+-lnn这两个准则均要求仅当所增加的解释变量能够减少N/C值或sc值时才在原模型中增加该解释变量。估计结果显示：某地区学生购买书籍及课外读物的支出二元例中AIC=10.32678 SC=10.47517建立某地区学生购买书籍及课外读物的支出一元例中AIC=10.75260 SC=10.85062从这

12、点看,可以说家庭月可支配收入应包含在模型中。4.3.2 回归方程的显著性检验1.回归方程的显著性检验回归方程的显著性检验是指在一定的显著性水平下，从总体上对模型中被解释变量与解释变量之间的线性关系是否显著成立而进行的一种统计检验。检验的原假设与备择假设分别为H。：1=0,02=0,，氏=0凡：乩=1,2,A 不全为零检验的思想来自于总离差平方和的分解式：TSS=ESS+RSSESS是解释变量的联合对被解释变量的线性作用的结果，可通过该比值邱储SS的大小对总体线性关系进行推断。根据数理统计学中的定义，在4成立的条件下，构造一个统计量：校 ESS/kf RSS/(n-k-l)它服从自由度

13、为(k,n-k-l)的尸分布。给定一个显著性水平查分布表，得到一个临界值歹&(左-心1)。如果发生F歹a(左斤hl)，则在1Y水平下拒绝原假设，即模型的线性关系显著成立，模型通过方程显著性检验。如果未发生F Fa(k,n-k-1)则在水平下接受原假设，即模型的线性关系显著不成立，模型未通过方程显著性检验。在例41中，检验的原假设与备择假设分别为4:4=0血=0,%:匹饱不全为零 ESS/k F=-=347.406RSS/(n-k-l)居.05(2J5)=3.68,贝U有歹=347.406 3.6a所以结论是拒绝原假设，即y与乂阳存在线性回归关系。2.拟合优度反2检验与方程总体线性的

14、显著性检验之间的关系-2 n-1 F R/kn k l+kF户检验可用于度量总体回归直线的显著性,也可用于检验声的显著性。4.3.3显著性检验1.解释变量的显著性检验解释变量的显著性检验，是指在一定的显著性水平下，检验模型的解释变量是否对被解释变量有显著影响的一种统计检验。检验的原假设与备择假设分别为Ho：0j=O,j=l,2,%的 wO,j=12 水构造如下的/检验统计量人t t n 一 k-l s瓦2.，检验的步骤(1)提出假设。(2)计算，统计量。(3)查临界值/5kl)。(4)判断。若|tta/2(n-k-l),则在Is水平下拒绝原假设，即为对应的解释变量用是显著的；若|11

15、ta/2(n-k-1),则在水平下接受原假设，即为对应的解释变量用是不显著的。J J在例41中,Sa=V41.084=6.410W=2-=104311=16.274%5分 6.410P1S a-Vo.014=0.116,t2-=O。2=3.455色臬 0.116P1。和，2分别大于临界值ho25（15）=2.13,所以拒绝零假设，表明X1和2对于耳都是重要解释变量，应保留在模型中。4.4多元线性回归模型的置信区间4.4.1 点估计值442参数估计量的置信区间4.4.3 预测值的置信区间 4.4多元线性回归模型的置信区间4.4.1 点估计值点估计值就是求解释变量 1,X”X2,XJ对

16、应的被解释变量y的估计值。e=血+/1狙+区*2+预测值Y与实际值V之间存在的误差为人e=Y-Y4.4.2 参数估计量的置信区间要判断样本参数的估计值在多大程度上可以近似地替代总体参数的真值，往往需要通过构造一个以样本参数的估计值为中心的区间来考察它以多大的概率包含着真实的参数值。这种方法就是参数检验的置信区间估计。，分布的分布曲线对称于纵坐标轴，所以在给定的置信水平l.q下，我们选取对称于原点的区间2 I使得尸（W L）=1-。5（入、即八仆与当O 八一氏 2）尸位2 X S同 Bj 夕+ta/2 X sj=l-a,例一%2 x S跖 Bj)=E(XJ-X.J3)2=EX。

17、-0)X0(R-0)1=XE(/-0(2-01X；=b2Xo(XX)TX；匕N(E(4)Q2X(XX)TXO).匕N(E(%)Q2XO(XX)TXO).将随机干扰项的方差用其无偏估计量于代替,可构造如下，统计量：匕项乂）及nI-/lfl K 1 8不XrX T X；于是，得到置信度为1-戊下的E Fo 的置信区间：f0 Tx3jXo（XX TX。Y.Yta XSJM（XX TX。222.埒的预测区间人人设0是实际预测值埒与预测值之差：/=-KE(e)=E(X*+Ao-X。/)=E/o+XJ3-X(XX)TX=0Var(e0)=4 1+x0(XX)T X。/N10Q21+X。(XX)T X。

18、力的标准差估计值4=N1+X0(XX)TX。其中 e7=e en k I构造,统计量人t 二 7-tn k Y)%。于是，对于给定的置信水平La,预测值琦的置信区间为R-tall xsJi+x（xx）TXo K R+tall x6i+Xo*xx；在实际应用中，我们希望置信水平越高越好，置信区间越小越好。如何才能缩小置信区间？通常可以通过以下途径来实现：1 增大样本容量。（2 提高模型的拟合优度，如果模型完全拟合样本观测值，残差平方和为0,则置信区间也为0。（3 提高样本观测值的分散度。在一般情况下，样本观测值越分散，作为 XX。的分母的|XX|的值越大，使得区间缩小。4.5受约束回

19、归4.5.1 模型参数的线性约束4.5.2 对回归模型增加或减少解释变量4.5.3 参数的稳定性在建立回归模型时，有时根据经济理论需要对模型中变量的参数施加一定的约束条件。如：0阶齐次性条件的消费需求函数1阶齐次性条件的CD生产函数模型施加约束条件后进行回归，称为受约束回归;不加任何约束的回归称为无约束回归。4.5.1 模型参数的线性约束对模型y=G+万2乂+入X-施加约束氏+。2=1 瓦.=Bk得y=人+分x+（1 河2+人平八+Ba+*或 y*=A +AX+乃3X3+Bk-Xi+U 4.5.4 如果对式 4.5.4洞归得出参数的估计结果以,瓦瓦，,AT则由约束条件可得：A=I-A A=

20、A-1然而，对所考查的具体问题能否施加约束？需进一步进行相应的检验。常用的检验有：尸检验、/检验与，检验，下面主要介绍F检验在同一样本下，记无约束样本回归模型为Y=Xj8+e受约束样本回归模型为Y=X3*+*干旱7H e*=Y X&=XB+e _ Xa=e -8)受约束样本回归模型的残差平方和衣SSR*=de+(A-初 XX($*-B)受约束样本回归模型的残差平方和ASSR*e*=ee+(A 8、X，X(B*-B)于是 e*e*N de(4.5.7)efe为无约束样本回归模型的残差平方和ASS。由式(457)RSSRNRSSU从而 ESSR ESSV这意味着，通常情况下，对模型施加约束条件

21、会降低模型的解释能力。但是，如果约束条件为真，则受约束回归模型与无约束回归模型具有相同的解释能力，RSSR 与ASS。的差异变小。可用-ASSu的大小来检验约束的真实性。根据数理统计学的知识：RSS(n-k-RSSR/(T2-Xn-kR-l)(RSSR-RSSQT 2*u_kR)于是：(RSSR-RSSu-kQ RSSV/(左。1)F*u-kR.n-kv-V)如果约束条件无效，与ASS。的差异较大，计算的歹值也较大。于是，可用计算的尸统计量的值与所给定的显著性水平下的临界值作比较，对约束条件的真实性进行检验。其中，左0,演分别为无约束与受约束回归模型的解释变量的个数（不包括常数项），

22、右益恰为约束条件的个数。例42柯布一道格拉斯生产函数丫=/及屋/,试根据美国金属行业1901-1927年数据，检验规模效益不变的约束条件：a+B=。(1)无约束回归模型In y=1.168+0.6101n L+0.3721n KSe(0.331)(0.129)(0.087)R2=0.942 F=196.176 RSS=0.868(2)有约束回归模型ln(y/L)=1.073+0.3601n(K/Z)Se(0.134)(0.077)R2=0.469 F=22.101 RSS=0.872得到的约束回归和无约束回归的残差平方和分别为RSSR=0.872小期/=0.868(3)检验原彳取设 H0

23、:a+万=1;kR=l%=2/=27(吟-)/(如-与)RSSu!(n 却1)(0.872 0.868)/10.868/24=0.111F(l,24)=4.26 所以产=0.111 尸(1,24)=4.26故受原假设，支持规模收益不变的假设。4.5.2 对回归模型增加或减少解释变量考虑如下两个回归模型F=/?O+4XI+X2+/4XA+(4.5.12)Y=0。+BX+B2X2+BkXk+BNXN+Bk+qX+u(4.5.13)式(4.5.12)可以看成是式(4.5.13)的受约束回归：:4八=瓦+2=，,=Bk+q=0相应的产统计量为:万 RSSR-RSSq RSSuln-k+q+vj ESS

24、ESS/q=RSSu-k+q+l F（kKR,n-kLl 尸统计量的另一个等价式万（底-庶）/0 1 一&）/一 A+0+1 如果约束条件为真，即额外的变量X.+1，,XA+对F没有解释能力，则?统计量较小；否则，约束条件为假，意味着额外的变量对y有较强的解释能力，则统计量较大。因此，可通过尸的计算值与临界值的比较，来判断额外变量是否应包括在模型中。4.5.3参数的稳定性对于时间序列数据，因变量和解释变量之间的关系可能会发生结构变化，这可能是由经济系统的需求或供给冲击带来的，也可能是制度转变的结果。建立模型时往往希望模型的参数是稳定的，即所谓的结构不变，这将提高模型的预测与分析功

25、能。如何检验？1.邹氏参数稳定性检验假设需要建立的模型为=4+力阳+坊*2+.+分因+在两个连续的时间序列（1,2,，丐）与，篦1+2）中,相应的模型分别为Y=瓦+BX+B2X2+瓦Xk+AY cc+%X+C22+akX 卜+4合并两个时间序列为（12/1/1+1,/i+叫），则可写出如下无约束回归模型.。丫勺+四 4.5.20 Y=B2X2+瓦Xk+u、Y CCQ+ccX+022+,+ctjX 卜十%q=oy+田(4.5.20)l。*2人口 l2,如果。=后表示没有发生结构变化，因此可针对如下假设进行检验：4：a=B(4.5.20)式施加上述约束后变换为受约束回归模型%)B+77因此，

26、检验的下统计量为,(RSSR-RSSu)l(k+DRSSu/%+%2(A+1)尸A+L%+%2(k+1)F=(RSSR-RSS u)l(k+DRSSu/R+n2-2(k+1)尸A+1,%+it2 2(A+1)记ASSi与ASS2为在两时间段上分别回归后所得的残差平方和，容易验证，RSS=RSS.+RSS?C/于是尸二(&SSA(ASSI+&S2)/V+1)一(RSS.+ASS2)/%+n2-2(A+1)+1,%+2-2(A+1)参数稳定性的检验步骤：1 分别以两连续时间序列作为两个样本进行回归,得到相应的残差平方：ASS1与ASS2（2 将两序列并为一个大样本后进行回归，得到大样本下的残差

27、平方和RSSR（3 计算/统计量的值，与临界值比较：若F值大于临界值，则拒绝原假设，认为发生了结构变化，参数是非稳定的。该检验也被称为邹氏参数稳定性检验。2.邹氏预测检验上述参数稳定性检验要求%鼠如果出现叫A，则往往进行如下的邹氏预测检验。邹氏预测检验的基本思想：先用前一时间段个样本估计原模型，再用估计出的参数进行后一时间段个样本的预测。如果预测误差较大，则说明参数发生了变化，否则说明参数是稳定的。分别以小。表示第一与第二时间段的参数，则K=X 尸+%Y2=X2a+/=X?B+X2(a-/3)+U2-X2/3+y+u2(4.5.24)其中y=X2(a-/3),如果y=0,贝tl a=

28、f3,表明参数在估计期与预测期相同式(4524)的矩阵式为:(匕)(X.010(%)二+(4.5.25)可见，用前个样本估计可得前4个参数万的估计,而不外是用后个样本测算的预测误差 r=如果参数没有发生变化，则 X29,-矩阵式简化为U2“、ui)(4.5.26)AJ式(4526)与式(4.5.25)分别可看成受约束与无约束回归模型，于是有如下尸检验：F(RSSR-RSSU)/(ku kR)(RSSR-RSS)/n2 r=-=-RSS(fi-k-1)RSSu/(n&-1)这里：2 kn2 RSSRSS、邹氏预测检验步骤:第一步，在两时间段的合成大样本下做OLS回归,得受约束模型的残差平

29、方和KSSR；第二步，对前一时间段的由个子样做OLS回归，得残差平方和ASSi；第三步，计算检验的歹统计量，做出判断：给定显著性水平查歹分布表，得临界值F(%,nrk-l)o 如果FF(n2,nrk-l),则拒绝原假设，认为预测期发生了结构变化。由例4-2,利用OLS分别对190L1927年和两个子区间1901-1911年、1912-1927年进行估计，估计结果分别为logy=1.036+0.1221ogK+0.94410gLSe(0.368)(0.088)(0.149)R2=0.975 F=176.291 RSS=0.101(样本区间1901-1912年)logy=1.022+0.5

30、061ogK+0.461 log 2Se(0.495)(0.141)(0.187)R2=0.938 F=90.545 RSS=0.610（样本区间1913/927年）由式(4523)计算方统计量为：尸 0.868(0.101+0.610)/3(0.101+0.610)/(12+15-6)1.546大于显著性水平为5%的临界值五o.o5（3,21 =3.07因此可以认为1912年发生结构变化，拒绝参数稳定的原假设。由F=(,季丁得,进行邹氏预测检验:RSS1 l(nr-k-Y)厂(RSSRRSS)n,(0.868-0.101)/15/-RSSJ(nk D 0.101/(12-2-1)-,大于显著性水平为5%的临界值户005（15,9 =3.01，拒绝参数稳定的原假设。4.6案例分析例4-3某市财政教育经费支出分析

展开阅读全文

第4章 多元线性回归模型.pdf

第4章多元线性回归模型.pdf