资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第三多元线性回归分析,(优选)第三多元线性回归分析,一、多元线性回归模型,多元线性回归模型,:,表现在线性回归模型中的解释变量有多个。,一般表现形式,:,i,=1,2,n,其中,:,k,为解释变量的数目,,j,称为,回归参数,(,regression coefficient,)。,习惯上,:把,常数项,看成为一,虚变量,的系数,该虚变量的样本观测值始终取,1,。这样:,模型中解释变量的数目为(,k,+1,),也被称为,总体回归函数,的,随机表达形式,。它 的,非随机表达式,为,:,方程表示:,各变量,X,值固定时,Y,的平均响应,。,j,也被称为,偏回归系数,,表示在其他解释变量保持不变的情况下,,X,j,每变化,1,个单位时,,Y,的均值,E(Y),的变化,;,或者说,j,给出了,X,j,的单位变化对,Y,均值的“直接”或“净”(不含其他变量)影响。,总体回归模型,n,个随机方程的矩阵表达式为,其中,样本回归函数,:用来估计总体回归函数,其,随机表示式,:,e,i,称为,残差,或,剩余项,(residuals),,可看成是总体回归函数中随机扰动项,i,的近似替代。,样本回归函数,的,矩阵表达,:,或,其中:,二、多元线性回归模型的基本假定,假设,1,,解释变量是非随机的或固定的,且各,X,之间互不相关(无多重共线性)。,假设,2,,随机误差项具有零均值、同方差及不序列相关性,假设,3,,解释变量与随机项不相关,假设,4,,随机项满足正态分布,上述假设的,矩阵符号表示,式:,假设,1,,,n,(,k,+1),矩阵,X,是非随机的,且,X,的秩,=,k,+1,,即,X,满秩。,假设,2,,,假设,3,,,E(,X,)=0,,即,假设,4,,向量,有一多维正态分布,即,同一元回归一样,多元回归还具有如下两个重要假设:,假设,5,,,样本容量趋于无穷时,各解释变量的方差趋于有界常数,即,n,时,,或,其中:,Q,为一非奇异固定矩阵,矩阵,x,是由各解释变量的离差为元素组成的,n,k,阶矩阵,假设,6,,回归模型的设定是正确的。,3.2,多元线性回归模型的估计,估计方法:,OLS,、,ML,或者,MM,一、普通最小二乘估计,*二、最大或然估计,*三、矩估计,四、参数估计量的性质,五、样本容量问题,六、估计实例,一、普通最小二乘估计,对于随机抽取的,n,组观测值,如果,样本函数,的参数估计值已经得到,则有:,i=1,2n,根据,最小二乘原理,,参数估计值应该是下列方程组的解,其中,于是得到关于待估参数估计值的,正规方程组,:,正规方程组,的,矩阵形式,即,由于,XX,满秩,故有,将上述过程用,矩阵表示,如下:,即求解方程组:,得到:,于是:,116),n-k8时,t分布较为稳定,易知MM估计量与OLS、ML估计量等价。,假设3,E(X)=0,即,中国居民人均收入-消费支出二元模型例中:2001年人均GDP:4033.,三、变量的显著性检验(t检验),在变量的显著性检验中已经知道:,另一方面,两个统计量之间有如下关系:,包括常数项在内的3个解释变量都在95%的水平下显著,都通过了变量显著性检验。,H1:j不全为0,1:(0.,F检验的思想来自于总离差平方和的分解式:,ei称为残差或剩余项(residuals),可看成是总体回归函数中随机扰动项i的近似替代。,二元模型:F=2057.,总离差平方和的分解,例:,在例的,家庭收入,-,消费支出,例中,,可求得,于是,正规方程组,的另一种写法,对于,正规方程组,于是,或,(*),或(*)是多元线性回归模型,正规方程组,的另一种写法,(*),(*),样本回归函数的离差形式,i=1,2n,其,矩阵形式,为,其中,:,在离差形式下,参数的最小二乘估计结果为,随机误差项,的方差,的无偏估计,可以证明,随机误差项,的方差的无偏估计量为,*二、最大或然估计,对于多元线性回归模型,易知,Y,的随机抽取的,n,组样本观测值的联合概率,即为变量,Y,的,或然函数,对数或然函数为,对对数或然函数求极大值,也就是对,求极小值。,因此,参数的,最大或然估计,为,结果与参数的普通最小二乘估计相同,*三、矩估计,(,Moment Method,MM,),OLS,估计是通过得到一个关于参数估计值的,正规方程组,并对它进行求解而完成的。,该正规方程组,可以从另外一种思路来导,:,求期望,:,称为原总体回归方程的一组,矩条件,,表明了原总体回归方程所具有的内在特征。,由此得到,正规方程组,解此正规方程组即得参数的,MM,估计量。,易知,MM,估计量,与,OLS,、,ML,估计量等价,。,矩方法,是,工具变量方法,(Instrumental Variables,IV),和,广义矩估计方法,(Generalized Moment Method,GMM),的基础,在,矩方法,中关键是利用了,E(,X,)=,0,如果某个解释变量与随机项相关,只要能找到,1,个工具变量,仍然可以构成一组矩条件。这就是,IV,。,如果存在,k+,1,个变量与随机项不相关,可以构成一组包含,k+,1,方程的矩条件。这就是,GMM,。,二、方程的显著性检验(F检验),05,查分布表,得到临界值:,样本最小容量必须不少于模型中解释变量的数目(包括常数项),即,在满足基本假设的情况下,其结构参数的普通最小二乘估计、最大或然估计及矩估计仍具有:,3 多元线性回归模型的统计检验,一、拟合优度检验,随机误差项的方差的无偏估计,实测值(90年价)=1782.,四、参数估计量的性质,n-k8时,t分布较为稳定,四、参数估计量的性质,*二、最大或然估计,05,查分布表,得到临界值:,方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。,估计区间:19792000年,四、参数估计量的性质,在满足基本假设的情况下,其结构参数,的,普通最小二乘估计,、,最大或然估计,及,矩估计,仍具有:,线性性,、,无偏性,、,有效性,。,同时,随着样本容量增加,参数估计量具有:,渐近无偏性、渐近有效性、一致性,。,1,、线性性,其中,C,=,(XX),-1,X,为一仅与固定的,X,有关的行向量,2,、无偏性,这里利用了假设,:,E(,X,)=,0,3,、有效性(最小方差性),其中利用了,和,五、样本容量问题,所谓,“,最小样本容量,”,,即从最小二乘原理和最大或然原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。,最小样本容量,样本最小容量必须不少于模型中解释变量的数目(包括常数项),即,n,k,+1,因为,无多重共线性要求:秩,(,X,)=,k,+1,2,、满足基本要求的样本容量,从统计检验的角度,:,n,30,时,,Z,检验才能应用;,n-,k,8,时,t,分布较为稳定,一般经验认为,:,当,n,30,或者至少,n,3(,k,+1),时,才能说满足模型估计的基本要求。,模型的良好性质只有在大样本下才能得到理论上的证明,六、多元线性回归模型的参数估计实例,例,在例中,已建立了,中国居民人均消费,一元线性模型。这里我们再考虑建立多元线性模型。,解释变量:,人均,GDP,:,GDPP,前期消费:,CONSP(-1),估计区间,:,19792000,年,Eviews,软件估计结果,3.3,多元线性回归模型的统计检验,一、拟合优度检验,二、方程的显著性检验,(F,检验,),三、变量的显著性检验(,t,检验),四、参数的置信区间,一、拟合优度检验,1,、可决系数与调整的可决系数,则,总离差平方和的分解,由于,=0,所以有:,注意:一个有趣的现象,可决系数,该统计量越接近于,1,,模型的拟合优度越高。,问题:,在应用过程中发现,如果在模型中增加一个解释变量,,R,2,往往增大(,Why?),这就给人,一个错觉,:,要使得模型拟合得好,只要增加解释变量即可,。,但是,现实情况往往是,由增加解释变量个数引起的,R,2,的增大与拟合好坏无关,,,R,2,需调整,。,调整的可决系数,(,adjusted coefficient of determination,),在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以,调整的思路是,:,将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响,:,其中:,n-k,-1,为残差平方和的自由度,,n,-1,为总体平方和的自由度。,*,2,、赤池信息准则和施瓦茨准则,为了比较所含解释变量个数不同的多元回归模型的拟合优度,常用的标准还有,:,赤池信息准则,(,Akaike information criterion,AIC,),施瓦茨准则,(,Schwarz criterion,,,SC,),这两准则均要求,仅当所增加的解释变量能够减少,AIC,值或,AC,值时才在原模型中增加该解释变量,。,Eviews,的估计结果显示:,中国居民消费二元例中:,AIC=6.68 AC=6.83,中国居民消费一元例中:,AIC=7.09 AC=7.19,从这点看,可以说前期人均居民消费,CONSP(-1),应包括在模型中。,二、方程的显著性检验,(F,检验,),方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。,1,、方程显著性的,F,检验,即检验模型,Y,i,=,0,+,1,X,1i,+,2,X,2i,+,k,X,ki,+,i,i=1,2,n,中的参数,j,是否显著不为,0,。,可提出如下原假设与备择假设:,H,0,:,0,=,1,=,2,=,k,=0,H,1,:,j,不全为,0,F,检验的思想,来自于总离差平方和的分解式:,TSS=ESS+RSS,如果这个比值较大,则,X,的联合体对,Y,的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。,因此,可通过该比值的大小对总体线性关系进行推断,。,根据数理统计学中的知识,在原假设,H,0,成立的条件下,统计量,服从自由度为,(,k,n,-,k,-,1),的,F,分布,给定显著性水平,,可得到临界值,F,(,k,n-k-,1,),,由样本求出统计量,F,的数值,通过,F,F,(,k,n-k-,1,),或,F,F,(,k,n-k-,1,),来拒绝或接受原假设,H,0,,以判定原方程,总体上,的线性关系是否显著成立。,对于中国居民人均消费支出的例子:,一元模型:,F=285.92,二元模型:,F=2057.3,给定显著性水平,=0.05,,查分布表,得到临界值:,一元例:,F,(1,21,)=,4.32,二元例,:,F,(2,19,)=,3.52,显然有,F,F,(,k,n-k-,1,),即二个模型的线性关系在,95%,的水平下显著成立。,2,、,关于拟合优度检验与方程显著性检验关系的讨论,由,可推出:,与,或,在中国居民人均收入,-,消费,一元模型,中,,在,中国居民人均收入,-,消费,二元模型,中,,,三、变量的显著性检验(,t,检验),方程的,总体线性,关系显著,每个解释变量,对被解释变量的影响都是显著的,因此,必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。,这一检验是由对变量的,t,检验完成的。,1,、,t,统计量,由于,以,c,ii,表示矩阵,(XX),-1,主对角线上的第,i,个元素,于是参数估计量的方差为:,其中,2,为随机误差项的方差,在实际计算时,用它的估计量代替,:,因此,可构造如下,t,统计量,2,、,t,检验,设计原假设与备择假设:,H,1,:,i,0,给定显著性水平,,可得到临界值,t,/2,(,n-k-,1,),,由样本求出统计量,t,的数值,通过,|t|,t,/2,(,n-k-,1,),或,|t|,t,/2,(,n-k-,1,),来拒绝或接受原假设,H,0,,从而,判定对应的解释变量是否应包括在模型中。,H,0,:,i,=0,(,i=1,2k,),注意:,一元线性回归中,,t,检验与,F,检验一致,一方面,,,t,检验与,F,检验都是对相同的原假设,H,0,:,1,=0,进行,检验,;,另一方面,,两个统计量之间有如下关系:,在,中国居民人均收入,-,消费支出二元模型,例中,由应用软件计算出参数的,t,值:,给定显著性水平,=0.05,,查得相应临界值:,t,0.025,(,19,),=2.093,。,可见,,计算的所有,t,值都大于该临界值,,所以拒绝原假设。即,:,包括常数项在内的,3,个解释变量都在,95%,的水平下显著,都通过了变量显著性检验。,四、参数的置信区间,参数的置信区间,用来考察:,在一次抽样中所估计的参数值离参数的真实值有多“近”,。,在变量的显著性检验中已经知道:,容易推出,:在,(1-,),的置信水平下,i,的置信区间是,其中,,t,/2,为显著性水平为,、自由度为,n,-,k,-1,的临界值。,在,中国居民人均收入,-,消费支出二元模型,例中,给定,=0.05,,查表得临界值:,t,0.025,(,19,),=2.093,计算得参数的置信区间:,0,:,(44.284,197.116),1,:,(0.0937,0.3489),2,:,(0.0951,0.8080),从回归计算中已得到:,如何才能缩小置信区间?,增大样本容量,n,,因为在同样的样本容量下,,n,越大,,t,分布表中的临界值越小,同时,增大样本容量,还可使样本参数估计量的标准差减小;,提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型优度越高,残差平方和应越小。,提高样本观测值的分散度,一般情况下,样本观测值越分散,,,(XX),-1,的分母的,|XX|,的值越大,致使区间缩小。,3.4,多元线性回归模型的预测,一、,E(Y,0,),的置信区间,二、,Y,0,的置信区间,对于模型,给定样本以外的解释变量的观测值,X,0,=(1,X,10,X,20,X,k0,),,可以得到被解释变量的预测值:,它可以是总体均值,E(Y,0,),或个值,Y,0,的预测。,但严格地说,,这只是被解释变量的预测值的估计值,而不是预测值。,为了进行科学预测,还需求出预测值的置信区间,包括,E(Y,0,),和,Y,0,的置信区间,。,一、,E(Y,0,),的置信区间,易知,容易证明,于是,得到,(1-,),的置信水平下,E(,Y,0,),的,置信区间,:,其中,,t,/2,为,(1-,),的置信水平下的,临界值,。,二、,Y,0,的置信区间,如果已经知道实际的预测值,Y,0,,那么预测误差为:,容易证明,1、方程显著性的F检验,这里利用了假设:E(X)=0,六、多元线性回归模型的参数估计实例,所谓“最小样本容量”,即从最小二乘原理和最大或然原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。,对于中国居民人均消费支出的例子:,例:在例的家庭收入-消费支出例中,,05,查分布表,得到临界值:,估计区间:19792000年,同一元回归一样,多元回归还具有如下两个重要假设:,Yi=0+1X1i+2X2i+kXki+i i=1,2,n,三、变量的显著性检验(t检验),因此,参数的最大或然估计为,于是人均居民消费的预测值为,估计方法:OLS、ML或者MM,给定样本以外的解释变量的观测值X0=(1,X10,X20,Xk0),可以得到被解释变量的预测值:,e,0,服从正态分布,即,构造,t,统,计量,可得给定,(1-,),的置信水平下,Y,0,的,置信区间,:,中国居民人均收入,-,消费支出,二元模型,例中:,2001,年人均,GDP,:,4033.1,元,,于是,人均居民消费的预测值,为,2001,=120.7+0.22134033.1+0.45151690.8=1776.8,(元),实测值,(,90,年价),=,1782.2,元,,相对误差:,-0.31%,预测的置信区间,:,
展开阅读全文