资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,自相关问题,一、自相关的性质,二、自相关的后果,三、自相关的检验,四、自相关的修正,一、序列相关性的性质,如果对于不同的样本点,随机误差项之间不再是不相关的,而是存在某种相关性,则认为出现了,序列相关性,(Serial Correlation),。,对于模型,Y,i,=,0,+,1,X,1i,+,2,X,2i,+,+,k,X,ki,+,i,i,=1,2,n,随机项互不相关的基本假设表现为,Cov(,i,j,)=0,i,j,i,j,=1,2,n,称为,一阶序列相关,,或,自相关,(,autocorrelation,),其中:,被称为,自协方差系数,(,coefficient of,autocovariance,)或,一阶自相关系数,(,first-order coefficient of autocorrelation,),如果仅存在,E(,i,i+1,),0,i,=1,2,n,自相关,往往可写成如下形式,:,i,=,i,-1,+,i,-1,1,如果因变量观测值之间存在自相关,则随机干扰项之间就存在自相关。,实际经济问题中的序列相关性,(截面数据中的序列相关性举例)(时间序列数据中的序列相关性举例),截面数据中因变量取值之间(或误差项取值之间)自相关的解释,一个家庭收入增加对自己消费支出的影响(比如增加自己消费支出),这种影响会波及其他家庭,很有可能迫使另外的某个家庭增加消费支出(死要面子,相互攀比)。因此这两个家庭的消费支出数额之间就存在相关性。进而各自误差项的取值之间也就存在相关性。,这类相关性称为空间相关,是就截面数据而言的。,可以从下表中找到解释,表,2.1.1,某社区家庭每月收入与消费支出统计表,(截面数据),每月家庭可支配收入,X,(,元,),800,1100,1400,1700,2000,2300,2600,2900,3200,3500,561,638,869,1023,1254,1408,1650,1969,2090,2299,594,748,913,1100,1309,1452,1738,1991,2134,2321,627,814,924,1144,1364,1551,1749,2046,2178,2530,638,847,979,1155,1397,1595,1804,2068,2266,2629,935,1012,1210,1408,1650,1848,2101,2354,28,60,968,1045,1243,1474,1672,1881,2189,2486,2871,1078,1254,1496,1683,1925,2233,2552,1122,1298,1496,1716,1969,2244,2585,1155,1331,1562,1749,2013,2299,2640,1188,1364,1573,1771,2035,2310,1210,1408,1606,1804,2101,1430,1650,187,0,2112,1485,1716,1947,2200,每,月,家,庭,消,费,支,出,Y,(元),2002,共计,2420,4950,11495,16445,19305,23870,25025,21450,21285,15510,时间序列数据中变量取值之间(或误差项取值之间)自相关的解释,众所周知,,GDP,等时间序列都呈现出周期性。当经济复苏时,存在某种力量推动序列上移,在,GDP,序列由谷底向上移动的过程中,序列在某一时点的值会大于其前期值。因此,连续的因变量观察值很可能是相互依赖或相关的。,这类相关性是就时间序列数据而言的。可以从下表中找到解释,10,时间序列数据,:,对变量在不同时间所取的观测值。,中国,1978,年,2001,年的,GDP,数据,1978,1979,1980,1981,1982,1983,1984,1985,1986,1987,1988,1989,3624.1,4038.2,4517.8,4862.4,5294.7,5934.5,7171,8964.4,10202.2,11962.5,14928.3,16909.2,1990,1991,1992,1993,1994,1995,1996,1997,1998,1999,2000,2001,18547.9,21617.8,26638.1,34634.4,46759.4,58478.1,67884.6,74462.6,78345.2,82067.46,89442.2,95933.3,随机干扰项关系图,二、自相关的后果,1.,最小二乘估计量仍然是线性的和无偏的,2.,但不是有效的。,3.,计算得到的 不是 的无偏估计量,而是有偏差的,.,3.,因此,,OLS,估计量的方差(该方差的计算公式中含有 )是有偏,(,差)的。,4.,因此,通常所用的,t,检验和,F,检验是不可靠的。,序列相关性,检验方法有多种,但基本思路相同:,基本思路,:,三、序列相关性的检验,检验自相关性,也就是检验随机误差项的取值之间的相关性。或者是检验被解释变量的取值之间的相关性。,但是,实际检验中有一个问题,因为无法得到总体回归模型的随机误差项的取值,这些真实的取值是无法观察的。因此,我们只能根据所给定的一个样本,采用,OLS,法进行样本回归模型的拟合,从而得到样本残差序列,e,,再利用,e,的取值判断是否存在自相关。,真实的随机扰动项无法得知,只能利用回归残差来做图形判断。缺点:定性判断,无定量结论。,方法一,:,对时间做散点图,对自相关程度作直观判断。该散点图此时称为,“,时序图,”,。,方法二,:,对前后期残差作相关图。该法更直观。,自相关检验方法之一:图示法,图示法(一),做残差关于时间的散点图(时序图),看是否存在可识别的系统模式。若有,则存在自相关。,图示法(二),做残差前后期的散点图,如果趋势为“右上,”,则为正相关,反之,负相关。若平行,则无自相关。,图示法,案例,影响居民消费的因素很多,但由于受各种条件的限制,通常只引入居民收入一个变量做解释变量,即消费模型设定为,式中,,Yt,为农村居民人均消费支出,,X t,为农村人均居民纯收入,,ut,为随机误差项。下表是从,中国统计年鉴,收集的中国农村居民,1985-2003,年的收入与消费数据。,年份,全年人均纯收入,(现价),全年人均消费性支出,(现价),消费价格指数,(,1985=100,),人均实际纯收入,(,1985,可比价),人均实际消费性支出,(,1985,可比价),1985,1986,1987,1988,1989,1990,1991,1992,1993,1994,1995,1996,1997,1998,1999,2000,2001,2002,2003,397.60,423.80,462.60,544.90,601.50,686.30,708.60,784.00,921.60,1221.00,1577.70,1923.10,2090.10,2162.00,2214.30,2253.40,2366.40,2475.60,2622.24,317.42,357.00,398.30,476.70,535.40,584.63,619.80,659.80,769.70,1016.81,1310.36,1572.10,1617.15,1590.33,1577.42,1670.00,1741.00,1834.00,1943.30,100.0,106.1,112.7,132.4,157.9,165.1,168.9,176.8,201.0,248.0,291.4,314.4,322.3,319.1,314.3,314.0,316.5,315.2,320.2,397.60,399.43,410.47,411.56,380.94,415.69,419.54,443.44,458.51,492.34,541.42,611.67,648.50,677.53,704.52,717.64,747.68,785.41,818.86,317.40,336.48,353.42,360.05,339.08,354.11,366.96,373.19,382.94,410.00,449.69,500.03,501.77,498.28,501.75,531.85,550.08,581.85,606.81,用,OLS,回归原始模型,用,OLS,回归原始模型,用,OLS,回归原始模型结果,作当期残差与前期残差的关系图,Workfile,中可见到,e,作当期残差与前期残差的关系图时所用命令,得到:当期残差与前期残差的关系图,点击上面,Equation,输出窗口的按钮,Resids,可得到残差图,从残差图可见,残差的变动有系统模式,连续为正和连续为负,表明残差项存在一阶正自相关,如下图所示。,作残差与时间的关系图,得到:残差与时间的关系图,检验自相关方法之二:德宾,-,沃森,d,检验(,D.W,检验),(,Durbin-Watson Test,),诊断自相关最著名的检验,针对原假设,“,无一阶自相关,”,,构造如下,d,统计量:,构造,d,统计量的基本假定(要求),1,、回归模型包含截距项,2,、变量,X,是非随机变量,3,、随机干扰项的生成方式是,“,一阶自回归模式,”,4,、模型中不包含因变量的滞后项。,附注:自相关的模式,随机干扰项自相关的模式有多种多样,在实际应用中通常要事先假定其自相关模式,或者说事先设定其生成方式,然后在此基础上进行分析。通常考虑的自相关模式为“一阶自回归模式,”,。,一阶自回归模式:,AR(1),二阶自回归模式:,AR(2),U,t,=,1,u,t-1,+,2,u,t-2,+v,DW,检验的粗略判定法则,1,d=4,2,d=2,3,d=0,DW,检验步骤,1.,对原模型进行,OLS,回归,得到样本残差序列,e,2.,根据,d,统计量计算公式,得到,d,值(,eviews,软件对原始模型回归时自动给出,d,值),3.,根据样本容量和原模型解释变量的个数,查表得到临界的,DL,和,DU,(即,D,的下临界值和上临界值),4.,根据,d,检验的判定规则来判断是否存在自相关。,d,检验的判定规则,零假设:无一阶自相关。具体又分为二:,根据原模型,OLS,回归结果中输出的,D,值判断有无自相关性,原回归方程可决系数较高(,0.9788,),回归系数均显著。对样本量为,19,、一个解释变量的模型、,5%,显著水平,查,DW,统计表可知,,dL,=1.18,,,dU,=1.40,,模型中,DW,(,0.7704,),5.99147,,,因此拒绝原假设,接受备择假设,也就所原模型的残差存在自相关,又因为,工具模型右边的滞后一期残差与滞后二期残差的回归系数均显著地不为,0,(通过,t,检验),说明原来的双对数模型存在二阶自相关性。,根本大法:广义差分法,但根据对随机扰动项之间的相关系数的估计方法不同,又分成几个分支。,四、自相关的补救(修正),关于差分的理解,差分就是增量的意思。,比如,GDP,2010,=GDP,2010,-GDP,2009,上述表达式就是(狭义上)的差分的意思。,那么,什么是广义差分的意思呢?,GDP,2010,(广义),=GDP,2010,-0.8GDP,2009,GDP,2010,(更加广义),=GDP,2010,-0.8GDP,2009,-0.85GDP,2008,以上两个表达式就是广义上差分的意思,简称广义差分。(要注意的是,0.8,和,0.85,是为了理解这个概念而随机赋的值),对序列相关进行补救需要事先对随机干扰项的生成方式进行设定。,最常见的做法是假定随机干扰项的生成方式为,AR(1),或,AR(P),,然后采取补救措施。,关于随机干扰项生成方式的假定,先以双变量模型为例来说如何将原模型变换为广义差分模型,以消除自相关,原双变量模型:,Y,t,=B,1,+B,2,X,t,+U,t,假设误差项服从一阶自回归过程,:,U,t,=u,t-1,+v,t,再把原模型写成滞后一期的形式:,Y,t-1,=B,1,+B,2,X,t-1,+U,t-1,两边同时乘以,得到:,Y,t-1,=B,1,+B,2,X,t-1,+U,t-1,将原双变量模型减去“两边乘以,的模型”得到:,Y,t,-Y,t-1,=B,1,(1-)+B,2,(X,t,-X,t-1,)+v,t,此时,最后那个模型就是广义差分模型,将,Y,t,-Y,t-1,和,X,t,-X,t-1,看作两个新的变量,Y*,和,X*,再用,OLS,法进行估计。,第一种方法:,利用原始模型的残差估计,,进而再使用广义差分法,首先,利用当期残差与前期残差进行回归。注意:没有截距项。,0.496086,便是当期残差与前期残差之间的相关系数,这就是,的估计值,对原模型进行广义差分变换,得到广义差分方程:,Y,t,-,0.496086,Y,t-1,=,1,(1-,0.496086,)+,2,(X,t,-,0.496086,X,t-1,)+v,t,利用,0.496086,对原始模型进行广义差分变换,对广义差分方程进行,OLS,估计(首先要生成新序列),对,x,进行差分变换,生成新序列,X1,Workfile,中见到差分变换后的新序列,用,OLS,法对广义差分模型进行拟合,由于使用了广义差分数据,样本容量减少了,1,个,为,18,个。查,5%,显著水平的,DW,统计表可知,dL,=1.16,,,dU,=1.39,,模型中,DW,=1.397593,dU,,说明广义差分模型中已无自相关,.,用,OLS,法对广义差分模型进行拟合的结果,第二种方法:,利用原模型回归结果中的,DW,值估计,,进而再使用广义差分法,DW,值与,的估计值之间有如下近似关系:,DW,值,2*,(,1-,的估计值),的估计值,1-,(,DW,值,/2,),=1-(0.77047/2)=,0.6148,(,注:原模型的,DW,值为,0.77047,),对原模型进行广义差分变换,得到广义差分方程:,Y,t,-0.6148Y,t-1,=,1,(1-0.6148)+,2,(Xt-0.6148X,t-1,)+v,t,利用,0.6148,对原始模型进行广义差分变换,对广义差分方程进行,OLS,估计(首先要生成新序列),对,x,进行差分变换,生成新序列,X2,Workfile,中可见到新序列,Y2,X2,用,OLS,法对广义差分模型进行拟合,用,OLS,法对广义差分模型进行拟合的结果,由于使用了广义差分数据,样本容量减少了,1,个,为,18,个。查,5%,显著水平的,DW,统计表可知,dL,=1.16,,,dU,=1.39,,模型中,DW,=1.478094,dU,,说明广义差分模型中已无自相关,.,第三种方法:,广义差分法,之,杜宾两步法,(原)差分方程:,Y,t,-Y,t-1,=,1,(1-)+,2,(X,t,-X,t-1,)+v,t,将上述差分方程变形如下:,Yt,=Y,t-1,+,1,(1-)+,2,(X,t,-X,t-1,)+v,t,=Y,t-1,+,1,(1-)+,2,X,t,*,2,X,t-1,+v,t,采用,OLS,法估计变换后的差分方程,可以得到,Y,t-1,前面的系数,的估计值。再将,的估计值代入原差分模型,采用,OLS,法可以得到原差分模型的估计结果。,杜宾两步法案例分析,本例主要分析中国商品进口,M,与国内生产总值,GDP,的关系,选取了,1978,年到,2001,年的国内生产总值,GDP,,商品进口量,M,,,以,M,为被解释变量,,GDP,作为解释变量进行分析。,年份,国内生产总值,/,亿元,商品进品,/,亿美元,1978,3624.1,108.9,1979,4038.2,156.7,1980,4517.8,200.2,1981,4862.4,220.2,1982,5294.7,192.9,1983,5934.5,213.9,1984,7171.0,274.1,1985,8964.4,422.5,1986,10202.2,429.1,1987,11962.5,432.1,1988,14928.3,552.7,1989,16909.2,591.4,1990,18547.9,533.5,1991,21617.8,637.9,1992,26638.1,805.9,1993,34634.4,1039.6,1994,46759.4,1156.1,1995,58478.1,1320.8,1996,67884.6,1388.3,1997,74462.6,1423.7,1998,78345.2,1402.4,1999,82067.46,1657.0,2000,89442.2,2250.9,2001,95933.3,2436.1,表,4.2.1 19782001,年中国商品进口与国内生产总值,DW,值为,0.6279,,证明存在严重的自相关,。,原模型回归结果,(记住:由于有自相关性,最后会对原模型进行调整,注意最终调整后的模型与原模型的比较),原始模型的公式表达,构建以下回归得到,的估计值,的估计值为,0.846611,利用,0.8466,生成新序列,im,利用,0.8466,生成新序列,igdp,Workfile,中可见到生成的新序列,利用新序列进行,OLS,估计,利用新序列进行,OLS,估计结果,二阶自相关的修正,观察回归后的,DW,值,我们无法判断是否还存在序列相关,因此我们假定随机误差项存在二阶序列自相关,(在无法判断的情况下,宁可信其有,不可信其无),,我们再次用杜宾两步法进行修正。,在命令栏输入:,ls,m c m(-1)m(-2),gdp,gdp(-1)gdp(-2),利用该辅助回归模型对,1,和,2,进行估计,得到,1,和,2,的估计值分别为,0.9382,、,-0.4687,注:记住这两个值,在后面的讨论中会用到。,利用,0.9382,、,-0.4687,生成新序列,利用,0.9382,、,-0.4687,生成新序列,利用新序列进行,OLS,估计结果(这就是最终模型),观察,DW,值,=1.5835,。样本容量,22,,解释变量,1,个,查表得,du,(上临界值),=1.429,,此时序列相关消除。,最终模型的公式表达,注:,记住这里的,IIGDP,前的系数,0.02,以及截距项,86.08,,后面的讨论中会用到这一点。,回顾:原始模型的公式表达,回顾原始模型后发现一个问题,最终模型与原始模型的变量不一致,为了与原模型进行对比,需要将最终模型的因果变量转化为与原模型的因果变量一致。,怎么转化呢?,利用一下公式:,86.08/【1-0.9382-,(,-0.4687,),】=162.26,(用,162.26,作为调整表达形式后的最终模型的截距项,如下所示,),将最终模型的表达形式调整如下:,其中,,0.02,仍然和未调整表达形式的最终模型解释变量前的系数,0.02,相等。,重点关注:,进而推广到一般,调整表达形式(以便和原模型对比)后的最终模型的截距项估计值,=,未调整表达形式的最终模型的截距项估计值,/,(,1-,1,-,2,-,p,),如果只有一阶自回归,分母就只用减去,1,,如果是二阶自回归,就要减去,1,和,2,,依此类推。调整表达形式后的最终模型的解释变量前面的系数和未调整表达形式的最终模型的解释变量前面的相应系数相等。,第四种方法:,广义差分法,之 科克伦,-,奥科特迭代,法,(,Cochrane_Qractt,),在,Eviews,中,可以采用很简单的方法来实现广义差分法参数估计。,原来的广义差分模型通过改写之后,(至于如何改写,可不必追究),,可以利用,OLS,法估计参数,选择常数项,,X1,,,X2,AR(1),AR(2),作为解释变量,即可得到常数项的估计值、,X,前面系数的估计值以及,的估计值,【,即,AR(1),AR(2),前面的系数,】,。,至于选择几阶随机干扰项的自回归项作为解释变量,主要判断依据是,DW,统计量,逐次引入自回归项,直到满意为止,即没有自相关性为止。,科克伦,-,奥科特迭代,法案例分析,本例主要分析中国商品进口,M,与国内生产总值,GDP,的关系,选取了,1978,年到,2001,年的国内生产总值,GDP,,商品进口量,M,,,以,M,为被解释变量,,GDP,作为解释变量进行分析。,年份,国内生产总值,/,亿元,商品进品,/,亿美元,1978,3624.1,108.9,1979,4038.2,156.7,1980,4517.8,200.2,1981,4862.4,220.2,1982,5294.7,192.9,1983,5934.5,213.9,1984,7171.0,274.1,1985,8964.4,422.5,1986,10202.2,429.1,1987,11962.5,432.1,1988,14928.3,552.7,1989,16909.2,591.4,1990,18547.9,533.5,1991,21617.8,637.9,1992,26638.1,805.9,1993,34634.4,1039.6,1994,46759.4,1156.1,1995,58478.1,1320.8,1996,67884.6,1388.3,1997,74462.6,1423.7,1998,78345.2,1402.4,1999,82067.46,1657.0,2000,89442.2,2250.9,2001,95933.3,2436.1,表,4.2.1 19782001,年中国商品进口与国内生产总值,DW,值为,0.6279,,证明存在严重的自相关,。,原模型回归结果,先引入,AR(1),进行回归,DW,值显示,依然存在自相关,再引入,AR(2),进行回归,回归结果显示,,DW=1.853,。样本容量,22,,解释变量,3,个,因此查表得到的,Du,(,上临界值),=1.664,,因此已经不存在自相关了,因此,经过广义差分变换之后的模型表达式如下,由于该模型表达式已经和原模型表达式的因果变量一致,因此没必要进一步调整,就可以直接与原模型进行对比了。与原模型的对比可以发现,截距项有差别,,GDP,前面的系数(基本)没有差别。,
展开阅读全文