资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第,5,章 单方程模型的其它形式,5.1 虚拟因变量模型,(5.1.1 模型中设置虚拟因变量的必要性;5.1.2 线性概率模型的估计方法;5.1.3 非线性概率模型),5.2 滞后变量模型,(5.2.1 滞后变量模型的建立;5.2.2 无限期分布滞后模型的估计问题;5.2.3 柯克估计法;5.2.4 阿尔蒙估计法),5.3 时间序列模型,(5.3.1 时间序列模型的一般性质;5.3.2 自回归过程及其平稳条件;5.3.3 单位根检验;5.3.4 协整理论;5.3.5自回归过程的识别和估计;),硕士生经济计量学第二讲,5.1,虚拟因变量模型,虚拟变量作为一种变量类型,既可以作为自变量,无疑也可以作为因变量。只是虚拟变量作为因变量时,无法直接用OLS方法估计模型中的参数罢了。,5.1.1 模型中设置虚拟因变量的必要性,在现实生活中,对于许多事情人们常常会持有两种截然不同的态度,因而必然会有两种截然不同的选择。比如:,1)在调查社会公众对于发行公债的态度时,必然会得到“赞成”和“反对”结果,或者是取“购买”和“不购买”两种选择。究竟取何种态度和行为,无疑与调查对象的知识水平和收入状况等因素有关。,2)在对学龄儿童的入学率进行考察时,无疑也只能有两种结果,即或者“已入学(在读)”或者“未入学(裰学)”。究竟属何种情况,无疑与所在家庭的经济状况或收入水平及,家庭结构有关(在日本成年女性的就业也是如此)。,3)对于耐用消费品(比如汽车、住房等)的拥有情况进行调查,可能的情况无疑也只能是两种,即“有”和“没有”。究竟属于何种情况,显然与个人的收入状况有着密切的关系。,4)调查某一种药品是否有效,显然也只能是两种结果,即“有效”和“无效”。究竟为何者,取决于患者的病史、年龄等多种相关情况。,对于上述多种情况,即可以引入二进制变量Y,设模型的形式为:,其中:,k 是相关因素数目。,显然,在 E(U,i,)=0 的条件下,应有:,另一方面,如果以 p,i,表示 Y,i,1 的概率,则 1p,i,便是 Y,i,0 的概率,于是 Y,i,的概率分布便是:,因此,应有:,结合(5-2)和(5-3)二式,显然应有:,这就说明,因变量 Y,i,的条件期望可以解释为第 i 个调查对象取 1 的概率,或者说,是第 i 个调查对象赞成、在读、拥有和有效的概率。由于概率 p,i,的数值要求必须介于0和1之间,所以 Y,i,的条件期望必须满足:,0 E(Y,i,|X,i,)1 (5-5),也正是由于 Y,i,的条件期望具有概率含义,所以模型(5-1)就称作为,线性概率模型。,由于其中的 Y 只取0或1,所以模型也称作,二元选择模型。,在线性概率模型中,回归系数通常就被解释为当相应的自变量改变1个单位时,发生某件事(即因变量取1)的条件概率的变动值。假定在模型(5-1)中,k1,Y,i,表示居民对小车的拥有情况,X,i,为以万元为单位的家庭年收入,如果,1,=0.05,就意味着当一个家庭比另一个家庭年收入多1万元时,这个家庭拥有小汽车的机会就比另一个家庭大5。,5.1.2,线性概率模型的估计方法,模型(,5-1,)在形式上与普通线性回归模型没有什么不同,因此无疑可以用,OLS,方法估计其中的参数。,以我国,2004,年,30,个省区每百户是否拥有,1,辆以上的家用汽车数据为例,显然这一变量与该地区人均的生产总值有关。有关资料见,表,5-1,。,在表,5-1,中人均生产总值单位为:万元,/,人。应用表,5-1,的数据进行回归,得到的结果(注意:回归结果中包括海南省的数据:,2.25,和,0.945,)如下:,显然,回归系数是显著的,模型的总显著性也是不错的。该模型表明,一个地区的人均生产总值每增加,1,万元,该地区每百户拥有一辆以上家用汽车的概率将增加,21.6%,。在这里,常参数为非零表明,一个地区每百户是否拥有,1,辆以上的家用汽车,除了受该地区人均生产总值的影响以外,,还受到其他因素的影响。,不过,由于 Y 是虚拟变量,这里存在着几个不同于一般回归模型的新问题。,(1)随机项 U 不服从正态分布,由于在模型(5-1)中Y 是二值变量,U 因而也必然为二值变量,这时对U再做正态性假定已不可能。根据(5-1)和(5-4),应有:,亦即:,这就是说,对于一定的 X,U 只有两种可能与之对应。所以,U 的分布一定不是连续型的正态分布。,(2)随机项 U 具有异方差性,对于模型(5-1),即使 E(U,i,)=0,E(U,i,U,j,)=0,U的常方差性也不可能保持。我们已经知道,U 有如下分布:,所以,在 E(U,i,)=0 的条件下,应有:,显然,由于 p,i,对于不同的自变量 X,i,有不同的值,所有,U 的方差必然表现为异方差性。在第四章我们已经知道,异方差性将使得OLS估计量的方差增大或减小,因而将使得对参数的可靠性检验结果变得不可信。所以,在采用OLS方法对线性概率模型进行估计时,必须先处理异方差问题。处理异方差时,用Y的估计值代替p即可。,(3)条件,0E(Y,i,|X,i,)1,不完全满足,由于Y只能取0或1两个值,所以,观测值的分布在k1的情况下必然如,图5-1,所示。记回归直线与直线Y0和Y1的交点横坐标分别为X0和X1,则很显然,当XX1时,E(Y|X)1。所以,在使用线性概率模型的情况下,通常需要规定:当E(Y|X)1时,Y的估计值取1。,不过,对这一问题最好的处理办法,是放弃线性模型,而改用对于任意自变量都能满足要求的非线性模型。,图5-1,(4)拟合优度不可能很大,由图5-1不难看出,由于因变量是二值变量,所有观测值均集中在横轴和另一平行于横轴的直线上,因而无论用什么函数来拟合这些数据,拟合优度都不可能很大,这是线性概率模型的又一显著特点。比如,在使用表51中数据的回归结果中,可决系数仅为0.205。所以,在这里可决系数已不适宜于作为衡量拟和优度的准则。,5.1.3 非线性概率模型,常用的非线性概率模型主要有两种,一是正态累计模型,二是逻辑(Logit)模型。这两种模型的数学形式十分相似,但由于后者计算量较小,因而应用更广泛一些。所以,这里仅讨论逻辑模型。,逻辑模型的数学形式是:,在这里,令 则Y服从如下的逻辑斯蒂(Logistic)分布(函数):,这也正是模型(5-6)称作逻辑模型的原因。,由于 Y 的取值仍然是 0 或 1,所以无疑应有:,将(5-6)式的左端在Y,0,p,i,处按,泰勒级数展开,,取前两项得到:,对照(5-8)和,(5-6),应有:,由得到:,(5-9)就是统计学中的逻辑函数(或逻辑斯蒂函数),其形状如,图5-2,所示,是一条S形曲线,这种曲线常常用来研究增长问题。从图中不难看出,由逻辑模型得出的条件概率总是分布在0和1之间,而且以极限方式趋近于0和1。,图5-2,非线性概率模型的估计,主要可分为两种情况,一种是,大样本,条件下的估计方法,另一种是,小样本,条件下的估计方法。,我们已经知道,,E(Y,i,|X,i,),可以表示在,X,X,i,时,,Y,i,1,的预期概率,因而,Y,i,自然可以看成是这一概率的样本观测值,而,1,Y,i,就是,Y,i,0,的样本观测值,所以,Y,i,/(1,Y,i,),也就是观测值的概率比。因此,,对于较大的样本(,n30,),,则可以采用,分组的方法,,每一组至少,5,6,个观测值,这样即可以算出一个,Y,1,的概率来。,举例来说,假定某个自变量观测值或某一组的平均数,X,i,对应于,10,个因变量观测值,其中,6,个为,1,,,4,个为,0,,因此应有,Y,i,0.6,,,1,Y,i,0.4,。,0.6/0.4=1.5,,,ln 1.5=0.4055,。如此处理以后,即可得到因变量与自变量或自变量平均数的一组一一对应的观测值,由此即可用一元线性模型的,OLS,方法估计出(,5-6,)中的参数。,当然,这样处理的前提条件是,数据必须完全是随机排列的。如果数据的排列组合具有某种人为因素,则很容易出现极端情况,从而使得概率的样本观测值出现0或1,相对集中,的情况。比如,以表51中的数据为例,如果5个观测值一组,则前5个概率为1,因而1Y0,0是不能做除数的;而后5个为0。实际中如果遇到这种情况,恰当的处理办法是扩大分组的样本容量,或者对个别1或0集中的组进行适当调整。,另外,,需要,注意分组的时候,最好每组的观测点数目是奇数,,因为偶数常常可能会遇到1和0相等的情况,这时会得到分子和分母均为0.5,导致1取对数为0的情况。,比如,对表5-1中的资料,应用分组法(每组11个观测值)得到的两组观测值如,表5-2,所示。回归后得到的模型为:,在Eviews中,也可以用Logit,命令估计非线性概率模型。,利用,该,命令估计非线性概率模型,像利用Ls命令估计线性方程模型一样,必须指定要估计的具体方程形式。如在Eviews,1,0的命令窗口输入 Logit y c x 即可得到如,表5-3,所示结果。相应的模型如下所示。不难看出,模型是充分有效的。,对于较小样本,,分组方法失去基础,这时可采用极大似然法(,Max Likelihood,,,ML,)进行估计(在,Eviews,软件中当使用命令,Logit,估计非线性概率模型用的就是,ML,方法),计算工作量相对大些,故此处从略。,Dependent Variable:Y,Method:ML-Binary,Logit,(Quadratic hill climbing),Date:03/10/14 Time:16:22,Sample:1980 2010,Included observations:31,Convergence achieved after 5 iterations,Covariance matrix computed using second derivatives,CoefficientStd.Errorz-StatisticProb.,C-2.7915631.252548-2.2287070.0258,X2.4274641.1239182.1598220.0308,McFadden R-squared0.244823Mean dependent,var,0.516129,S.D.dependent,var,0.508001S.E.of regression0.440303,Akaike,info criterion1.175144Sum squared,resid,5.622127,Schwarz criterion1.267659Log likelihood-16.21473,Hannan,-Quinn,criter,.1.205301,Restr,.log likelihood-21.47143,LR statistic 10.51340Avg.log likelihood -0.523056,Prob(LR,statistic)0.001185,Obs,with,Dep,=015Total,obs,31,Obs,with,Dep,=116,表,5-3,逻辑斯蒂模型的,EViews,估计结果,5.2.1 滞后变量模型的建立,对于相关自变量的任何变化,因变量迟早总会作出反应,这种反应既有即时效应,也有滞后效应。,滞后变量,的引入,正是为了反映这种滞后效应。引起滞后效应的原因很多,归结起来主要是三个方面:,(1)技术性原因,这主要与一些产品的生产周期较长有关。比如,农产品的生产周期一般在一年左右,因而在,市场经济体制条件下,农产品的本期供应量,常常取决于以前若干期农产品的市场价格,因为农民往往是根据当年或若干年以前的产品价格来安排制定下一年度的种植计划,5.2 滞后变量模型,再,比如,有些耐用工业品的产量,也常常由于生产周期较长,因而当期的产量往往与若干年以前的投资密切相关,等等。,(,2,)制度性原因,这主要与一些规章制度造成的约束有关。比如,由于原材料供应合同的限制,即使原材料的价格发生了变化,企业也无法在合同期满以前另觅新的货源。再比如,由于银行存款期的限制,因而对于投资者来说,有时即使出现了好的投资机会,投资者也无法或者不肯从银行取出存款用于投资。,(,3,)心理原因,这与人们的生活习惯有关。比如,即使消费者的可支配收入有了明显得增加,消费往往也不会立刻有明显的增长,因为人们要改变自己的生活消费习惯以适应新的情况,常常需要经过一段时间的调适。,在时间序列模型中引入滞后变量,通常主要有,两种情况,。一种情况是因变量除了受当期自变量影响外,还同时受到以前若干期自变量的影响。这时模型可设计为:,这一模型称作,分布滞后模型,,其中既有一期滞后变量,也有二期滞后变量,通称为X的滞后变量。这是一个三元线性模型。,另一种情况是,模型中包含属于自变量的因变量的滞后变量,这种模型称作为,自回归模型,。比如:,上述两类滞后变量模型的滞后期都是有限的。在现实的经济分析中,我们常常会说,发展中国家与发达国家的经济基础不同。这说明有些经济变量可能与几十年以前甚至几百年以前的相关变量有关。也就是说,滞后效应有时候可能非常久远,并不仅仅是以前的一两个时期。如果把,所有可能的滞后效应都考虑进来,则可得到如下更一般的滞后变量模型:,这是一个,无限期的分布滞后模型,。在这里,,i,称作第 i 期的反应系数,通常假定,i,满足:,其中,代表X的变动对于Y的长期影响,,i,代表X变动对于Y的短期影响。如果定义权重:,则模型(5-10)亦可写成:,其中,w,i,可解释为每一种短期影响在长期影响中所占的份额。,5.2.2 无限期分布滞后模型的估计问题,对于无限期的分布滞后模型,我们无法采用通常的办法来估计,由于参数多到无穷,因而任何容量有限的样本都不可能提供足够的自由度。在这种情况下,通常可以有两种办法供选择:一是采用截断法。即假定分布滞后模型是有限的,取某个时期之后的所有反应系数为0,比如说,4,及以后的所有,i,=0,,此时模型变为:,该模型原则上可以用OLS方法估计,不过存在三个方面的困难:,(1)将无限期分布滞后模型拦腰切断地做法不免带有主观随意性,因为我们并不清楚从哪一期切断更合适。,(2)各期滞后变量与当期变量本属于同一序列,一般具有相同的变化趋势,因而模型必然会受到多重共线性的影响。,以我国19812004年国内总产值(GDP)与全社会固定资产的投资总额的关系为例,毫无疑问,固定资产投资是一项具有明显滞后效应的经济活动。有关的数据如,表52,所示。,当滞后阶数I2时,由于共线性,导致所有解释变量的参数均不显著。只有当I1时的滞后模型及二阶和三阶滞后变量回归时的模型是显著有效的。一阶滞后模型是:,这一模型说明,这24年中GDP的多少与当年全社会固定资产投资成反相关,与上年的全社会固定资产投资成正相关。这可以做如此解释,即如果当年固定资产投资过大,可能会干扰GDP的正常生产,从而使GDP出现下降;而上年的固定资产投资在当年由于已经投资到位并正常发挥作用,因而将对当年的GDP生产发挥促进作用。,二阶和三阶的滞后模型是:,这一模型说明,当年的GDP多少与前两年的固定资产投资正相关,其解释与上述的一阶滞后正相关相同。当年的GDP与前3年的固定资产投资反相关可解释为,如果前3年的投资过大,可能会影响到与GDP正相关的前2年和前1年的投资额,因而与当年的GDP为反相关。,(3)滞后变量的引入,会损失一些观测值。一般地说,在模型中引入m期滞后变量,通常会损失m对观测值。所以,对于滞后变量模型,要以一定的精度估计出模型中的参数,要求必须掌握足够多的原始数据。由于经济数据的收集经常会受到很多条件的限制,因而估计这类模型经常会遇到数据不足的困难。,由于以上问题的存在,截断法在处理无限期滞后模型时使用的并不多。比较可行的是另一种方法。这种方法假定反应系数具有某种特殊结构,从而可以避免截断法遇到的各种困难。依照对于系数结构所作假定的不同,这种方法又可以分为几种情况。目前使用较多的有柯克估计法和阿尔蒙估计法。,5.2.3 柯克估计法,为了克服无限期分布滞后模型估计时所遇到的困难,柯克(Koyck)对无限期分布滞后模型提出了如下的结构假定:,这一假定与(5-11)中的假定是一致的。其中,称作递减率。这时无限期滞后模型变为:,将该式向后推迟一期,再对各项乘以,:,由(5-13)中减去该式,可得到:,(5-13),应用柯克估计法对,表52,中的数据进行估计,得到的模型为:,不难看出,模型是充分有效的。依方程:2737(10.895)可解出26066.7,因此原来的无限期滞后模型可写成:,该模型说明,全社会的固定资产投资X对于GDP产出的影响是当年投资增加1个单位,GDP产出增加0.3887个单位,以后每滞后一年其作用系数将在前一年的基础上衰减0.105倍。,容易看出,柯克变换很好地解决了无限期分布滞后模型所遇到的困难。一是变换后的模型只包含三个参数,即、,0,,因而自由度问题已不复存在。二是新模型为二元线性模型,只含有两个自变量,一个是原自变量X,,另一个是滞后因变量,这是两个不同的序列,我们没有理由认为二者之间会存在共线性问题。三是新模型中只含有一个一期滞后变量,只损失一个观测值,因此不会出现数据不足的问题。模型(5-14)就称作柯克模型。,但是,柯克模型也同时带来了一些新问题。,第一,即使原模型中的随机项 U 满足经典回归的所有假定,但是柯克模型中的随机项 v 也无法满足无序列相关的假定。因为:,序列相关性的存在,将使得参数估计值的方差增大或减小,因而将可能使得参数丧失有效性。,第二,柯克模型的随机项与解释变量 Y,t1,是相关的。因为,,V,t,与Y,t,有关,因而 V,t,与 Y,t1,也一定相关。,这就违背,了常方差假定的推论,即随机项与解释变量无关的结论。,第三,柯克模型假定随着滞后期的增加,反应系数按照几何级数递降,这一过分严格的要求大大地限制了柯克估计法的使用范围。因为反应系数并不一定是随着滞后期的增加按照几何级数递降的,甚至并不是递降的,有时可能是递增的,如图5-3所示。反映系数的结构缺乏柔顺性,不能适应各种可能情况,这是柯克方法的一个重大缺陷。,图5-3,5.2.4 阿尔蒙估计法,针对柯克模型的缺点,阿尔蒙(S.Almon)提出了另一种处理分布滞后模型的方法。这种方法实质是从一个有限滞后分布模型出发,先用一个关于i 的多项式去逼近,i,,,经过适当变换后,得出一个可以用OLS方法估计的新模型。由于原模型中的每一个常数都是新模型参数的线性组合,因此当新模型参数估计出来后,便不难得出原模型参数的估计值。,假定有一个有限的分布滞后模型是:,其中,,i,的分布为,图5-3,所示的某种情形。根据数学知识,如图5-3所示的曲线均可以用关于,i,的多项式来逼近,多项式的阶数应是曲线的极点数加1。比如,图5-3中前者应为二次多项式,后者是三次多项式。现在我们假定,i,的结构为二次多项式,这时可令:,将该式代入到(5-15)中,可得到:,模型(5-16)就称作阿尔蒙模型。这是一个三元线性模型,无疑可以用OLS方法进行估计。其中的参数估计出来后,即可用如下的变换求出原模型的参数:,以,表52,中的数据为例,假定k5。应用Eviews1.0回归,需要先生成如(517)式所示的新序列。其方法是在命令窗依次输入以下命令即可:,Genr W0XX(-1)X(-2)X(-3)X(-4)X(-5),Genr W1X(-1)2*X(-2)3*X(-3)4*X(-4)5*X(-5),GenrW2X(-1)4*X(-2)9*X(-3)16*X(-4)25*X(-5),然后输入命令:ls y c w0 w1 w2即可。得到的方程是:,可以看出,除了一次项的系数不显著以外,其余参数都是充分有效的。由于二次项的系数为负值,因此系数的分布是上凸的。这是容易理解的。因为,投资活动是具有显著滞后效应的一项经济活动。开始往后的时候,由于投资逐步到位并发挥作用,因此越往后效果越明显;到了一定时期再往后,随着投资效益的不断释放,效果就会递减,。,阿尔蒙方法虽然克服了柯克方法所遇到的困难,但同时也带来了一些新的问题。这主要是:,(1)必须事先确定适当地滞后期数k,一般地说,从方便处理的角度看,我们通常会希望k值小一些;而要充分地反映滞后效应,k值又不能取得太小。K值究竟取多大合适,并没有明确的准则。这是阿尔蒙方法的一个缺点。,(2)必须事先确定多项式的阶数,如前所述,多项式的阶数应是曲线的极点数加1。但是,困难的是,i,的分布形式我们事先无从知道。所以,要恰当地确定多项式的阶数往往比较困难,有时只能采用主观的方法。这是阿尔蒙方法的另一个弱点。,(3)由于阿尔蒙模型的每一个自变量w都是原模型自变量X及其滞后变量的线性组合,所以各个w之间必存在较强的相关关系,即,阿尔蒙模型一般具有多重共线性,,因而必然会使得一个或一个以上的参数,不显著。但这一般不会影响研究问题。,5.3 时间序列模型及预测,预测是经济计量学研究的一个非常重要的目的。预测除了可以使用因果关系模型以外,还可以使用时间序列模型。所谓,时间序列模型,,即由一个变量的随机时间序列所构成的模型,也称作随机过程模型。,5.3.1 时间序列模型的一般性质,(1)随机过程,一个,时间序列,实际上就是一个经济指标按照时间顺序的排列。一般我们所考察的时间序列 Y,1,,Y,2,,,,,Y,n,实际上只是一个随机时间序列的样本。通常我们总是假定,一个随机时间序列是一个无穷序列的一部分,这个无穷的随机序列就称作一个随机过程,记作 Y,t,。其实,随机扰动项 U,t,就是一个随机过程。如果随机过程 U,t,所遵从的分布不随着时间改变,并且满足:,则这一随机过程就称作,纯随机过程,(国内流行的概念叫,白噪声,)。,如果随机过程 U,t,只满足零均值和常方差性假定,自身存在线性相关关系,假定为一阶自相关:,其中,,为自相关系数,,v,t,为纯随机过程,此时的随机过程,U,t,称作一阶自回归过程。,自回归过程在时间序列预测中具有非常重要的地位,因为时间序列预测的实质,乃是根据某一变量的以往观测值来预测其未来值,这就要求所考察的随机过程的不同元素应彼此相关,而自回归过程恰好满足了这一要求。,(2)自相关函数,一个随机过程中任意两个元素之间相关程度的量度,称作自相关函数。通常可以采用自相关系数,k,作为,Y,t,和,Y,tk,之间相关程度的量度,其中,k称作自相关函数的阶数。其定义为:,在这里,就称作自相关函数。当 k0时,有:,(3)平稳随机过程,通常把具有下列性质的随机过程就称作为平稳随机过程:,对于平稳过程来说,由于常方差性,应有:,随机过程是否具有平稳性对于时间序列预测来说非常重要,因为这一性质保证了随机过程的结构不会随着时间发生变化,这是进行准确预测的必要条件。如果过程的结构随着时间变化,要进行准确预测是不可能的。,很显然,纯随机过程是平稳随机过程。但并不是所有的随机过程都是平稳随机过程,一阶自回归过程只有在 时才具有平稳性。,(4)滞后算符,为了方便表达,可引入滞后算符L,定义如下:,相应地,应有:,一般情况下有:,当 n0 时,有:,在时间序列分析中,经常会用到一个算符多项式:,它作用于随机变量 Y,t,,便得到:,一般地,可以定义关于L的一个无穷幂级数如下:,如果两个算符 和 满足:,其中,m、n可以有限也可以无限,则称 和 为互逆算符。,记作:或者,比如,在|1 的条件下,如果定义:,有:,于是应有:,这时有:,5.3.2 自回归过程及其平稳条件,一阶自回归过程可定义为:,其中,U,t,为纯随机过程。利用一阶自回归模型,可以用当前时期的变量值预测未来为期一个时期的变量值。然而,由于我们往往并不知道随机过程产生的机制,一阶自回归只是其中最简单的一种形式。一般地应有:,其中,U,t,为纯随机过程,p 称作自回归过程的阶数,上述模型一般记作AR(p),相应地,一阶自回归模型记作AR(1)。,(5-21),如果利用滞后算符来表示,则(5-23)可表示为:,在一阶自回归条件下,按照,模型(5-22),,,应有:,对于(5-24),由于 E(U,t,)=0,所以应有,:E(Y,t,)=0。,另外,由于U,t,互不相关,所以应有:,显然,上式只有在|1 时才是有限的,这时平稳条件才是成立的。我们再来考察协方差。根据,(5-24),,应有:,由于U,t,之间不相关,所以应有:,此式表明,Cov(Y,t,,Y,t+k,)只与k 有关,而与 t 无关,于是平稳随机过程的第三个条件满足。,判断一个时间序列是否平稳的 最简单且实用的办法,就是观察该随机序列对时间 t 的散布图。如果散布图上的数据点在横轴的上下波动(E(Y,t,)=0)或在平行于横轴的某一直线上下波动(E(Y,t,)0),则表明时间序列是非平稳的。否则,如果散布图呈现某种直线型或曲线型系统变化趋势,则表明该时间序列是平稳时间序列。,(5-26),5.3.3,单位根检验,非平稳性检验具体的方法有多种。这里,我们介绍一种比较新的检验方法,叫做,单位根(有的也叫单元根)检验(Unit root test),。,一、单位根的含义,设Y,t,代表随机时间序列,需要,估计回归方程为:,Y,t,=A,0,+A,1,t+A,2,Y,t-1,+U,t,(527),其中是一阶差分符号,其中 t 是趋势变量,取值为1、2、3 等等,Y,t-1,为变量Y的一期滞后变量。,零假设为Y,t-1,的系数A,2,为零,这等价于时间序列是非平稳的。我们称这个假设为单位根假设。,之所以使用单位根这一术语,是因为在这里通常假定:,Y,t,=A,0,+A,1,t+CY,t-1,+U,t,。先在方程的两边同时减去,Y,t-1,得到:,(Y,t,Y,t-1,)A,0,+A,1,t+CY,t-1,Y,t-1,+U,t,,也就是,Y,t,=A,0,+A,1,t+(C1)Y,t-1,=A,0,+A,1,t+A,2,Y,t-1,+U,t,,其中,A,2,C1,。这样,如果,C,等于,1,,则回归方程(527)中的,A,2,将为零。,按照已有的知识,为了检验A,2,的估计值a,2,是否为零,通常我们都会使用很熟悉的t 检验。但不幸的是,这里,我们不能这么做,因为严格来说,t 检验只有当时间序列为平稳时才有效。所以,对于单位根的检验必须探讨新的方法。单位根检验与时间序列的平稳性之间的关系是:,对于一个单一的时间序列来说,如果它的当期项可以表示成它的前一期项(即一阶滞后项)的线性形式,且关于前一期项即一阶滞后变量的系数=1的原假设在统计意义上不成立或者说被择假设1能够在统计意义上成立的话,则称序列不存在单位根,该序列是一个在统计意义上的平稳序列,或者称无单位根平稳序列。,具体地说,这里的线性形式包含了序列的下述三种形式的趋势线:,一种是,序列Y,t,在Y=0这一水平线上的平稳性。也就是说,如果序列Y,t,的散点图最终收敛于Y=0这条水平趋势线,则称序列Y,t,是纯粹平稳序列,此时,有,一阶自回归过程:,Y,t,=Y,t-1,+U,t,,,且备择假设H,1,:1成立(或者说原假设H,0,:=1被拒绝,下同。注意,有些文献中这里是1,但实际上这里经常可能会有1的情况);,第二种情况是,Y,t,在Y=这一水平线上的平稳性。也就是说,如果序列Y,t,的散点图最终收敛于Y=这条水平趋势线,则称序列Y,t,是带漂移的平稳序列,此时,有,带漂移的一阶自回归过程:,Y,t,=+Y,t-1,+U,t,,且备择假设H,1,:1 成立;,第三种情况是,Y,t,在Y,t,=+t这一趋势线上的平稳性。也就是说,如果序列Y,t,的散点最终收敛于Y,t,=+t这条趋势直线,则称序列Y,t,是带趋势的平稳序列,此时,有,带趋势的一阶自回归过程:,Y,t,=+t+Y,t-1,+U,t,,且备择假设H,1,:1 成立。,上述三种情况中只要有其中之一不存在单位根,或者可以在统计意义上拒绝,H,0,:=1,的原假设,则称序列Y,t,是平稳的时间序列。相反,如果要认定一个序列是不平稳的,则以上三个模型必须同时存在单位根才可以得出结论。这一结论非常重要。,二、单位根的后果,实际上对于一般的时间序列而言,1是很容易满足的。因为在,第一种情况,下,我们有:,而对于一个具有递增趋势的时间序列来说,其估计结果必然是1的。在这种情况下,如果有=1,则必有:,亦即:,也就是:Y,t,=Y,t-1,而在,第二种情况,下,我们有:,不难看出,在这里的估计值实际也就是时间序列的自相关系数(注意,在的估计值的计算中,假定Y,t,的均值与Y,t-1,的均值相等)。因此一般地,在时间序列的自相关程度不十分强烈的情况下,p时,k,不显著,则这时的p就是要求的阶数。比如,当k2时检验,2,,假定结果显著,再取k3,经检验,3,不显著,这时可知,自回归模型的阶数应该是p2。,为了检验,k,的显著性,要求必须知道最小平方估计量 的抽样分布或方差。可以证明,在样本容量很大的情况下,如果自回归模型的阶数为p,则当kp时 近似地服从期望为 0、方差为 1/n 的正态分布(n为样本容量)。因此,95的置信区间为:,要判断在0.05的显著性水平下,k,是否为0,只要看看上述的区间是否包含0即可。或者,亦可以采用另一种等价的做法,考察 是否落在下面的区间内:,注意,这里的零假设是 H,0,:,k,0。如果估计值落在该区间内,则接受零假设,即,k,不显著;如估计值落在该区间以外,则拒绝零假设,则,k,显著。,泰勒中值定理,:如果函数,f,(,x,)在含有,x,0,的某个开区间(,a,b,)内具有,n,+1接导数,则当,x,在(,a,b,)内时,,f,(,x,)可表示为(,x,x,0,)的一个,n,次多项式与一个余项,R,n,(,x,)之和:,其中:,在这里,是,x,与,x,0,之间的某个数。,二元模型中的回归系数,本章应完成作业:,利用,表5-1中的数据资料,,每15个观测点为一组,构造非线性概率模型(逻辑函数),并对其可靠性和经济意义进行分析(二版书P.173-5)。,(二版书P.173-6)试对,2007年的人民币汇率资料,进行单位根检验,并对不包含单位根的时间序列建立时间序列模型,对包含单位根的时间序列进行协整检验(用EG两步法)。,3.(二版书P.174-7),
展开阅读全文