资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,计量经济学,理论,方法,EViews,应用,郭存芝 杜延军 李春吉 编著,第六章,异方差性,学习目的,通过本章的学习,你可以知道什么是异方差性,异方差性是如何形成的,异方差性导致什么样的后果,怎样检验和处理具有异方差性的模型。,基本要求,1),掌握异方差性的概念、异方差性的后果和几种常见的检验方法。,2),了解加权最小二乘法原理,并能运用加权最小二乘法估计线性回归模型。,3),了解异方差稳健推断原理。,异方差性及其产生原因,异方差性的影响,异方差性的检验,异方差性的的修正,第六章,异方差性,第一节,异方差性及其产生原因,、异方差性的含义,对于多元线性回归模型,(6-1),同方差性假设为,如果出现,即对于不同的样本点,随机干扰项的方差不再是常数,而是互不相同,,则认为出现了,异方差性,(,Heteroskedasticity,)。,二、异方差的类型,同方差性假定是指回归模型中不可观察的随机误差项,条件的方差是一个常数,因此每个,的条件方差不随,X,的变化而变化,即有,以解释变量,X,为,不再是常数,,在异方差的情况下,总体中的随机误差项,的方差,通常它随解释变量值的变化而变化,即,根据,与解释变量,X,的关系,异方差一般可归结为三种类型(如图):,(1,)单调递增型:,随,X,的增大而增大;,(2,)单调递减型:,(3,)复杂型:,随,X,的增大而减小;,随,X,的变化呈复杂形式。,三、异方差产生的原因,例6-1,居民储蓄模型,在截面资料下研究居民家庭的储蓄行为,假定储蓄行为模型为,其中,,为第,i,个家庭的储蓄额,,为第,i,个家庭的可支配收入。,析:,在该模型中,假定,的方差为常数往往不符合实际情况。对于高收入,的方差往往随的,这属于递增型异方差。,家庭来说,储蓄的差异较大;低收入家庭的储蓄则更有规律性(如为某一,特定的目的而储蓄),差异较小。因此,增加而增加,,三、异方差产生的原因,例6-2,干中学模型,人们在学习的过程中,其行为误差随时间而减少。在这种情况下,,会减小。,的方差,可以预料,例如,考虑一次打字测验,在给定的一段时间里,打字出错个数与用,于打字练习的小时数有关系。随着打字练习小时数增加,不仅平均打错,字个数下降,而且打错字个数的方差也下降,这属于,递减型的异方差,。,资料收集技术的改进可能会使,减小。,例如,相较于没有先进设备的银行,那些拥有先进数据处理设备的,银行,在他们对帐户的每月或每季财务报告中,会出现更少的差错。,三、异方差产生的原因,例6-3,股票价格和消费者价格,考虑如下,20,个国家在第二,次世界大战后直至,1969,年间的,股票价格(,Y,),和消费者价格,(,X,),的百分比变化的散点图。,图中,对智利的观测值,Y,和,X,远大于对其他国家的观测,值,故可视为一个异常值,在,这种情况下,同方差性的假定,就难以维持了。,三、异方差产生的原因,例6-4,假性异方差,两个变量有真实关系:,其中,满足线性回归模型的假定,即满足零均值和不变方差的假定。,如果我们误以为,Y,和,X,之间的关系为:,并认为,,那么,记,,则,因此,是,的函数,即我们建立的模型具有异方差。,第二节 异方差性的影响,1,参数估计量非有效,计量经济学模型一旦出现异方差,如果仍然用普通最小二乘法估计模型,参数,会产生一系列不良后果。,2,OLS,估计的随机干扰项的方差不再是无偏的,3,基于,OLS,估计的各种统计检验非有效,4,模型的预测失效,1,参数估计量非有效,根据前面有关,OLS,参数估计量的无偏性和有效性的证明过程,可以,看到,当计量经济学模型出现异方差时,其普通最小二乘法参数估计量,仍然具有无偏性和一致性,因为同方差假设在证明无偏性和一致性时并,没有起作用。但在异方差情况下,OLS,估计量不再具有有效性,因为在有,效性证明中利用了,而且在大样本情况下,,OLS,估计量也不具有渐进有效性。,为详细说明异方差使,OLS,参数估计量的无效性,我们考虑一元回归模型:,(6-2,),该模型参数的,OLS,估计量可以写为,对于该模型,我们假定除同方差假设外,其他的高斯马尔科夫假设都成立。,如果模型随机误差项包含异方差,那么有,这一异方差取决于,的值。,(6-3,),(6-4,),显然(,6-3,)式与(,6-4,)式不同,只有在,时两者才是相同的。,在上述给定的异方差情况下,,的方差为,容易证明,而同方差假设下,,的,OLS,估计方差为,2,OLS,估计的随机干扰项的方差不再是无偏的,异方差时,OLS,估计的随机误差项的方差不再是真实随机干扰项,方差的无偏估计,正是因为这一点才使得,OLS,估计的参数不再是有,效的,这可从(,6-3,)式中直接看出来。,(6-3,),3,基于,OLS,估计的各种统计检验非有效,1),t,统计量 不再服从,t,分布;,3),F,统计量也不再服从,F,分布;,4),LM,统计量也不再有渐近,分布。,总而言之,在异方差情况下,我们建立在高斯马尔科夫定理基础上,的用来检验各种假设的统计量都不再是有效的,,OLS,估计量不再是,最佳线性无偏估计量(即不具有,BLUE,性质)。,4,模型的预测失效,所以,如果仍然使用,OLS,估计量,将导致预测区间偏大或偏,小,预测功能失效。,当模型出现异方差时,,一方面,由于上述后果,使得,OLS,估计不再具有良好的统计性质;,另一方面,由于在被解释变量预测值的置信区间中也包含有参数估计,量的标准差,,第三节 异方差性检验,用什么来表示随机干扰项的方差?,问题:,一般的处理方法是首先采用普通最小二乘法估计模型,以求得随机干扰,项的估计量,用,表示。这样我们有,即用,来表示随机干扰项的方差。,对于,解释变量引起的异方差,,我们可以用,如下几种方法来检验异方差。,一、图示检验法,二、帕克,(,Park),检验与戈里瑟,(,Gleiser,),检验,三、,G-Q(,Goldfeld,-,Quandt,),检验,四、,F,检验,五、拉格朗日乘子检验,六、怀特检验,一、图示检验法,图6-2,不同异方差类型,(图示检验法只能进行大概的判断),二、帕克,(,Park),检验与戈里瑟,(,Gleiser,),检验,基本思想:,以,或,为被解释变量,以原模型的某一个解释变量,为解释变量,建立如下回归方程:,或,选择关于变量,Xj,的不同函数形式,对方程进行估计并进行显著性,检验。如果存在某一种函数形式,使得方程显著成立,则说明原模型,存在异方差性。,三、,G-Q(,Goldfeld,-,Quandt,),检验,基础,范围,基本思想,F,检验,样本容量较大、异方差递增或递减的情况,按某一个解释变量对样本排序,再将排序后的样本一分为二,,对子样本,和子样本,分别作,OLS,回归,然后利用两个子样本,的残差平方和之比构造,F,统计量进行异方差检验。,步骤,(1,)将,n,组样本观察值按某一被认为可能引起异方差的解释变量的观察值大小排序。,(,3,)对每个子样分别进行,OLS,回归,并计算各自的残差平方和。分别用,表示较小的与较大的残差平方和(自由度均为,)。,(,2,)将序列中间的,c,个观察值除去,并将剩下的观察值划分为较小与较大的相同的,两个子样本,每个子样样本容量均为,这样做主要是为了突出小方差,样本和大方差样本之间的差异。,步骤,(,4,)在同方差性假定下,构造如下满足,F,分布的统计量:,(,5,)给定显著性水平,,确定临界值,。若,则拒绝同方差性假设,表明原模型随机干扰项存在异方差性。,当然,还可根据两个残差平方和对应的子样的顺序判断是递增,型异方差还是递减异型方差。,,,注意:,1),G-Q,检验结果有时要依赖于省略的样本个数,c,的大小。,根据蒙特卡洛试验结果和实际经验,,Judge,等人建议,若,n,为30,左右,,c,取4,;若,n,为60,左右,,c,取10,。,2),G-Q,检验需要按照某一被认为有可能引起异方差的解释变量,观察值的大小排序,因此,可能需要对各个解释变量进行轮,流试验,而且它只适合检验单调递增或递减型异方差。,四、,F,检验,考虑我们常用的多元线性回归模型,假定该模型满足高斯马尔科夫假设,特别地我们假设,OLS,估计依然是无偏、一致估计,同方查差假设意味着,等价于,只需检验 是否与一个或多个解释变量相关,可估计如下方程,然后检验该方程的总体显著性,统计量为,五、拉格朗日乘子检验,(6-11),用于检验异方差的,LM,统计量可以通过下式得到,步骤,(,1,)用,OLS,估计模型,得到,OLS,回归残差平方,序列。,(,2,),对(,6-9,)进行回归,记下回归得到的拟合优度 。,(4,)如果,BP,检验的,P,值很小,那就应该采取一些纠正的措施,一个可能的,措施就是用异方差稳健标准差和前面讨论过的检验统计量。,(,3,),计算,LM,统计量相应的,P,值(查,分布表得到的概率),如果,P,值足够,小,即小于给定的显著性水平的话,那么我们就拒绝同方差的零假设。,六、怀特检验,与多个解释变量可能存在非线性关系,范围:,下面以两个解释变量的回归模型为例来说明怀特检验的基本思想与步骤。,例:,对于二元回归模型,(,6-12,),先做,OLS,回归,再做如下辅助回归,相应的,LM,统计量为,可在大样本情况下进行 检验,也可用,F,统计量进行检验,当辅助回归中的解释变量较多时,可去掉交叉项或用被解释变量的预测估计值做解释变量,例,6-5,一个异方差检验的说明性例子,给定如下农村居民人均消费函数回归模型:,(6-14,),相关数据如表,6,-,1,。,Y,表示农村家庭人均消费支出,,表示从事农业经营的收入,,表示其他收入。,地区,人均,消费支出,Y,农业经营收入,X,1,其他,收入,X,2,地区,人均,消费支出,Y,农业经营,收入,X,1,其他,收入,X,2,北京,天津,河北,山西,内蒙古,辽宁,吉林,黑龙江,上海,江苏,浙江,安徽,福建,江西,山东,河南,3552.1,2050.9,1429.8,1221.6,1554.6,1786.3,1661.7,1604.5,4753.2,2374.7,3479.2,1412.4,2503.1,1720,1905,1375.6,579.1,1314.6,928.8,609.8,1492.8,1254.3,1634.6,1684.1,652.5,1177.6,985.8,1013.1,1053,1027.8,1293,1083.8,4446.4,2633.1,1674.8,1346.2,480.5,1303.6,547.6,596.2,5218.4,2607.2,3596.6,1006.9,2327.7,1203.8,1511.6,1014.1,湖北,湖南,广东,广西,海南,重庆,四川,贵州,云南,西藏,陕西,甘肃,青海,宁夏,新疆,2703.36,1550.62,1357.43,1475.16,1497.52,1098.39,1336.25,1123.71,1331.03,1127.37,1330.45,1388.79,1350.23,2703.36,1550.62,1242.9,1068.8,1386.7,883.2,919.3,764,889.4,589.6,614.8,621.6,803.8,859.6,1300.1,1242.9,1068.8,2526.9,875.6,839.8,1088,1067.7,647.8,644.3,814.4,876,887,753.5,963.4,410.3,2526.9,875.6,表6-1,中国,2001,年各地区农村居民家庭人均纯收入与消费支出 单位:元,例,6-5,一个异方差检验的说明性例子,给定如下农村居民人均消费函数回归模型:,(6-14,),相关数据如表,6,-,1,。,Y,表示农村家庭人均消费支出,,表示从事农业经营的收入,,表示其他收入。,下面利用表,6-1,中中国,2001,年各地区农村居民家庭人均纯收入及消费,支出的相关数据对(,6-14,)式进行,OLS,估计,然后再进行异方差性检验。,OLS,估计结果如下:,估计结果表明,其他收入的增长对人均消费支出增长的影响大于农业收入增长对人均消费支出的增长。接下来我们进行异方差性检验。,可以认为不同地区农村人均消费支出的差别主要来源于非农经营收入及其他收入的差别,因此如果存在异方差,则可能是,X,2,引起的。观察残差平方项,e,2,与,ln,X,2,的散点图,:,G-Q,检验,:,1,、将原始数据按,X,2,排成升序,去掉中间的,5,个数据,得到两个容量各为,13,的子样本。,、对两个子样本分别做,OLS,回归,得到各自的残差平方和,RSS,1,和,RSS,2,。,子样本:,子样本:,、计算,F,统计量。,在,5%,的显著性水平下,自由度为(,10,10,)的,F,分布的临界值为,F,0.05,(10,10)=2.97,,,因此,G-Q,检验在,5%,的显著性水平下拒绝两组样本存在同方差的假定,原模型中,ln,X,2,可能带来递增型的异方差。,检验结果:,F,检验、,LM,检验、怀特检验,第四节 异方差性的修正,一、异方差稳健推断,二、加权最小二乘法,一、异方差稳健推断,调整标准差、,t,统计量、,F,统计量、,LM,统计量以使得他们在存在,未知形式的异方差时仍然有用。这就意味着可以报告新的有用统计量,,这种方法就是,异方差稳健推断(,Heteroskedasticity,-Robust Inference),。,定义:,我们先看看在异方差情况下,怎样推断参数估计量的方差,。,考虑第二节中的一元线性回归模型,如下,(6-16,),对于该模型,我们假定除同方差假设外,其他的基本假设都成立。,如果模型随机误差项包含异方差,那么有,(6-17,),这一异方差取决于,的值。,该模型参数,的,OLS,估计量可以写为,(,6-18,),(6-19,),在异方差下,容易证明,的方差为,当,时,上式就是满足同方差假设下,OLS,估计的,的方差。,(,6-20,),用,表示初始的,Y,对,X,进行,OLS,回归后得到的残差,那么对于任何形式的,的恰当估计量为,异方差(包括同方差)而言,,对于一般的多元回归模型,(6-21,),假定随机误差项除了是异方差外,其他基本假设满足,可以证明,的恰当估计量为,(6-22,),这里,为来自用,对所有其他的解释变量进行回归得到的第,i,个残差,,是该回归的残差平方和。,据式(,6-20,)、(,6-22,)可求得异方差稳健标准差,有了异方差稳健标准差,可以很方便的求得异方差稳健,t,统计量,还可以计算相应的,F、LM,统计量。,异方差稳健,LM,统计量的计算步骤概括如下:,对受限模型进行,OLS,回归得到回归残差,;,(2),分别把在零假设下每一个被排除的自变量对其余未被排除的自变量进行,回归,如果有,q,个被排除的变量,那么将得到,q,个残差序列(,);,(3),求出每个残差序列,和,的乘积;,(4),用虚变量,1,对,进行回归(不包括截距)得到残差平方和,,进而可以计算得到,LM,统计量为,。在零假设,下,,LM,分布。,统计量近似服从,二、加权最小二乘法,加权最小二乘法是对原模型加权,使之变成一个新的不存在异方差性的,模型,然后采用,OLS,法估计其参数。,定义:,基本思想:,在采用,OLS,方法时,对较小的残差平方,赋予较大的权重,对较大的,赋予较小的权重,以对残差提供的信息的重要程度作一番修正,提高参,数估计的精确程度。,不同形式的异方差要求用不同的加权方法来处理。,(一)异方差为,已知的解释变量的某一函数形式,时,的加权最小二乘估计,(二),异方差形式未知时的估计,可行的加权最小,二乘法,(一)异方差为已知的解释变量的某一函数形式时的加权最小二乘估计,对于多元回归模型,(6-23),用,代表所有的解释变量,我们假定第,i,个随机误差,的方差为如下形式,其中,是某些导致异方差的解释变量观察值的函数。,该式表明,去除原模型,使之变成如下形式的新模型:,随机干扰项的方差与某些解释变量之间存在相关性,那么我们可以用,进一步改写为:,(6-24),其中,,其余类似。,在,(6-24),式中,随机误差项,的方差为,上面的加权最小二乘例子实际上就是对加了权的残差平方和实施,OLS,估计,即求解,如果直接用,干扰项的方差等于,1,,它也满足同方差性,此时加权最小二乘法就是对如下加了权的,模型进行,OLS,回归:,作为权数,则容易验证变换后的模型的随机,加权最小二乘法如何用矩阵的形式来表示?,讨论:,如果我们确实知道回归模型随机干扰项是异方差的,而且我们知道异方差形式,那么我们应该用加权最小二乘法。但是有时候即使模型随机干扰项满足同方差假设,我们可能仍然需要用加权最小二乘来估计模型。例如当我们估计个体水平模型中的参数时,尽管个体水平模型中的干扰项满足基本假设,但如果个体水平的资料不能得到,而只能得到某些组或某些地理区域中的个体的平均水平资料,这时估计模型就必须用加权最小二乘法(权重为个体规模数),因为用平均水平的资料来估计个体 水平的模型,必然会出现异方差性的问题。,用个体规模作为权重进行加权最小二乘估计的前提是个体水平的回归模型的随机误差项满足同方差假设。如果个体水平模型随机误差项是异方差的,那么正确的权重应取决于异方差的形式。这就是为什么越来越多的研究者在用人均资料估计模型时只简单计算稳健标准差和相应的统计量。,另一个变通的方法是根据个体规模来加权,但只报告,WLS,估计中异方差稳健统计量。这样可以确保在个体水平资料满足基本假设时,估计结果有效;在个体水平资料存在异方差时,通过稳健推断来描述,估计是有用的。,(二)异方差形式未知时的估计,可行的加权最小二乘法,定义:,我们把估计的,记为,而不是用,的权重函数得到的估计量称为可行的,加权最小二乘估计量,(,FWLS,)。,有很多方法模型化异方差形式,这里介绍一种特殊的、比较灵活的方法,,用,作为,WLS,估计中,假定随机误差,的方差为,(6-27,),这里,是原回归模型中的解释变量,,是未知的参数,,如果用前面,的异方差表达式,那么这里,
展开阅读全文