资源描述
经济计量学的几种检验4多重共线性 rcmk(xx)手k.Multicollinearity arises because we have put in too many variables that measure the same thing.As the degree of multicollinearity increases,the regression model estimates of the coefficients become unstable and the standard errors for the coefficients can get wildly inflated.Measure:vif,tol=1/vif5condition index;etc.多重共线性的后果-1,存在完全多重共线性时,参数的估计值 无法确定,而且估计值的方差变为无穷大.2,存在不完全多重共线性时,可以估计参 数值,但是数值不稳定,而且方差很大.3.多重共线性会降低预测的精度,甚至失 效,增大零假设接受的可能性(t值变小).多重共线性的检测方法(1)样本可决系数法 如果样本的可决系数R-square比较大,且回归 系数几乎没有统计上的显著性,则可认为存在 多重共线性。Theil提出了一个指标:多重共线性效应系数PTheil 指标=R2 工 R H;);j=i号=去掉今后的回归方程的可决系数;若该系数接近于0,则认为不存在多重共线性;接近于1,存在多重共线性。】Theil test results-J_ Sas结果:斤=0.9919;吊=0.9913;E;=0.9473;=0.9828theil effects coefficient=0.9376 x 1结果表明有多重共线性。多重共线性检测方法、(2)辅助回归检验法_ 若存在多重共线性,则至少有一个解释变量可精确或 近似地表示为其余皆是变量的线性组合。相应的检验统计量为:oc F(p-l,T-p)A:为第,个自变量对其余解释变量的回归 的可决系数;若显著则存在多重共线性;则可认为天是造成多重共线性的原因;辅助回归检验结果 Sas结果:F、=739.99(“仍 0.01);=0.9946;F2=O.QlS6(prob=0.9278);R;=0.0186;F3=740.44(prM R-square,则认为多重共线 性严重;本例中x1,x3看多重共线性。多重共线性检验方法(3)样本相关系数检验法两个变量七和%之间的相关系数分如果它较大,则认为存在多重共线性;进一步,弓火2,共线性严重。Hg:det(火)=1凡=det(K)w 1;i检验统计量:FG=-(T-1 (27+5)log(det(7?);6尸G8%2(o5p(p_l);如果拒绝,则认为有多重共线性;否则不存在;FG test results fg=20.488013401 p=0.0001344625;拒绝零假设,认为存在多重共线性。具体那些变量之间存在多重共线性,除了 上面提到的辅助回归的方法外,还有以下 提到的条件数检验和方差膨胀因子法。多重共线性检验方法:(4)特征值分析法所用的检验统计指标 viFk=(i-RlyA;母 为第k各自变量和其 余自变量回归的可决系数.VIF10,有多 重共线性;T0L=1/VIF;-条件指数:c,=3V min条件数:c=H;C20,共线性严重.&多重共线性的检验和补救例一:进口总额和三个自变量之间回归;Sas 结果如下:Pearson Correlation Coefficients,N=11 Prob|r|under HO:Rho=0 xl xl 1.00000 GDP x2 0.02585 存蓄量0.9399 x3 0.99726 总消费.0001x20.025850.93991.000000.035670.9171x30.99726Intercept FSourceAnalysis of Variance Sum ofDF Squares Square t0.0384InterceptfZRADF 110.59511 0.28349n八aanzt 八 八9八八qA 162.10图示法检测利用残差平和对因变 量的预测值做散点图如右图所示:残差变 化不大,因此认为没 有异方差存在.怀特检验-Sas程序结果:Analysis of VariancSum of MeanSource Pr FDFSquaresSquare F ValueModel0.5731121.188810.09907 0.88Error879.830780.11300Corrected Total99 11.019580.1079Root MSE0.33615 R-Square0.0152Dependent Mean 0.20989 Adj R-Sq-Coeff Var160.15281Parameter StandardVariable DFValue Pr tEstimateError tIntercept 10.08 0.9374-0.077670.98580-GRADE 0.92251-0.012200.12502-0.10POTEXP 0.281910.077840.07188 1.08EXP2 0.9710.3325-0.003990.00409-UNION0.453510.648790.86160 0.75grade2 10.52 0.60650.002200.00425exp41-3.34378E-70.00000151残差项平方对所有一阶,二阶及交叉项回归.故同方差的假设未被拒 绝.2.Proc reg data=aa;Model y=x/spec;Run;可得到相同的结果。布罗施-帕甘/戈弗雷检验4 怀特检验的特例(1)0L阴差额et和一个估计的干扰误差/=一-(2)用OLS/z对选中的解释变量进行回归,并计算解释平方和(ESS);1 9(3)在零假设下,有 ESS 0c asyx(k-1)(4)一个更简单且渐进等扁做法是直接利用残差平方对选中的解释变量进行回归.在零假设(同方差)下,nR2 oc asy炉(k 1)BPG test results(1)Dependent Variable:rsqSourceModelErrorDF 12 87Sum of Squares 1.18881 9.83078MeanSquare F Value0.09907 0.880.11300PrF0.5731Corrected Total 99 11.01958 Root MSE 0.33615 R-Square 0.1079Dependent Mean 0.20989 Adj R-Sq-0.0152er2=0.2099 nBPG test results(2)Dependent Variable:rsqadjust Analysis of Variance Source DF Model 3 Error 96Sum of Squares 10.70415Mean Square 3.56805F Value Pr F1.43 0.2386239.41116 2.49387Corrected Total 99 250.11531Root MSE 1.57920 R-SquareDependent Mean 0.99997 Adj R-Sq0.04280.0129 Coeff Var ESS=10.70415157.924434-BPG test results(3)/*ESS=5.35v%;.05(3)=7.815因此,同方差的假设不能被拒绝.如果利用(4)直接回归的结果:Dependent Variable:rsq Sum of MeanSource DF Squares Square Model 3 0.47160 0.15720 Error 96 10.54798 0.10987 Root MSE 0.33147 R-SquareF Value Pr F1.43 0.23860.04281 R22 1-R2_ CL0428*10.54801*0.9572*0.2099=5.35戈德菲尔德-匡特(Goldfeld-Quandt)检验 按potexp的值将数据从小到大进行排列.取前后个35个观测值分别回归.c=30;-回归的主要结果:RSS1=6.39573;RSS2=7.2517;RSS2/RSS1=1.13;而尸oo5(30,30)=1.84;该比值不显著,不能拒绝同方差的原假设;去掉的中间观测值的个数要适中,否则会 降低功效,一般取观测值个数的1/3.4补救措施已知方差的形式 1.广义最小二乘法(GLS);-请参考讲义中的例子;2.模型变换法,适用于函数型异方差;已知 方差的函数形式;3.加权最小二乘法(WLS);实质上是一种 模型变换法;具体参见讲义中的例子;采用面板数据,增加信息量.4未知方差的形式_ Furnival(1961)提出了一种拟合指数进行不 断的修正,最后找出最佳的权重(使得该指数 值取小).F=(yVmsef(Y)=the first derivative of the weighted dependent variable with respect to Y=z=geometric mean of zz=exp口 处理盲点-robust regression-J_ 1.迭代加权最小二乘法(IRLS),Neter提出 了2 中加权函数,Huber and Bi square,11 是不易操作.SASv8中常使用Proc NLIN迭 代.2.#SUfi.Proc Loess.3.SAS v9.0中有一个过程Proc robustreg Stata中有一个比较好的命令:rreg直接进 行鲁棒回归(robust),采用迭代过程.4-序列相关性(serial correlation)OLSE unbiased,but inefficient and its standard error estimators are invalid;BLUE of the Gauss-Markov Theorem no longer holds.The variance formulas for the least squares estimators are incorrect.AR,MA,or ARMA forms of serial correlation.Take the AR(1)for instance:Dw检验需要注意的地方 假定了残差是服从正态分布,而且是同方 差;自变量是外生的,如果包含了内生滞后 变量,就需要用修正的dh检验(proc autoreg).只适用于一阶自相关,对高阶或非线性自 相关不适用.样本容量至少为15.4自相关检验的标准_ 德宾和沃森根据显著水平,n,k,确定了二 个临界值du(上界),dl(下界);然后进行比 较;(1)dvdl,拒绝零假设,认为有正一阶自相 关;-(2)ddu,不拒绝零假设;(3)cHvdvdu,无结论;直观:2=2(1 Q);dv2,正自相 关;d 2,负自相关;d=2,无自相关;Eg:Ice cream demand(Hildreth5Lu(1960)Cons:consumption of ice cream per head(pints);Income:average family income per week($);Price:price of ice cream(per pint);Temp:average temperature(in Fahrenheit);Data:30 four-weekly obs from March 1951 to 11 July 1953;残差的散点图ResiduaI0.08:0.07:0.06:0.05:0.04:0.03-0.02:0.01:0.00:-0.01:-0.02:-0.03:-0.04:-0.05:-0.06:-0.07-1020030time,回归结果 Parameter EstimatesParameterStandardVariableDFEstimateErrort ValuePr tIntercept10.197320.270220.730.4718price1-1.044410.83436-1.250.2218income10.003310.001172.820.0090temp10.003460.000445557.76 忘05=3.8;因此拒绝零假设,认为有自相关;且显著一阶正相关;Parameter Estimates Parameter Standard Variable DF Estimate Error t Value resid 1 0.38454 0.17029 2.26 0.0319补救方法 1.已知rho时,采用广义差分变换.-2.未知山。时,先求相关系数,然后进行广 义差分.-求相关系数的方法有:Cochrane-Orcutt 迭代方法;.(2)Hildreth-Lu.(3)Durbin 2 step.对严格外生回归元的序列相关的校正AR(1)模型-可行的广义最小二乘法(FGLS)八 采用估计的相关系数值p 回归方程:y=0oXfO+0k*tk FGLS步骤:,0=(1-年 2;e。=(1-。2产 L 对做Xti,Xt2,.Xtk回归,得到残差(k 2.Qt=p Ot-i+e,求出相关系数的估计值 3.对上面的方程进行回归.常见的标准误,t统计 量和F统计量都是渐进正确的.采用相关系数估 计值的代价是FGLSW限样本性质较差,可能不 是无偏的(数据弱相关时),但仍然是一致的.尽管FGL叼是无偏的,不是BUJE,但是当序列相 关的AR(1)模型成立时,比OLS更渐进有效区分科克伦-奥克特(Cochrane-Orcutt)和普莱斯-温斯登(Paris-Winsten)估计 Co估计省略了第一次的观测值,使用的是0t=p ut-i+et滞后项系数估计值,而Pw估计方法使用 了第一次的观测值,见上面的回归式.大体来说是否使用第一次的估计值并不会带来 很大的差别,但是时间序列的样本很小,实际中 还是有很大差别.注意下面的估计结果中没有还原到原方程,还原 时要写正确.高阶序列相关的校正,类似于一阶的修正,广义 的差分方法.4-Sas程序 data ice;input cons income price tamp cards;proc reg data=ic;modal cons=pric income tamp/dw;output out=ic1 p=consp r=rsid;run;symboll i=non v=dot c=blu h=5;proc gplot data=ic1;plot rsid*tim=l/vrf=0;run;/*BG tst*/data tt1;set icel;residl=lag(resid);run;proc reg data=tt1;model resid=residl/noint;run;/*rh0=0.40063,R-square=0.1541/;data bgt;bg=29*0.1541;chisq=cinv(0.95,1);if bgchisq then t=l;else t=0;put t=;run;/*t=0*/;Sas程序-高I价的BO验:/*高阶BG test p=3*/;data tt2;set icel;residl=lag(resid);resid2=lag(residl);resid3=lag(resid2);run;proc reg data=tt2;model resid=residl resid2 run;/*R-squar=0.1792*/;data bgt2;bg=(29-3)*0.1792;chisq=cinv(0.95,3);if bgchisq then t=l;else put t=chisq=bg=;run;/*t=0,无高阶自相关*/;resid3/noint;t=0;Sas程序/*yule-walker estimates*/;proc autoreg data=ice;model cons=price incom temp/nlag=l mthod=yw;run;*COCHRANE-ORCUTT;proc reg data=ice;model cons=price incom temp/dw;output out=tt p=chat r=rs;run;proc print data=tt;run;data tt;set tt;rlag=Lag(rs);run;proc print data=tt;run;proc reg data=tt outst=bl;mod1rs=rlag/noint;run;/*可算出rh0=0.4 00 63*/;data pp;st tt;cl=lag(cons);tl=lag(temp);il=1ag(incom);pl=lag(price);run;proc print data=pp;run;data ppi;set pp;if _n_=l thn delete;c2=cons-0.40063*cl;t2=t;mp-0.40063*t1;i2=income-0.40063*il;p2=price-0.40063*pl;run;proc print data=ppl;run;proc reg data=ppl;MODEL c2=t2 12 p2/dw;run;1二/!、1久久 氏I吐木用丝近于刍牲相4-Sas程序上页的科克伦-奥科特迭代只用了 1次;对小样本情况,迭代多次 的仍然很难收敛,我做了 三次迭代发现仍然不收 敛;所以说多次迭代效果 和一次的效果相差不大.从理论上来说两者的渐 进性一样.大样本情况只需几步就 可收敛;/*下面采用fgls进行估计校正文/;data fgls;set tt1;if _n_=l then int=sqrt(1-0.40063*0.40063);else int=1-0.40063;if _n_=l then consl=cons*sqrt(1-040063*040063);else consl=cons-0.40063*cons;if _n_=l then pricel=price*sqrt(1-040063*040063)pricel=price-0.40063*pric;if _n_=l thenincomel=income*sqrt(1-0.40063*0.40063);elseincomel=income-0.40063*income;if _n_=l then temp1emp*sqrt(1-040063*040063)templ=temp-0.40063*temp;run;proc reg data=fgls;model consl=int pricel incomel tempi/noint;run;4-Sas程序 proc autoreg data=ic;modal cons=pric incoma tmp/nlag=l dwprob archtst;run;估计方法缺省为yul-walkr估计;又称为两步完全 交换法;已如自向归参数下的GLS估计;其他方法:在mod 1/mthod=ML;ULS;ITYW;分别为极大似然侑计,无条件最小二乘估计(以及迭代 yule-walkervF;百回月参数较大时ml方法 uls(又称NLS)方法较好.详见SAS/ETS中的己utorg过程.4-Yuler-walker estimate The AUTOREG ProcedureDependent Variable cons Ordinary Least Squares Estimates SSE0.03527284DFE26 MSE0.00136Root MSE0.03683 SBC-103.63408AIC-109.23887 Regress R-Square、0.7190Total R-Square0.7190 Durbin-Watson1.0212Pr DW0.9997 NOTE:PrDWis the p-value for testing negative autocorrelationStandardApprox VariableDFEstimateErrort ValuePr t Intercept10.19730.27020.730.4718 price1-1.04440.8344-1.250.2218 income10.0033080.0011712.820.0090 temp1 0,0034580.0004467.76 FModel tDFEstimateError t八AZLInterceptA10.094090.173584-FGLS包含第一次观测的PW估计结果Analysis of VarianceMeanSum ofF ValueSourcePr FDFSquaresSquareModel4I.440320.36008836.01 tint1 0.034110.262990.130.89781 cc c c c rc CCC自变量含滞后因变量 Sas程序:Proc autoreg data=aa;Model y=x ylag/lagdep=ylag;Run;-缺省的方法为ML极大似然估 计;Lagdep=打印出 durbin-h test results;Lagdep打印出 durbin-t test results;看相应的p-value判 断是否有自相关;自回归条件异方差(ARCH/GARCH)GARCH模型假定误差尽管不相关但是不独立,且条件误差方差为序列过去值的函数.Proc autoreg过程把自回归误差和Garch类的异方差 性结合在一起,输出条件均值和条件方差的预测 值;Proc autoreg data=aa;Model y=x/nlag=garch(p=q=)maxit=;Output out=out cev=vhat;GARCH模型使用的最大似然估计方法;详见SAS/ETS中的autoreg过程.4条件异方差检验的结果 Q and LM Tests for ARCH DisturbancesOrderQPr QLMPr LM10.44250.50590.17970.671620.83220.65961.24460.536731.27250.73571.63460.651643.52920.47354.39740.354953.72470.58974.42290.490363.93200.68594.48930.610874.22880.75314.50930.7196sAn 只Q 4F;49其他有关时间序列的过程 分布滞后模型Proc Pdlreg.向量自回归Proc varmax;时间序列建模Proc Arima 时间序列预测Proc forecast.Stata中的命令rreg(鲁棒回归);reg,robust 给出来稳健的t值;newey和newey2给出来不 同条件下的(包括面板数据,内生变量等)异 方差自相关稳健估计(HAC)。
展开阅读全文