资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,计量经济学,ECONOMETRICS,第二章 简单线性回归,模型的建立及其假定条件,普通最小二乘估计,(OLS),参数估计的显著性检验,回归方程检验,普通最小二乘估计的特性,预测,模型应用及有关软件操作,Monte Carlo,模拟,模型的建立及其假定条件,回归的由来,回归,(Regression),一词来源于,19,世纪英国生物学家葛,尔登,(Francis Galton,1822-1911),对人体遗传特征的,实验研究。他根据实验数据发现,双亲高的孩子个子,高,双亲矮的孩子个子矮,然而高和矮却不是无限制,的,总是越来越趋向于人的平均身高,他称这种现象,为“回归”。,现在统计学上回归指的是变量之间的依存关系。,两变量线性模型,由于所有点不可能恰在直线上,因此上式需添加,一随机扰动,误差或随机项 ,这样上式成为:,反映因变量和自变量之间的近似线性关系,因变量或,被解释变量,参数,自变量或,解释变量,简单线性回归模型的重要假设,1),X,与,Y,之间的关系是线性的;,2),X,是非随机的变量,它的值是确定的;,3),误差项的期望为,0,;,4),对于所有观测值,误差项具有相同的方差;,5),随机误差之间相互独立;,6),误差项服从正态分布。,例:,某农场,1971,年至,1980,年每英亩的谷物产量,(bushel),和化肥施用量,(pound),之间的数据见表,求出产量与化肥施用量之间的关系。,data21.xls,Year,1971,1972,1973,1974,1975,1976,1977,1978,1979,1980,40,44,46,48,52,58,60,68,74,80,6,10,12,14,16,18,22,24,26,32,注:,蒲式耳,(,谷物,水果等容量单位,美,=35.238,升,英,=36.368,升,),1 pound(,磅,)=0.4536 kilogram,(,千克,),1 acre(,英亩,)=0.405 hectare(,公顷,),谷物产量和化肥施用量之间散点图,利用,Eviews,所作,普通最小二乘估计,(OLS),普通最小二乘法,(ordinary least-squares method),OLS,用来拟合,XY,观测值样本的一条最好的直,线,涉及到求如下的最小值:,其中 表示实际观测值,表示相应的拟合值,,称为残差。,参数估计,令,得,从而,正规方程,参数估计的另一种表达式,令,则,误差和残差的区别,误差,残差,谷物产量和所用化肥量的计算,谷物产量和所用化肥量的计算,(,续,),当,说明?,参数的显著性检验,参数的显著性检验,参数估计的方差,由于 未知,因此常用 的无偏估计残差方差,来替代,2,表示估计,参数的个数,其算术根称回归标准误,参数估计的标准误,谷物,-,化肥一例的参数显著性检验,谷物,-,化肥一例的参数显著性检验,(,续,),因此,由于自由度为,8,显著性水平为,0.05,的,t,分布的临界值,为,2.306,,因此我们得到估计的参数在,5%,的显著性,上是统计显著的。,P,值,单侧:,P,值,=,双侧:,P,值,=,若,P,值小于给定的显著性水平,则拒绝原假设。,回归方程检验,平方和分解,SST,总平方和,(Total Sum of Squares),SSE,解释平方和,(Explained Sum of Squares),SSR,残差平方和,(Residual Sum of Squares),两种不同的解释,Jeffrey M.Wooldridge,等的解释。,SST,表示,Y,的总体变异。它分为两部分,一部分,SSE,,,这部分可以由模型解释,另一部分,SSR,,这是模型解,释不了的部分。,另一种解释。,William H.Greene和Robert,S.Pindyck,等,SSE,(Error Sum of Squares),残差平方和,SSR,(Regression Sum of Squares),回归平方和,注意千万不要混淆。一般软件都采用前一种说法,有的称解释平方和为模型平方和,如,STATA,等。,决定系数,取值范围,01,前例中决定系数计算,回归方程检验,检验统计量,原假设成立时服从自由度为,1,,,n,-2,的,F,分布,给定显著性水平,查表得临界值,若,,则拒绝原假设,相关系数,范围:,-11,前例中相关系数计算,样本相关系数的检验,提出假设,构造统计量,给定显著性水平,得出相应的临界值,决策,若,,则拒绝原假设,正态性检验,JB,统计量,偏度,峰度,n,是样本容量,,S,为样本标准差,正态性假定下,有:,残差的正态性检验,若模型正确,则残差应服从正态分布,通过,JB,统计量,或,QQ,图,(qqnorm),进行验证,如果,真是正态分布的一个样本,那么其分位数应该与正态分布的分位数接近。,OLS,估计的特性,OLS,估计的特性,OLS,估计量是最优线性无偏估计量,(BLUE),该特性也称为高斯,-,马尔科夫定理,B,est,L,inear,U,nbiased,E,stimator,一致性是指随着样本容量趋于无穷,估计量值接近真实值。,OLS,估计量具有无偏性、有效性和一致性,线性,都是关于,Y,的线性函数,无偏性,注:,因此,有效性,估计量,的方差,协方差,有效性,满足高斯马尔柯夫条件时,,OLS,估计是最优线性无偏的,(,B,est,L,inear,U,nbiased,E,stimator,BLUE,),高斯,-,马尔柯夫条件,有效性,预测,预测,建立模型的主要目的之一是为了预测。,1),、点预测,平均值,个别值,为个别值预测误差,预测,(,续,),2),、预测的置信区间,均值预测的,置信区间,个别值,预测,的置信,区间,注:离开 越远的估计,(,或预测,),,其结果也就越不,可靠。,置信区间,、,预测区间,、,回归方程,Y,X,预测上限,置信上限,预测下限,置信下限,预测评价,均方误的平方根,(RMSE,,,root mean squared error),平均绝对值误差,(MAE,mean absolute error),西尔不相等系数,(Theils inequality coefficient),是预测期数,值在,0,,,1,之间,等于,1,则说明模型预测能力最差,模型应用及相关软件操作,案例分析,估计保健支出和收入之间的关系。,数据,data22.xls,Eviews,操作简介,界面,数据输入,(,键盘输入,),File New Workfile,Object New object,File Open Foreign Data as Workfile.,出现下面的界面,找到相应数据文件后点击打,开。,数据输入,(,外部文件,),数据输入,(,结果,),作散点图,Quick Graph Scatter,出现下图界面,中间,填入变量,income exphlth,即可,注意顺序!,作散点图,(,续,),显示两者,有很强的,线性关系,回归分析,Quick Estimate Equation.,再分别如图填入因变量、常数项和自变量,点确定。,exphlth=c(1)+c(2)*income,回归分析,(,续,),系数,标准误,t,统计量,P,值,F,统计量,结果解释,Dependent Variable:,因变量,Method,:估计方法,Date:09/22/06 Time:10:29,结果输出的日期和时间,Sample,:样本区间,Included observations,:观测值个数,Variable,:自变量,,C,是常数项,Coefficient,:系数,Std.Error,:系数估计的标准误,t-Statistic,:,t,统计量值,Prob,:,P,值,R-squared:,判定系数,Adjusted R-squared:,调整后的判定系数,解释,(,续,),Mean dependent var,:因变量均值,S.D.dependent var,:因变量标准差,S.E.of regression,:回归标准误,Sum squared resid,:残差平方和,Log likelihood,:对数似然,Akaike info criterion,:赤池信息准则,Schwarz criterion,:施瓦池信息准则,Durbin-Watson stat,:杜宾统计量,F-statistic,:,F,统计量,Prob(F-statistic),:,F,统计量的,P,值,n,是调整后的样本容量,,k,是参数个数,简单回,归时为,2,残差正态性检验,View Descriptive Statistics Histogram and Stats,打开残差序列对象窗口,EViews,命令操作,create u 51,read F:Econometrics13datadata22.xls exphlth income,scat income exphlth,equation eq1.ls exphlth c income,eq1.results,hist resid,更为简洁、便利!,创建一空工作表,读数据,观察散点图,使用,ols,方法估计模型,查看估计结果,残差的正态性检验,或这样查看有关结果,eq1.R2 eq1.coefs(i),eq1.RBAR2 eq1.stderrs(i),eq1.dw eq1.tstats(i),eq1.aic eq1.cov(i,j),eq1.F,注:,Office07,以后的后缀为,xlsx,gretl,*,打开命令输入窗口,File-Script files-New script-gretl script,open F:Econometrics13datadata22.xls,model1-ols exphlth const income,model1.show,点击,Run,OLS estimates using the 51 observations 1-51,Dependent variable:exphlth,VARIABLE COEFFICIENT STDERROR T STAT P-VALUE,const 0.176496 0.467509 0.378 0.70741,income 0.141652 0.00287491 49.272 0.00001*,Mean of dependent variable=15.0689,Standard deviation of dep.var.=17.9266,Sum of squared residuals=317.899,Standard error of residuals=2.5471,Unadjusted R-squared=0.980216,Adjusted R-squared=0.979812,Degrees of freedom=49,Log-likelihood=-119.028,Akaike information criterion(AIC)=242.057,Schwarz Bayesian criterion(BIC)=245.921,Hannan-Quinn criterion(HQC)=243.533,结果,附:,Anscombes quartet,数据:,data23.txt,(1)(2)(3)(4),X1 Y1 X2 Y2 X3 Y3 X4 Y4,10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58,8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76,13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71,9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84,11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47,14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04,6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25,4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50,12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56,7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91,5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89,回归结果,四组变量回归结果都是:,(2.67),(4.24),回归标准误,1.24,create u 11,read F:Econometrics13datadata23.txt X1 Y1 X2 Y2 X3 Y3 X4 Y4,equation eq1.ls y1 c x1,equation eq2.ls y2 c x2,equation eq3.ls y3 c x3,equation eq4.ls y4 c x4,eq1.results,eq2.results,eq3.results,eq4.results,Anscombes quartet,散点图,Monte Carlo,模拟,回归系数的,Monte Carlo,模拟,(EViews),create mc u 10,matrix(2000,2)m,vector(10)v,v.fill 9.7,10.1,10.0,10.4,10.1,10.2,9.7,10.4,9.6,9.8,mtos(v,x),rndseed 12345,for!k=1 to 2000,series y=2+5*x+5*nrnd,equation eq1.ls y c x,m(!k,1)=eq1.coefs(1),m(!k,2)=eq1.coefs(2),next,show m,expand 1 2000,smpl 1 2000,mtos(m,gr),freeze ser02.qqplot,freeze ser02.hist,genr mb1=mean(ser02),genr sdb1=sqrt(var(ser02),genr sigb1=sqrt(25/sum(x-mean(x)2),show mb1,show sdb1,show sigb1,回归系数的,Monte Carlo,模拟,(R),x-c(9.7,10.1,10.0,10.4,10.1,10.2,9.7,10.4,9.6,9.8),b1-numeric(2000),set.seed(20),for(i in 1:2000),y-2+5*x+rnorm(10,0,5),b1i-coef(lm(yx)2,hist(b1),mean(b1);sd(b1),sqrt(25/sum(x-mean(x)2)#,require(tseries),jarque.bera.test(b1)#,正态性检验,回归系数的,Monte Carlo,模拟,(Gretl),nulldata 10,set seed 2012,loop 2000-progressive-quiet,series x=9.7,10.1,10.0,10.4,10.1,10.2,9.7,10.4,9.6,9.8,genr y1=2+5*x+5*normal(),ols y1 const x,genr b2=$coeff(x),print b2,store d:coeff.gdt b2,endloop,open d:coeff.gdt,normtest b2-jbera,教材案例分析程序,create a 1991 2003,read F:Econometrics13zdataP25.xls,x y,group gr1 x y,freeze gr1.scat,scalar r=cor(x,y),equation eq1.ls y c x,scalar n=eq1.regobs,scalar k=eq1.ncoef,scalar tstat=r*sqrt(n-2)/sqrt(1-r2),genr,P=1-ctdist(tstat,(n-2),show P,show eq1,pagestruct(end=last+1)*,expand,1991,2004,x(n+1)=2300,eq1.forecast yf y_se,group gr2 y yf,freeze gr2.plot,genr ypl=yf(n)-qtdist(0.975,n-k)*y_se(n),genr ypu=yf(n)+qtdist(0.975,n-k)*y_se(n),genr ycu=yf(n)+qtdist(0.975,n-k)*sqrt(y_se(n)2-se2),genr ycl=yf(n)-qtdist(0.975,n-k)*sqrt(y_se(n)2-se2),假设,2004,年收入,2300,show coefs(2),show stderr(2),genr beta1l=coefs(2)-qtdist(0.975,n-k)*stderr(2),genr beta1u=coefs(2)+qtdist(0.975,n-k)*stderr(2),genr yf1=yf(n),group P25 yf1 ypl ypu ycl ycu,show P25,作业,P.29,5,
展开阅读全文