计量经济学第二章-简单线性回归.ppt

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,计量经济学,ECONOMETRICS,第二章简单线性回归,模型的建立及其假定条件,普通最小二乘估计,(OLS),参数估计的显著性检验,回归方程检验,普通最小二乘估计的特性,预测,模型应用及有关软件操作,Monte Carlo,模拟,模型的建立及其假定条件,回归的由来,回归,(Regression),一词来源于,19,世纪英国生物学家葛,尔登,(Francis Galton,1822-1911),对人体遗传特征的,实验研究。他根据实验数据发现，双亲高的孩子个子,高，双亲矮的孩子个子矮，然而高和矮却不是无限制,的，总是越来越趋向于人的平均身高，他称这种现象,为“回归”。,现在统计学上回归指的是变量之间的依存关系。,两变量线性模型,由于所有点不可能恰在直线上，因此上式需添加,一随机扰动，误差或随机项，这样上式成为：,反映因变量和自变量之间的近似线性关系,因变量或,被解释变量,参数,自变量或,解释变量,简单线性回归模型的重要假设,1),X,与,Y,之间的关系是线性的；,2),X,是非随机的变量，它的值是确定的；,3),误差项的期望为,0,；,4),对于所有观测值，误差项具有相同的方差；,5),随机误差之间相互独立；,6),误差项服从正态分布。,例：,某农场,1971,年至,1980,年每英亩的谷物产量,(bushel),和化肥施用量,(pound),之间的数据见表，求出产量与化肥施用量之间的关系。,data21.xls,Year,1971,1972,1973,1974,1975,1976,1977,1978,1979,1980,40,44,46,48,52,58,60,68,74,80,6,10,12,14,16,18,22,24,26,32,注：,蒲式耳,(,谷物,水果等容量单位,美,=35.238,升,英,=36.368,升,),1 pound(,磅,)=0.4536 kilogram,(,千克,),1 acre(,英亩,)=0.405 hectare(,公顷,),谷物产量和化肥施用量之间散点图,利用,Eviews,所作,普通最小二乘估计,(OLS),普通最小二乘法,(ordinary least-squares method),OLS,用来拟合,XY,观测值样本的一条最好的直,线，涉及到求如下的最小值：,其中表示实际观测值，表示相应的拟合值，,称为残差。,参数估计,令,得,从而,正规方程,参数估计的另一种表达式,令,则,误差和残差的区别,误差,残差,谷物产量和所用化肥量的计算,谷物产量和所用化肥量的计算,(,续,),当,说明？,参数的显著性检验,参数的显著性检验,参数估计的方差,由于未知，因此常用的无偏估计残差方差,来替代,2,表示估计,参数的个数,其算术根称回归标准误,参数估计的标准误,谷物,-,化肥一例的参数显著性检验,谷物,-,化肥一例的参数显著性检验,(,续,),因此,由于自由度为,8,显著性水平为,0.05,的,t,分布的临界值,为,2.306,，因此我们得到估计的参数在,5%,的显著性,上是统计显著的。,P,值,单侧：,P,值,=,双侧：,P,值,=,若,P,值小于给定的显著性水平，则拒绝原假设。,回归方程检验,平方和分解,SST,总平方和,(Total Sum of Squares),SSE,解释平方和,(Explained Sum of Squares),SSR,残差平方和,(Residual Sum of Squares),两种不同的解释,Jeffrey M.Wooldridge,等的解释。,SST,表示,Y,的总体变异。它分为两部分，一部分,SSE,，,这部分可以由模型解释，另一部分,SSR,，这是模型解,释不了的部分。,另一种解释。,William H.Greene和Robert,S.Pindyck,等,SSE,(Error Sum of Squares),残差平方和,SSR,(Regression Sum of Squares),回归平方和,注意千万不要混淆。一般软件都采用前一种说法，有的称解释平方和为模型平方和，如,STATA,等。,决定系数,取值范围,01,前例中决定系数计算,回归方程检验,检验统计量,原假设成立时服从自由度为,1,，,n,-2,的,F,分布,给定显著性水平，查表得临界值,若,，则拒绝原假设,相关系数,范围：,-11,前例中相关系数计算,样本相关系数的检验,提出假设,构造统计量,给定显著性水平，得出相应的临界值,决策,若,，则拒绝原假设,正态性检验,JB,统计量,偏度,峰度,n,是样本容量，,S,为样本标准差,正态性假定下，有：,残差的正态性检验,若模型正确，则残差应服从正态分布,通过,JB,统计量,或,QQ,图,(qqnorm),进行验证,如果,真是正态分布的一个样本，那么其分位数应该与正态分布的分位数接近。,OLS,估计的特性,OLS,估计的特性,OLS,估计量是最优线性无偏估计量,(BLUE),该特性也称为高斯,-,马尔科夫定理,B,est,L,inear,U,nbiased,E,stimator,一致性是指随着样本容量趋于无穷，估计量值接近真实值。,OLS,估计量具有无偏性、有效性和一致性,线性,都是关于,Y,的线性函数,无偏性,注：,因此,有效性,估计量,的方差,协方差,有效性,满足高斯马尔柯夫条件时，,OLS,估计是最优线性无偏的,(,B,est,L,inear,U,nbiased,E,stimator,BLUE,),高斯,-,马尔柯夫条件,有效性,预测,预测,建立模型的主要目的之一是为了预测。,1),、点预测,平均值,个别值,为个别值预测误差,预测,(,续,),2),、预测的置信区间,均值预测的,置信区间,个别值,预测,的置信,区间,注：离开越远的估计,(,或预测,),，其结果也就越不,可靠。,置信区间,、,预测区间,、,回归方程,Y,X,预测上限,置信上限,预测下限,置信下限,预测评价,均方误的平方根,(RMSE,，,root mean squared error),平均绝对值误差,(MAE,mean absolute error),西尔不相等系数,(Theils inequality coefficient),是预测期数,值在,0,，,1,之间，等于,1,则说明模型预测能力最差,模型应用及相关软件操作,案例分析,估计保健支出和收入之间的关系。,数据,data22.xls,Eviews,操作简介,界面,数据输入,(,键盘输入,),File New Workfile,Object New object,File Open Foreign Data as Workfile.,出现下面的界面，找到相应数据文件后点击打,开。,数据输入,(,外部文件,),数据输入,(,结果,),作散点图,Quick Graph Scatter,出现下图界面，中间,填入变量,income exphlth,即可，注意顺序！,作散点图,(,续,),显示两者,有很强的,线性关系,回归分析,Quick Estimate Equation.,再分别如图填入因变量、常数项和自变量，点确定。,exphlth=c(1)+c(2)*income,回归分析,(,续,),系数,标准误,t,统计量,P,值,F,统计量,结果解释,Dependent Variable:,因变量,Method,：估计方法,Date:09/22/06 Time:10:29,结果输出的日期和时间,Sample,：样本区间,Included observations,：观测值个数,Variable,：自变量，,C,是常数项,Coefficient,：系数,Std.Error,：系数估计的标准误,t-Statistic,：,t,统计量值,Prob,：,P,值,R-squared:,判定系数,Adjusted R-squared:,调整后的判定系数,解释,(,续,),Mean dependent var,：因变量均值,S.D.dependent var,：因变量标准差,S.E.of regression,：回归标准误,Sum squared resid,：残差平方和,Log likelihood,：对数似然,Akaike info criterion,：赤池信息准则,Schwarz criterion,：施瓦池信息准则,Durbin-Watson stat,：杜宾统计量,F-statistic,：,F,统计量,Prob(F-statistic),：,F,统计量的,P,值,n,是调整后的样本容量，,k,是参数个数，简单回,归时为,2,残差正态性检验,View Descriptive Statistics Histogram and Stats,打开残差序列对象窗口,EViews,命令操作,create u 51,read F:Econometrics13datadata22.xls exphlth income,scat income exphlth,equation eq1.ls exphlth c income,eq1.results,hist resid,更为简洁、便利！,创建一空工作表,读数据,观察散点图,使用,ols,方法估计模型,查看估计结果,残差的正态性检验,或这样查看有关结果,eq1.R2 eq1.coefs(i),eq1.RBAR2 eq1.stderrs(i),eq1.dw eq1.tstats(i),eq1.aic eq1.cov(i,j),eq1.F,注：,Office07,以后的后缀为,xlsx,gretl,*,打开命令输入窗口,File-Script files-New script-gretl script,open F:Econometrics13datadata22.xls,model1-ols exphlth const income,model1.show,点击,Run,OLS estimates using the 51 observations 1-51,Dependent variable:exphlth,VARIABLE COEFFICIENT STDERROR T STAT P-VALUE,const 0.176496 0.467509 0.378 0.70741,income 0.141652 0.00287491 49.272 0.00001*,Mean of dependent variable=15.0689,Standard deviation of dep.var.=17.9266,Sum of squared residuals=317.899,Standard error of residuals=2.5471,Unadjusted R-squared=0.980216,Adjusted R-squared=0.979812,Degrees of freedom=49,Log-likelihood=-119.028,Akaike information criterion(AIC)=242.057,Schwarz Bayesian criterion(BIC)=245.921,Hannan-Quinn criterion(HQC)=243.533,结果,附：,Anscombes quartet,数据：,data23.txt,(1)(2)(3)(4),X1 Y1 X2 Y2 X3 Y3 X4 Y4,10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58,8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76,13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71,9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84,11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47,14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04,6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25,4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50,12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56,7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91,5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89,回归结果,四组变量回归结果都是：,(2.67),(4.24),回归标准误,1.24,create u 11,read F:Econometrics13datadata23.txt X1 Y1 X2 Y2 X3 Y3 X4 Y4,equation eq1.ls y1 c x1,equation eq2.ls y2 c x2,equation eq3.ls y3 c x3,equation eq4.ls y4 c x4,eq1.results,eq2.results,eq3.results,eq4.results,Anscombes quartet,散点图,Monte Carlo,模拟,回归系数的,Monte Carlo,模拟,(EViews),create mc u 10,matrix(2000,2)m,vector(10)v,v.fill 9.7,10.1,10.0,10.4,10.1,10.2,9.7,10.4,9.6,9.8,mtos(v,x),rndseed 12345,for!k=1 to 2000,series y=2+5*x+5*nrnd,equation eq1.ls y c x,m(!k,1)=eq1.coefs(1),m(!k,2)=eq1.coefs(2),next,show m,expand 1 2000,smpl 1 2000,mtos(m,gr),freeze ser02.qqplot,freeze ser02.hist,genr mb1=mean(ser02),genr sdb1=sqrt(var(ser02),genr sigb1=sqrt(25/sum(x-mean(x)2),show mb1,show sdb1,show sigb1,回归系数的,Monte Carlo,模拟,(R),x-c(9.7,10.1,10.0,10.4,10.1,10.2,9.7,10.4,9.6,9.8),b1-numeric(2000),set.seed(20),for(i in 1:2000),y-2+5*x+rnorm(10,0,5),b1i-coef(lm(yx)2,hist(b1),mean(b1);sd(b1),sqrt(25/sum(x-mean(x)2)#,require(tseries),jarque.bera.test(b1)#,正态性检验,回归系数的,Monte Carlo,模拟,(Gretl),nulldata 10,set seed 2012,loop 2000-progressive-quiet,series x=9.7,10.1,10.0,10.4,10.1,10.2,9.7,10.4,9.6,9.8,genr y1=2+5*x+5*normal(),ols y1 const x,genr b2=$coeff(x),print b2,store d:coeff.gdt b2,endloop,open d:coeff.gdt,normtest b2-jbera,教材案例分析程序,create a 1991 2003,read F:Econometrics13zdataP25.xls,x y,group gr1 x y,freeze gr1.scat,scalar r=cor(x,y),equation eq1.ls y c x,scalar n=eq1.regobs,scalar k=eq1.ncoef,scalar tstat=r*sqrt(n-2)/sqrt(1-r2),genr,P=1-ctdist(tstat,(n-2),show P,show eq1,pagestruct(end=last+1)*,expand,1991,2004,x(n+1)=2300,eq1.forecast yf y_se,group gr2 y yf,freeze gr2.plot,genr ypl=yf(n)-qtdist(0.975,n-k)*y_se(n),genr ypu=yf(n)+qtdist(0.975,n-k)*y_se(n),genr ycu=yf(n)+qtdist(0.975,n-k)*sqrt(y_se(n)2-se2),genr ycl=yf(n)-qtdist(0.975,n-k)*sqrt(y_se(n)2-se2),假设,2004,年收入,2300,show coefs(2),show stderr(2),genr beta1l=coefs(2)-qtdist(0.975,n-k)*stderr(2),genr beta1u=coefs(2)+qtdist(0.975,n-k)*stderr(2),genr yf1=yf(n),group P25 yf1 ypl ypu ycl ycu,show P25,作业,P.29,5,

展开阅读全文