第六章一元线性回归模型下.doc

资源描述

1、第六章一元线性回归模型（下）总体回归函数： Yi = B1 + B2Xi + ui 估计的样本回归函数： i = 49.667 2.5176Xi问题：OLS得出的估计回归直线的“优度”如何？即怎样判别它确实是真实的总体回归函数的一个好的估计量呢?6.1古典线性回归模型的一些基本假定为什么对ui做一些假定？Yi依赖于Xi与ui，假设Xi值是给定的或是已知的，是以给定X为条件（条件回归分析），而随机误差项u是随机的。由于Y的生成是在随机误差项( u）上加上一个非随机项( X），因而Y也就变成了随机变量.只有假定随机误差项是如何生成的，才能判定样本回归函数对真实回归函数拟合的好坏。因此必须对ui的

2、生成做一些特殊的假定：6。1。1 解释变量(X)与扰动误差项不相关.如果X是非随机的，则该假定自动满足。（回忆：条件回归分析是以给定X值为条件的。）6.1。2 扰动项的期望或均值为零。E（ui）= 0 （6 1)平均地看,随机扰动项对Yi没有任何影响，也就是说，正值与负值相互抵消。6。1.3 同方差假定，即每个ui的方差为一常数。Var (ui) = (6 2）可简单地理解为，与给定X相对应的每个Y的条件分布同方差；即每个Y值以相同的方差分布在其均值周围，否则称为异方差。提问: ui的（条件)方差等于Yi的(条件）方差吗？Yi = B1 + B2Xi + ui由于X值是假设给定的或是非随机的,

3、因此 Y中惟一变化的部分来自于u。因此，给定Xi，ui与Yi同方差。6。1。4 无自相关(no autocorrelation）假定,即两个误差项之间不相关。cov （ui，uj）=0 ij ( 6 - 3 ）i和j表示任意的两个误差项。假定6。1.4表明两误差项之间没有系统的关系。推理因为 cov (ui,uj)=Eui-E(ui)uj-E(uj) =E(uiuj) - E(ui)E(uj) =0所以 E(uiuj)=0如果某一个误差项u大于（小于）其均值，并不意味着另一个误差项也在均值之上（下）。简言之,无自相关假定表明误差项ui是随机的。6。1.5 在总体回归函数Yi=B1+B2Xi+u

4、i中，误差项ui服从均值为零，方差为的正态分布，即ui N（ 0，) ( 6 - 4 ）以上5个条件为经典假设条件。6.2 普通最小二乘法估计量的性质（为什么要采用OLS?）OLS法得到广泛的使用，因为它有一些理想的理论性质，即OLS估计量是最优线性无偏(Best Linear Unbiased Estimator, BLUE)估计量。简言之，OLS估计量b1和b2满足：(1) 线性；即b1和b2是被解释变量Y的线性函数.（是不是X的线性函数？）证明:因为由于所以，设说明是的线性函数，是以为权的一个加权平均.（2) 无偏性；即E（b1） = B1E(b2) = B2E（） =平均而言， b

5、1和b2将与B1和B2真实值相一致，将与真实的相一致。（尽管大多数情况下我们并不知道B1和B2的真实值）先了解的一些性质：1。因为假定为非随机（给定）的，所以也是非随机（给定）的.2。,给定一个样本,已知,可作为常量,因此。3.因为4。（显而易见）证明:将整体回归方程代入，得对两边求数学期望值，因为可以看作常量，所以因为已经假定。（3）最小方差性。即b1、b2的方差小于其他任何一个B1、B2的无偏估计量的方差。（证明过程略，详见古扎垃蒂，计量经济学，第三版上册，P8485）根据以上性质，如果使用OLS法，将能够更准确地估计B1和B2，虽然其他的方法也能得到B1和B2的线性无偏估计量.6

6、.3 估计量的方差与标准差由于随机误差项服从正态分布，OLS估计量也是随机变量。(回顾，设，.由于给定的，可以看作常量.)可以得到估计量的方差及标准差：var（b1）（6 5）其中se(b1) = （6 - 6）var（b2 ） = （ 6 7 )计算过程var(b2)=Eb2-E(b2)2 因为，得=Eb2-B22 因为，得= E因为对每一,，并且对, （回忆）se（b2) = （ 6 - 8 )一旦知道了，可以求得OLS估计量的方差与标准差.但在通常情况下，是未知的，可以用样本方差来代替，由下式来估计： (6 9)是残差平方和（RSS)，即Y的真实值与估计值的差的平方和，(n2）称为自由

7、度。证明：因此，（1）（2）（2）（1）得由于（3）（见第五章的证明过程）（3）（2）得归并项，平方，整理得两边去数学期望值得是真实的一个无偏估计量。（为什么)按照经典线性会规模型的以及前面的一些结论，可得（例如，具体见赵国庆计量经济学第二版，P2223）代入上式，得定义其期望值是：因此，是真实值的一个无偏估计量。同时 (6 - 10)即正的平方根称为估计值的标准差或是回归标准差,它是Y值偏离估计的回归直线的标准方差. 炒栗子一例中的方差和标准差利用上述公式，计算方差及标准差，见表6 1。 (6 1 1)se=（0。7464) (0。1203)6.4 假设检验b1和b2服从正态分布。

8、（为什么？）已经证明了b2是Y的线性函数（），但Y本身又是ui的线性函数，这可以从Yi=B1+B2Xi+ui中看出。(注：B和X为常量或是非随机的）。如果假定u服从正态分布，则u的线性函数Y也服从正态分布，因此最终b2是u的函数，服从正态分布。同理可证，b1也服从正态分布。b1N（B1， ) var（b1) b2N（B2, )回到炒栗子一例，假定价格对需求量没有影响，即，零假设为：H0： B2 = 0在回归分析中，“0”零假设(“Zero”null ypothesis），也称之为稻草人假设(straw man hypothesis)。为什么选择这样一个假设？选择这样一个假设，是为了看Y究竟是否

9、与X有关。如果一开始X与Y就无关，那么再检验假设,B2为其他任何值就没有意义了。如果零假设为真,则就没有必要把X包括到模型之中。一般期望拒绝“0零假设H0而接受备择假设H1,例如B20。回忆第4章关于假设检验的讨论,可以选择：(1）置信区间法（2) 显著性检验法由于b2服从均值为B2，方差为的正态分布,则变量Z服从标准正态分布而是未知的，但可以根据用来估计。如果在上式中用来代替，则上式右边服从自由度为(n-2）的t分布，而不是标准正态分布,即更一般地因此，为了检验零假设，可以t分布来代替（标准）正态分布。6.4。1 置信区间法在炒栗子一例中，共有10个观察值，因而自由度为(102）=8。假定

10、置信水平为5（犯第一类错误的概率）.由于备择假设是双边的，从t分布表得：P(2。306t2。306)= 0.95即t值(自由度为8）位于此上限（2。306)、下限(2。306）之间的概率为95%;这个上、下限就是t的临界值。将代到P(2。306t2.306)= 0。95,得P(-2。3062.306）= 0.95重新整理得P（+)= 0。95更一般地,Pb22。306se(b2）B2b2 + 2.306se(b2）= 0.95上式给出了B2的一个95%的置信区间。（简单的说，意味着重复应用上述过程,求得的100个这样的区间中将有95个包括真实B2）。根据第4章的讨论，如果这个区间（即接受区域)

11、包括零假设值B2,则不拒绝零假设。但如果零假设值落在置信区间以外(即拒绝区域），则拒绝零假设。(注意：无论做何种决定，都会以一定的概率，比如说5%犯错误。）已知se(b2)=0.1203，将其代入上式,得到一个95的置信区间2.4350 B2 1。8802这个区间没有包括零假设值0，所以拒绝零假设.6.4.2 假设检验的显著性检验法回顾t统计量它服从自由度为(n2）的t分布。如果有：H0: 其中，是的某一给定值，(例如，=0)，则,由于上式右边所有的量均为已知,因此可用计算出的t值作为检验统计量。设定置信水平（一般为1，5或10%),如果计算得到的t值超过了t 临界值，则拒绝零假设。在具体运用

12、t检验时，需注意：（1）对于一元线性回归模型，自由度总为（n2)。(2）虽然在经验分析中常用的有1,5或1 0%，但置信水平是可以任意选取。6.3.4 两种方法的比较:置信区间法与显著性检验法的区别在于,前者不知道具体的B2值,因而，通过建立一个(1）的置信区间来猜测B2是否属于置信区间，如果不属于则拒绝假设.在显著性检验方法中，假设真实B2为某一具体值（=），通过建立一个的置信水平来猜测B2是否超过了t的临界值，如超过则拒绝零假设。置信区间和显著性检验法只不过是“同一枚硬币的正反两面”。在炒栗子一例中，提出：H0:B2= 0，H1:B20根据t分布表,求得t的临界值(双边)为计算的t|值为

13、17。94，甚至在1显著水平下,也远远超过了t临界值。因此拒绝零假设：B2=0。6. 5 拟合优度的检验：判定系数虽然根据t检验，估计的斜率和截距均为统计显著的，样本回归函数很好地拟合了数据.但是，并非每一个Y值都准确落在了估计的样本回归线上，即残差并非都未零。如何建立一个“拟合优度”的度量规则，以辨别估计的回归线拟合真实Y值的优劣？:判定系数 (coefficient of determination）（离差形式，即用小写字母表示与均值的偏差为）两边都减去，得到两边同时平方再求和，得其中，由于；（详见第五章的证明过程），得所以即各种平方和定义如下:表示总离差平方和(total sum o

14、f squares，TSS)，表示回归平方和(explained sum of squares,ESS)，表示残差平方和(residual sum of squares, RSS)。上式可简化成为：TSS = ESS + RSS表明:Y值与其均值的总离差可以分解为两个部分：一部分归于回归线,另一部分归于随机因素，因为并不是所有的真实观察值Y都落在拟合的直线上。选择好的拟合样本回归函数,要求ESS比RSS大得多：若所有真实的Y值都落在拟合的样本回归线上,则RSS将为0上式两边同除以TSS，得到，定义，称为判定系数，来度量回归线的拟合优度,即度量了回归模型对Y的变动解释的比例。的两条性质：（1）非负性。（2） 0r21,为什么？部分(ESS）不可能大于整体（TSS)的计算公式得得到炒栗子一例中的

展开阅读全文