第二章：双变量线性回归分析.doc

资源描述

第三部分初计量经济（13周）经典单方程计量经济模型：一元线形回归模型经典单方程计量经济模型：多元线形回归模型经典单方程计量经济模型：放宽基本假定模型第一章一元线性回归（双变量）（1）回归分析的基本概念（2）前提建设（3）参数估计： OLS的参数估计 ML的参数估计（4）统计检验（5）预测（6）时间案例与操作（7）思考与作业 §1 经典正态线性回归模型（CNLRM） 1、一个例子 X Y 80 100 120 140 160 180 200 220 240 260 55 65 79 80 102 110 120 135 137 150 60 70 84 93 107 115 136 137 145 152 65 74 90 95 110 120 140 140 155 175 70 80 94 103 116 130 144 152 165 178 75 85 98 108 118 135 145 157 175 180 － 88 － 113 125 140 － 160 189 185 －－－ 115 －－－ 162 － 191 总计 325 462 445 707 678 750 685 1043 966 1211 均值 65 77 89 101 113 125 137 174 161 173 注 x表示收入，y表示支出。条件分布：以X取定值为条件的Y的条件分布条件概率：给定X的Y的概率，记为P(Y|X)。例如，P(Y=55|X=80)=1/5；P（Y=150|X=260）=1/7。条件期望（conditional Expectation）：给定X的Y的期望值，记为E(Y|X)。例如，E(Y|X=80)=55×1/5＋60×1/5＋65×1/5＋70×1/5＋75×1/5＝65 总体回归曲线（Popular Regression Curve）（总体回归曲线的几何意义）：当解释变量给定值时因变量的条件期望值的轨迹。总结总体：总体函数： PRF：Yi=b1+b2Xi+ui=E(Y|Xi)+ui 总体方程： PRF：Yi=b1+b2Xi=E(Y|Xi) 样本：样本函数： SRF：=+＋=+ 样本方程： SRF：=+＋= 2、总体回归函数（PRF） E(Y|Xi)=f(Xi) 当PRF的函数形式为线性函数，则有， E(Y|Xi)=b1+b2Xi 其中b1和b2为未知而固定的参数，称为回归系数。b1和b2也分别称为截距和斜率系数。上述方程也称为线性总体回归函数。 3、 PRF的随机设定将个别的YI围绕其期望值的离差(Deviation)表述如下： ui=Yi-E(Y|Xi) 或Yi=E(Y|Xi)+ui PRF：Yi=b1+b2Xi+ui=E(Y|Xi)+ui 其中ui是一个不可观测的可正可负的随机变量，称为随机扰动项或随机误差项。 4、 “线性”的含义 “线性”可作两种解释：对变量为线性，对参数为线性。本课“线性”回归一词总是指对参数b为线性的一种回归（即参数只以它的1次方出现）。模型对参数为线性？模型对变量为线性？是不是是 LRM LRM 不是 NLRM NLRM 注：LRM＝线性回归模型；NLRM＝非线性回归模型。看几个例子： 5、随机干扰项的意义（补充内容）随机扰动项是从模型中省略下来的而又集体地影响着Y的全部变量的替代物。显然的问题是：为什么不把这些变量明显地引进到模型中来？换句话说，为什么不构造一个含有尽可能多个变量的复回归模型呢？理由是多方面的：（1）理论的含糊性（2）数据的欠缺（3）核心变量与周边变量（4）内在随机性（5）替代变量（6）省略原则（7）错误的函数形式总之把所有没有模型中没有包含，但有关的变量全部纳入干扰项之中。 6、样本回归函数（SRF）（1）样本回归函数 =+ 其中＝E(Y|Xi)的估计量；＝的估计量；＝的估计量。估计量（Estimator）：一个估计量又称统计量，是指一个规则、公式或方法，是用已知的样本所提供的信息去估计总体参数。在应用中，由估计量算出的数值称为估计值。样本回归函数的随机形式为： SRF：=+＋=+ 其中表示（样本）残差项（residual）。（2）样本回归线的几何意义 Xi X PRF:E(Y|Xi)=b1+b2Xi SRF: =+ Y E(Y|Xi) 7、经典线性回归模型（CLRM）的基本假定：假定1：干扰项的均值为零。即，E(ui|Xi)=0 假定2：同方差性或ui的方差相等。即，Var(ui|Xi)=s2 假定3：各个干扰项无自相关。即，Cov(ui,uj|Xi,Xj)=0 假定4：ui和Xi的协方差为零。即，Cov(ui,Xi)=E(uiXi)=0 假定5：回归模型对参数而言是线性的假定6： §2 估计问题（b和s2）一、普通最小二乘法 1、问题： PRF：Yi=b1+b2Xi+ui SRF：=+＋=+ =-=-(+) minf(,)=minS2=minS[-(+)]2 2、正规方程（Normal equation）由=0，以及=0得到的方程组称为正规方程。即， S=n+S S=S+S2 二、 b的估计 1、公式：解上述正规方程组得到和估计值：其中和是X和Y的样本均值。定义离差：=-，=-。用小写字母表示对均值的离差。 2、对OLS估计量的说明 (1）OLS估计量可由观测值计算； (2) OLS估计量是点估计量； (3)一旦从样本数据得到OLS估计值，就可画出样本回归线。 3、样本回归线的性质：（1）通过Y和X的样本均值：＝＋；（2）估计的Y的均值等于实际的Y的均值：=；（3）残差的均值为零：E()=0；（4）残差与不相关：S=0；（5）残差与不相关：S=0。三、s2的估计四、最小二乘法估计的精度或标准误差五、OLS的性质（高斯－马尔可夫定理）（补充内容） OLS估计量和是BLUE（Best Linear Unbiased Estimator）的。 (1)线性：它是一个随机变量，如因变量Y的线性函数。 (2)无偏：它的均值等于真值，E()=b2 (3)最小方差：在所有线性无偏估计量中OLS下的估计量有最小方差。注：有最小方差的无偏估计量叫有效估计量。 §3 拟合优度检验拟合优度检验是指样本回归线与样本观测值之间拟合程度的检验。度量拟合程度的指标是判定系数R2。 Y Yi O Xi X =来自残差 (Yi－)=总离差 (-)=来自回归 SRF：+ 一、平方和公式总平方和（TSS）：=实测的Y值围绕其均值的总变异；解释平方和（ESS）：=估计的Y值围绕其均值的总变异；残差平方和（RSS）：=未被解释的围绕回归线的Y值的变异。二、 R2公式，或性质：；三、 R2与相关系数r不同在回归分析中，R2是一个比r更有意义的度量，因为前者告诉我们在因变量的变异中由解释变量解释的部分占怎样一个比例，因而对一个变量的变异在多大程度上决定另一个变量的变异，提供了一个总的度量。 §4 置信区间本节要解决的问题： OLS估计值是一个点估计值，它离真实值有多近？一、区间估计的一些基本概念为了回答上述问题，我们试求两个正数d和a，a位于0与1之间，使得随机区间（-d,+d）包含的概率为1-a。用符号表示， Pr(-d+d)=1-a 这样的一个区间如果存在的话，就称为置信区间（Confidence interval）； 1-a称为置信系数（Confidence coefficient）； a（0<a<1）称为显著(性)水平（Level of significance）；置信区间的端点称为置信限（Confidence limits）； -d为置信下限（Lower Confidence limit）；+d为置信上限（Upper Confidence limit）。二、回归系数b1和b2的置信区间在ui的正态性假定下，OLS估计量和本身就是正态分布的， ÞÞ 但是很少能知道，在实践中用无偏估计量来代替，则统计量t服从自由度为n-2的t分布：其中表示估计量的标准差（）的估计值。由得： b2的显著水平为a的置信区间为：同样，b1显著水平为a的置信区间为：三、s2的置信区间在正态性的假设下，变量服从自由度为n-2的分布。故可以用其来建立s2的置信区间。由得， s2显著水平为a的置信区间为： §5假设检验（）问题：某一给定的观测或发现是否与某一声称的假设（stated hypothesis）相符？此处用“相符”一词表示观测的值与假设的值“足够相近”，因而我们不拒绝所声称的假设。虚拟假设（Null hypothesis）：一种信以为真的、意在维护的或理论上的假设，并用H0表示。与之对立的假设称为对立假设（alternative hypothesis），记为H1。对立假设可以是简单的或复合的。例如，H1：b2=1是一个简单假设，但是H1：b2¹1则是一个复合假设。方法：有显著性检验和置信区间两种方法。一、显著性检验 1、 t检验（检验系数）方法： H0：；H1：如果H0为真，则因为所以有，从而，检验的估计值是否在此区间，如果在则接受H0假设，否则拒绝H0假设。 2、置信区间方法 H0：；H1：构造一个b2的显著水平为a的置信区间为：。若b2在假设H0：之下落入此区间，就不要拒绝H0假设，但落在区间之外，就拒绝H0假设。 3、 t检验方法的直接计算： H0：；H1：。计算 1-a接受域 -ta/2 O ta/2 t 比较||与： ||>（t值大） Û“统计量的值落入临界域上 Û统计量是统计上显著的 Û拒绝H0假设 ÛPr(t)<a（P值小）。二、s2检验的显著性（c2检验） H0：；H1：。构造s2显著水平为a的置信区间：检验s2的检验值是否在此区间内，在则接受，不在就拒绝。三、假设检验中的两类错误第一类错误：拒绝真实；第二类错误：接受错误。两类错误之间存在一种替代关系(Trade-off)。 §6 F检验（总显著水平）算出F的估计值，与F分布表在选定显著水平上读出的F临界值相比较；或查找F统计量的估计值的P值。 §7 预测样本回归函数的一个用途是“预测”或“预报”对应于给定X的未来的Y值。包括两种预测：一、均值预测(mean prediction) 对应于选定的X比方说X0，预测Y的条件均值E(Y0)。 1、点估计 2、区间估计二、个值预测(individual prediction) 1、点估计 2、区间估计三、比较 1、Y0的置信区间比Y0的均值E(Y0)的置信区间宽； X Y个值的置信区间 Y均值的置信区间 Y 2、这些区域的宽度在X＝达到最小。 15

展开阅读全文