第四章古典线性回归模型.doc

资源描述

1、上课材料之五第四章古典线性回归模型在引论中，我们推出了满足凯恩斯条件的消费函数与收入有关的一个最普通模型：C=+X+，其中0，01是一个随机扰动。这是一个标准的古典线性回归模型。假如我们得到如下例1的数据例1 可支配个人收入和个人消费支出年份可支配收入个人消费1970751。6672。11971779.2696.81972810.3737。11973864.7767.91974857.5762.81975847。9779。41976906。8823。11977942.9864.31978988.8903。219791015.7927。6来源：数据来自总统经济报告，美国政府印刷局，华盛顿特区,

2、1984.（收入和支出全为1972年的十亿美元）一、线性回归模型及其假定一般地,被估计模型具有如下形式:yi=+xi+i,i=1，n，其中y是因变量或称为被解释变量，x是自变量或称为解释变量，i标志n个样本观测值中的一个.这个形式一般被称作y对x的总体线性回归模型。在此背景下，y称为被回归量，x称为回归量。构成古典线性回归模型的一组基本假设为：1。函数形式：yi=+xi+i，i=1，,n,2. 干扰项的零均值:对所有i，有:Ei=0。3。同方差性：对所有i,有：Vari=2，且是一个常数。4。无自相关：对所有ij,则Covi,j=0。5。回归量和干扰项的非相关：对所有i和j有Covxi

3、，j=0。6. 正态性:对所有i，i满足正态分布N（0，）。模型假定的几点说明：1、函数形式及其线性模型的转换具有一般形式对任何形式的g(x)都符合我们关于线性模型的定义。例一个常用的函数形式是对数线性模型：。取对数得：。（)这被称作不变弹性形式。在这个方程中,y对于x的变化的弹性是，它不随x而变化。与之相反，线性模型的弹性是：。对数线性模型通常用来估计需求函数和生产函数。尽管线性模型具有巨大的灵活性，但在实际中存在着大量的非线性模型的形式。例如，任何变换也不能将和（01）转化为线性回归模型.2、回归量对于回归量即解释变量我们有两种处理方法，第一种将X设定为非随机变量，第二种方法将X设定为随

4、机变量.1）当X为非随机变量xi的值在yi的概率分布中是已知的常数。这条假定暗示yi的每一个值都是一个概率分布的观察值，这个概率分布具有均值和方差。此外，有必要假定，对n1是一个有限正数，这个假定被称作识别条件,若xi没有任何变化,我们所有的观测值将落在一条垂直线上，我们的观测数据将不允许我们作出关于回归+x的任何推断.这个识别条件等同于子样的极差max（X1，Xn）min(X1,，Xn)0。2）当X为随机变量若x被当作一个随机变量,则假定1成为一个对y和x的联合分布的陈述。我们就用条件期望和方差来处理。3、随机干扰项1）如果干扰项不是零均值，即Ei=,对所有的i，则+x+i等同于（+）+x+

5、（i），令=+及i=i可得到模型，此模型满足我们原始模型的要求。2）观测值中的随机部分假定是不相关的：Eij=0 对所有i不等于j。这被称为非自相关.二、最小二乘法1 最小二乘系数总体回归是Eyi|xi= +xi，而我们对Eyi|xi的估计记作。和第i的数据点相联系的干扰项是对a和b的任何值，我们用残差来估计i，从这些定义可知: 。对任何一对值a和b，残差平方和是：最小二乘法系数就是使这个拟合标准达到最小的a和b的值.最小化的一阶条件是和将上两式展开合并同类项后得到正规方程组（1) （2)（1）式暗示，而（2）式暗示为了得到解,我们首先用n除(1）结果是最小二乘回归线通过均值点。现在分离

6、a: （3）有了a后,我们可以求解(2）得到b。首先，。将此和(3)代入（2）并重新安排各项。或最小的残差平方和,对a和b的二阶微商矩阵是 .我们必须表明这是一个正定矩阵，两个对角元素永远为正,所以仅需证明行列式为正，行列式为，所以行列式为由识别条件得知这是一个正值。这样a和b是平方和的最小化因子。2 回归拟合的评价1)回归量x是非随机变量总变差是离差的平方和：第二个等式成立是因为我们将其写作总平方和=回归平方和+残差平方和或SST=SSR+SSE。我们利用下式得到一个关于回归直线对数据拟合程度的度量为了方便计算与分析，约定和 x和y间的样本相关系数是。利用我们得到，这表明回归的斜率和x、y

7、间的相关系数具有相同的符号，而且 .这进一步证明了我们利用R2作为回归模型拟合优劣指标的正确性。3 方差分析表进一步研究回归平方和SSR与残差平方和SSE，我们可以得到下面三个结论:a）在=0的假设条件下，回归平方和服从自由度为1的卡方分布x2(1）（为什么？）;b）残差平方和服从自由度为n-2的卡方分布x2(n2);c）在=0的假设条件下，服从F（1，n2)分布。现在我们来证明这三个结论.证明：a），其中，易知，。可以验证是幂等矩阵。在=0的假设条件下，才服从自由度为1的卡方分布x2（1)（为什么？）b)因为所以易验证也是幂等矩阵最后一个等式成立是因为。所以，从而。此结论成立不需要=0的假设

8、条件下,为什么？c）因为所以SSR与SSE是相互独立的统计量。从而，在=0的假设条件下，服从F(1,n2）分布，所以,可以用来作模型的整体检验的统计量。概括这些计算的一个方便的途径是方差分析表，可总结在方差分析表1中。表1 方差分析表变差来源变差自由度均方回归SSR=b2Sxx1残差n2总SST=Syyn12）回归量X是随机变量我们要利用方差分解公式 =我们将它应用到子样空间里来，即所以,两边去掉1/n后得到：我们得到了和把X当成非随机变量时同样的结果，因此,方差分析表也是一样的。考虑消费函数的例子，这里C是消费而X是收入，我们得到总平方和的各个部分为总平方和=64,972。12回归平方和

9、=64，435。13残差平方和=537.00显然,此回归提供了一个很好的拟合.对消费和收入数据，方差分析表如下所示例1数据的方差分析表变差来源变差自由度均方回归64,435.15164，435.13残差537。00867。124总64，972.1397，219。12另一个计算和通常R2相类似公式是：任何一个模型的残差都可用来计算。三、最小二乘法估计量的统计特征我们利用了最小二乘法,从纯粹的代数方法，求得所拟合的最小二乘系数a和b，从统计意义上来说，这个结果可以看作是对参数和的一个估计（因为还存在着利用其他估计方法得到的估计）。我们现在对a、b的无偏性,有效性和精确度等统计特性作分析。我们所考虑

10、的计量模型是：的最小二乘估计是（1)其中权数， (2）仅仅是x1,，xn的一个函数。1、b是的无偏估计将代入（1），我们得到 (3）所以（4）这是因为.不论的分布如何，在我们其他假定下，b是的一个无偏估计量，利用（3）得到b的样本方差线性回归模型的假定4暗示这个和的方差中的协方差项是零，所以有特别要注意b的方差中的分母。x的变差越大（也就是x的采样范围越广）,则这个方差越小。2、a是的无偏估计对于最小二乘截距a，我们有：利用（3)式并加以整理，我们有其中由于求和中每一项的期望都为0,所以a也是的估计量无偏估计量。a的样本方差就是的方差,根据独立性有（通过对括号中的项进行平方并利用的结果，

11、可以得到上式中后一结果）。3、a、b估计量的协方差矩阵两个估计的协方差是 a和b两者都有的形式，因此它们都是线性估计量,前边给出了它们的样本均值和方差并证实了它们是无偏的.正如已指出的,还存在利用数据估计和的其他方法。然而，从线性无偏估计量的角度，没有任何估计量比最小二乘估计量具有更小的样本方差，这就是高斯马尔科夫定理。*当把正态分布干扰项的假定加入上面的过程时,我们得到估计量的分布的一个完备的结果。由于a和b两者都是正态分布变量的线性函数,因而它们也都是正态分布的。其均值和方差已导出，概括起来,在正态性假设下，有4、b是的最小线性无偏估计。思考：证明b=是线性无偏估计量中，方差最小的一个估计

12、量。证明令另一个估计量是在等式两边取期望，我们可以看到，若使是无偏的，必须有及。这样,.的方差是令利用,易得到，这就是在的方差中只留下两个平方项，这意味着一定大于.推导四、最小二乘估计量的统计推断在前面的内容里，我们在假定干扰项是正态分布和样本X1，Xn是非随机的条件下，给出了最小二乘估计量的确切的样本分布。但通常的参数估计过程包括构造置信区间和对和值的假设检验。为了做到这一点,我们需要参数的真正样本方差的估计，这将需要对未知参数的一个估计,并构造假设检验方法。1、的无偏估计量的推导由于是的期望值,而的一个估计，似乎是一个自然的估计量,通过写出,并把，代入，我们得到 (1）我们对某一个别干扰

13、项的估计受两种因素的扭曲：所有干扰项的样本平均和我们可以归于并非完美估计这一事实所造成的影响。回忆所有干扰项是独立的，所以。现在我们平方的两边并取期望值，可得到在对这些项求和时,我们利用。整理后，我们有这表明的一个无偏估计量是这样，我们可以得到b的抽样方差的一个估计为 .以后，我们将用记号表示一个估计量的抽样方差的一个样本估计.t分布统计量的构造（1）的分布是标准正态。由服从（2)并且和b是独立的。根据（1）和（2），我们得到：是一个标准正态变量和一个除以其自由度的卡方量的平方根之比，它服从自由度为（n2)的t分布。这样，记，则比率（3）可以形成统计推断的基础.2、抽样分布的置信区间将以

14、（3）为基础。特别的，我们可以有，其中是要求的置信水平，是来自于自由度为（n2)的t分布的适当的临界值。利用a及其估计方差，可以同样地构造的置信区间.3、的假设检验我们也可以构造干扰项方差的置信区间，利用（2)和前边的同样推理，我们得到的95置信区间是一个相关的过程是检验参数是否取一给定值，为了检验假设，最简单的过程是利用我们的置信区间,置信区间给出了在给定样本数据情况下，的一个似乎可能的值的集合,如果这个集合不包含0，则原假设应该被拒绝.在原假设下,比率服从自由度为(n2)的t分布，其均值为0。这个比率在任何尾部的极端值都将使假设值得怀疑.这样，一般地,若,我们将拒绝H0。这里,是来自于自由

15、度为（n2）的t分布的100(1/2）临界值。例子在前边的回归中，我们得到a=67.5806 和 b=0.9793.为了计算标准误差，我们需要和对一个自由度为n2=8的分布，95临界值是2。306。所以，和的95%置信区间分别是67。5806+2。306（27.91）或 131.94 至 3。22和0.9793+2.306（0.03161）或 0。90641 至 1。0522我们得到基于自由度为（10-2）=8的x2分布的2的置信区间，相应的临界值是2.18和15.5，所以置信区间是2或30.622246。33这可能显得太宽了.然而，我们通常对的标准差比对其方差更感兴趣.基于同样这些结果

16、的的95%置信区间是5.89至15.69。五、预测除了参数的估计外,回归的最常见的作用是进行预测.假定x0是回归量的已知值，且我们对预测与x0相应的y的取值y0感兴趣.我们将试图对真值y0进行预测：1个体预测（Individual Prediction）预测值将是，（，且 i=1,n）预测误差是在两边取期望有Ee0=0。所以，在预测误差均值为0这个意义上最小二乘预测是无偏的.预测误差的方差是所以又因为所以分布。我们能够为y0构造一个预测区间，它具有和个别参数置信区间相同的形式,特别地,我们的预测区间将是 (3)2均值预测（Mean Prediction）均值预测是预测值是而不考虑随机干扰

17、项。预测误差是在两边取期望有Ee0=0.所以，在预测误差均值为0这个意义上最小二乘预测是无偏的。预测误差的方差是所以又因为所以分布.我们能够为y0构造一个预测区间，它具有和个别参数置信区间相同的形式，特别地,我们的预测区间将是（4）例子利用例1中的消费数据,如果1980年的可支配收入预测是1030美元（十亿），为了计算一个预测区间,我们需要a=67.5806 ,b=0。9793 ，s2=67.125 ,Sxx=67,192。44n=10 。t分布的临界值是2.306，将这些代入3得到一个预测区间是：67。5806+0.9793（1030）+2.306（9。8256)即941.1+22.658。

展开阅读全文