第五章多元线性回归模型.doc

资源描述

第五章多元线性回归模型在第四章中,我们讨论只有一个解释变量影响被解释变量的情况,但在实际生活中,往往是多个解释变量同时影响着被解释变量。需要我们建立多元线性回归模型. 一、多元线性模型及其假定多元线性回归模型的一般形式是令列向量x是变量xk,k=1,2,的n个观测值，并用这些数据组成一个n×K数据矩阵X，在多数情况下，X的第一列假定为一列1,则β1就是模型中的常数项。最后,令y是n个观测值y1， y2， …， yn组成的列向量,现在可将模型写为：构成多元线性回归模型的一组基本假设为假定1。我们主要兴趣在于对参数向量β进行估计和推断. 假定2. 假定3。假定4. 我们假定X中不包含ε的任何信息，由于（1）所以假定4暗示着. （1)式成立是因为,对于任何的双变量X，Y,有E(XY)=E(XE(Y｜X)），而且这也暗示假定5 X是秩为K的n×K随机矩阵这意味着X列满秩，X的各列是线性无关的。在需要作假设检验和统计推断时，我们总是假定：假定6 二、最小二乘回归 1、最小二乘向量系数采用最小二乘法寻找未知参数β的估计量,它要求β的估计满足下面的条件（2) 其中，min是对所有的m维向量β取极小值. 也即（3）满足（2）式或（3)式的估计量称为β的最小二乘估计,这种求估计量的方法称为最小二乘法（OLS）. 展开上式得或最小值的必要条件是设b是解，则b满足正则方程组这正是我们曾分析的最小二乘正则方程组。因为X是满秩的，所以的逆存在，从而得到解是为了证实这确实是最小值，我们需要二阶编分矩阵是一个正定矩阵。我们现在来证明这个结果。对任意一非零向量c，令，则除非的每一元素都为0，否则q是正的。但若为零的话，则X的各列的一个线性组合等于0，这与X满秩的假定相矛盾。三、最小二乘估计量的统计特性在本节中，我们对回归量的两种情况，即非随机回归量和随机回归量下分别作讨论. 1、X非随机回归量若回归量当作非随机来进行处理时，则将X当作常数矩阵处理就可导出最小二乘估计量的各种特性。可得（4) 若X是非随机的,或,则（4）中第二项的期望值是0。所以，最小二乘估计量是无偏的，它的协方差矩阵是在前面的内容中,对K=2的特殊b是β的最小方差的线性无偏估计量。现在我们给出这个基本结果的一个更一般的证明，令的另一个不同于b的线性无偏估计量，其中C是一个K×n矩阵。若是无偏的，这暗示着CX=I，并且。所以可以得到的协方差矩阵是现在令，由假设知D≠0。那么，于是是非负定矩阵。则在展开这个四项和式之前,我们注意到由于上面最后一项是I，有DX=0，所以的方差矩阵等于b的方差矩阵加上一个非负定矩阵。所以,的每个二次型都大于的相应二次型。利用这个结果可以证明高斯—马尔科夫定理：高斯—马尔科夫定理：对任意常向量w，古典线性模型中的最小方差线性无偏估计量是,其中b是最小二乘估计量。 2、X随机回归量在这样的情况下,为了得到最小二乘估计量特性更多的一般性，有必要将上面的结果推广解释变量X是来自某种概率分布的情况中去.获得b的统计特性的一个方便的方法是，首先，第一步求得对X的条件期望结果，这等同于非随机回归量的情况,第二步，通过条件分布得到无条件结果。此论点的关键是,如果我们对任意X都可能得到条件无偏性，我们就可以得到一个无条件结果。因为所以，以观测到的X为条件我们得到一个有用的方法是利用重期望定律因为由假定4有，所以，b也是无条件无偏的，这样, 。同样，以X为条件的b的方差是为了求得确切的方差，我们使用方差分解公式：由于对所有X,，所以第二项为零,因此，我们原来的结论要稍作改变，我们必须用其期望值E［(X′X）—1］来代替原来以得到适当的协方差矩阵。从上一段的结果可以合乎逻辑地建立高斯-马尔科夫定理, 即对任何，在X给定的条件下有但若这一不等式对一特定X成立,则必须成立: 即，若它对每一特定X成立，则它一定对X的平均值也成立。这暗示，≤。所以，不论我们是否将X看作是随机的，即无偏性和高斯-马尔科夫定理都成立。四、最小二乘估计量的统计推断迄今为止，在我们任一结果还未用到ε的正态性的假定6，但这一假定对构造假设检验的统计量是有用的和必须的。 1、回归系数的假设检验我们先讨论X非随机变量时的情况。在（4）中，b是干扰向量ε的一个线性函数，如果我们假定ε服从多重正态分布。利用前面结果及前边推导的均值向量和协方差矩阵来表示即这是一个多重正态分布，所以b的每一元素的边际分布都是正态分布的：令是的第k个对角元素，则 (5）服从标准正态分布.若的统计推断可以基于.然而仍要估计，所以（5）式中Zk不是统计量。我们要得到的无偏估计量,才能作进一步的推断。按定义最小二乘残差向量是 M是回归分析中一个基本的n×n矩阵，你可以容易地验证M既是对称的(M=M′）又是幂等的(M=M2）. 性质1：X′e=0和i′e=0 证明：由正则方程组，我们得到：所以， i′e=0 由性质1及证明过程我们得到两个推论: 推论1：和MX=0. 推论2：和Mi=0。推论2成立是因为X′的第一行是（1，1，…，1). 性质2：e和b互不相关。从几何解释来看这一性质是显然的，e表示Y到子样空间的垂线估计量，和e互相垂直。性质3：残差e的均值向量和协方差阵分别是证明： E(e）=0，暗示是y的无偏估计量. 性质4：证明：最小二乘残差是 , 这是由于MX=0，的一个估计量将基于残差平方和：这个二次型的期望值是我们有由于M是固定的，这就是 M的迹是所以, ，的一个无偏估计量是（6）回归的标准误差是s2，其平方根为s。利用s2，我们可以计算估计量b的估计协方差矩阵：通过利用s2替代，我们导出替代（5）中zk的一个统计量。此量是一个标准正态向量的幂等二次型，所以，它服从自由度为秩(M)=迹（M）=n—K的x2分布.(6）中的x2分布变量独立于（4）中的标准正态变量,为了证明这一点，只要证明（7a）独立于就足够了.我们知道标准正态向量x的一个线性式Lx和一个幂等二次型x′Ax独立的充分条件是LA=0，令等x，我们发现这里所需求的是。这确实成立,因为。在推导回归分析中许多检验统计量中起中心作用的一般性结果是: 若ε服从正态分布,最小二乘系数估计量b统计独立于残差向量e及包括s2在内的e的所有函数。所以，比率（7）服从自由度为（n—K）的t分布.这是我们作统计推断的基础。线性约束检验我们通常对含有不只一个系数的假设检验感兴趣，我们可以利用一个类似于（7）中的检验统计量。假定我们的假设是 , （通常某些r将为零）左边的样本估计是若显著异于q，则我们推断样本数据与假设不一致。与（7）一样，将假设基于下式是很自然的. （7a）我们需要的标准误差的一个估计。由于是b的一个线性函数，且我们已估计出了b的方差矩阵,我们可用下式估计的方差。（7）中的分母是这个量的平方根.若假设是正确的，我们的估计应该反映这一事实，至少在抽样变化性的范围内如此。这样,若前边的t比率的绝对值大于适当的监界值，则应对假设产生怀疑。 2、随机X及正态ε下的检验统计量现在，我们考虑当X是随机的，样本检验统计量和推断方法考虑（7）中检验的t统计量：（8）以X为条件，t|X服从自由度为（n—K)的t分布。然而,我们感兴趣的是t的边际（即无条件）分布。正如我们所见，(7a）仅仅在以X为条件时b才是正态分布的，我们还没有证明它的边际分布是正态分布的。类似地,当X是随机的情况下,在给定X的条件下，我们得到了（8)式的t统计量,我们还没有证明t边际分布也是以（n－K）为自由度的t分布.事实上，t的边际分布仍是以（n-K）为自由度的t分布,不论X的分布是什么,甚至不论X是随机的还是非随机的或者是混合的。这个令人迷惑的结果来自f（t｜X)不是X的函数这一事实,同样的原因可以用来推演不论X是不是随机的，通常用以检验线性约束的F比率都是有效的. 结论:若干扰项是正态分布的，我们可以在我们的过程中不加变化地进行检验和构造参数的置信区间，而不去考虑回归量是随机的、非随机的，还是它们的混合。 3、拟合优度和方差分析由方差分解公式，我们有：。我们用幂等矩阵M0来表示：所以，和进一步研究回归平方和SSR与残差平方和SSE,我们可以得到下面三个结论： a）在β=0的假设条件下，回归平方和服从自由度为K－1的卡方分布x2(K－1); b）残差平方和服从自由度为n－K的卡方分布x2(n－K）; c)在β=0的假设条件下，服从F（k-1，n－k）分布。证明：a）M0－M是幂等矩阵。先证明M0M+MM0=2M。 M0M+MM0 =2M 从而所以，。在β=0的假设条件下，才服从自由度为K－1的卡方分布x2（K－1)（为什么？） b）因为M是幂等矩阵而且 c）只要验证即可。事实上, 。和前一章的情况一样，我们要对回归模型的好坏，作出评价，决定系数就是对模型拟合的一个度量，计算R2有两个等价的方法。决定系数进一步推导和化解，我们可以得到R2另一个公式。 ,以及M0e=e（表示残差已经具有零均值）和X′e=0。所以，第一个方法度量了y的总变差中由回归变差所解释的部分，第二个是y的观测值和由估计的回归方程所产生的预测值间的相关系数的平方。当利用R2来比较不同的线性统计模型的拟合度时，存在一个严重的缺点，就是它的值随着解释变量的增多而增大。为了克服这个缺点，我们可以用调整的R2来测度一个模型的解释能力,这个调整的R2被记，它的表达式为这里的无偏估计量，(思考：当y服从正态分布时,的一个无偏估计量）。不同的是，随着解释变量的增多，它的值可能变小,甚至要能取负值。因为所以，SSR= 我们得到了回归方差的另一个表达式，请见多元线性回归模型方差分析表. 表1 多元线性回归模型方差分析来源自由度均方回归 K－1 残差 n－K s2 总 n－1 4、回归的显著性检验一个通常要检验的假定是回归方程作为整体的显著性,这是对除了常数项外所有常数都为0的假设的联合检验。若所有系数为0，则多重相关系数为0，所以我们可以将这一假定的一个检验基于R2值上.统计量服从自由度为K－1和n－K的F分布，检验的逻辑是，F统计量是对我们强加所有斜率都是0的这一约束时的拟合损失的一个度量（R2的全部），若F大，假设被拒绝。五、预测多元回归环境下的预测结果与前一章中讨论的那些本质是一样的。假定我们希望预测与回归向量x0相应的y0值.它将是 (，且 i=1，…,n）由高斯—马尔科夫定理知是y0的最小方差线性无偏估计量。个体预测（Individual Prediction）误差是（,且 i=1，…,n) 这个估计的预测方差是若回归含有一个常数项,一个等价的表达式是其中X是X的不包含全为1的列的最后K－1列。这表明,和以前一样，区间的宽度依赖于x0的元素与数据中心的距离。因此又因为由此得到即y0的一个置信区间将用下式形成: 预测区间。均值预测（Mean Prediction）均值预测是预测值是而不考虑随机干扰项. 误差是这个估计的预测方差是因此又因为由此得到即y0的一个置信区间将用下式形成：预测区间。六、分块回归和偏回归当兴趣实际上只集中于一个变量或变量全集的一个子集时,设定一个多元回归模型是很普遍的，但往往这个变量或变量全集的子集并不能很好地解释被解释变量，需要我们在原有的模型中添加新的解释变量，才能进一步完善模型。例如考虑收入方程,虽然我们的主要兴趣在于收入和教育的联系上，将年龄包括进模型是必要的。我们已经证实从方程忽略年龄将是错误的,这里我们考虑的问题是，从一个多元回归模型中单独地获取一个子集变量的系数涉及什么样的计算，例如获取前边及回归中教育的系数。以一般术语，假定原有回归模型是，现在在原有的模型中添加新的解释变量集X1,那么现在的回归方程包括两组变量和，转换为：的代数解是什么?与原有的估计量有何关系? 新的模型的正则方程组是（1a) (2a）利用分块逆矩阵可以得到另外一个方法是可以直接处理（1a）和（2a)以求解.我们首先从（1a）求得解（9）（注意此解表明是对回归的系数减去一个修正向量。）然后，将其代入（2a）得到整理各项后，解是（10）注意出现在每个中括号中的小括号里的矩阵都是讨论过的“残差制造者"，这里是相应于对各列回归的。这样，是一个残差矩阵，其中每一列都是中相应列对中各变量回归的残差向量。利用和一样是幂等的这一事实，我们可将（10）重写为（11）其中和所以,是为来自一个回归的系数集合,这个回归的被解释变量是单独对回归的残差，解释变量是的每一列分别对回归所得残差的集合。这个过程通常被称作排除或筛掉的影响。正是部分地由于这个原因，一个多元回归中的系数通常被称作偏回归系数。我们可以用一个例子来说,通过首先用收入和教育对年龄(或年龄及年龄中平方）回归，然后在一个简单回归中使用这两个残差，我们能够得到教育在最小二乘回归中的系数.这一方法的一个经典的应用中，费雪和沃（1933）注意到，在时间序列环境下，像刚才提到的那样首先通过筛掉时间的影响而消除数据趋势，然后用消除趋势的数据简单回归和直接带有一个时间趋势变量似合所得结果是一样的. 1、偏回归和偏相关系数使用多元回归包含一个在实际中可能不能实施的概念性试验，即类似于经济学中的“假设其余情况均同"。继续考虑简介中的例子,将收入和年龄及教育相联系的回归方程使我们能够对两个同龄但教育程度不同的人的收入进行比较，即使样本中没有这样一对个人.术语偏回归系数所暗示的正是回归的这一特性。我们已经看到,获取这个结果的方法是首先用收入和教育对年龄进行回归，然后从回归方程中计算出残差,按其构造，年龄对解释这些残差没有任何能力。所以,在这种“净化”（或筛掉年龄的影响后）后的收入和教育间的任何相关都与年龄无关。同一原理可应用于两个变量间的相关系数上。继续我们的例子，当我们在样本中得到收入和教育间的相关数为 0.7时，那么,在何种程度上我们可以假定这一相关是由于某种直接关系，而非由于当人们变老时，收入和教育平均来说都趋于增长这一事实？为了找出答案,我们将使用偏相关系数,这与偏回归系数的计算方式一样，在我们的例子中，抑制年龄的影响，收入和教育间的偏相关系数可如下获取： 1、收入对年龄的回归中的残差 2、教育对年龄的回归中的残差 3、偏相关系数就是和间的简单相关系数。这似乎是一个可怕的计算量,然而存在一个方便的简捷算法，一旦计算了一个多元回归,（7）中用于检验系数等于0的比率,可用于计算（12） 2、对均值的离差——对常数回归作为上一节结果的一个应用,考虑仅为中由1组成的第一列的这种情况，此时的解将是带有常数项的回归中斜率。令为由1构成的列，任何变量对的回归的系数是，拟合值是，残差是。所以，当我们将其应用于先前结果时,会发现：将数据转换成对其均值的离差,然后用离差形式的变量对同样的离差形式的解释变量回归，可以得到含有常数项的多元回归中的斜率。练习：若在计算斜率前忽略了将转换为对的离差，在前边的回归中将会发生什么情况? 得到了的系数后，怎么才能取得的系数？当然，一个方法是转换和的角色重复上一节中的练习,但有一个更容易的方法,对一般情形，两个正则方程组中的第一个是我们已经解出了，所以，在求解时可以使用它：（13）若仅为一列，（13）中第一个将产生如下结果　　　　　　（14）这我们以前已经见到过。七、偏离正态性的检测（正态性的哈尔克—贝拉（Jarque-Bera）BJ检验）本节考察的是利用最小二乘残差的矩来推断真正扰动项的分布的一般问题。的直观估计量是然而,最小二乘残差只是真实扰动项的不完全估计：由于，样本越大,这个估计就越好。这有时被称为逐点一致性.可以看出最小乘残差的样本收敛于真正扰动项的样本.这意味着是的一致估计量，也是的一致估计量，通常运用下列公式计算偏度（Skewness)： (15）因为，对于对称的概率密度函数,其三阶矩为零，因为这样的一个概率密度函数，其偏度为零。一个最重要的例子就是正态分布。如果偏度的值为正，则其概率密度为正偏或右偏;如果的值为负,则其概率密度为负偏或左偏。通常运用下列公式计算峰态(Kurtosis)：（16）概率密度的峰度小于3时，成为低峰态的（胖的或短尾的），峰度大于3时,称为尖峰态的（瘦的或长尾的），见图1。正态分布的峰度为3，这样的概率密度函数称为常峰态的。样本偏度与样本峰度根据式（15）和式(16），用样本三阶矩和四阶矩来计算样本偏度与峰度。样本三阶矩（与样本方差的计算公式相对照）为: （17）样本四阶矩为: （18) 前述内容可用于设计正态性的检验。正态分布是对称和常峰态的。对称意味着三阶矩为0。分布对称性的标准量是偏态（Skewness）峰态(Kurtosis)是分布尾部厚度的度量。此度量是正态分布对于这个度量通常是评价标准;常峰态值是正态分布的峰度，等于3。因此，我们可以通过比较偏度是否为0和峰度是否为3来判断该分布是否为正态分布。在实际中，通常的度量是过量程度(degree of excess)。我们将使用的工具是一个沃尔德统计量。在正态性的假设下，此检验统计量是～称为正态性的哈尔克-贝拉（Jarque—Bera）BJ检验。这渐近地服从自由度为2的分布.这些参数的可行的估计量是利用最小二乘残差计算而得到的。统计量可以参考标准表。由贝拉和哈尔克（1980，1980）推导的这个检验统计量的皮尔逊分布的内容中是作为拉格朗日乘数检验.应该注意这个检验本质上是无建设性的.非正态性的发现不一定给出下一步如何做的建议。同样,注意不能拒绝正态性并没有确认了正态性.这只是一个对称性和常峰态的检验。图1 思考题 1、对于线性统计模型假设，最小化误差平方和得到如下线性方程组（1)把这个方程组写成矩阵的形式，并利用矩阵方法求最小二乘估计量b的值. （2）如果的无偏估计量s2的值。 (3）求b的协方差矩阵。（4）分别写出能够检验的t统计量（k=1，2，3)。（5）写出能够检验的t统计量和F统计量。 2、假设b是y关于X的回归的最小二乘估计量，c是另一K×1向量,证明两个残差平方和之差是并证明这个差值是正的。 3、假设对于同一个参数，你有两个相互独立的无偏估计量，它们的方差分别为。那么什么样的线性组合的最小方差无偏估计量？ 4、假设对于同一个参数，你有n个相互独立的无偏估计量……，它们的方差分别为。那么什么样的线性组合是的最小方差无偏估计量？

展开阅读全文