1、第五章,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第五章 线性回归的问题和分析方法扩展(下),第一节 多重共线性,第二节 随机解释变量,第三节 误差项非正态分布,第四节 最大似然估计,1,第一节 多重共线性,一、问题的性质和种类,二、多重共线性的危害,三、发现和检验,四、多重共线性的克服和处理,2,一、问题的性质和种类,1、严格多重共线性,模型设定问题,识别问题,2、近似多重共线性,主要是数据问题,也有模型设定问题,3,二、(近似)多重共线性的危害,*随着多重共线性程度的提高,参数方差会急剧上升到很大的水平,理论上使最小二乘法估计的有效性、可靠性和价值都受到影响,实践中参
2、数估计的稳定性和可靠程度下降。,*证明:把 矩阵分为,根据分块矩阵的运算法则有,4,其逆矩阵 左上角的首项为,其中,因此参数 的最小二乘估计 的方差为,5,三、发现和检验,(一)方差扩大因子检验,(二)状态数检验,6,(二)状态数检验,1,、状态指数,将 矩阵的每一列 用其模 相除以实现标准化,然后再求 矩阵的特征值,取其中最大的除以最小的后再求平方根,得到该矩阵的“状态数”,记为:,通常当 大于,20,或,30,时,认为存在较明显的多重共线性。,9,确定哪些解释变量的系数受到多重共线性的影响:,先计算各个特征值的“状态指数”,这些状态指数的水平在,1,到 之间,很可能有好几个超过,20-30
3、的“危险”水平。,10,2,、回归系数方差分解:如果,V,是对角化 的(,K,+1)(,K,+1),对角矩阵:即,其中 是 的特征值构成的对角矩阵。,从而,两种理解,:如果特征值之和反映对被解释变量解释程度,倒数之和反映引起估计量方差的比重。,11,四、多重共线性的克服和处理,(一)增加样本容量,(二)差分方程,(三)模型修正,(四)分步估计参数,(五)岭回归方法,12,(一)增加样本容量,原理:样本容量越大,变量相关性越小,相关越难。,注意局限,且不一定解决问题。,13,(二)差分方程,线性回归模型为,且已知 和 之间存在多重共线性问题。,作如下变换:,改用差分方程,进行回归,受多重共线性
4、的影响比较小。,14,(三)模型修正,1,、删减解释变量(利用检验结论、经验等),2,、整合解释变量(利用原模型回归信息、经验等),3,、先验信息参数约束,15,先验信息参数约束,例:生产函数 ,经对数变换为:,如果预先知道所研究的经济有规模报酬不变的性质,即函数中的参数满足 就可以克服多重共线性。,16,(四)分步估计参数,例:,研究需求规律的模型,可以先求出模型中参数 的估计值(用截面数据等)。,前一个模型变为,整理这个模型可以得到,从而估计出 和 的估计值 和 ,,得到克服了多重共线性的回归直线,17,(五)岭回归方法,设一个多元线性回归模型为,普通最小二乘估计的公式为,当解释变量间存在
5、严重的多重共线性时,矩阵接近于奇异。,用 代替 代入最小二乘估计的公式,得到:,其中 称为“岭回归参数”,一般 ,,是用 矩阵对角线上元素 和,构成的对角线矩阵,。,18,(五)岭回归方法,估计量的数学期望为:,19,第二节 随机解释变量,一、解释变量的随机性,二、随机解释变量和参数估计的性质,三、工具变量法估计,四、参数估计量的分布性质和统计推断,20,一、解释变量的随机性和问题,解释变量有随机性是普遍的问题。,随机解释变量有不同的情况,关键是与误差项的相关性。,不同情况对回归分析的影响不同,处理也不同。,21,二、随机解释变量和参数估计的性质,设模型为,其中误差项符合古典线性回归模型的各个
6、假设。,参数二乘估计的参数为:,把 代入 ,得到,22,如果 是随机变量,但与误差项不相关,那么:,以 为条件的 的条件方差,是最小方差,从而 的方差 也是,最小方差。,23,如果 是随机变量,与误差项小样本不独立,但大样本渐进不相关,即,那么因为,因此 是 的一致估计。虽然不是无偏估计。,24,三、工具变量法估计,设模型为,其中 不仅是随机变量,而且与 有强相关性。,对模型作离差变换得,两边乘 并求和得,然后两边除以 ,有,25,的“工具变量法估计”为 ,即,的估计可以利用 的估计得到,26,多元回归工具变量法估计,引进、选择多个关键变量。,向量、矩阵表示。,工具变量的选择问题:,与替代解释
7、变量相关性强,与误差相相关性小,避免引起共线性问题,27,四、参数估计量分布问题和统计推断,问题,:分布未知,两变量线性回归模型参数估计量,多元回归模型参数的最小二乘估计,影响,:,t、F,检验等仍基本有效。,统计量 渐近,t,分布。,F,统计量类似。,28,存在随机解释变量时相关统计推断受到一定的影响,29,第三节 误差项非正态分布,一、问题的提出,二、误差项正态性的检验,30,一、问题的提出,误差项正态分布假设也不一定成立。,误差项不服从正态分布时,称“非正态误差项”,影响:统计推断、假设检验的有效性等,相关统计推断、检验结论的可靠性降低。,31,二、误差项正态性的检验,(一)直方图检验,
8、类似“高尔顿板”,32,(二)偏斜度和峰度检验,“偏斜系数”:,用 代替 ,用 代替 。,“峰度”指标:,其中 用 代替。,,,33,第四节 最大似然估计,一、最大似然估计的原理,二、两变量线性回归模型参数的最大似然估计,三、多元线性回归模型参数的最大似然估计,四、随机解释变量模型的最大似然估计,五、最大似然估计的性质,34,一、最大似然估计的原理,根据事物出现的概率(几率、可能性)的大小,推断事物的真相,包括定性的和定量的(参数水平)真相。,例1:一个老战士和一个军训学生各射击一次,但只有一枪中靶。问可能是谁打中的。,35,例2:观测到一个服从未知参数的泊松分布的随机变量的,10,个数据的样
9、本,这些数据分别为,5,、,0,、,1,、,2,、,3,、,2,、,3,、,4,、,1,、,1,,要求估计出该泊松分布的未知分布参数 。,根据泊松分布的概率公式,该随机变量的数值为 的概率为,10,个数据出现的联合分布概率为,36,这个联合分布概率就是生成上述,10,个数据的似然函数,记作 ,即,它的对数似然函数是,(对数函数的单调性),求导可得,的最大似然估计 必须满足,所以 。,37,二、两变量线性回归模型参数的最大似然估计,设模型为,根据误差项服从正态分布的假设,有,因此这个模型参数的似然函数是,38,对数似然函数为,最大化的一阶条件为,39,解一阶条件方程组可以得到最大似然估计为,40
10、三、多元线性回归模型参数的最大似然估计,模型为,其中,似然函数为,对数似然函数为,41,求导可得,解这个方程组可得,42,四、随机解释变量模型的最大似然估计,只讨论解释变量的分布满足下面两个条件的模型,(,1,)随机解释变量的多元密度函数 的参数中,不包含需要估计的模型参数,、或前者的部分。,(,2,)和 分布独立。,43,似然函数为,因为 仍然成立,因此,对数似然函数为,44,五、最大似然估计的性质,(,1,)最大似然估计是一致估计,即,(,2,)最大似然估计渐近于正态分布,即,(,3,)最大似然估计是渐近有效的,且达到克拉美,-,劳下界。,(,4,)不变性:如果 是 的最大似然估计,那么 也是 的最大似然估计。,45,






