资源描述
第五章 答案.doc
精品资料
第5章 多重共线性
习题:
1. 什么是共线性?什么是多重共线性?
答:共线性是指回归模型中的各个解释变量之间不存在线性关系。“多重共线性”一词常常用来表示解释变量之间具有较高的共线性程度,但又不是完全共线性的情形。
2. 在k变量的模型中有k个正规方程用以估计k个未知系数。假定Xk是其余X变量的一个完全线性组合,你怎样说明在这种情形中不可能估计这k个回归系数?
答:当一个变量是另一些变量的线性函数时,在这k正规个方程中,实际只有k-1个有效方程,利用线性代数的知识我们可以知道k-1个方程是无法准确估计k个未知数的。
3. 一般来说,如何判断模型中是否存在严重的多重共线性问题?
答:(1)较高但值显著的系数不多。(2)解释变量两两高度相关。(3)观察每个解释变量对其它剩余解释变量的回归方程,这样的回归称为辅助回归。如果某个辅助回归方程的拟合优度显著不为零(即整体显著:检验),则存在多重共线性。(4)使用方差膨胀因子判断。克莱因经验法则(Klein’s rule of thumb)
如果某个解释变量还有一些诸如偏相关系数(partial correlation coefficient)、本征值(eigenvalues)或病态指数(condition index)等其他方法可用于诊断多重共线性的程度。对其余解释变量的辅助回归的拟合优度大于因变量对所有解释变量作回归所得到的拟合优度,则可能存在比较严重的多重共线性。
4. 什么是方差膨胀因子(VIF),它有什么作用?
答:
即
(5.7)
其中是解释变量和的(样本)相关系数,介于与之间。正好是对回归的拟合优度(也是对回归的拟合优度)。 见第2章习题2.8。
称
为方差膨胀因子。于是
(5.8)
与此相类似,
于是我们可以用作为一种测定多重共线性的手段,当检测到较大的时,就有可能存在多重共线性问题。
5. 在一个关于某城市用水量的分析中,估计出了如下的方程():
其中,watc=总用水量,house=总的房屋套数,pop=总人口, pci=人均年收入, prwat=水价, rain=年降雨量,括号内的数值是统计量。
(1) 根据经济理论或直觉,你认为每个回归系数的符号应该是什么,为什么?估计出来的系数的符号与你的推测一致吗?
(2)每个系数的统计值都不显著,但是统计值是显著的,导致这种矛盾的原因是什么?
(3)这些估计量是有偏的、无效的或者不一致的吗?
答:(1)house的系数应该是正的,因为房屋越多,住户也就越多,用户量也会增加。模型中和推测的一致;pop的系数也应该是正的,因为人越多,用水量肯定也越多,模型中和推测一致。Pci的系数应该是正的,因为当人的收入多时,也就不会珍惜使用每一滴水来减少花费,模型中和推测不一致;prwat的系数应该是负的,因为当水价上升时,对于那些在意水价格的人们将会降低对水的使用,从而水的用量降低,模型中和推测一致;rain的系数应该是负的,因为当降水量增加时,用水量必然要减少了,这是由于水量相比较于以前增加了,模型中和推测一致。
(2) 导致这种矛盾的原因是多重共线性的存在。
(3) 如果保持自变量取值不变且有足够多的样本,利用这些样本计算得到OLS估计值的平均值将“接近于”真实的参数值,所以说这些估计量是无偏的。而且多重共线性没有破坏OLS估计量的最小方差性,但最小的方差也可能比较大。较大的方差容易导致本该显著的系数不能通过显著性检验。所以这些估计量是有效的,只是最小方差变大了。但是这些估计量将是不一致的,因为多重共线性将会带来的后果致使模型估计不准确,也就不能依概率收敛于总体的真值。
6. 考虑下面的数据集:
-10
-8
-6
-5
-2
0
2
4
6
8
10
1
2
3
4
5
6
7
8
9
10
11
1
3
5
7
9
11
13
15
17
19
21
假设你想做对和的回归,
(1)你能估计模型参数吗?为什么?
(2)如果不能,你能估计那些参数或参数的组合?
答:(1)不能。分析数据可以看出,,即存在完全共线性的关系。
(2) 可以估计出Y和、Y和、和系数的组合。
7. 判断以下陈述的正误,并给出理由。
(1)尽管存在多重共线性,OLS估计量仍然是具有BLUE性质的。
(2)在高度多重共线性的情形下,要评价一个或多个偏回归系数的个别显著性是不可能的。
(3)如果有某一辅助回归显示出高的值,则模型中肯定存在较严重的多重共线性问题。
(4)变量的两两高度相关并不表示高度的多重共线性。
(5)如果分析的目的仅仅是预测,则多重共线性是无害的。
(6)其它条件不变,VIF越高,相应的OLS估计量的方差越大。
(7)在多元回归中,如果根据检验,全部的偏回归系数个别来说都是不显著的,那么就不可能得到一个较高的。
答:(1)正确。无偏性是一个重复抽样的性质,如果保持自变量取值不变且有足够多的样本,利用这些样本计算得到OLS估计值的平均值将“接近于”真实的参数值。所以无偏性并没有改变。多重共线性也没有破坏OLS估计量的最小方差性,但最小的方差也可能比较大。较大的方差容易导致本该显著的系数不能通过显著性检验。
(2) 正确。在严重多重共线性情况下,由于估计的标准误急剧增加,使得假设检验中的t值变小,从而导致接受零假设,从而无法评估偏回归系数的个别显著性。
(3) 错误。我们可以通过辅助回归检验是否存在多重共线性,如果某个辅助回归方程的拟合优度显著不为零(即整体显著:检验),则模型中可能存在多重共线性,但是并不表示必然存在。辅助回归不是检验多重共线性的充分条件。
(4)正确。变量高度相关并不一定是线性相关,如果是高度非线性相关就不一定会导致严重的多重共线性;即使在两个变量高度线性相关的前提下,也并不意味着严重的多重共线性。(5)不一定。如果所观察到的共线性关系能够在新的未来的数据中保持下去,则此论断正确,如果不是,则错误。
(6) 正确。从公式可以看出,如果其他条件不变的情况下,VIF越高,相应的OLS估计量的方差越大。
(7) 错误。这是多重共线性的“典型”特征就是:较高但值显著的系数不多。如果较高,比如在0.8以上,检验通常会拒绝零假设,即解释变量联合起来对被解释变量有影响,但单个系数能通过显著性检验(检验)的不多。这说明即使根据检验,全部的偏回归系数个别来说都是不显著的,那么也有可能得到一个较高的。
仅供学习与交流,如有侵权请联系网站删除 谢谢6
展开阅读全文