资源描述
第三章 经典单方程计量经济学模型:多元线性回归模型
3—1 解释下列概念
(1)多元线性回归模型
解答:在现实经济活动中往往存在着一个变量受到其他多个变量的影响的现象,表现为在线性回归模型中有多个解释变量,这样的模型被称为多元线性回归模型,多元指多个解释变量。
(2)偏回归系数
解答:在多元回归模型中,每一个解释变量前的参数即为偏回归系数,它测度了当其他解释变量保持不变时,该解释变量增加1个单位对被解释变量带来的平均影响程度。
(3)正规方程组
解答:正规方程组指采用OLS估计线性回归模型时,对残差平方和关于各参数求偏导,并令偏导数为零得到的一组方程,其矩阵形式为
(4)调整的多元可决系数
解答:调整的多元可决系数,又称独院判定系数,是一个用于描述伴随模型中解释变量的增加和多个解释变量对被解释变量的联合影响程度的量。它与有如下关系:
(5)多重共线性
解答:多重共线性是多元回归中特有的一个概念,指多个解释变量间存在线性相关的情形。如果存在完全的线性相关性,则模型的参数就无法求出,OLS回归无法进行。
(6)联合假设检验
解答:联合假设检验是相对于单个假设检验来说的,指假设检验中的假设有多个,不止一个。如多元回归中的方程的显著性检验就是一个联合假设检验,而每个参数的检验就是单个假设检验。
(7)受约束回归
解答:在世纪经济活动中,常常需要根据经济理论对模型中的变量参数施加一定的约束条件,对模型施加约束条件后进行回归,称为受约束回归。
(8)无约束回归
解答:无约束回归是与受约束回归相当对的一个概念,无需对模型中变量的参数施加约束条件进行的回归称为无约束回归
3—2 观察下列方程并判断其变量是否呈线性?系数是否呈线性?或都是?或都不是?
(1)
(2)
(3)
(4)
(5)
(6)
(7)
解答:(1),(2),(3),(7)变量非线性,系数线性:
(4)变量线性,系数非线性:
(5),(6)变量和系数均为非线性。
3—4 为什么说最小二乘估计量是最优的线性无偏估计量?多元线性回归最小二乘估计的正规方程组,能解出唯一的参数估计的条件是什么?
解答:在多元回归的参数模型中,在模型满足经典假设的条件下,参数的最小二乘估计量具有线性性、无偏性以及最小方差性,所以被称为最有线性无偏估计量(BLUE)。
对于多元线性回归最小二乘估计的正规方程组,能解出唯一的参数估计量的条件是
存在,或者说各解释变量间不完全线性相关。
3—7 为什么从计量经济学模型得到的预测值不是一个确定的值?预测值的置信区间和置信的含义是什么?在相同的置信度下如何才能缩小置信区间?
解答: 原因有两个:(1)模型中的参数估计量不确定,它们随着抽样的不同而不同;
(2)其他随机因素的影响,即使找到了参数的真实值,由于其他随机因素的影响,也会使通过估计的模型得到的预测值具有不确定性。
正是由于预测值的不确定性,得到的仅仅是预测值的一个估计值。真实的预测值仅以某一个置信度处于以该估计值为中心的一个区间中,预测值的置信区间指:在给定的置信度下,被解释变量的预测值的置信区间为
预测值的置信度又称预测值的置信水平,指预测值出现在上述区间的概率,是表明预测值的可靠程度的量。
在相同的置信度下,通过增加样本容量,提高模型的拟合优度和提高样本观测值的分散度可以达到缩小置信区间的目的。
3—8 设模型,试在下列条件下:
(1);
(2),
分别求出和的最小二乘估计量。
解答:(1)由条件,容易将原模型变换为如下一元回归:
因此
其中,小写字母表示对其均值的离差。
(2)由条件,容易将原模型变换为如下一元回归:
因此
3—9 假设要求你建立一个计量经济学模型来说明在学校跑到上慢跑半小时或半小时以上的人数,以便决定是否修建第二条跑道以满足所有锻炼者。你通过整个学年收集数据,得到两个可能的解释性方程:
, (a)
, (b)
其中,为某天慢跑者的人数,为该天的降雨量(单位:毫米),为该天的日照时间(单位:小时),为该天的最高温度(单位:华氏温度),为第二天需交学期论文的班级数。请回答下列问题:
(1) 这两个方程你认为哪个更合理,为什么?
(2) 为什么用相似的数据区估计想通过变量的系数却得到不同的符号?
解答:(1)方程(b)更合理。原因是方程(b)中参数估计值的符号与现实更接近,如与日照的小时数同向变化,天长则慢跑的人会多些;与第二天需交学期论文的班级数称反比变化,这一点在学校的跑到模型中是一个合理的解释变量。方程(a)相对来说不太合理,因为日照小时数前的符号与预期的正号不相符,而且所选的变量“日照小时数”与“该天的最高温度”有较强的相关性。
(2)方程(a)和方程(b)中由于选择了不同的解释变量,如方程(a)选择的是“该天最高温度”而方程(b)选择的是“第二天需交学期论文的班级数”,由此造成与这两个变量之间的关系不同,所以用相同的数据估计相同的变量得到不同的符号。其中变量“日照小时数”与“该天的最高温度”的较强相关性在很大程度上导致了的符号位负。
3—10 有人以校园内食堂每天卖出的盒饭数量作为被解释变量,以盒饭价格、气温、附近餐厅的盒饭价格、学校当日的学生数量作为解释变量,进行回归分析。假设你看到如下的回归结果(括号中是标准差),但并不知道各解释变量是哪一项。是判定每项结果对应着哪一个变量,说明理由。
(2.6) (6.3) (0.61) (5.9)
解答:答案并不唯一,猜测为:为学生数量,为附近餐厅的盒饭价格,为气温,为校园内食堂的盒饭价格。理由是被解释变量应与学生数量成正比,并且应该影响显著;与本食堂盒饭价格成反比,这与需求理论相吻合;与附近餐厅的盒饭价格成正比,因为彼此是替代品;与气温的变化关系不是十分显著,因为大多数学生不会因为气温升高不去食堂吃饭。
3—11 下面给出依据15个观察值计算得到的数据:
, ,
, ,
, ,
其中小写字母代表了各值与样本值的离差。
(1) 估计,,三个多元回归系数,求出与。
(2) 求出,的标准差,并估计,在95%置信度下的置信区间。
(3) 在显著性水平下,检验估计的每个回归系数的统计显著性。
(4) 在下检验假设:所有的参数都为零。
解答:(1)易知
由于
故
(2) 如果记样本回归模型的离差形式为
则容易知
,
由线性代数的知识易知
由于
于是
样本容量为,查5%显著性水平下自由度为15-2-1=12的分布表的临界值为,因此,在95%置信度的置信区间分别为
(3) 针对每个参数都为零的假设,易有下面的检验值:
显然,两估计参数计算的值大于临界值2.179,拒绝它们各自为零的原假设。
(4) 需检验联合假设:两参数的值同时为零。易计算统计量:
在5%的显著性水平下,自由度为(2,12)的分布的临界值为,计算的值大于该临界值,所以拒绝原假设。
3—12 一个关于个人收入与物价水平及失业率的关系的回归方程如下(括号内为估计标准差):
(0.080) (0.072) (0.658)
其中,为第年的每位雇员的工资和薪水,为第年的物价水平,为第年的失业率。
(1) 对个人收入估计的斜率系数进行假设检验。
(2) 讨论在理论上的正确性,对本模型的正确性进行讨论。是否应从方程中删除?为什么?
解答:
(1)对给定在5%的显著性水平下,可以进行检验。计算的值如下:
参数的值:;
参数的值:;
参数的值:。
在5%的显著性水平下,自由度为19-3-1=15的分布的临界值为,比较得,的参数显著地不为零,而不能拒绝为零的假设。
(2)回归式表明影响工资水平的主要是当期的物价水平,当期的物价水平对它的影响并不大,而失业率与工资水平呈反方向变动也符合经济理论,故可将从模型中删除。
3—14 经研究发现,学生用于购买书籍及课外读物的支出与本人受教育年限及其家庭收入水平有关,对18名学生进行调查的统计资料如表3—1所示。
(1) 试求出学生会购买书籍及课外读物的支出与受教育年限和家庭人均收入水平的回归方程估计式
(2) 对,的显著性进行检验,计算与。
(3) 假设有一学生的受教育年限年,家庭人均收入水平元/月,试预测该学生全年购买书籍及课外读物的支出,并求出相应的预测区间()。
表3—1
学生序号
购买书籍及课外读物支出
/(元/年)
受教育年限
/年
家庭人均可支配收入
/ (元/月)
1
450.5
4
171.2
2
507.7
4
174.2
3
613.9
5
204.3
4
563.4
4
218.7
5
501.5
4
219.4
6
781.5
7
240.4
7
541.8
4
273.5
8
611.1
5
294.8
9
1222.1
10
330.2
10
793.2
7
333.1
11
660.8
5
366.0
12
792.7
6
350.9
13
580.8
4
357.9
14
612.7
5
359.0
15
890.8
7
371.9
16
1121.0
9
435.3
17
1094.2
8
523.9
18
1253.0
10
604.1
解答:
(1) (2)Eviews软件的计算结果如图所示。
Dependent Variable: Y
Included observations: 18
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
-0.975568
30.32236
-0.032173
0.9748
X1
104.3146
6.409136
16.27592
0.0000
X2
0.402190
0.116348
3.456776
0.0035
R-squared
0.979727
Mean dependent var
755.1500
Adjusted R-squared
0.977023
S.D. dependent var
258.6859
S.E. of regression
39.21162
Akaike info criterion
10.32684
Sum squared resid
23063.27
Schwarz criterion
10.47523
Log likelihood
-89.94152
F-statistic
362.4430
Durbin-Watson stat
2.561395
Prob(F-statistic )
0.000000
可见学生购买课外书籍与其受教育年限及家庭收入水平有如下关系:
(-0.032) (16.279) (3.457)
,,
(3) 将,代入回归方程,可得
由于
因此,取,均值的预测值的标准差为
在5%的显著性水平下,自由度为18-2-1=15的分布的临界值为,于是均值的95%的预测区间为
或 (1192.12,1278.32)
同样容易得到个值的预测的标准差为
于是,个值的95%的预测区间为
或 (1141.20,1329.24)
3—15 根据100对(,)的观察值计算出
,,
(1) 求出一元模型中的 的OLS估计量及其相应的标准差的估计量。
(2) 后来发现还受到的影响,于是将一元模型改为二元模型
收集的相应观察值并计算出
,,
求二元模型中的,的OLS估计值及其相应的标准差估计量。
(3) 一元模型中的与二元模型中的是否相等?为什么?
解答:
(1)
(2) 记样本的二元线性模型离差形式为
则有
由补充题3—11知
(3)由上述计算结果知,一元模型中的与二元模型中的不相等。主要原因在于与有相关性。如果它们是线性无关的,即,则容易验证二者相等。
3—16考虑以下预测的回归方程:
,
其中,为第年的玉米产量(单位:吨/亩),为第年的施肥强度(单位:千克/亩),
为第年的降雨量(单位:毫米)。
(1) 从和对的影响方面,说出本方程中系数0.10和5.33的含义。
(2) 常数项-120是否意味着玉米的负产量可能存在?
(3) 假定的真实值为0.40,则估计值是否有偏?为什么?
(4) 假定该方程并不满足所有的经典模型假设,即并不是最佳线性无偏估计值,是否意味着的真实值绝对不等于5.33?为什么?
1亩=
解答:
(1) 在降雨量不变时,每亩增加1千克肥料将使第年的玉米产量增加0.1吨/亩;在每亩施肥量不变的情况下,每增加1毫米的降雨量将使第年的玉米产量增加5.33吨/亩。
(2) 在种地的一年中不施肥也不下雨的现象同时发生的可能性极小,所以玉米的负产量不可能存在。事实上,这里截距项为负无实际意义。
(3) 如果的真实值为0.40,则表明该估计值与真值有偏误,但一般不说0.1是有偏估计。理由是0.1是参数的一个估计值,而所谓估计量的有偏是针对估计的期望来说的,即如果取遍所有可能的样本,这些参数估计值的平均值的与0.4有偏误的话,就说估计是有偏的。
(4) 不一定。即使该方程并不满足所有的经典模型假设,不是最佳线性无偏估计值,也有可能使得出的估计系数等于5.33。
3—17 已知数据如表3—2。
表3—2
1
1
10
3
2
9
8
3
5
15
4
1
28
5
-6
(1) 先根据表中数据估计一下回归模型的方程(只估计参数不用估计标准差):
(2) 回答下列问题:吗?为什么?吗?为什么?
解答:
(1) 对于的估计结果如图3—3所示。
Dependent Variable: Y
Included observations: 5
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
-8.800000
3.942926
-2.231845
0.1118
X1
6.600000
1.188837
5.551644
0.0115
R-squared
0.911297
Mean dependent var
11.00000
Adjusted R-squared
0.881729
S.D. dependent var
10.93161
S.E. of regression
3.759433
Akaike info criterion
5.775588
Sum squared resid
42.40000
Schwarz criterion
5.619363
Log likelihood
-12.43897
F-statistic
30.82075
Durbin-Watson stat
1.529245
Prob(F-statistic )
0.011526
图3—3
即有
对于的估计结果如图3—4所示。
Dependent Variable: Y
Included observations: 5
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
17.34075
0.481444
36.01820
0.0000
X2
-1.668618
0.069060
-24.16180
0.0002
R-squared
0.994887
Mean dependent var
11.00000
Adjusted R-squared
0.993183
S.D. dependent var
10.93161
S.E. of regression
0.902551
Akaike info criterion
2.921991
Sum squared resid
2.443794
Schwarz criterion
2.765766
Log likelihood
-5.304977
F-statistic
583.7925
Durbin-Watson stat
1.948272
Prob(F-statistic )
0.000155
图3—4
即有
对于的估计结果如图3—5所示。
Dependent Variable: Y
Included observations: 5
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
21.92222
4.355258
5.033507
0.0373
X1
-1.177778
1.113026
-1.058176
0.4009
X2
-1.944444
0.269316
-7.219949
0.0186
R-squared
0.996722
Mean dependent var
11.00000
Adjusted R-squared
0.993445
S.D. dependent var
10.93161
S.E. of regression
0.885061
Akaike info criterion
2.877389
Sum squared resid
1.566667
Schwarz criterion
2.643052
Log likelihood
-4.193473
F-statistic
304.1064
Durbin-Watson stat
2.912057
Prob(F-statistic )
0.003278
图3—5
即有
(2) 从上述回归结果可知,,显然。
同样地,,,显然。
二元回归与分别对与所作的一元回归,其相应的参数估计不相等,主要原因在于与有很强的相关性,事实上两者的相关系数为。
展开阅读全文