资源描述
实验二:多元线性回归分析
一.实验目的
熟练应用EViews软件作多元线性回归分析。
二.实验主题
立用多元线性回归分析研究国家婴儿死亡率与妇女文盲率之间的关系。
三.实验内容
1、先验的预期CM和各个变量之间的关系。
2、做CM对FLR的回归,得到回归结果。
3、做CM对FLR和PGNP的回归,得到回归结果。
4、做CM对FLR,PGNP和TFR的回归结果,并给出ANOVA。
5、根据各种回归结果,选择哪个模型?为什么?
6、如果回归模型(4)是正确的模型,但却估计了(2)或(3),会有什么后果?
7、假定做了(2)的回归,如何决定增加变量PGNP和TFR?使用了哪种检验?给出必要的计算结果。
四.实验报告
要求:
1、问题提出2、指标选择 3、数据选择
4、数据处理5、数据分析6、建立模型
以及模型检验 7、报告结论 8、实验总结
1、问题提出
一个国家的婴儿死亡率关系到一个国家的未来发展,反映了国家人民的健康水平与国家的发展水平,这一指标也是政府采取相关政策的一个重要依据。在社会学中,一个国家的婴儿死亡率与妇女的文盲率之间存在一定的相关关系,但这两个指标之间存在着怎样的关系,为此,我们利用统计数据对这一问题进行实证分析。
2、指标选择
我们选取一个国家的婴儿死亡率CM,女性识字率FLR进行分析。考虑到影响婴儿死亡率的因素较复杂,尤其是经济发展状况、总生育率等也会对其产生重要影响,考虑到实验的准确性,同时研究人均GNP(PGNP)和总生育率(TFR)对婴儿死亡率的影响。
预期:
1)预期CM与FLR存在负相关关系。
一方面,女性受教育程度越高,其知识越丰富,自我保护意识和能力就越强,则更善于保护自己和婴儿;另一方面,女性教育程度越高,其就业机会与收入获得途径就越多,可以更好的保障自己和婴儿的生活。因此,我们预期FLR的提高会导致CM降低。
2)预期CM与PGNP存在负相关关系。
人均GNP的提高使人们的物质生活水平得到提高,改善了人民、食、住、行等诸方面的条件,特别是使人们摄取的营业素增加,营养素结构合理,从而增加人们的体质;使人们从繁重的体力劳动和恶劣的工作环境中解脱出来,有充足的精力和时间来关心自己及其后代的身体健康,提高生活质量。因此,我们预期PGNP的提高会导致CM降低。
3)预期CM与TFR存在正相关关系。
总生育率直接或间接地影响着婴儿死亡率,总生育率提高,人口数量上升,人均GNP,人均受教育程度等一系列人均享受的权利和福利都会有所下降。因此,我们预期TFR的提高会导致CM降低。
3、数据选择
考虑到实验结果的普遍性,我们选择世界各地区64个国家的各项指标数据作为样本进行研究分析。数据由老师提供,详细数据见表1
序号
婴儿死亡率CM
女性识字率FLR
人均GNP(PGNP)
总生育率TFR
1
128
37
1870
6.66
2
204
22
130
6.15
3
202
16
310
7.00
4
197
65
570
6.25
5
96
76
2050
3.81
6
209
26
200
6.44
7
170
45
670
6.19
8
240
29
300
5.89
9
241
11
120
5.89
10
55
55
290
2.36
11
75
87
1180
3.93
12
129
55
900
5.99
13
24
93
1730
3.50
14
165
31
1150
7.41
15
94
77
1160
4.21
16
96
80
1270
5.00
17
148
30
580
5.27
18
98
69
660
5.21
19
161
43
420
6.50
20
118
47
1080
6.12
21
269
17
290
6.19
22
189
35
270
5.05
23
126
58
560
6.16
24
12
81
4240
1.80
25
167
29
240
4.75
26
135
65
430
4.10
27
107
87
3020
6.66
28
72
63
1420
7.28
29
128
49
420
8.12
30
27
63
19830
5.23
31
152
84
420
5.79
32
224
23
530
6.50
33
142
50
8640
7.17
34
104
62
350
6.60
35
287
31
230
7.00
36
41
66
1620
3.91
37
312
11
190
6.70
38
77
88
2090
4.20
39
142
22
900
5.43
40
262
22
230
6.50
41
215
12
140
6.25
42
246
9
330
7.10
43
191
31
1010
7.10
44
182
19
300
7.00
45
37
88
1730
3.46
46
103
35
780
5.66
47
67
85
1300
4.82
48
143
78
930
5.00
49
83
85
690
4.74
50
223
33
200
8.49
51
240
19
450
6.50
52
312
21
280
6.50
53
12
79
4430
1.69
54
52
83
270
3.25
55
79
43
1340
7.17
56
61
88
670
3.52
57
168
28
410
6.09
58
28
95
4370
2.86
59
121
41
1310
4.88
60
115
62
1470
3.89
61
186
45
300
6.90
62
47
85
3630
4.10
63
178
45
220
6.09
64
142
67
560
7.20
表1
4.数据处理
表1中的实验数据可直接应用于研究分析,无需经过其他处理。
5.数据分析
1、观察表1数据,婴儿死亡率CM,女性识字率FLR,人均GNP(PGNP)和总生育率(TFR)中,不存在与现实意义不相符的数据,因此可以拿来进行问题的研究。
2、通过EViews软件分析进行相关分析:
1) CM与FLR的相关性
图1
FLR
CM
FLR
1.000000
-0.818285
CM
-0.818285
1.000000
表2
由散点图(图1)和相关系数(表2)知,这两组数据的相关性较高,且CM与FLR之间存在负相关关系。
2)CM与PGNP的相关性
PGNP
CM
PGNP
1.000000
-0.407697
CM
-0.407697
1.000000
表3
图2
由散点图(图2)和相关系数(表3)知,这两组数据有一定的相关性,且CM与PGNP之间存在负相关关系。
3)CM与TFR的相关性
PGNP
CM
PGNP
1.000000
-0.407697
CM
-0.407697
1.000000
图3
表4
由散点图(图3)和相关系数(表3)知,这两组数据具有一定的相关性,且CM与TFR之间存在正相关关系。
通过相关分析可以发现,CM与FLR之间存在负相关关系,与PGNP之间存在负相关关系,与TFR之间存在正相关关系。
6.建立模型以及模型检验
1、分别做出CM对FLR、CM对FLR和PGNP以及CM对FLR,PGNP和TFR进行回归分析,建立回归模型
2、分别对各个模型进行检验,包括经济检验及统计检验
3.给出CM对FLR,PGNP和TFR回归结果的ANOVA
6.1 CM对FLR的回归模型建立及检验
(1)建立回归模型
根据图1,建立如下线性模型:
得出回归结果如下
Dependent Variable: CM
Method: Least Squares
Date: 04/15/16 Time: 11:44
Sample: 1 64
Included observations: 64
Variable
Coefficient
Std. Error
t-Statistic
Prob.
FLR
-2.390496
0.213263
-11.20917
0.0000
C
263.8635
12.22499
21.58395
0.0000
R-squared
0.669590
Mean dependent var
141.5000
Adjusted R-squared
0.664261
S.D. dependent var
75.97807
S.E. of regression
44.02399
Akaike info criterion
10.43810
Sum squared resid
120163.0
Schwarz criterion
10.50556
Log likelihood
-332.0191
Hannan-Quinn criter.
10.46468
F-statistic
125.6455
Durbin-Watson stat
2.314744
Prob(F-statistic)
0.000000
回归方程式:
其中: Se=(0.213263) (12.22499)
t=(-11.20917) (21.58395)
(2)模型检验
CM对FLR的回归模型的检验
经济检验:斜率值为 - 2.390496,说明女性识字率(FLR)与婴儿死亡率(CM)负 相关,且在其他条件不变的情况下女性识字率(FLR)增加1%,可导致婴儿死亡率(CM)减少2.390496%。
统计检验:
(1)拟合优度检验:
拟合度R2=0.669590,说明所建模型整体上对样本数据还不算很好,即解释变量CM对 FLR的大部分差异作出了解释,但可能还有其他因素影响婴儿死亡率。
(2) t检验:
变量β1和β2的原假设与备择假设为:H0:β0=0,β1≠0;H0:β1=0,β1≠0。查表可得,在5%的显著水平下,自由度为n-2=64-2=62的t的临界值为2.000。因为计算得到的β0的估计值的t值21.58395>2.000,所以拒绝原假设H0:β0=0,β1的估计值的t值-11.20917<-2.000,所以拒绝原假设H0:β1=0。这说明在95%的置信水平下,解释变量女性识字率(FLR)通过了显著性检验,即解释变量女性识字率(FLR)对婴儿死亡率(CM)有显著影响。
6.2 CM对FLR和PGNP的回归模型建立及检验
(1)建立回归模型
根据图2,建立如下线性模型:
得出回归结果如下:
Dependent Variable: CM
Dependent Variable: CM
Method: Least Squares
Date: 04/15/16 Time: 11:49
Sample: 1 64
Included observations: 64
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
263.6416
11.59318
22.74109
0.0000
FLR
-2.231586
0.209947
-10.62927
0.0000
PGNP
-0.005647
0.002003
-2.818703
0.0065
R-squared
0.707665
Mean dependent var
141.5000
Adjusted R-squared
0.698081
S.D. dependent var
75.97807
S.E. of regression
41.74780
Akaike info criterion
10.34691
Sum squared resid
106315.6
Schwarz criterion
10.44811
Log likelihood
-328.1012
Hannan-Quinn criter.
10.38678
F-statistic
73.83254
Durbin-Watson stat
2.186159
Prob(F-statistic)
0.000000
回归方程式:
其中:
(2)模型检验
经济检验:所估计参数β1和β2的估计值均为负数,说明女性识字率(FLR)和人均GNP(PGNP)与婴儿 的死亡率(CM)负相关,与预期假设相同。β1的估计值为-2.231586,表示在其他变量保持不 变的情况下,女性识字率每增加1%,婴儿死亡率减少2.231586%。β2的估计值为- 0.005647,表示在其他变量保持不变的条件下,人均GNP每增加1%,婴儿死亡率减少0.005647%。
统计检验:
(1)拟合优度检验:
拟合度R2=0.707665,说明所建模型整体上对样本数据还不算很好,即解释变量CM对 FLR的大部分差异作出了解释,但可能还有其他因素影响婴儿死亡率。
(2)t检验:
查表可得,在5%的显著水平下,自由度为n-3 = 64-3 = 61的t的临界值为2.000,β1的估计值的t值为-10.62927<-2.000,β2的估计值为-2.818703<-2.000,说明在95%的置信水平下,解释变量女性识字率(FLR) 和人均GNP(PGNP)均通过了显著性检验,即解释变量女性识字率 (FLR) 和人均GNP(PGNP)对婴儿死亡率(CM)有显著影响。
7.3 CM对FLR、PGNP和TFR的回归模型建立及检验
(1)建立回归模型
根据图3,建立如下线性模型:
得出回归结果如下:
Dependent Variable: CM
Method: Least Squares
Date: 04/19/16 Time: 11:31
Sample: 1 64
Included observations: 64
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
168.3067
32.89165
5.117003
0.0000
FLR
-1.768029
0.248017
-7.128663
0.0000
PGNP
-0.005511
0.001878
-2.934275
0.0047
TFR
12.86864
4.190533
3.070883
0.0032
R-squared
0.747372
Mean dependent var
141.5000
Adjusted R-squared
0.734740
S.D. dependent var
75.97807
S.E. of regression
39.13127
Akaike info criterion
10.23218
Sum squared resid
91875.38
Schwarz criterion
10.36711
Log likelihood
-323.4298
Hannan-Quinn criter.
10.28534
F-statistic
59.16767
Durbin-Watson stat
2.170318
Prob(F-statistic)
0.000000
其中:Se= (0.248017)(0.001878)(4.190533)(32.89165)
(2)模型检验
经济检验:
所估计参数β1和β2的估计值为负数,β3的估计值为正数,说明女性的文化率(FLR)和人均GNP(PGNP)与婴儿的死亡率(CM)负相关,总生育率(TFR)和婴儿的死亡率(CM)正相关, 与预期假设相同。β1的估计值为– 1.768029,表示在其他变量保持不变的情况下,女性识字率 每增加1%,婴儿死亡率减少 1.768029%;β2的估计值为- 0.005511,表明在其他变量保持不变的条件下,人均GNP每增加1%,婴儿死亡率减少- 0.005511%;β3的估计值为12.86864,表明总生育率增加1%,婴儿死亡率增加12.86864%。
统计检验:
(1)拟合优度检验:
拟合度R2=0.747372 ,说明所做模型整体对样本数据拟合较好,即解释变量 FLR、PGNP和TFR对CM的大多数差异作了解释,但该模型仍有进一步改良的空间。
(2)t检验:
查表可得,在5%的显著水平下,自由度为n-4 = 64-4 = 60的t的临界值为2.000,β1的估计值的t值为-7.128663<-2.000,β2的估计值为-2.934275<-2.000,β3的估计值为3.070883>2.000,说明在95%的置信水平下,解释变量女性识字率(FLR) ,人均GNP(PGNP)和总生育率(TFR)均通过了显著性检验,即解释变量女性识字率(FLR) 、人均GNP(PGNP) 、总生育率(TFR)对婴儿死亡率(CM)均有显著影响。
8.报告结论
1)根据各种回归结果,应选择CM对FLR,PGNP和TFR的回归模型。
因为从各个回归结果中的可决系数 看,CM对FLR的回归模型中 =0.669590 ,CM对FLR和PGNP回归模型中 =0.707665,CM对FLR,PGNP和TFR的回归模型中 =0.747372,因为CM对FLR,PGNP和TFR的回归模型中 最大,对样本数据的拟合程度最高
2) 如果回归模型CM对FLR,PGNP和TFR是正确的模型,但却估计了前两种回归模型,就忽略了影响婴儿死亡率的其他重要因素,而且根据上面各模型的分析可知正确回归模型中FLR,PGNP和TFR这三个解释变量的系数的绝对值都小于其他模型,采用前两种回归模型会使模型中仅有的解释变量对被解释变量的影响增大,使回归模型的误差可能很大,失去其意义,甚至得出与实际相反的结论
3)在实际中,为了解释某个现象,往往面临着在若干解释变量间进行取舍的问题。通常的做法是:只要调整的可决系数值增加,就可以增加新的解释变量。在上述三个回归模型中,CM对FLR的回归模型中的调整的可决系数值为0.664261,CM对FLR和PGNP回归模型中的调整可决系数值为0.698081,CM对FLR,PGNP和TFR的回归模型中的调整可决系数值为0.734740。因此CM对FLR,PGNP和TFR的回归模型中引入PGNP和TFR提高了模型的解释能力,也就是说,PGNP和TFR应该作为重要的解释变量引入到模型中来。
9、报告结论
1、婴儿死亡率受多个因素的影响,包括女性识字率FLR,人均GNP(PGNP)和总生育率(TFR)等。尽管这三项是决定婴儿死亡率的重要因素,但现实生活中一定还存在其他的影响因素,应该去探索和研究
2、婴儿死亡率受女性识字率FLR,人均GNP(PGNP)和总生育率(TFR)的影响较大,政府在采取相关政策的时候应重点考虑这些因素的影响。
3、EViews的应用能力还有待提高,应在多次运用中渐渐熟练。
展开阅读全文