立用多元线性回归分析研究国家婴儿死亡率与妇女文盲率之间的关系.doc

资源描述

1、实验二：多元线性回归分析一实验目的熟练应用EViews软件作多元线性回归分析。二实验主题立用多元线性回归分析研究国家婴儿死亡率与妇女文盲率之间的关系。三实验内容1、先验的预期CM和各个变量之间的关系。2、做CM对FLR的回归，得到回归结果。3、做CM对FLR和PGNP的回归，得到回归结果。4、做CM对FLR，PGNP和TFR的回归结果，并给出ANOVA。5、根据各种回归结果，选择哪个模型？为什么？6、如果回归模型（4）是正确的模型，但却估计了（2）或（3），会有什么后果？7、假定做了（2）的回归，如何决定增加变量PGNP和TFR？使用了哪种检验？给出必要的计算结果。四实验报告要求: 1、问

2、题提出2、指标选择 3、数据选择 4、数据处理5、数据分析6、建立模型以及模型检验 7、报告结论 8、实验总结1、问题提出一个国家的婴儿死亡率关系到一个国家的未来发展，反映了国家人民的健康水平与国家的发展水平，这一指标也是政府采取相关政策的一个重要依据。在社会学中，一个国家的婴儿死亡率与妇女的文盲率之间存在一定的相关关系，但这两个指标之间存在着怎样的关系，为此，我们利用统计数据对这一问题进行实证分析。2、指标选择我们选取一个国家的婴儿死亡率CM，女性识字率FLR进行分析。考虑到影响婴儿死亡率的因素较复杂，尤其是经济发展状况、总生育率等也会对其产生重要影响，考虑到实验的准确性，同时研究人均GN

3、P（PGNP）和总生育率（TFR）对婴儿死亡率的影响。预期：1）预期CM与FLR存在负相关关系。一方面，女性受教育程度越高，其知识越丰富，自我保护意识和能力就越强，则更善于保护自己和婴儿；另一方面，女性教育程度越高，其就业机会与收入获得途径就越多，可以更好的保障自己和婴儿的生活。因此，我们预期FLR的提高会导致CM降低。2）预期CM与PGNP存在负相关关系。人均GNP的提高使人们的物质生活水平得到提高，改善了人民、食、住、行等诸方面的条件，特别是使人们摄取的营业素增加，营养素结构合理，从而增加人们的体质；使人们从繁重的体力劳动和恶劣的工作环境中解脱出来，有充足的精力和时间来关心自己及其后代的身

4、体健康，提高生活质量。因此，我们预期PGNP的提高会导致CM降低。3）预期CM与TFR存在正相关关系。总生育率直接或间接地影响着婴儿死亡率，总生育率提高，人口数量上升，人均GNP，人均受教育程度等一系列人均享受的权利和福利都会有所下降。因此，我们预期TFR的提高会导致CM降低。3、数据选择考虑到实验结果的普遍性，我们选择世界各地区64个国家的各项指标数据作为样本进行研究分析。数据由老师提供，详细数据见表1序号婴儿死亡率CM女性识字率FLR人均GNP（PGNP）总生育率TFR11283718706.662204221306.153202163107.004197655706.2559676205

5、03.816209262006.447170456706.198240293005.899241111205.891055552902.3611758711803.9312129559005.9913249317303.50141653111507.4115947711604.2116968012705.0017148305805.271898696605.2119161434206.50201184710806.1221269172906.1922189352705.0523126585606.1624128142401.8025167292404.7526135654304.1027107

6、8730206.6628726314207.2829128494208.12302763198305.2331152844205.7932224235306.50331425086407.1734104623506.6035287312307.0036416616203.9137312111906.7038778820904.2039142229005.4340262222306.5041215121406.254224693307.10431913110107.1044182193007.0045378817303.4646103357805.6647678513004.8248143789

7、305.004983856904.7450223332008.4951240194506.5052312212806.5053127944301.695452832703.2555794313407.175661886703.5257168284106.0958289543702.86591214113104.88601156214703.8961186453006.9062478536304.1063178452206.0964142675607.20表14.数据处理表1中的实验数据可直接应用于研究分析，无需经过其他处理。5.数据分析1、观察表1数据，婴儿死亡率CM，女性识字率FLR，人均G

8、NP（PGNP）和总生育率（TFR）中，不存在与现实意义不相符的数据，因此可以拿来进行问题的研究。2、通过EViews软件分析进行相关分析：1) CM与FLR的相关性图1FLRCMFLR1.000000-0.818285CM-0.8182851.000000表2由散点图（图1）和相关系数（表2）知，这两组数据的相关性较高，且CM与FLR之间存在负相关关系。 2）CM与PGNP的相关性PGNPCMPGNP1.000000-0.407697CM-0.4076971.000000表3图2由散点图（图2）和相关系数（表3）知，这两组数据有一定的相关性，且CM与PGNP之间存在负相关关系。3）CM与TF

9、R的相关性PGNPCMPGNP1.000000-0.407697CM-0.4076971.000000图3表4由散点图（图3）和相关系数（表3）知，这两组数据具有一定的相关性，且CM与TFR之间存在正相关关系。通过相关分析可以发现，CM与FLR之间存在负相关关系，与PGNP之间存在负相关关系，与TFR之间存在正相关关系。6.建立模型以及模型检验1、分别做出CM对FLR、CM对FLR和PGNP以及CM对FLR，PGNP和TFR进行回归分析，建立回归模型2、分别对各个模型进行检验，包括经济检验及统计检验3.给出CM对FLR，PGNP和TFR回归结果的ANOVA61CM对FLR的回归模型建立及检验（

10、1）建立回归模型根据图1，建立如下线性模型：得出回归结果如下Dependent Variable: CMMethod: Least SquaresDate: 04/15/16 Time: 11:44Sample: 1 64Included observations: 64VariableCoefficientStd. Errort-StatisticProb.FLR-2.3904960.213263-11.209170.0000C263.863512.2249921.583950.0000R-squared0.669590Mean dependent var141.5000Adjusted R

11、-squared0.664261S.D. dependent var75.97807S.E. of regression44.02399Akaike info criterion10.43810Sum squared resid120163.0Schwarz criterion10.50556Log likelihood-332.0191Hannan-Quinn criter.10.46468F-statistic125.6455Durbin-Watson stat2.314744Prob(F-statistic)0.000000回归方程式：其中： Se=(0.213263) (12.2249

12、9) t=(-11.20917) (21.58395) （2）模型检验 CM对FLR的回归模型的检验经济检验：斜率值为 - 2.390496，说明女性识字率(FLR)与婴儿死亡率（CM）负相关，且在其他条件不变的情况下女性识字率（FLR）增加1%，可导致婴儿死亡率（CM）减少2.390496%。统计检验：（1）拟合优度检验：拟合度R2=0.669590,说明所建模型整体上对样本数据还不算很好，即解释变量CM对 FLR的大部分差异作出了解释，但可能还有其他因素影响婴儿死亡率。(2) t检验：变量1和2的原假设与备择假设为：H0：0=0，10；H0：1=0，10。查表可得，在5%的显著水平下，

13、自由度为n-2=64-2=62的t的临界值为2.000。因为计算得到的0的估计值的值21.583952.000，所以拒绝原假设H0：0=0，1的估计值的t值-11.20917-2.000,所以拒绝原假设H0：1=0。这说明在95%的置信水平下，解释变量女性识字率(FLR)通过了显著性检验，即解释变量女性识字率(FLR)对婴儿死亡率（CM）有显著影响。6.2 CM对FLR和PGNP的回归模型建立及检验（1）建立回归模型根据图2，建立如下线性模型：得出回归结果如下：Dependent Variable: CMDependent Variable: CMMethod: Least Squares

14、Date: 04/15/16 Time: 11:49Sample: 1 64Included observations: 64VariableCoefficientStd. Errort-StatisticProb.C263.641611.5931822.741090.0000FLR-2.2315860.209947-10.629270.0000PGNP-0.0056470.002003-2.8187030.0065R-squared0.707665Mean dependent var141.5000Adjusted R-squared0.698081S.D. dependent var75.

15、97807S.E. of regression41.74780Akaike info criterion10.34691Sum squared resid106315.6Schwarz criterion10.44811Log likelihood-328.1012Hannan-Quinn criter.10.38678F-statistic73.83254Durbin-Watson stat2.186159Prob(F-statistic)0.000000回归方程式：其中：（2）模型检验经济检验：所估计参数1和2的估计值均为负数，说明女性识字率(FLR)和人均GNP(PGNP)与婴儿的

16、死亡率（CM）负相关，与预期假设相同。1的估计值为-2.231586，表示在其他变量保持不变的情况下，女性识字率每增加1%，婴儿死亡率减少2.231586%。2的估计值为- 0.005647，表示在其他变量保持不变的条件下，人均GNP每增加1%，婴儿死亡率减少0.005647%。统计检验：（1）拟合优度检验：拟合度R2=0.707665,说明所建模型整体上对样本数据还不算很好，即解释变量CM对 FLR的大部分差异作出了解释，但可能还有其他因素影响婴儿死亡率。（2）t检验：查表可得，在5%的显著水平下，自由度为n-3 = 64-3 = 61的t的临界值为2.000，1的估计值的t值为-10.

17、62927-2.000,2的估计值为-2.818703-2.000,说明在95%的置信水平下，解释变量女性识字率(FLR) 和人均GNP(PGNP)均通过了显著性检验，即解释变量女性识字率 (FLR) 和人均GNP(PGNP)对婴儿死亡率（CM）有显著影响。7.3 CM对FLR、PGNP和TFR的回归模型建立及检验（1）建立回归模型根据图3，建立如下线性模型：得出回归结果如下：Dependent Variable: CMMethod: Least SquaresDate: 04/19/16 Time: 11:31Sample: 1 64Included observations: 64V

18、ariableCoefficientStd. Errort-StatisticProb.C168.306732.891655.1170030.0000FLR-1.7680290.248017-7.1286630.0000PGNP-0.0055110.001878-2.9342750.0047TFR12.868644.1905333.0708830.0032R-squared0.747372Mean dependent var141.5000Adjusted R-squared0.734740S.D. dependent var75.97807S.E. of regression39.13127

19、Akaike info criterion10.23218Sum squared resid91875.38Schwarz criterion10.36711Log likelihood-323.4298Hannan-Quinn criter.10.28534F-statistic59.16767Durbin-Watson stat2.170318Prob(F-statistic)0.000000其中：Se= (0.248017)(0.001878)(4.190533)(32.89165) (2)模型检验经济检验：所估计参数1和2的估计值为负数，3的估计值为正数，说明女性的文化率(FLR)和人

20、均GNP(PGNP)与婴儿的死亡率（CM）负相关，总生育率(TFR)和婴儿的死亡率（CM）正相关，与预期假设相同。1的估计值为 1.768029，表示在其他变量保持不变的情况下，女性识字率每增加1%，婴儿死亡率减少 1.768029%；2的估计值为- 0.005511，表明在其他变量保持不变的条件下，人均GNP每增加1%，婴儿死亡率减少- 0.005511%；3的估计值为12.86864，表明总生育率增加1%，婴儿死亡率增加12.86864%。统计检验：（1）拟合优度检验：拟合度R2=0.747372 ，说明所做模型整体对样本数据拟合较好，即解释变量 FLR、PGNP和TFR对CM的大多

21、数差异作了解释，但该模型仍有进一步改良的空间。（2）t检验：查表可得，在5%的显著水平下，自由度为n-4 = 64-4 = 60的t的临界值为2.000，1的估计值的t值为-7.128663-2.000,2的估计值为-2.9342752.000，说明在95%的置信水平下，解释变量女性识字率(FLR) ,人均GNP(PGNP)和总生育率(TFR)均通过了显著性检验，即解释变量女性识字率(FLR) 、人均GNP(PGNP) 、总生育率(TFR)对婴儿死亡率（CM）均有显著影响。 8.报告结论 1）根据各种回归结果，应选择CM对FLR，PGNP和TFR的回归模型。因为从各个回归结果中的可决系数看，

22、CM对FLR的回归模型中=0.669590，CM对FLR和PGNP回归模型中=0.707665，CM对FLR，PGNP和TFR的回归模型中=0.747372，因为CM对FLR，PGNP和TFR的回归模型中最大，对样本数据的拟合程度最高 2）如果回归模型CM对FLR，PGNP和TFR是正确的模型，但却估计了前两种回归模型，就忽略了影响婴儿死亡率的其他重要因素，而且根据上面各模型的分析可知正确回归模型中FLR,PGNP和TFR这三个解释变量的系数的绝对值都小于其他模型，采用前两种回归模型会使模型中仅有的解释变量对被解释变量的影响增大，使回归模型的误差可能很大，失去其意义，甚至得出与实际相反的结论3

23、）在实际中，为了解释某个现象，往往面临着在若干解释变量间进行取舍的问题。通常的做法是：只要调整的可决系数值增加，就可以增加新的解释变量。在上述三个回归模型中，CM对FLR的回归模型中的调整的可决系数值为0.664261，CM对FLR和PGNP回归模型中的调整可决系数值为0.698081，CM对FLR，PGNP和TFR的回归模型中的调整可决系数值为0.734740。因此CM对FLR，PGNP和TFR的回归模型中引入PGNP和TFR提高了模型的解释能力，也就是说，PGNP和TFR应该作为重要的解释变量引入到模型中来。9、报告结论1、婴儿死亡率受多个因素的影响，包括女性识字率FLR，人均GNP（PGNP）和总生育率（TFR）等。尽管这三项是决定婴儿死亡率的重要因素，但现实生活中一定还存在其他的影响因素，应该去探索和研究2、婴儿死亡率受女性识字率FLR，人均GNP（PGNP）和总生育率（TFR）的影响较大，政府在采取相关政策的时候应重点考虑这些因素的影响。3、EViews的应用能力还有待提高，应在多次运用中渐渐熟练。

展开阅读全文