北航15级数理统计大作业回归分析.doc

资源描述

1、数理统计大作业（一）公共财政收入的逐步回归模型指导教师院系名称材料科学与工程院学号SY1501201学生姓名2015 年12 月 21 日目录1 引言11.1 研究背景11.2 回归分析11.2.1 回归分析11.2.2 回归分析方法21.2.3 基本假设的检验31.3 研究内容和研究目的32.逐步回归分析42.1 数据采集42.2数据分析42.2.1 自变量的引入52.2.2 模型可决系数及剔除的变量52.2.3 模型显著性检验62.2.4 模型回归系数显著性检验及回归系数确定72.2.5 共线性诊断82.2.6 回归方程残差分析9结论：10参考文献111 引言1.1 研究背景财政收入，是指

2、政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内（一般为一个财政收入）所取得的货币收入。财政收入是衡量一国政府财力的重要指标，政府在社会经济活动中提供公共物品和服务的范围和数量，在很大程度上决定于财政收入的充裕状况。依据不同的标准，可以对财政收入进行不同的分类。国际上对财政收入的分类，通常按政府取得财政收入的形式进行分类。这种分类方法下，将财政收入分为税收收入、国有资产收益、国债收入和收费收入以及其他收入等。本文选取的相关影响因素包括国民生产总值、固定资产总投资、货物进出口总额、城镇人均可支配收入、教育经费总投入、人口数。1.2

3、回归分析1.2.1 回归分析回归分析（regression analysis）是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分广泛，回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析；按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析.多元线性回归模型是指含有多个自变量的线性回归模型，用于解释因变量与其他多个自变量之间的线性关系。其中，因变量的变化可由两个部分解释：一是自变量变化引起的；二是由其他随机因素引起的。建立模型时，有多种引入变量的方法。 1.2.2 回归分析方法向前选择法与被解释变量有最大相关的变量首先进入方程，如果该解释变

4、量没有通过F检验，则变量筛选过程结束，方程中没有引入任何变量；如果通过F检验，则在剩余的变量中寻找具有最大偏相关系数的变量，将其引入方程，并再次进行F检验，如果通过检验，则保留该变量在模型中，并继续寻找下一个候选变量，否则变量筛选过程结束，方程中仅有一个解释变量；以此类推，直至所有满足判据的变量都被引入模型位置为止。向后选择法与向前选择法的顺序相反，向后选择法首先将所有变量都引入模型，然后剔除最不显著的变量。如果剩余变量都通过显著性检验，则变量筛选过程结束；否则按同样的标准继续剔除不显著的变量，直至剩余的解释变量都满足显著性检验为止。逐步回归法逐步回归法的基本思想是将变量逐个引入模型，每引

5、入一个解释变量后都要进行F检验，并对已经选入的解释变量逐个进行t检验，当原来引入的解释变量由于后面解释变量的引入变得不再显著时，则将其删除，以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程，直到既没有显著的解释变量选入回归方程，也没有不显著的解释变量从回归方程中剔除为止，以保证最后所得到的解释变量集是最优的。1.2.3 基本假设的检验异方差检验在回归模型的基本假设中，固定随机误差具有相同的方差，但在建立实际经济问题的回归模型时，经常存在与此相违背的情况。如果仍用最小二乘法将会引起严重的后果。常用的检验方法有残差图分析法，等级相关系数法，残差的独立性检验残差的独立性检验称

6、为序列相关检验。如果随机误差不独立，那么对回归模型的任何估计与假设所做出的结论都是不可靠的。残差独立性检验师通过Durbin-watson检验完成的。多重共线性检验多元回归模型基本假设要求设计矩阵X中列向量之间不存在密切线性关系。当自变量存在多重共线性时，利用最小二乘法得到的参数估计不稳定，回归系数的方差随着共线性强度的增加而加速增长，会造成回归方程高度显著的情况下，所有回归系数都通不过显著性检验，甚至会造成回归系数正负号无法得到合理解释。但是有时候这样建立的模型对历史数据拟合的很好，从预测角度看不失为较好的模型。常用检验方法有方差扩大因子法（VIF）。1.3 研究内容和研究目的本文选取的相关

7、影响因素包括国民生产总值（X1）、固定资产总投资(X2)、货物进出口总额(X3)、城镇人均可支配收入(X4)、教育经费总投入(X5)、人口数(X6)。通过逐步回归的方法，建立公共财政财政收入与各因素之间的最优多元线性回归模型。通过建立的回归模型，分析影响公共财政收入的因素，并以此模型对公共财政未来财政收入做出分析和预计。2.逐步回归分析2.1 数据采集本文数据来自国家统计局统计年鉴2014 。其中教育经费总投入2013年数据缺失。数据是自1997年至2013年。因为我国自1997年开始的财税体制改革，导致97年前后的财政收入方式有较大差异，因此并未选择之前的数据。2.2数据分析在进行多元线性回

8、归分析时，将变量引入模型的方法有向前选择法、向后选择法以及逐步选择法。本文用逐步选择法引入变量，对变量进行逐步回归分析。2.2.1 自变量的引入在SPSS软件中，选择线性回归分析，将财政收入加入因变量，其余因素加入自变量，方法选择逐步，步进方法标准是使用F的概率，F0.05时引入，F0.1时剔除，得到结果如表2.1所示。表2.1 输入移去的变量a模型输入的变量移去的变量方法1教育经费总投入亿元.步进（准则: F-to-enter 的概率 = .100）。2国民生产总值亿元.步进（准则: F-to-enter 的概率 = .100）。3城镇人均可支配收入元.步进（准则: F-to-enter 的

9、概率 = .100）。a. 因变量: 公共财政收入亿元从表2.1中可以看出，通过逐步选择法引入模型的自变量有教育经费总投入、国民生产总值、城镇人均可支配收入。2.2.2 模型可决系数及剔除的变量通过逐步回归分析得到了三个模型，分别是一元、二元和三元模型。由表2.2可以看出，这三个模型的修正复相关系数均0.999，其中第三个模型达到了1，可见此模型的拟合效果极佳。表2.2 模型汇总d模型RR 方调整 R 方标准估计的误差更改统计量Durbin-WatsonR 方更改F 更改df1df2Sig. F 更改1.999a.999.9991330.96059.99910257.633114.00021

10、.000b.999.9991102.10443.0007.418113.01731.000c1.0001.000562.96285.00137.823112.0001.792a. 预测变量: (常量), 教育经费总投入亿元。b. 预测变量: (常量), 教育经费总投入亿元, 国民生产总值亿元。c. 预测变量: (常量), 教育经费总投入亿元, 国民生产总值亿元, 城镇人均可支配收入元。d. 因变量: 公共财政收入亿元其中第三个模型的Durbin-Watson检验值为1.792接近2，说明残差与自变量相互独立。经过t检验，剔除不显著变量，每个模型中剔除的变量如表2.3所示表2.3 已排除的变量a

11、模型Beta IntSig.偏相关共线性统计量容差VIF最小容差1国民生产总值亿元.345b2.724.017.603.004240.478.004固定资产总投资亿元.113b.876.397.236.006168.196.006货物进出口总额亿元.013b.360.725.099.07613.072.076城镇人均可支配收入元-.029b-.220.830-.061.006164.514.006人口数万人-.039b-1.706.112-.428.1616.205.1612固定资产总投资亿元.139c1.347.203.362.006169.464.002货物进出口总额亿元-.066c-1.

12、865.087-.474.04522.357.002城镇人均可支配收入元-.468c-6.150.000-.871.003332.352.002人口数万人-.063c-4.908.000-.817.1456.896.0043固定资产总投资亿元-.023d-.358.727-.107.005217.345.002货物进出口总额亿元.004d.174.865.052.03033.020.002人口数万人-.019d-.873.401-.255.03627.565.001a. 因变量: 公共财政收入亿元b. 模型中的预测变量: (常量), 教育经费总投入亿元。c. 模型中的预测变量: (常量), 教

13、育经费总投入亿元, 国民生产总值亿元。d. 模型中的预测变量: (常量), 教育经费总投入亿元, 国民生产总值亿元, 城镇人均可支配收入元。2.2.3 模型显著性检验表2.4给出了三个模型的F检验的结果，可以看出，方程拟合度很好，回归方程是显著的。表2.4 Anovaa模型平方和df均方FSig.1回归18170946741.731118170946741.73110257.633.000b残差24800385.298141771456.093总计18195747127.029152回归18179956882.85829089978441.4297483.717.000c残差15790244

14、.171131214634.167总计18195747127.029153回归18191944001.02736063981333.67619133.675.000d残差3803126.00212316927.167总计18195747127.02915a. 因变量: 公共财政收入亿元b. 预测变量: (常量), 教育经费总投入亿元。c. 预测变量: (常量), 教育经费总投入亿元, 国民生产总值亿元。d. 预测变量: (常量), 教育经费总投入亿元, 国民生产总值亿元, 城镇人均可支配收入元。2.2.4 模型回归系数显著性检验及回归系数确定通过软件分析，得到三个模型的回归系数及其显著性检验如

15、表2.5所示，三个模型回归系数都是显著的。表2.5 系数a模型非标准化系数标准系数tSig.共线性统计量B标准误差试用版容差VIF1(常量)-4200.257569.911-7.370.000教育经费总投入亿元4.443.044.999101.280.0001.0001.0002(常量)-6658.1241018.377-6.538.000教育经费总投入亿元2.912.563.6555.169.000.004240.478国民生产总值亿元.083.030.3452.724.017.004240.4783(常量)-206.7901170.891-.177.863教育经费总投入亿元3.202.2

16、92.72010.982.000.004246.952国民生产总值亿元.179.022.7478.122.000.002485.817城镇人均可支配收入元-2.631.428-.468-6.150.000.003332.352a. 因变量: 公共财政收入亿元模型一回归方程是：Y=-4200.257+4.443X5模型二回归方程是：Y=-6658.124+0.083X1+2.912X5 模型三回归方程是：Y=-206.790+0.179X1-2.631X4+3.202X5由上分析：模型二和模型三的VIF都大于10，共线性显著。但其系数都通过了显著性检验。其中模型三种人均可支配收入的系数为负。含义

17、是城镇人均可支配收入和公共财政收入是负相关的，这与经济实际不符。其常量未通过显著性检验。造成这么情况的原因是共线性问题。2.2.5 共线性诊断表2.6为各个模型的共线性诊断。表2.6 共线性诊断a模型维数特征值条件索引方差比例(常量)教育经费总投入亿元国民生产总值亿元城镇人均可支配收入元111.8121.000.09.092.1883.103.91.91212.7741.000.01.00.002.2263.507.22.00.003.00165.983.771.001.00313.7701.000.00.00.00.002.2284.064.05.00.00.003.00167.034.58

18、.90.09.214.000105.570.38.10.91.79a. 因变量: 公共财政收入亿元由表2.6可以看出，第二个模型中第三个维度解释了100%的教育经费总投入和100%国民生产总值。第三个模型第四个维度解释了91%的国民生产总值和79%的城镇人均可支配收入。当方差比例大于50%时，即可认为存在明显共线性。因此，模型二和模型三都存在严重共线性。2.2.6 回归方程残差分析对模型进行残差分析，分别做成表2.7和图2.1 。表2.7 残差统计量a极小值极大值均值标准偏差N预测值8484.0625117000.179742661.073834825.2245816标准预测值-.981

19、2.135.0001.00016预测值的标准误差203.345489.034271.60876.32116调整的预测值8424.4346116221.140642603.496434716.3674016残差-1052.833861235.21777.00000503.5292816标准残差-1.8702.194.000.89416Student 化残差-2.1752.457.0351.02816已删除的残差-1423.533691548.9687557.57739689.5150816Student 化已删除的残差-2.6753.337.0541.24616Mahal。距离1.020

20、10.3822.8132.42816Cook 的距离.000.634.106.19216居中杠杆值.068.692.188.16216a. 因变量: 公共财政收入亿元图2.1由回归模型的P-P图可知，残差分布基本符合正态分布，模型拟合很好。结论：由以上综合分析可知，模型一的拟合最好。模型方程为模型一回归方程是：Y=-4200.257+4.443X5。最终建立的模型是公共财政收入和教育经费总投入的关系。说明了公共财政收入的增长和教育经费投入的增长有稳定的关系。教育经费的投入对带动经济增长并导致公共财政收入的增加。参考文献1孙海燕，周梦，李卫国，冯伟. 数理统计M. 北京：北京航空航天大学数学与系统科学学院，20152朱建平，方匡南，章贵军.SPSS统计分析与应用M.北京：首都经济贸易大学出版社，2013.23费宇.统计学实验SPSS和R软件应用与实例M.北京：高等教育出版社，2012.7 （注：专业文档是经验性极强的领域，无法思考和涵盖全面，素材和资料部分来自网络，供参考。可复制、编制，期待你的好评与关注）

展开阅读全文