【数学建模】国家财政收入的影响因素的评价及预期收入的预测.docx

资源描述

国家财政收入的影响因素【摘要】国家的财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关。首先，我们根据所给数据，对数据进行描述性分析。之后，我们对数据进行了回归分析，构造了预测模型，获得了模型的回归系数估计值，然后，考虑到每个回归系数置信区间包含零点与否的情况，我们对模型进行了一系列的统计检验，并对模型进行了消除序列相关性的改进，使模型通过了各个统计的检验。之后，我们代入所给数据1953年-1980年的各项经济指标，得到预测值与实际值的拟合效果较好，预测较准确。最后，我们根据网络上查到的数据，利用该模型对1990年和2000年的财政收入作出预测，并对结果进行了分析。关键词：MATLAB Eviews 财政收入回归模型 LM检验序列相关性一、问题重述国家的财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关，根据所给数据，对数据进行分析，构造预测模型，并利用该模型对1990年和2000年的财政收入作出预测。二、问题假设 1. 财政收入只可能与问题重述中提到的6个因素有关，而与其它因素无关； 2. 所给数据真实准确，无录入错误。 3. 不考虑偏差大的数据，在建模中把异常点的数据剔除。三、符号说明 y：财政收入； x1：国民收入； x2：工业总产值； x3：农业总产值； x4：总人口； x5：就业人口； x6：固定资产投资； β0，β1，β2，β3，β4，β5，β6：回归系数； E：随机误差。 X1(-1)，X3(-1)，X6(-1)：x1，x3，x6的一阶滞后项； YF：财政收入的预测值四、问题分析、模型的建立与求解 1.问题的分析首先对数据作初步分析。分别用MATLAB作出财政收入与6个因素的散点图，从中找出异常的点，从而把异常的点所对应的数据剔除：图1 x1-y散点图图2 x2-y散点图图3 x3-y散点图图4 x4-y散点图图5 x5-y散点图由该图可以明显看出，最右边有一个异常点：1981年就业人口攀升为73280，较之前有大幅度增长，但财政收入明显地低于预测值，为使个别数据不致影响整个模型，我们将该异常数据去掉。去掉后的x5-y散点图如下：图6 去掉异常点后的x5-y散点图图7 x6-y散点图 2.模型的建立从以上的散点图可以看出财政收入Y与x1~x6大致都呈现线性的关系，我们再引入一个常量回归系数β0，作出了初步的模型： y=β0+β1x1+β2x2+β3x3+β4x4+β5x5+β6x6+E （1） 3.模型的求解首先我们剔除掉因为1981年就业人口对财政收入影响异常的特殊点（见图6），之后利用MATLAB统计工具箱中命令regress求解，得到模型（1）的回归系数估计值及其置信区间（置信水平α=0.05）、检验统计量R2，F，p的结果见表1。参数参数估计值参数置信区间 β0 -15.5344 -366.5816 335.5127 β1 0.5100 0.2301 0.7898 β2 -0.0259 -0.0769 0.0251 β3 -0.5905 -0.9901 -0.1908 β4 0.0113 -0.0028 0.0254 β5 -0.0230 -0.0492 0.0032 β6 0.3419 -0.0387 0.7225 R2=0.9840，F=225.8953，p=0.0000 表1 模型（1）的计算结果表1显示，R2=0.9840指因变量y（财政收入）的98.40%可由模型（1）的自变量的变化来解释，F值远远超过F检验的临界值，p=0远小于α，因而模型（1）从整体来看是可用的。表1的回归系数给出了模型（1）中β0，β1，β2，β3，β4，β5，β6的估计值，即，，，，，，。检查它们的置信区间发现，β0，β2，β4，β5，β6的置信区间包含零点。从估计结果来看，模型可能存在多重共线性。原因如下：在5%的显著性水平下，由置信区间可以看出除x1与x3外，所有回归系数的t检验值均小于临界值；但F统计量的值225.8953远远大于临界值，且拟合优度很高，解释变量对被解释变量有显著的解释性能力。应用Eviews软件，采用菜单操作可得各解释变量之间的相关系数表，结果见表2：表2 从上图可以看出六个解释变量之间两两简单相关关系都在80%以上，甚至有的在98%以上，超过了拟合优度，这表明模型存在严重的多重共线性。 4.模型的改进根据以上的分析，我们采用逐步回归法来确定回归模型。第一步，用每个解释变量分别对被解释变量做简单回归，从而决定解释变量的重要程度，为解释变量排序。应用Eviews软件，采用菜单操作可得各解释变量与被解释变量的拟合优度：x1的拟合优度R2=0.951223 x2的拟合优度R2=0.937951、x3的拟合优度R2 =0.843960 、 X4的拟合优度R2= 0.865832 、x5的拟合优度R2 = 0.860956 x6的拟合优度R2 = 0.939462 根据t统计量的大小排序，可见解释变量的重要程度依次为：x1，x6，x2，x4，x5，x3 。第二步，以Y=21.82266+0.3233378X1为基础，依次引入x6，x2，x4，x5，x3 。根据逐步回归法的原则，最终确定的模型（2）为： Y=163.1010+0.406223X1-0.49127X3+0.330958X6 （2）其中其模型的分析结果为：表3 模型（2）的计算结果由上表可以看出，模型（2）的所有变量的参数都通过了t检验，且F值为440.9664，比模型（1）的F值大很多，这说明模型的显著性是可以通过的。但模型（2）的DW值是1.505283，又对于显著性水平α=0.05，n=29，k=3，查D-W分布表，得到检验的临界值dL=1.27和dU=1.56，由此可知，模型（2）的DW值位于临界值dL和 dU之间，因此不能判断模型是否存在序列相关性。下面用LM检验检验模型（2）是否存在序列相关性，首先检验模型的一阶序列相关性。应用Eviews软件，采用菜单操作可得LM检验的结果，结果见表4：表4 由上图可得，存在一阶序列相关的概率P=0.358645>0.05，所以认为模型存在一阶序列相关性。下面检验模型是否存在两阶序列相关性。应用Eviews软件，采用菜单操作可得LM检验的结果，结果见表5：表5 由上图可知，存在两阶序列相关的概率P=0.036411<0.05，所以认为模型不存在两阶序列相关性。综上两点可知，模型（2）只存在一阶序列相关性，不存在两阶或两阶以上的序列相关性。下面应用Eviews软件，采用菜单操作运用广义差分法进行自相关的处理。所得结果为表6：表6 修正后的模型（2）的计算结果由此可知，在Eviews软件包下，1阶广义差分的估计结果为： Y=170.0423+0.396846X1-0.49698410X3+0.36841X6+0.217615AR(1) （3） AR(1)前的参数值为随机干扰项的一阶序列相关系数。对于显著性水平α=0.05，n=28，k=3，查D-W分布表，得到检验的临界值dL=1.26和dU=1.56，又由上图可知，修正后的模型（2）的DW值为1.599760> dU=1.56且<4-dU，由此认为修正后的模型（2）不存在一阶序列相关性。所以修正后的模型为： Y-0.217615Y(-1)=163.1010(1-0.217615)+0.406223(X1-0.217615X1(-1))-0.49127(X3-0.217615X3(-1))+0.330958(X6-0.217615X6(-1)) （4） 5.结果分析从表面上看，经过用广义差分法修正后的模型（2）已经不存在序列相关性了，这就说明模型排除了序列相关性的干扰。用广义差分法修正后的模型（2）的拟合度已经达到了R2=0.98，这表明财政收入的98%可以由解释变量x1、x3、x6解释。残差E=F-FY可以作为随机误差的估计值，画出随机误差E的走势图（图8）能够从直观上判断ε的自相关性。图8 修正后的模型（2）E的走势图从图8可以看出，随机误差项E的走势大概呈现标准正态分布的趋势，这表明E几乎不存在自相关性了。下面，我们将使用修正后的模型（2）对之前数据进行评价：年份 1953 1954 1955 1956 1957 1958 1959 实际值 216 248 254 268 286 357 444 预测值 197.0488 241.8454 235.6226 276.3688 267.6546 375.1301 483.6987 年份 1960 1961 1962 1963 1964 1965 1966 实际值 506 271 230 266 323 393 466 预测值 517.5848 305.6149 233.9238 255.0631 301.5687 377.6023 431.3645 年份 1967 1968 1969 1970 1971 1972 1973 实际值 352 303 447 564 638 658 691 预测值 376.7942 349.9542 448.8678 553.8521 614.6158 635.7772 667.8887 年份 1974 1975 1976 1977 1978 1979 1980 实际值 655 692 657 723 922 890 826 预测值 662.9507 718.7919 672.9797 723.4487 829.0786 878.6001 893.5268 表7 财政收入的预测值与实际值对比图9 财政收入预测值与实际值的拟合图从上可以看到，预测值与实际值还是相当吻合的。之后，我们查阅了1990年及2000年的国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资，代入模型（2）。结果如下：年份国民收入工业总产值农业总产值总人口就业人口固定资产投资 1990 11412.96 22452.27 5146 112954 63931.9 4517 2000 98000.5 75710.69 13873.6 126743 72116.77 32917.7 年份财政收入（预测值）财政收入（实际值） 1990 3766.2 2821.86 2000 44052 13395.23 表8 1990年和2000年财政收入预测值与实际值对比数据来源自《CNKI中国统计年鉴数据库》从表8可以看到，1990年预测值与实际值和2000年的预测值都相差较大，原因不一定是模型建立的偏差大，还有可能是其他原因，如在查阅数据时，我们就发现了2000年的工业总产值数据注明了“1990年不变价格”，而其余数据没有此说明项；且1980年后国家实行了改革开放的经济政策，经济的发展规律发生了很大的变化，用1980年以前的数据建立起来的模型去预测1980年后的一些经济数据自然会有较大的偏差。并且，在固定资产投资一栏，我们查到了非常详细的分类，固定资产投资资金来源中国家预算内资金，固定资产投资资金来源中国内贷款，固定资产投资资金来源中自筹和其他资金等备注，而题目并未给出，这给我们筛选数据带来了极大的困难。总的来说，模型对于1952-1980年的经济数据来说，依然有一定的参考价值和预测价值，但由于各种方面的原因与因素，对于1990年和2000年预测值与实际值的匹配程度是有限。五、模型的评价优点模型的决定系数R2=0.98较高，且都是一次项，计算简便。消除了模型中出现的序列相关性和多重共线性，对1952~1980年之间的数据预测效果较好。缺点对1981年之后的数据预测值逐渐产生偏差，只适用于预测所用数据的时间段，有效的预测时间段较段。六、模型的推广与改进从前文的分析来看，我们认为1981年后，物价、通货膨胀、人民币币值等因素极大地影响了我们的预测数据，若补充上物价衡量指数，消费水平指数（CPI）等数据，模型的拟合度效果应该会更准确，而且加上这些因素后，对以后时间段的预测应该会更长，偏差也会更小。。七、附件（1）导入数据的程序： a=xlsread('C:\Documents and Settings\syzx10\桌面\新建 Microsoft Excel 工作表.xls') （2）画散点图的程序：图1 plot(a(:,2),a(:,8),'*'); xlabel('国民收入'); title('财政收入(亿元'); 图2 plot(a(:,3),a(:,8),'*'); xlabel('工业总产值'); title('财政收入(亿元'); 图3 plot(a(:,4),a(:,8),'*'); xlabel('农业总产值'); title('财政收入(亿元'); 图4 plot(a(:,5),a(:,8),'*'); xlabel('总人口'); title('财政收入(亿元'); 图5 plot(a(:,6),a(:,8),'*'); xlabel('就业人口'); title('财政收入(亿元'); 图6 plot(a(1:29,6),a(1:29,8),'*'); xlabel('就业人口'); title('财政收入(亿元'); 图7 plot(a(:,7),a(:,8),'*'); xlabel('固定资产投资'); title('财政收入(亿元'); （3）模型（1）的MATLAB程序： x1=[598,586,707,737,825,837,1028,1114,1079,757,677,779,943,1152,1322,1249,1187,1372,1638,1780,1833,1978,1993,2121,2052,2189,2475,2702,2791]'; x2=[349,455,520,558,715,798,1235,1681,1870,1156,964,1046,1250,1581,1911,1647,1565,2101,2747,3156,3365,3684,3696,4254,4309,4925,5590,6065,6592]'; x3=[461,475,491,529,556,575,598,509,444,434,461,514,584,632,687,697,680,688,767,790,789,855,891,932,955,971,1058,1150,1194]'; x4=[57482,58796,60266,61465,62828,64653,65994,67207,66207,65859,67295,69172,70499,72538,74542,76368,78534,80671,82992,85229,87177,89211,90859,92421,93717,94974,96259,97542,98705]'; x5=[20729,21364,21832,22328,23018,23711,26600,26173,25880,25590,25110,26640,27736,28670,29805,30814,31915,33225,34432,35620,35854,36652,37369,38168,38834,39377,39856,40581,41896]'; x6=[44,89,97,98,150,139,256,338,380,138,66,85,129,175,212,156,127,207,312,355,354,374,393,462,443,454,550,564,568]'; Y=[184,216,248,254,268,286,357,444,506,271,230,266,323,393,466,352,303,447,564,638,658,691,655,692,657,723,922,890,826]'; X=[ones(29,1),x1,x2,x3,x4,x5,x6]; [b,bint,r,rint,stats]=regress(Y,X) （4）求得的各解释变量与被解释变量的拟合优度的结果（5）、根据逐步回归的方法所得到的一些分析结果：（6）：用MATLAB画财政收入与财政收入预测值的拟合图的程序： YF=[197.0488,241.8454,235.6226,276.3688,267.6546,375.1301,483.6987,517.5848,305.6149,233.9238,255.0631,... 301.5687,377.6023,431.3645,376.7942,349.9542,448.8678,553.8521,614.6158,635.7772,667.8887,662.9507,... 718.7919,672.9797,723.4487,829.0786,878.6001,893.5268] Y=[216,248,254,268,286,357,444,506,271,230,266,323,393,466,352,303,447,564,638,658,691,655,692,657,723,922,890,826]; x=1953:1980; plot(x,Y,'*',x,YF) legend('Y','YF') 【参考文献】 [1] 姜启源,谢金星,叶俊. 数学模型[M].北京:高等教育出版社,2003.8 [2] John O. Rawlings, Sastry G. Pantula, David A. Dickey Applied Regression Analysis:A Research Tool(《应用回归分析（英文版）》)[M].New York,USA:Springer,1998 [3] 李子奈《计量经济学教程》 [4] 刘国卫《MATLAB程序设计教程》 [5] CNKI中国统计年鉴数据库

展开阅读全文