资源描述
国家财政收入的影响因素
【摘要】
国家的财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关。首先,我们根据所给数据,对数据进行描述性分析。之后,我们对数据进行了回归分析,构造了预测模型,获得了模型的回归系数估计值,
然后,考虑到每个回归系数置信区间包含零点与否的情况,我们对模型进行了一系列的统计检验,并对模型进行了消除序列相关性的改进,使模型通过了各个统计的检验。
之后,我们代入所给数据1953年-1980年的各项经济指标,得到预测值与实际值的拟合效果较好,预测较准确。
最后,我们根据网络上查到的数据,利用该模型对1990年和2000年的财政收入作出预测,并对结果进行了分析。
关键词:MATLAB Eviews 财政收入 回归模型 LM检验 序列相关性
一、 问题重述
国家的财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关,根据所给数据,对数据进行分析,构造预测模型,并利用该模型对1990年和2000年的财政收入作出预测。
二、 问题假设
1. 财政收入只可能与问题重述中提到的6个因素有关,而与其它因素无关;
2. 所给数据真实准确,无录入错误。
3. 不考虑偏差大的数据,在建模中把异常点的数据剔除。
三、符号说明
y:财政收入;
x1:国民收入;
x2:工业总产值;
x3:农业总产值;
x4:总人口;
x5:就业人口;
x6:固定资产投资;
β0,β1,β2,β3,β4,β5,β6:回归系数;
E:随机误差。
X1(-1),X3(-1),X6(-1):x1,x3,x6的一阶滞后项;
YF:财政收入的预测值
四、问题分析、模型的建立与求解
1.问题的分析
首先对数据作初步分析。分别用MATLAB作出财政收入与6个因素的散点图,从中找出异常的点,从而把异常的点所对应的数据剔除:
图1 x1-y散点图
图2 x2-y散点图
图3 x3-y散点图
图4 x4-y散点图
图5 x5-y散点图
由该图可以明显看出,最右边有一个异常点:1981年就业人口攀升为73280,较之前有大幅度增长,但财政收入明显地低于预测值,为使个别数据不致影响整个模型,我们将该异常数据去掉。去掉后的x5-y散点图如下:
图6 去掉异常点后的x5-y散点图
图7 x6-y散点图
2.模型的建立
从以上的散点图可以看出财政收入Y与x1~x6大致都呈现线性的关系,我们再引入一个常量回归系数β0,作出了初步的模型:
y=β0+β1x1+β2x2+β3x3+β4x4+β5x5+β6x6+E (1)
3.模型的求解
首先我们剔除掉因为1981年就业人口对财政收入影响异常的特殊点(见图6),之后利用MATLAB统计工具箱中命令regress求解,得到模型(1)的回归系数估计值及其置信区间(置信水平α=0.05)、检验统计量R2,F,p的结果见表1。
参数
参数估计值
参数置信区间
β0
-15.5344
-366.5816 335.5127
β1
0.5100
0.2301 0.7898
β2
-0.0259
-0.0769 0.0251
β3
-0.5905
-0.9901 -0.1908
β4
0.0113
-0.0028 0.0254
β5
-0.0230
-0.0492 0.0032
β6
0.3419
-0.0387 0.7225
R2=0.9840,F=225.8953,p=0.0000
表1 模型(1)的计算结果
表1显示,R2=0.9840指因变量y(财政收入)的98.40%可由模型(1)的自变量的变化来解释,F值远远超过F检验的临界值,p=0远小于α,因而模型(1)从整体来看是可用的。
表1的回归系数给出了模型(1)中β0,β1,β2,β3,β4,β5,β6的估计值,即,,,,,,。检查它们的置信区间发现,β0,β2,β4,β5,β6的置信区间包含零点。从估计结果来看,模型可能存在多重共线性。原因如下:在5%的显著性水平下,由置信区间可以看出除x1与x3外,所有回归系数的t检验值均小于临界值;但F统计量的值225.8953远远大于临界值,且拟合优度很高,解释变量对被解释变量有显著的解释性能力。
应用Eviews软件,采用菜单操作可得各解释变量之间的相关系数表,结果见表2:
表2
从上图可以看出六个解释变量之间两两简单相关关系都在80%以上,甚至有的在98%以上,超过了拟合优度,这表明模型存在严重的多重共线性。
4.模型的改进
根据以上的分析,我们采用逐步回归法来确定回归模型。
第一步,用每个解释变量分别对被解释变量做简单回归,从而决定解释变量的重要程度,为解释变量排序。应用Eviews软件,采用菜单操作可得各解释变量与被解释变量的拟合优度:x1的拟合优度R2=0.951223 x2的拟合优度R2=0.937951、x3的拟合优度R2 =0.843960 、
X4的拟合优度R2= 0.865832 、x5的拟合优度R2 = 0.860956 x6的拟合优度R2 = 0.939462
根据t统计量的大小排序,可见解释变量的重要程度依次为:x1,x6,x2,x4,x5,x3 。
第二步,以Y=21.82266+0.3233378X1为基础,依次引入x6,x2,x4,x5,x3 。
根据逐步回归法的原则,最终确定的模型(2)为:
Y=163.1010+0.406223X1-0.49127X3+0.330958X6 (2)
其中其模型的分析结果为:
表3 模型(2)的计算结果
由上表可以看出,模型(2)的所有变量的参数都通过了t检验,且F值为440.9664,比模型(1)的F值大很多,这说明模型的显著性是可以通过的。但模型(2)的DW值是1.505283,又对于显著性水平α=0.05,n=29,k=3,查D-W分布表,得到检验的临界值dL=1.27和dU=1.56,由此可知,模型(2)的DW值位于临界值dL和 dU之间,因此不能判断模型是否存在序列相关性。
下面用LM检验检验模型(2)是否存在序列相关性,首先检验模型的一阶序列相关性。应用Eviews软件,采用菜单操作可得LM检验的结果,结果见表4:
表4
由上图可得,存在一阶序列相关的概率P=0.358645>0.05,所以认为模型存在一 阶序列相关性。
下面检验模型是否存在两阶序列相关性。应用Eviews软件,采用菜单操作可得LM检验的结果,结果见表5:
表5
由上图可知,存在两阶序列相关的概率P=0.036411<0.05,所以认为模型不存在两阶序列相关性。
综上两点可知,模型(2)只存在一阶序列相关性,不存在两阶或两阶以上的序列相关性。下面应用Eviews软件,采用菜单操作运用广义差分法进行自相关的处理。所得结果为表6:
表6 修正后的模型(2)的计算结果
由此可知,在Eviews软件包下,1阶广义差分的估计结果为:
Y=170.0423+0.396846X1-0.49698410X3+0.36841X6+0.217615AR(1) (3)
AR(1)前的参数值为随机干扰项的一阶序列相关系数。对于显著性水平α=0.05,n=28,k=3,查D-W分布表,得到检验的临界值dL=1.26和dU=1.56,又由上图可知, 修正后的模型(2)的DW值为1.599760> dU=1.56且<4-dU,由此认为修正后的模型(2)不存在一阶序列相关性。所以修正后的模型为:
Y-0.217615Y(-1)=163.1010(1-0.217615)+0.406223(X1-0.217615X1(-1))-0.49127(X3-0.217615X3(-1))+0.330958(X6-0.217615X6(-1)) (4)
5.结果分析
从表面上看,经过用广义差分法修正后的模型(2)已经不存在序列相关性了,这就说明模型排除了序列相关性的干扰。用广义差分法修正后的模型(2)的拟合度已经达到了R2=0.98,这表明财政收入的98%可以由解释变量x1、x3、x6解释。
残差E=F-FY可以作为随机误差的估计值,画出随机误差E的走势图(图8)能够从直观上判断ε的自相关性。
图8 修正后的模型(2)E的走势图
从图8可以看出,随机误差项E的走势大概呈现标准正态分布的趋势,这表明E几乎不存在自相关性了。
下面,我们将使用修正后的模型(2)对之前数据进行评价:
年份
1953
1954
1955
1956
1957
1958
1959
实际值
216
248
254
268
286
357
444
预测值
197.0488
241.8454
235.6226
276.3688
267.6546
375.1301
483.6987
年份
1960
1961
1962
1963
1964
1965
1966
实际值
506
271
230
266
323
393
466
预测值
517.5848
305.6149
233.9238
255.0631
301.5687
377.6023
431.3645
年份
1967
1968
1969
1970
1971
1972
1973
实际值
352
303
447
564
638
658
691
预测值
376.7942
349.9542
448.8678
553.8521
614.6158
635.7772
667.8887
年份
1974
1975
1976
1977
1978
1979
1980
实际值
655
692
657
723
922
890
826
预测值
662.9507
718.7919
672.9797
723.4487
829.0786
878.6001
893.5268
表7 财政收入的预测值与实际值对比
图9 财政收入预测值与实际值的拟合图
从上可以看到,预测值与实际值还是相当吻合的。
之后,我们查阅了1990年及2000年的国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资,代入模型(2)。结果如下:
年份
国民收入
工业总产值
农业总产值
总人口
就业人口
固定资产投资
1990
11412.96
22452.27
5146
112954
63931.9
4517
2000
98000.5
75710.69
13873.6
126743
72116.77
32917.7
年份
财政收入(预测值)
财政收入(实际值)
1990
3766.2
2821.86
2000
44052
13395.23
表8 1990年和2000年财政收入预测值与实际值对比
数据来源自《CNKI中国统计年鉴数据库》
从表8可以看到,1990年预测值与实际值和2000年的预测值都相差较大,原因不一定是模型建立的偏差大,还有可能是其他原因,如在查阅数据时,我们就发现了2000年的工业总产值数据注明了“1990年不变价格”,而其余数据没有此说明项;且1980年后国家实行了改革开放的经济政策,经济的发展规律发生了很大的变化,用1980年以前的数据建立起来的模型去预测1980年后的一些经济数据自然会有较大的偏差。
并且,在固定资产投资一栏,我们查到了非常详细的分类,固定资产投资资金来源中国家预算内资金,固定资产投资资金来源中国内贷款,固定资产投资资金来源中自筹和其他资金等备注,而题目并未给出,这给我们筛选数据带来了极大的困难。
总的来说,模型对于1952-1980年的经济数据来说,依然有一定的参考价值和预测价值,但由于各种方面的原因与因素,对于1990年和2000年预测值与实际值的匹配程度是有限。
五、模型的评价
优点
模型的决定系数R2=0.98较高,且都是一次项,计算简便。
消除了模型中出现的序列相关性和多重共线性,对1952~1980年之间的数据预测效果较好。
缺点
对1981年之后的数据预测值逐渐产生偏差,只适用于预测所用数据的时间段,有效的预测时间段较段。
六、模型的推广与改进
从前文的分析来看,我们认为1981年后,物价、通货膨胀、人民币币值等因素极大地影响了我们的预测数据,若补充上物价衡量指数,消费水平指数(CPI)等数据,模型的拟合度效果应该会更准确,而且加上这些因素后,对以后时间段的预测应该会更长,偏差也会更小。。
七、附件
(1)导入数据的程序:
a=xlsread('C:\Documents and Settings\syzx10\桌面\新建 Microsoft Excel 工作表.xls')
(2)画散点图的程序:
图1
plot(a(:,2),a(:,8),'*');
xlabel('国民收入');
title('财政收入(亿元');
图2
plot(a(:,3),a(:,8),'*');
xlabel('工业总产值');
title('财政收入(亿元');
图3
plot(a(:,4),a(:,8),'*');
xlabel('农业总产值');
title('财政收入(亿元');
图4
plot(a(:,5),a(:,8),'*');
xlabel('总人口');
title('财政收入(亿元');
图5
plot(a(:,6),a(:,8),'*');
xlabel('就业人口');
title('财政收入(亿元');
图6
plot(a(1:29,6),a(1:29,8),'*');
xlabel('就业人口');
title('财政收入(亿元');
图7
plot(a(:,7),a(:,8),'*');
xlabel('固定资产投资');
title('财政收入(亿元');
(3)模型(1)的MATLAB程序:
x1=[598,586,707,737,825,837,1028,1114,1079,757,677,779,943,1152,1322,1249,1187,1372,1638,1780,1833,1978,1993,2121,2052,2189,2475,2702,2791]';
x2=[349,455,520,558,715,798,1235,1681,1870,1156,964,1046,1250,1581,1911,1647,1565,2101,2747,3156,3365,3684,3696,4254,4309,4925,5590,6065,6592]';
x3=[461,475,491,529,556,575,598,509,444,434,461,514,584,632,687,697,680,688,767,790,789,855,891,932,955,971,1058,1150,1194]';
x4=[57482,58796,60266,61465,62828,64653,65994,67207,66207,65859,67295,69172,70499,72538,74542,76368,78534,80671,82992,85229,87177,89211,90859,92421,93717,94974,96259,97542,98705]';
x5=[20729,21364,21832,22328,23018,23711,26600,26173,25880,25590,25110,26640,27736,28670,29805,30814,31915,33225,34432,35620,35854,36652,37369,38168,38834,39377,39856,40581,41896]';
x6=[44,89,97,98,150,139,256,338,380,138,66,85,129,175,212,156,127,207,312,355,354,374,393,462,443,454,550,564,568]'; Y=[184,216,248,254,268,286,357,444,506,271,230,266,323,393,466,352,303,447,564,638,658,691,655,692,657,723,922,890,826]';
X=[ones(29,1),x1,x2,x3,x4,x5,x6];
[b,bint,r,rint,stats]=regress(Y,X)
(4)求得的各解释变量与被解释变量的拟合优度的结果
(5)、根据逐步回归的方法所得到的一些分析结果:
(6):用MATLAB画财政收入与财政收入预测值的拟合图的程序:
YF=[197.0488,241.8454,235.6226,276.3688,267.6546,375.1301,483.6987,517.5848,305.6149,233.9238,255.0631,... 301.5687,377.6023,431.3645,376.7942,349.9542,448.8678,553.8521,614.6158,635.7772,667.8887,662.9507,...
718.7919,672.9797,723.4487,829.0786,878.6001,893.5268]
Y=[216,248,254,268,286,357,444,506,271,230,266,323,393,466,352,303,447,564,638,658,691,655,692,657,723,922,890,826];
x=1953:1980;
plot(x,Y,'*',x,YF)
legend('Y','YF')
【参考文献】
[1] 姜启源,谢金星,叶俊. 数学模型[M].北京:高等教育出版社,2003.8
[2] John O. Rawlings, Sastry G. Pantula, David A. Dickey Applied Regression Analysis:A Research Tool(《应用回归分析(英文版)》)[M].New York,USA:Springer,1998
[3] 李子奈 《计量经济学教程》
[4] 刘国卫 《MATLAB程序设计教程》
[5] CNKI中国统计年鉴数据库
展开阅读全文