资源描述
城市交通客运量统计分析与建模预测研究
一、摘要:
本文针对山东省各城市近几年交通运输客运量的变化趋势,在充分考虑和分析影响交通客运量的因素之后,就客运量和货运周转量与总人口、生产总值、批发零售量之间的相关性运用回归分析法进行分析,研究了交通客运量的统计特征,建立了多元非线性回归方程,运用MATLAB软件对方程进行求解得到合理的回归系数,从而求得非线性回归方程,并用F检验法对相关性进行检验,求得置信区间。
同时运用SPSS软件对交通客运量建立时间序列模型进行求解并求得客运量和货运量的预测值,对各市交通运输量的影响因素进行聚类分析,并依此为依据对交通管理部门提出合理建议,最后对交通运输客运量和货运量的预测值的准确性和可取性经行评价。
关键词
:回归分析 MATLAB F检验 置信区间 SPSS 时间序列 聚类分析 预测值
二、问题的提出:
近年来,随着我国社会经济的快速发展,交通运输客运量出现迅速增长的趋势。受社会经济发展水平、人口总量、经济结构、产业布局以及综合交通运输网络拓展程度等诸多因素的影响,交通客运量表现随机性的复杂波动特征。如何科学组织运力、建立完善的交通体系,进一步提高交通运输规划与社会经济发展的适应性,提高交通运输设施的投资和运营效益,对于促进社会稳定以及构建和谐社会均具有重要意义。
三、模型的假设和符号系统:
(一)、模型的假设
1、假设山东省人口在未来几年中健康平稳变化,不会出现人口老龄化问题
2、假设山东省经济水平健康平稳发展,经济发展趋势几乎不受金融危机的影响
3、假设山东省的经济结构不会发生很大的调整与变化,即产业结构变化不大
4、假设山东省交通运输网不会发生很大的变动,即修建地铁的可能性不大
5、假设城市中的道路状况十分良好,没有房屋拆迁,道路、桥梁的维修和 破坏,特定道路的管制通行或者占道,交通事故等影响因素
6、 私家车、公交车等不同车辆同等看待
(二)、数学符号的说明
y1 …………………………旅客运量为因变量
y2…………………………周转量为因变量
x1…………………………自变量总人口
x2…………………………自变量批发零售为
x3…………………………自变量生产总值为
Syy…………………………y的总变差
Q-y…………………………剩余平方和或误差平方和
Yi…………………………客运量和周转量的取值
F=U/Q …………………………F检验法
r…………………………拟合优度r^2=u/Syy=1-Q/Syy
四、模型的建立与求解
1.客运量、货运周转量与总人口、生产总值、批发零售量之间的相关性分析
两个变量之间的高度相关关系,有时并不是这两个变量本身的内在联系所决定的,它完全可能由另外一个变量的媒介作用而形成高度相关。所以,我们绝不能只根据相关系数很大,就认为两者变量之间有直接内在的线性联系。此时要准确地反映两个变量之间的内在联系,就不能简单的计算相关系数,而是需要考虑偏相关系数。
偏相关系数是在对其他变量的影响进行控制的条件下,衡量多个变量中某两个变量之间的线性相关程度的指标。所以,用偏相关系数来描述两个变量之间的内在线性联系会更合理、更可靠。偏相关系数不同于简单相关系数。在计算偏相关系数时,需要掌握多个变量的数据,一方面考虑多个变量之间可能产生的影响,另一方面又采用一定的方法控制其他变量,专门考察两个特定变量的净相关关系。在多变量相关的场合,由于变量之间存在错综复杂的关系,因此偏相关系数与简单相关系数在数值上可能相差很大,有时甚至符号都可能相反
偏相关系数的取值与简单相关系数一样,相关系数绝对值愈大(愈接近1) ,表明变量之间的线性相关程度愈高;相关系数绝对值愈小,表明变量之间的线性相关程度愈低
总收入的与客运量的相关性
偏自相关
序列: 总收入
滞后
偏自相关
标准 误差
1
.849
.189
2
-.020
.189
3
-.038
.189
4
-.060
.189
5
-.034
.189
6
-.022
.189
7
-.034
.189
8
-.035
.189
9
-.041
.189
10
-.043
.189
11
-.025
.189
12
-.040
.189
13
-.039
.189
14
-.056
.189
15
-.073
.189
16
-.071
.189
进过以上的相关性分析可知在滞后系数最小的情况下客运量与总收入偏自相关系数为0.849很接近1,且标准误差为0.189接近0,因此可以认为客运量与人口总收入具有高度相关性。
批发运输量与客运量的相关性
偏自相关
Series: 批发运输量
Lag
Partial Autocorrelation
Std. Error
1
.879
.137
2
-.033
.137
3
-.025
.137
4
.014
.137
5
-.012
.137
6
-.042
.137
7
-.058
.137
8
-.049
.137
9
-.034
.137
10
-.017
.137
11
.016
.137
12
.024
.137
13
-.013
.137
14
-.006
.137
15
-.011
.137
16
-.017
.137
进过以上的相关性分析可知在滞后系数最小的情况下客运量与批发运输量的偏自相关系数为0.879很接近1,且标准误差为0.137接近0,因此可以认为客运量与批发运输量具有高度相关性。
总人口与客运量的相关性
偏自相关
Series: 总人口
Lag
Partial Autocorrelation
Std. Error
1
.952
.128
2
.005
.128
3
-.019
.128
4
-.016
.128
5
-.020
.128
6
-.024
.128
7
-.014
.128
8
-.031
.128
9
-.052
.128
10
-.090
.128
11
-.040
.128
12
-.020
.128
13
-.017
.128
14
-.048
.128
15
-.033
.128
16
-.025
.128
进过以上的相关性分析可知在滞后系数最小的情况下客运量与总人口的偏自相关系数为0.952很接近1,且标准误差为0.128接近0,因此可以认为客运量与总人口具有高度相关性。
(二) 经过以上客运量、货运周转量与总人口、生产总值、批发零售量之间的性关系分析可知他们之间有高度相关性,即可知总人口、生产总值、批发零售量是主要的影响因子,
对客运量、货运周转量与总人口、生产总值、批发零售量之间的相关性建立回归模型,建立多元非线性回归方程经行求解过程如下:
在已经给定的客运量、货运周转量、总人口、生产总值、批发零售量的表中,依据图像的分布规律的合理性选取六组数据如下表:
年份
客运量
周转量
生产总值
批发零售
总人口
1952
1196
1553
43.81
2.72
4827
1960
5911
4717
71.37
4.68
5188
1968
5933
5421
99.34
3.77
6086
1976
7614
6996
179.58
4.4
7038
1984
17309
17058
581.56
37.97
7637
1992
33920
35164
2196.53
200.93
8580
2008
213387
141867
15021.84
1431.58
9392
建立矩阵方程
i=1,2,3,4,5,6
利用MATLAB进行求解
最后得到多元非线性回归方程分别如下:
其中Y1表示客运量,Y2表示货运量,得到这两个回归方程用于后面检验预测值的准确度。
2.对客运量、货运量、客运周转量、货运周转量分别建立时间序列模型
并依次对其求解,过程如下:
客运总量
线性
模型汇总
R
R 方
调整 R 方
估计值的标准误
.748
.560
.552
40527.581
自变量为 年份。
ANOVA
平方和
df
均方
F
Sig.
回归
121002695288.537
1
121002695288.537
73.671
.000
残差
95264121420.796
58
1642484852.083
总计
216266816709.333
59
自变量为 年份。
系数
未标准化系数
标准化系数
t
Sig.
B
标准误
Beta
年份
2593.114
302.117
.748
8.583
.000
(常数)
-5098230.900
598667.144
-8.516
.000
Logisti
模型汇总
R
R 方
调整 R 方
估计值的标准误
.979
.959
.959
.279
自变量为 年份。
ANOVA
平方和
df
均方
F
Sig.
回归
106.940
1
106.940
1369.529
.000
残差
4.529
58
.078
总计
111.469
59
自变量为 年份。
系数
未标准化系数
标准化系数
t
Sig.
B
标准误
Beta
年份
.926
.002
.376
480.056
.000
(常数)
1.346E+062
5.556E+062
.242
.809
因变量为 ln(1 / 客运总量)。
货运总量
线性
模型汇总
R
R 方
调整 R 方
估计值的标准误
.787
.619
.613
46753.030
自变量为 年份。
ANOVA
平方和
df
均方
F
Sig.
回归
217073438685.613
1
217073438685.613
99.309
.000
残差
133336596247.816
61
2185845840.128
总计
350410034933.429
62
自变量为 年份。
系数
未标准化系数
标准化系数
t
Sig.
B
标准误
Beta
年份
3228.032
323.925
.787
9.965
.000
(常数)
-6337731.204
641398.273
-9.881
.000
Logistic
模型汇总
R
R 方
调整 R 方
估计值的标准误
.972
.944
.943
.356
自变量为 年份。
ANOVA
平方和
df
均方
F
Sig.
回归
130.130
1
130.130
1027.032
.000
残差
7.729
61
.127
总计
137.859
62
自变量为 年份。
系数
未标准化系数
标准化系数
t
Sig.
B
标准误
Beta
年份
.924
.002
.378
405.479
.000
(常数)
4.260E+063
2.080E+064
.205
.838
因变量为 ln(1 / 货运总量)。
客运总周转量
线性
模型汇总
R
R 方
调整 R 方
估计值的标准误
.807
.652
.645
25572.487
自变量为 年份。
回归
67323359190.995
1
67323359190.995
102.948
.000
残差
35967364280.268
55
653952077.823
总计
103290723471.263
56
自变量为 年份。
系数
未标准化系数
标准化系数
t
Sig.
B
标准误
Beta
年份
1953.323
192.515
.807
10.146
.000
(常数)
-3837594.060
381589.456
-10.057
.000
Logistic
模型汇总
R
R 方
调整 R 方
估计值的标准误
.982
.965
.964
.246
自变量为 年份。
ANOVA
平方和
df
均方
F
Sig.
回归
91.902
1
91.902
1514.146
.000
残差
3.338
55
.061
总计
95.240
56
自变量为 年份。
系数
未标准化系数
标准化系数
t
Sig.
B
标准误
Beta
年份
.930
.002
.374
539.175
.000
(常数)
8.382E+057
3.081E+058
.272
.787
因变量为 ln(1 / 客运总周转量)。
货运周转量
线性
模型汇总
R
R 方
调整 R 方
估计值的标准误
.702
.492
.484
218912.029
自变量为 年份。
回归
2739960894672.833
1
2739960894672.833
57.175
.000
残差
2827426115436.937
59
47922476532.829
总计
5567387010109.770
60
自变量为 年份。
系数
未标准化系数
标准化系数
t
Sig.
B
标准误
Beta
年份
11509.943
1522.196
.702
7.561
.000
(常数)
-22623364.572
3014502.812
-7.505
.000
Logistic
模型汇总
R
R 方
调整 R 方
估计值的标准误
.975
.951
.950
.381
自变量为 年份。
ANOVA
平方和
df
均方
F
Sig.
回归
166.751
1
166.751
1149.005
.000
残差
8.562
59
.145
总计
175.314
60
自变量为 年份。
系数
未标准化系数
标准化系数
t
Sig.
B
标准误
Beta
年份
.914
.002
.377
377.508
.000
(常数)
3.845E+072
2.017E+073
.191
.849
因变量为 ln(1 / 货运周转量)。
。
五、交通客运量变化趋势的预测
基于时间序列模型运用时间序列分析法对山东省总的客运量和周转量以及其他各地客运量和周转量的变化趋势经行预测,过程如下:
(一)运用时间序列分析法对山东省交通客运量和周转量的预测如下:
客运量
单位:(万)
Model
2012
2013
2014
2015
2016
2017
客运总量-模型_1
Forecast
276954
306240
338623
374430
414024
457804
UCL
364892
449594
538900
636795
745644
867463
LCL
205954
200235
200114
202867
207542
213704
Forecast
Model
2018
2019
2020
客运总量-模型_1
Forecast
506214
559743
618932
UCL
1004243
1158083
1331255
LCL
221132
229708
239376
对于每个模型,预测的范围要求估计期间的最后一个非缺失,去年同期非缺失的所有预测值或要求预测期的结束日期结束后开始,(以较早者为准)。
客运总量的观测值、合适值、置信区间上、下值、预测值表
客运周转量的预测
Forecast
Model
2012
2013
2014
2015
2016
2017
客运总周转量-模型_1
Forecast
189186
207186
226897
248484
272125
298015
UCL
244800
296746
350592
408737
472492
542905
LCL
143639
139618
139241
140724
143437
147088
Forecast
Model
2018
2019
2020
客运总周转量-模型_1
Forecast
326368
357419
391423
UCL
620964
707678
804119
LCL
151522
156657
162446
Forecast
Model
2012
2013
2014
2015
2016
2017
客运总周转量-模型_1
Forecast
189186
207186
226897
248484
272125
298015
UCL
244800
296746
350592
408737
472492
542905
LCL
143639
139618
139241
140724
143437
147088
Forecast
Model
2018
2019
2020
客运总周转量-模型_1
Forecast
326368
357419
391423
UCL
620964
707678
804119
LCL
151522
156657
162446
客运周转量的观测值、合适值、置信区间上、下值、预测值表
(二)运用时间序列分析法对山东省其他各城市
交通客运量和周转量的预测:
Model年份
2011
2012
2013
2014
2015
2016
济南-模型_1
Forecast
10302
10102
9902
9701
9501
9301
UCL
11984
11792
11600
11408
11216
11024
LCL
8620
8412
8203
7994
7786
7577
青岛-模型_2
Forecast
20506
20506
20506
20506
20506
20506
UCL
24844
24844
24844
24844
24844
24844
LCL
16168
16168
16168
16168
16168
16168
淄博-模型_3
Forecast
12233
9756
7278
4801
2323
-154
UCL
17578
17314
16536
15490
14275
12938
LCL
6889
2197
-1979
-5888
-9628
-13246
东营-模型_4
Forecast
2251
2088
1925
1762
1599
1436
UCL
2803
2868
2881
2865
2833
2787
LCL
1699
1307
969
658
365
84
济宁-模型_5
Forecast
2379
1798
1216
634
52
-529
UCL
3277
3067
2770
2429
2059
1669
LCL
1482
528
-339
-1161
-1955
-2728
潍坊-模型_6
Forecast
3794
3448
3102
2757
2411
2065
UCL
8566
13800
20199
27602
35896
44998
LCL
-977
-6903
-13994
-22089
-31075
-40869
烟台-模型_7
Forecast
9882
7817
5752
3687
1621
-444
UCL
17365
18400
18713
18653
18355
17887
LCL
2399
-2766
-7210
-11280
-15112
-18774
日照-模型_8
Forecast
2289
2289
2289
2289
2289
2289
UCL
4136
4900
5487
5982
6418
6812
LCL
442
-322
-909
-1404
-1840
-2234
威海-模型_9
Forecast
2290
1139
-12
-1163
-2313
-3464
UCL
9422
11225
12340
13100
13633
14004
LCL
-4841
-8946
-12364
-15425
-18260
-20933
德州-模型_10
Forecast
1396
921
446
-29
-504
-979
UCL
2694
3576
4721
6095
7673
9437
LCL
97
-1735
-3830
-6153
-8681
-11395
聊城-模型_11
Forecast
1108
441
-225
-892
-1558
-2225
UCL
3431
3727
3799
3755
3637
3467
LCL
-1216
-2845
-4250
-5539
-6754
-7916
临沂-模型_12
Forecast
192
-2108
-4409
-6710
-9011
-11311
UCL
9552
11128
11803
12010
11919
11616
LCL
-9168
-15345
-20621
-25430
-29940
-34239
Forecast
Model
2011
2012
2013
2014
2015
2016
菏泽-模型_13
Forecast
452
-938
-2327
-3717
-5106
-6496
UCL
5537
6254
6481
6454
6265
5961
LCL
-4634
-8130
-11136
-13888
-16478
-18953
滨州-模型_14
Forecast
852
406
-40
-487
-933
-1380
UCL
2911
2475
2038
1602
1166
730
LCL
-1206
-1663
-2119
-2576
-3033
-3489
枣庄-模型_15
Forecast
3409
2968
2528
2088
1647
1207
UCL
6444
6004
5565
5125
4686
4246
LCL
374
-68
-509
-950
-1391
-1833
运用聚类分析方法对其他城市的情况经行分析
如下:
被聚类的对象常常是多个要素构成的。不同要素的数据往往具有不同的单位和量纲,其数值的变异可能是很大的,这就会对分类结果产生影响。因此当分类要素的对象确定之后,在进行聚类分析之前,首先要对聚类要素进行数据处理。
在聚类分析中,常用的聚类要素的数据处理方法有如下几种:
这种标准化方法所得到的新数据满足
② 标准差标准化,即
由这种标准化方法所得到的新数据,各要素的平均值为0,标准差为1,即有
③ 极大值标准化,即
④ 极差的标准化,即
经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。
直接聚类法
§ 原理
先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列与列序相同的行。经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。
这是k—均值聚类
最终聚类中心表
Final Cluster Centers
Cluster(簇)
1
2
济南
11863.67
11398.88
青岛
20224.33
20877.09
淄博
36461.98
18931.63
东营
3940.99
2639.00
济宁
8516.32
5497.70
潍坊
20605.89
6008.25
烟台
31332.25
14617.75
日照
4031.36
3882.75
威海
15085.16
4472.13
德州
9591.83
3532.88
聊城
8268.72
2611.50
临沂
23841.52
4293.75
菏泽
14904.07
3370.00
滨州
5658.29
2703.38
枣庄
6780.34
5593.09
下表是
基于施瓦兹贝叶斯准则的两步聚类发得到表
其他因素对交通客运量及货运量的影响
(四)其他因素对交通客运量及货运量的影响及在这些因子的影响下交通客运量和货运量的预测值:
预测大致分为三步:
系统分析客运输量历史和现状,分析确定未来旅客平均行程延长或缩短的趋势及其影响因素,寻求数量上变化的趋势,掌握预测计算用的数据和成因;
②调查了解预测期内分析引起未来客运输量因素变化的趋势;
③采用多种方法进行预测,综合比较,确定预测运输量的速度和规模,力求提高预测的准确性和及时性。
计算运输量
运输量预测的计算方法基本上分为生产和运输比例关系法以及数理统计法两类。客运量和旅客周转量预测的具体计算方法又各有差异。并估计这些因素对未来客运量增长速度的影响程度。
按生产和运输的比例关系法计算方法分为四种:①按主要工农业产品计算的运输系数法。根据报告期和预测期主要工农业产品生产量和运输系数的变化确定货运量。运输系数是工农业产品的生产量和运输量的比值,采用这种方法的关键是要分析掌握引起运输系数变化的主要因素。再根据人口发展的预测,都可引起运输系数的变化。计算公式是:
Y=∑XK
式中Y为预测的货运量;
X为主要第一产业,第二产业,工业未来量;
K为主要第一产业,第二产业,工业未来运输系数。
按第一产业,第二产业,工业计算的运输系数法。
根据报告期和预测期工农业总产值中第一产业,第二产业,工业和运输系数变化确定货运量。
第一产业,第二产业,工业产值运输系数变化的趋势,按预测期第一产业,第二产业,工业增长速度和产值运输系数,
推算未来的货运量。再根据预测期的收入增长速度,计算公式是
Y=M[AE(1+A)T+BF(1+B)T+CG(1+C)T]
式中M为预测期前一年实际工农业总产值;
A、B、C分别为预测期前一年实际工农业总产值中第一产业、第二产业和重工业的比重;
E、F、G分别为第一产业,第二产业,工业运输系数;
A、B、C分别为第一产业,第二产业,工业值的平均增长速度;
T为预测期的年限。
根据预测期经济发展情况寻求未来的客运弹性比值。
计算出主要工农业产品的货运量
Y1=P(1+n)tK
式中
Y1为预测的货物周转量;
P为报告期基础年度的货物周转量;
n为预测期工农业总产值平均年增长速度;
t为预测期年限;
K为预测期的运输弹性比值。
按数理统计法计算也分为趋势外延法和回归分析法两种,其基本原理与货运量的预测相同。客运量预测的计算方法 按生产和运输比例关系法计算方法分为三种:①按国民收入增长同客运量增长之间客运弹性比值计算。客运弹性比值表示国民收入每增长1%,客运量增长的百分数。根据预测期经济发展情况寻求未来的客运弹性比值,再根据预测期的国民收入增长速度,推算未来客运量。计算公式为: N=R(1+m)tK1 式中N为预测的客运量,R为基础年度的客运量;
预测值
Forecast
Model
2012
2013
2014
2015
2016
生产总值-模型_1
Forecast
51820.03
58965.42
67006.85
76106.41
86423.89
UCL
60604.48
77192.79
96276.11
118191.23
143424.89
LCL
44027.67
44175.69
44982.26
46408.22
48380.06
第一产业-模型_2
Forecast
4342.45
4745.25
5185.40
5666.39
6191.98
UCL
5339.90
6336.07
7365.75
8472.51
9679.80
LCL
3491.79
3474.71
3529.23
3622.78
3744.08
第二产业-模型_3
Forecast
26574.53
29153.10
31731.67
34310.23
36888.80
UCL
27156.46
30272.97
33485.77
36783.35
40157.10
LCL
25992.61
28033.23
29977.56
31837.11
33620.50
工业-模型_4
Forecast
23460.72
25668.29
27875.85
30083.42
32290.99
UCL
24027.02
26750.46
29565.47
32461.18
35429.42
LCL
22894.42
24586.12
26186.23
27705.66
29152.55
Forecast
Model
2017
2018
2019
2020
生产总值-模型_1
Forecast
98131.58
111421.17
126508.51
143637.82
UCL
172565.48
206290.70
245372.96
290692.85
LCL
50842.60
53764.76
57135.39
60958.51
第一产业-模型_2
Forecast
6766.34
7393.96
8079.80
8829.26
UCL
11006.06
12468.50
14084.57
15872.63
LCL
3888.10
4052.41
4235.86
4438.07
第二产业-模型_3
Forecast
39467.36
42045.93
44624.49
47203.06
UCL
43600.47
47108.36
50676.59
54301.72
LCL
35334.25
36983.49
38572.39
40104.39
工业-模型_4
Forecast
34498.56
36706.12
38913.69
41121.26
UCL
38464.00
41560.04
44713.61
47921.42
LCL
30533.11
31852.20
33113.77
34321.10
残差自相关函数ACF图
残差不分自相关函数PACF图
各产业未来预测值
预测客运周转量
① 在预测客运量的基础上进一步测算旅客周转量是客运量与旅客平均行程的乘积。
② 根据上述客运量的预测,分析确定未来旅客平均行程延长或缩短的趋势及其影响因素,测定未来旅客平均行程,预测旅客周转量其原理和预测客运量的弹性比值法相同。
③ 计算公式是: N1=R1(1+m)tK2 式中N1为预测的旅客周转量;
④ R1为报告期基础年度的旅客周转量;m为预测期国民收入平均年增长速度;
⑤ t为预测期年限;K2为预测期的运输弹性比值。
⑥ 按数理统计法,舍掉特殊性,找出一般趋势
残差自相关和残差部分自相关表
⑦ 。
Forecast
Model
2012
2013
2014
2015
2016
2017
客运总周转量-模型_1
Forecast
189186
207186
226897
248484
272125
298015
UCL
244800
296746
350592
408737
472492
542905
LCL
143639
139618
139241
140724
143437
147088
Forecast
Model
2018
2019
2020
客运总周转量-模型_1
Forecast
326368
357419
391423
UCL
620964
707678
804119
LCL
151522
156657
162446
Forecast
Model
2012
2013
2014
2015
2016
2017
客运总周转量-模型_1
Forecast
189186
207186
226897
248484
272125
298015
UCL
244800
296746
350592
408737
472492
542905
LCL
143639
139618
139241
140724
143437
147088
Forecast
Model
2018
2019
2020
客运总周转量-模型_1
Forecast
326368
357419
391423
UCL
620964
707678
804119
LCL
151522
156657
162446
预测客运量
R为报告期基础年度的客运量;
m为预测期国民收入平均年增长速度;
t为预测期
展开阅读全文