资源描述
B题 “互联网+”时代的出租车资源配置
摘 要
现在,我国许多城市上下班高峰时段、拥挤路段,打车难问题普遍存在。建立模型分析造成打车难的内在原因,以此通过合理的补贴政策优化出租车供求资源配置,具有重要的理论意义和实际价值。
针对问题一, 本文从两方面入手,一是利用滴滴快的大数据爬取的深圳市2015年9月4日出租车分布数据,根据文献[1]中对深圳市交通小区的划分,用聚类分析方法以12个交通小区的中心坐标为初始聚类中心,进行一次迭代k-均值距离聚类,将离散的经纬度分布数据分类汇总,得到12个交通小区出租车供应数,提供地段划分依据。再利用泊松分布和极大似然思想预测出深圳市每天出租车需求数。二是从宏观上考虑影响出租车“供”和“求”的各指标因素并搜集相关数据,建立因子分析模型将多个错综复杂的变量归结为少数几个综合指标因子,并通过因子旋转对公因子做出命名和解释。
针对问题二, 了解各出租车公司针对司机的补贴方案,看其是否对缓解“打车难”,搜集2000年到2013年出租车拥有量来反映出租车的供给量,对数据进行拟合预测,可以从公司开始实施补贴方案时,看深圳市出租车的拥有量与预测值的关系,来体现实施补贴方案对出租车供给量的影响效果,结果显示补贴方案对缓解“打车难”有一定的帮助。
针对问题三, 创建一个新的打车软件服务平台,设计一个补贴方案,规定:顾客在高峰期返现要比在正常的时期返现少,司机在高峰期少用甚至不用打车软件,若用打车软件的话,可以对司机的奖励减少。说明其流程,通过收集有关数据和科研成果进行论证,应征新的补贴方案是合理的。
关键词:出租车;聚类分析;泊松分布;因子分析;补贴政策
23
一、 问题重述
如今,各大城市普遍存在“打车难”现象,尤其是上下班的高峰时段。是出租车公司车辆供应不足,还是出租车资源没有得到有效的合理配置,导致部分城区出租车难打,而另一部分城区出租车空驶。考虑解决如下问题:
(1)搜集影响出租车供求的指标数据,建立合理的综合指标,分析和描述不同时段、不同地域出租车供求匹配的程度。
(2)各出租车公司也在不断出台一些针对司机的补贴方案,以缓解打车难的问题,分析这些补贴方案是否有效。
(3)滴滴、快的等打车软件通过打车软件服务平台,在解决客户和司机信息不对称造成的出租车资源浪费方面,效果显著。同时,他们也给司机和客户提供补贴,但这种补贴更像是恶性竞争,对出租车资源更优化配置作用不明显。如果依托这类软件平台,应该怎么设计更优的补贴方案。
二、 问题分析
对于问题一,我们从两方面考虑:一方面是搜集某个城市(本文选择深圳市)出租车的GPS数据,找到不同时段、不同区域的出租车分布数据,以及打车数据。通过网络爬虫从滴滴快的大数据平台查到按日期的出租车分布数据(经纬度点出现的出租车数)和需求(经纬度点的叫车数)。分布数据相对较全,我们选取一天根据文献[1]中用出租车对深圳市做交通小区划分的数据,也对这些经纬度点进行归类,考虑用固定初始聚类中心为那些交通小区的中心的聚类分析实现。由于出租车需求数的数据不齐全不能和分布数据结合来用,为了得到需求数据,我们考虑到固定时段能来打车的人数服从泊松分布,用极大似然思想和泊松分布来对出租车需求做出预测。再比较供应数和需求数,从总体供求上做出判断。另一方面,由于微观数据的缺乏,我们从宏观上考虑影响出租车“供”和“求”的各指标因素并搜集相关数据,对这些因素作因子分析,从而将多个错综复杂的变量归结为少数几个综合指标因子,并通过因子旋转对公因子做出命名和解释。
问题二对各个公司的补贴方案进行了解,通过了解这些补贴方案,研究这些方案对“缓解打车难”问题有没有帮助。研究各公司对员工的补贴,实施时间,查找深圳市在一时间先后的出租车拥有量用实施前的的数据预测实施后的数据,将实际值与预测值相比较,来判断出租车的供给量是否比预测的大,间接说明这些补贴方案对“缓解打车难”帮助性。
问题三根据滴滴,快的等打车软件,要求创建一个新的打车软件服务平台,设立一个更好的补贴方案,并判断其合理性。根据前面的问题一、二的结果,提出一个补贴方案,通过收集信息判断其合理性。
三、模型假设
1. 假设长期来看,深圳各交通小区每天高峰时段、非高峰时段的打车需求是稳定的;
2. 由假设1,可以进一步假设本文抓取的9月4日出租车分布的原始数据能够代表深圳市每天出租车分布数;
3.假设9月4日出租车分布的数据中,每个经纬度点统计的出租车数,是该经纬度点每天平均出租车数(如果有更多天的数据,分别用文中方法处理,用均值即可);
4. 假设一段时间内(一天),来某个经纬度点的打车人数近似服从泊松分布;
5.假设深圳市一年出租车的拥有量可以反映一年出租车的供给量;
6.假设搜集到的出租车数据是真实可靠的。
四、 符号说明
符号
说明
Col
经度
Lat
纬度
xi
第i个经纬度点出租车数
Yi
随机变量,第i个经纬度点打车需求数
Y
深圳市每天出租车的需求数
Class
交通小区的分类号
泊松分布参数
参数为泊松的分布
Z
出租车的年度拥有量
(注:其它未提及的符号在文中说明)
五、模型建立与求解
5.1问题一的模型建立与求解
5.1.1数据来源
我们利用网络爬虫从滴滴快的苍穹数据网站得到,深圳市2015年9月4日至9月9日出租车分布:
……..
图1 原始数据示例
复制粘贴到Excel,用数据分列功能进行分列,得到三个变量经度(Log)、纬度(Lat)、该位置的出租车数(x)的数据。再将Excel数据导入SPSS(共7224条记录):
……
图2 将数据导入SPSS
5.1.2出租车供应
1. 数据预处理
按经度(Log)对数据排序,观察经度分布:
有24条记录在102附近、23条记录在108附近、13条记录在116附近、10条记录在117附近、23条记录在120附近、24条记录在121附近。而其余7120条记录的经度都介于113.7970~116.5649之间。
可见,那7120条记录位于主城区,是出租车分布的主要区域;其余都是偏远地区出租车数也很少。故本文只考虑主城区数据即可。
2. 对数据进行区域汇总
文献[1]中,利用出租车GPS数据分析研究深圳道路交通拥堵情况,将深圳主城区分为12个交通小区及其经纬度范围为[1]:
第1小区(22.7,2.77)(113.78,113.89)
第2小区(22.68,22.74) (114.22,114.3)
第3小区(22.6,22.67)(114,114.08)
第4小区(22.58,22.63) (114.09,114.16)
第5小区(22.5,22.6) (113.84,113.92)
第6小区(22.52,22.57) (113.9,114.01)
第7小区(22.528,22.546) (114.01,114.08)
第8小区(22.53,22.58) (114.08,114.18)
第9小区(22.47,22.522) (113.87,113.95)
第10小区(22.6,22.66) (113.8,113.9)
第11小区(22.546,22.572) (114.01,114.08)
第12小区 (22.528,22.546) (114.01,114.08)
每个交通小区的中心经纬度为[1]:
第1小区:谭海酒店(113.841904,22.748808)
第2小区:龙岗镇(114.262398,22.733534)
第3小区:珠三角环线高速公路(114.041931,22.620899)
第4小区:吉华路(114.112,22.599)
第5小区:创业立交(113.892,22.568)
第6小区:深南南海立交(113.962234,22.542618)
第7小区:福强路与新洲路(114.042,22.521)
第8小区:红岭北路,红岭中路与笋岗西路,笋岗东路交叉口( 114.115,22.558)
第9小区:南海大道与东滨路交叉口( 113.92,22.508)
第10小区:沈海高速公路与京港澳高速公路交叉口(113.858,22.625)
第11小区:新洲路与红荔路交叉口( 114.044,22.557 )
第12小区:深南新洲立交桥与新洲路交叉口(114.043,22.536).
根据上面的交通小区划分,我们考虑将这12个交通小区的中心坐标作为k均值聚类的初始聚类中心,以经度和纬度变量对数据做聚类分析,聚类数=12类。操作步骤如下:
(1)用前文12个交通小区的中心坐标创建初始聚类中心数据集center.sav(注意:为了格式规范可用,先不设置初始聚类中心进行12类聚类分析,得到聚类中心数据集,再用12个交通小区的中心坐标替换对应数据)。
(2)SPSS操作界面依次点击:分析——分类——k-均值聚类,打开聚类分析窗口,再将变量Log、Lat放入变量窗口,聚类数设为12;
(3)为了尽量保证小区中心固定不变,设置迭代-最大迭代次数设1次,保存-勾选聚类成员,选项-勾选初始聚类中心和每个个案的聚类信息;
(4)聚类中心—选择读取初始聚类中心—外部数据文件,选择center.sav文件,确定。
图3 聚类分析运行结果
(5)将新出现的聚类号的数据列QCL_1修改变量名为Class
图4 合并聚类号到数据集
(6)分类(交通小区)汇总出租车数,得到各交通小区9月4日分布的出租车数。
先按Class对数据排序,点击数据——分类汇总,打开分类汇总窗口,分组变量选为Class,汇总变量选为x,修改函数为:总和。保存-选择创建只包含汇总变量的新数据集,并命名为sumche94.sav. 确定。
图5深圳市12个交通小区分布的出租车数(9月4日)
根据各个交通小区出租车的分布数,后续就可以分别讨论不同交通小区(地段)出租车的供求问题。另外,再做汇总得到深圳市9月4日出租车分布总数为243401台次。
5.1.3 出租车需求
和前文同样的处理方法,可以分别处理9月5日—9日深圳市出租车需求的数据,将这些数据汇总,并求出各小区9月5日—9日出租车需求数和均值。但是由于我们抓取的出租车需求数据有较大缺失:9月4日只有3829条记录,其余几天只有1100左右条记录,处理之后发现和需求数相差较大,不足以作为研究深圳市出租车供应和需求匹配的依据。
为了得到出租车的需求数,我们考虑用泊松分布来预测。
以固定的平均瞬时速率(或称密度)随机且独立地出现时,则该事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布[2,114-116]。由假设4,一段时间内(一天),来某个经纬度点的打车人数近似服从泊松分布:
(1)
其中,t为时间间隔,为某地点t时间间隔的打车人数为k的概率,为人们来打车平均速率。令,为t时间间隔内平均打车人数,故
(2)
即通常的泊松分布. 注意是泊松分布的均值。
利用极大似然法来估计打车人数k,即让概率最大。令
可推得. 再令
故当为整数时,或时,概率最大;当不为整数时,时,概率最大。
用xi表示第i个经纬度点出租车数,由假设3,xi也即深圳市第i个经纬度点每天出租车的供应数。用表示第i个经纬度点一天内来打车的人数,它是随机变量,由假设4,
(3)
现在需要每天第i个经纬度点一天内来打车的平均人数。
空驶率[3]分为时间空驶率和空间空驶率两类,单位时间内非载客时间与运营时间的比值,称为时间空驶率;单位时间内非载客里程与运营里程的比值,称为空间空驶率。
, (4)
根据出租车协会对国内外城市出租车交通供求关系的调查分析[3],城市出租车交通达到基本饱和(供求平衡)时,出租车的空驶率在30%左右;当空驶率超过40%时,出租车交通呈现出明显的供过于求的状态,而当空驶率低于25%时,出租车交通就呈现出明显的供不应求的状态。文献[3]得到:深圳市出租车的日平均时间空驶率介于集44%~54%之间,日平均空间空驶率介于37%~45%之间。我们取空驶率K=40%,用
(5)
来修正各经纬度点的出租车供应数以得到各经纬度点出租车需求数。用SPSS转换—计算变量实现(具体步骤略)。由(3)式,注意到泊松分布的均值为,则
(6)
用Y表示深圳市每天出租车需求数,由泊松分布的可加性,有
(7)
因此,由极大似然法可得
(8)
注意:这里的是车人次,一台出租车每天可以搭乘很多人次。
比较深圳市9月4日,出租车总供应台次243401>146041, 故从总体来看深圳市公交车是供大于求的。
5.2 多指标因素交互影响的因子分析模型
因子分析是从研究相关系数矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。简言之,即用少数不可观测的隐变量来解释原始变量之间的相关性或协方差关系。
因子分析的作用是减少变量个数,根据原始变量的信息进行重组,能反映原有变量大部分的信息;原始部分变量之间多存在较显著的相关关系,重组变量(因子变量)之间相互独立;因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。
问题一是要用合理的指标,并分析不同时空出租车资源的“供求匹配”程度,需要分析并搜集影响出租车“供”和“求”的指标因素以及一定量的数据,再利用因子分析模型,分析影响“供”和“求”内在综合指标。
但是,由于国家大数据刚刚起步,多数大数据并未做到开放,影响出租车“供”和“求”的时段因素:高峰时段(早7:00-9:00和晚16:00-19:00)、白天非高峰时段、晚间时段;地段因素:不同的出租车需求程度的交通小区,这些数据都很难找到。为此,我们这节主要建立宏观出租车需求的因子模型,只要数据到位可以替换数据代入模型,就能得到想要的结果。
我们搜集到与出租车行业有关的一些来自统计年鉴的数据,如表1所示:
表1 1999-2013与出租车有关的统计年鉴数据
年份
出租车
/辆
GDP/万元
常住人口/万人
第三产业产值/万元
公共汽车/辆
燃油价格
(元/升)
家庭总收入
元/每人每月
公路
总里程
1999
8505
18040176
632.56
8884245
2772
7.64
1645.37
1343.5
2000
8505
21874515
701.24
10858007
2920
7.52
1756.22
1356.5
2001
8505
24824874
724.57
12366796
3495
7.64
1923.40
1360.5
2002
9705
29695184
746.62
14881426
3495
7.7
2194.78
1510
2003
10255
35857235
778.27
17540952
4885
7.99
2308.45
1539.9
2004
10305
42821428
800.8
20585811
5376
7.99
2450.30
1540.3
2005
10305
49509078
827.75
22986438
6091
7.64
1880.25
1579.9
2006
10305
58135624
871.1
27465059
7305
7.28
1973.19
1929.5
2007
11205
68015706
912.37
33780554
8188
7.28
2167.90
1938
2008
12991
77867920
954.28
39180316
8396
7.28
2392.00
1619.1
2009
13411
82013176
995.01
43675520
11928
7.44
2661.02
1619.1
2010
14340
95815101
1037.2
50516743
12456
7.21
2960.31
1617.4
2011
14735
115055298
1046.74
61556537
15365
7.54
3362.66
1617.7
2012
15300
129500601
1054.74
72061210
14546
7.78
3785.31
1659
2013
15973
145002302
1062.89
81981396
14617
7.54
4168.54
1680
5.2.1因子分析
下面用SAS软件对表1的数据进行因子分析,代码见附录程序1。运行结果及说明:
(1) 输出了各变量的相关系数矩阵:
cars
GDP
people
service
bus
Oilprice
income
road
Cars
1
0.97824
0.96672
0.97422
0.97275
-0.25993
0.92603
0.44078
GDP
0.97824
1
0.95434
0.99753
0.9729
-0.27006
0.93528
0.49973
people
0.96672
0.95434
1
0.93666
0.96951
-0.38701
0.84304
0.59302
service
0.97422
0.99753
0.93666
1
0.96554
-0.23909
0.95106
0.45578
Bus
0.97275
0.9729
0.96951
0.96554
1
-0.30079
0.89192
0.49077
oilprice
-0.25993
-0.27006
-0.38701
-0.23909
-0.30079
1
0.01597
-0.47557
income
0.92603
0.93528
0.84304
0.95106
0.89192
0.01597
1
0.29227
Road
0.44078
0.49973
0.59302
0.45578
0.49077
-0.47557
0.29227
1
从中可以各个变量两两之间的相关性关系,绝对值越接近1,表明相关性越强;正数表示正相关,负数表示负相关。
(2)先验公因子的方差估计
特征值
差值
比例
累积
1
6.096852
4.819542
0.7621
0.7621
2
1.27731
0.786566
0.1597
0.9218
3
0.490745
0.40997
0.0613
0.9831
4
0.080775
0.050647
0.0101
0.9932
5
0.030127
0.014878
0.0038
0.997
6
0.015249
0.006674
0.0019
0.9989
7
0.008575
0.00821
0.0011
1
8
0.000366
0
1
相关矩阵的特征值和累积贡献,前三个主成分的累积贡献为98.31%,NFACTOR 准则选取三个公共因子。
(3)因子载荷矩阵
Factor1
Factor2
Factor3
cars
0.98266
0.11019
-0.0767
GDP
0.99185
0.08058
-0.0174
people
0.98072
-0.08195
-0.00578
service
0.98379
0.12745
-0.03886
bus
0.98257
0.0463
-0.05375
oilprice
-0.33086
0.84507
0.41481
income
0.90946
0.37954
0.0163
road
0.56194
-0.61268
0.55479
即公因子用原始变量表示的回归系数,即
Factor1=0.98266*z_cars+0.99185*z_GDP+0.98072*z_people
+0.98379*z_service+0.98257*z_bus-0.33086*z_oilprice
+0.90946*z_income+0.56194*z_road
Factor2=0.11019*z_cars+0.08058*z_GDP-0.08195*z_people
+0.12745*z_service+0.0463*z_bus+0.845076*z_oilprice
+0.37954*z_income-0.61268*z_road
Factor3=-0.0767*z_cars-0.0174*z_GDP-0.00578*z_people
-0.03886*z_service-0.05375*z_bus+0.41481*z_oilprice
+0.0163*z_income+0.55479*z_road
公因子Factor1好解释——经济状况;但Factor2和Factor3不好解释。故可以考虑做因子旋转。
(4)每个因子说明的方差和最终的公因子方差估计
Factor1
Factor2
Factor3
6.096853
1.277311
0.490745
Total = 7.864908
5.2.2 因子旋转
为了更好地解释公因子,我们进行因子旋转。代码见附录程序2。旋转因子目的是让一些变量取值是0. 运行结果及说明:
(1)正交旋转矩阵为
(2)旋转后的载荷矩阵
Factor1
Factor2
Factor3
income
0.97254
0.07263
0.14262
service
0.97
0.1858
-0.1009
cars
0.9684
0.16475
-0.13676
GDP
0.95999
0.2303
-0.12624
bus
0.94517
0.21721
-0.17305
people
0.89673
0.32354
-0.24447
road
0.26281
0.93133
-0.25002
oilprice
-0.09813
-0.22088
0.96812
旋转后公因子Factor2的主要载荷是road、people、bus,故可解释为——交通状况;旋转后公因子Factor3的主要载荷是oilprice,故可解释为——燃油价格。
5.2.3 因子得分
进一步可以计算因子得分。代码见附录程序3。结果及解释:
(1)标准化评分系数
Factor1
Factor2
Factor3
income
0.229684
-0.08999
0.225378
service
0.193446
-0.06956
0.001763
cars
0.199016
-0.12347
-0.05475
GDP
0.177429
-0.01483
-0.00112
bus
0.177146
-0.05956
-0.066
people
0.132479
0.071715
-0.08624
road
-0.21152
1.179987
0.281966
oilprice
0.048069
0.298832
1.031276
用回归法得到的因子得分系数,由此可以写出三个因子得分函数:
Factor1=0.229684*income+0.193446*service+0.199016*cars
+0.177429*GDP+0.177146*bus+0.132479*people
-0.21152*road+0.048069oilprice
Factor2=-0.08999*income-0.06956*service-0.12347*cars
-0.01483*GDP-0.05956*bus+0.071715*people
+1.179987*road+0.298832oilprice
Factor3=0.225378*income+0.001763*service-0.05475*cars
-0.00112*GDP-0.066*bus-0.08624*people
+0.281966*road+1.031276oilprice
将各个年份的原始观测值代入上面的因子评分函数,即得各年份的因子得分:
表2 各年份公因子的得分
year
Factor1
Factor2
Factor3
1999
-1.0428
-1.2968
-0.0532
2000
-0.9462
-1.3449
-0.5503
2001
-0.807
-1.1923
-0.0082
2002
-0.7381
-0.2018
0.52859
2003
-0.5079
0.30245
1.78739
2004
-0.3656
0.27893
1.80885
2005
-0.5542
0.17829
0.19408
2006
-0.8558
2.06417
-0.7838
2007
-0.5696
2.04173
-0.7682
2008
0.1544
-0.2146
-1.2788
2009
0.53057
-0.1114
-0.6053
2010
0.82642
-0.4962
-1.5443
2011
1.34231
-0.2298
-0.0826
2012
1.63842
0.2427
1.12149
2013
1.89503
-0.0206
0.2343
再根据前两个公因子得分绘制散点图(略)。从中可以看出:1999、2000、2001年经济状况和交通状况都较差;2006、2007年交通状况有较大改善,经济状况一般;2011、2012、2013年经济状况很好,交通状况改善一般;其余年份情况比较居中。
当然,也可以绘制任何两个公因子得分的散点图并分析结果。
5.3问题二的模型建立与求解
有网上可查询,交通运输部与财政部联合制定了《城乡道路客运成品油价格补助专项资金管理暂行办法》和《岛际和农村水路客运成品油价格补助专项资金管理暂行办法》(简称两个《办法》),规定从2010年1月1日起,中央财政对城市公交、农村客运、出租汽车、岛际和农村水路客运实行成品油价格补助。有关人士透露,深圳市出租小汽车协会八月中旬已决定,从本月起所有会员单位出租车企业对其出租车司机按车辆数给予相应的油价补贴,补贴视各种车型不同而设有不同的标准,分别有二百五十元、三百元、五百元每月的补贴标准,同时协会将视油价变化及时调整有关补贴标准。
由于相继各出租公司对出租车提出了补贴方案,至于这些补贴方案对“缓解打车难”是否有帮助,需要我们进行建模验证。以深圳市,我们利用在实行补贴方案后出租汽车的拥有量与没有实施方案的出租车预测值的情况,来判断这些方案是否有帮助。
根据搜集到的深圳市2000年到2013年的出租车拥有量,利用MATLAB软件对数据进行标准化,在进行多项式拟合。程序代码见附录程序4,得到拟合曲线见图6
图6 对2000-2009年的出租车拥有量的拟合曲线
另设,出租车拥有量为Z,时间序列为t,其中t=0,1,……8,9.
根据MATLAB运行结果,我们可知该拟合曲线的方程为
(9)
当然,为了检验该模型的拟合程度,有必要进行一定的检验,下面给出该对数出租车拥有量时间序列拟合之后的残差图,如下图
1
2
3
4
5
6
7
8
9
10
-10
-5
0
5
10
15
Residual Case Order Plot
Residuals
Case Number
图7 对数出租车拥有量时间序列拟合的残差图
图7显示,这一拟合式子是通过残差检验的,所以,进一步我们认为出租车拥有量Z和年t之间的关系为
(10)
所以,我们可以根据式子(10)将未来2010年至2018年的出租车拥有量估计出来,将估计结果整理出来,如下表3所示:
表3 未来2010年至2019年的出租车拥有量预测值
年份
出租车拥有量(辆)
2010
13538
2011
14194
2012
14880
2013
15601
2014
16355
2015
17147
2016
17977
2017
18846
2018
19758
为了进行更加直观的描述未来出租车拥有量的趋势,考虑将2000年至2013年出租车拥有量的趋势图做出来,具体代码参照附录,MATLAB运行结果如下图8所示。
图8 2000-2014年出租车拥有量变化情况
根据图8可以发现,航班总数从2000年到2013年的趋势是逐年递增的,且在2010年以后出租车实际拥有量要比预测值高,这说明实施补贴方案使出租车的供给量一定程度上增加了,即可以说明,各公司的补贴方案对“缓解打车难”有一定的帮助。但重图形上也可以看出实际值与预计值的差在减小,随时间的推移,补贴方案的效果也在下降。据了解,广州开始实行燃油补贴政策,每台出租车每月收取的二百元客运附加费暂停收取。广骏集团的有关人士表示,全市共有出租车约一万二千辆左右,这次的补贴政策对于双班的的士司机来说,平均到每个班次的司机身上,每月可减负一百元。但有部份受访的士司机表示仅减免承包费还不够。广州交通集团的朱先生说,油价今年来持续上涨,比起三月份第一次油价上调,现在一个月要多支出一千元左右的油费,一个月减少一百元的客运附加费是“杯水车薪”,只有提高基础租价才是根本解决办法。综上,各公司的补贴方案对“缓解打车难”有帮助,但很小,甚至会导致租价上升。
5.3问题三的解答
有多家公司依托移动互联网建立了打车软件服务平台,如滴滴打车,快的打车等打车软件,实现了乘客与出租车司机之间的信息互通,同时推出了多种出租车的补贴方案。如乘客车费返现10元,司机奖励10元;乘客返现11元,司机返5-11元,乘客返现13元等等。但这些打车软件对顾客在一天之中各个时段的补助没有详细规定。
对于问题三创建一个新的打车软件服务平台,我们可以讨论新的补贴方案中,
令软件服务平台中7:00—9:00,12:00—14:00,18:00—20:00这三个时间段为高峰其余时间段为正常期。规定:顾客在高峰期返现要比在正常的时期返现少,司机在高峰期少用甚至不用打车软件,若用打车软件的话,可以对司机的奖励减少。
下面为不足方案流程图解释
是
否是
是
否
否
是
是
否
否
是
奖励多
是否用软件
开车
奖励少
是否用软件
返现多
返现少
顾客?
顾客?
是否高峰期
打车时间
图9 补贴方案的流程图
为了判断这一补助方案是否合理,对“缓解打车难问题”有帮助吗?我们从网上,以及知网上搜集一些研究成果来探究这一补贴方案的合理性。《2013-2014年打车软件市场分析报告》报告中给出用户使用手机打车应用的时段分布:
图10 用户使用打车软件的统计时间分布折线图[4]
从图10中可以看出顾客在使用打车软件的统计时间分布折线图,可以看出在6—9点,12—14点,18-20点用户数占总数的比例都超过了35%,可以看出再打车软件中这三时段都可以作为高峰期,其余少于30%的时段作为正常期。即上下班高峰的时刻也是打车软件集中使用的高峰时刻。
而在一些科研成果中也有一些关于“打车难”问题的研究及方法。例如,避开高峰期,员工实行晚下班早出行,或者拼车等政策。下面是在文献[5]中利用实际数据所做的两幅图:
图11 4月18日上班时间调整后的出租车分布[5]
图12 4月18日7:00到8:00的出租车分布[5]
由此我们可以看出,如果将上班时间交错开,就会减少很多路段的压力,一定程度上可以缓解“打车难问题”。
上述补贴方案中实施的补贴,可以使用户既避开高峰期拥堵、打车难有可以享受较好的优惠服务,当高峰期的优惠减少,有一些不太急,收入较少的用户会选择自动避开高峰期,或者提早出行,回家。
综上,可认为这一新的补贴方案是合理的。
5.4 误差分析
聚类分析模型中,只用了9月4日一天的出租车分布数据,不能很好的反映深圳市平均出租车分布情况,会造成误差;在聚类分析划分交通小区时,由于聚类算法的迭代,使得原始聚类中心可能发生小的偏移,也会造成误差;另外,从聚类算法本身的不稳定性(重新聚类,结果会有差异),也会造成误差。若是采用KNN邻近距离分类法,结果将会更好。
用空载率修正出租车分布数,作为用泊松分布预测出租车需求数的基础数据,也有误差产生。
因子分析模型中,由于缺少时段、地域数据,只从宏观上建立模型分析与出租车需求有关的指标因素,找到影响“供”和“求”内在综合指标,与问题的供求匹配相差较大。
由于没有足够的数据,具体的误差程度也不能计算。但是这些误差基本都是没有数据造成的,如果有相应的数据,用到模型中将极大的改进模型。
在拟合模型中,由于所找的数据为深圳市出租车一年的拥有量,并不能全部代表出租车的供给量,这对结论也有误差。而在问题三种进行判断新的补贴方案的合理性时,数据的不完整,判断的结果有偏差。
六、模型评价
模型的优点:
1. 本文采用聚类分析法利用已知的交通小区中心坐标,将大量经纬度点快速分类,操作远比KNN邻近距离分类法简单,在对分类精度要求不高的情况下很实用。
2. 本文利用因子分析模型,对宏观上影响出租车供求的指标因素,进行重组、旋转、解释,以及计算各个案在新的公因子上的得分。如果有微观上影响出租车供求的时段、地域等细分数据,可以直接套用该因子分析模型,得到想要的结果。
模型的缺点:
1.由于收集到的数据不全,使得模型的结果误差较大,与题目也有偏差。
2. 在补贴方案方面没有找到真正适合的理论模型。
七、模型推广
在初
展开阅读全文