“互联网+”时代的出租车资源配置.docx

资源描述

B题 “互联网+”时代的出租车资源配置摘要现在，我国许多城市上下班高峰时段、拥挤路段，打车难问题普遍存在。建立模型分析造成打车难的内在原因，以此通过合理的补贴政策优化出租车供求资源配置，具有重要的理论意义和实际价值。针对问题一，本文从两方面入手，一是利用滴滴快的大数据爬取的深圳市2015年9月4日出租车分布数据，根据文献[1]中对深圳市交通小区的划分，用聚类分析方法以12个交通小区的中心坐标为初始聚类中心，进行一次迭代k-均值距离聚类，将离散的经纬度分布数据分类汇总，得到12个交通小区出租车供应数，提供地段划分依据。再利用泊松分布和极大似然思想预测出深圳市每天出租车需求数。二是从宏观上考虑影响出租车“供”和“求”的各指标因素并搜集相关数据，建立因子分析模型将多个错综复杂的变量归结为少数几个综合指标因子，并通过因子旋转对公因子做出命名和解释。针对问题二，了解各出租车公司针对司机的补贴方案，看其是否对缓解“打车难”，搜集2000年到2013年出租车拥有量来反映出租车的供给量，对数据进行拟合预测，可以从公司开始实施补贴方案时，看深圳市出租车的拥有量与预测值的关系，来体现实施补贴方案对出租车供给量的影响效果，结果显示补贴方案对缓解“打车难”有一定的帮助。针对问题三，创建一个新的打车软件服务平台，设计一个补贴方案，规定：顾客在高峰期返现要比在正常的时期返现少，司机在高峰期少用甚至不用打车软件，若用打车软件的话，可以对司机的奖励减少。说明其流程，通过收集有关数据和科研成果进行论证，应征新的补贴方案是合理的。关键词：出租车；聚类分析；泊松分布；因子分析；补贴政策 23 一、问题重述如今，各大城市普遍存在“打车难”现象，尤其是上下班的高峰时段。是出租车公司车辆供应不足，还是出租车资源没有得到有效的合理配置，导致部分城区出租车难打，而另一部分城区出租车空驶。考虑解决如下问题：（1）搜集影响出租车供求的指标数据，建立合理的综合指标，分析和描述不同时段、不同地域出租车供求匹配的程度。（2）各出租车公司也在不断出台一些针对司机的补贴方案，以缓解打车难的问题，分析这些补贴方案是否有效。（3）滴滴、快的等打车软件通过打车软件服务平台，在解决客户和司机信息不对称造成的出租车资源浪费方面，效果显著。同时，他们也给司机和客户提供补贴，但这种补贴更像是恶性竞争，对出租车资源更优化配置作用不明显。如果依托这类软件平台，应该怎么设计更优的补贴方案。二、问题分析对于问题一，我们从两方面考虑：一方面是搜集某个城市（本文选择深圳市）出租车的GPS数据，找到不同时段、不同区域的出租车分布数据，以及打车数据。通过网络爬虫从滴滴快的大数据平台查到按日期的出租车分布数据（经纬度点出现的出租车数）和需求（经纬度点的叫车数）。分布数据相对较全，我们选取一天根据文献[1]中用出租车对深圳市做交通小区划分的数据，也对这些经纬度点进行归类，考虑用固定初始聚类中心为那些交通小区的中心的聚类分析实现。由于出租车需求数的数据不齐全不能和分布数据结合来用，为了得到需求数据，我们考虑到固定时段能来打车的人数服从泊松分布，用极大似然思想和泊松分布来对出租车需求做出预测。再比较供应数和需求数，从总体供求上做出判断。另一方面，由于微观数据的缺乏，我们从宏观上考虑影响出租车“供”和“求”的各指标因素并搜集相关数据，对这些因素作因子分析，从而将多个错综复杂的变量归结为少数几个综合指标因子，并通过因子旋转对公因子做出命名和解释。问题二对各个公司的补贴方案进行了解，通过了解这些补贴方案，研究这些方案对“缓解打车难”问题有没有帮助。研究各公司对员工的补贴，实施时间，查找深圳市在一时间先后的出租车拥有量用实施前的的数据预测实施后的数据，将实际值与预测值相比较，来判断出租车的供给量是否比预测的大，间接说明这些补贴方案对“缓解打车难”帮助性。问题三根据滴滴，快的等打车软件，要求创建一个新的打车软件服务平台，设立一个更好的补贴方案，并判断其合理性。根据前面的问题一、二的结果，提出一个补贴方案，通过收集信息判断其合理性。三、模型假设 1. 假设长期来看，深圳各交通小区每天高峰时段、非高峰时段的打车需求是稳定的； 2. 由假设1，可以进一步假设本文抓取的9月4日出租车分布的原始数据能够代表深圳市每天出租车分布数； 3．假设9月4日出租车分布的数据中，每个经纬度点统计的出租车数，是该经纬度点每天平均出租车数（如果有更多天的数据，分别用文中方法处理，用均值即可）； 4. 假设一段时间内（一天），来某个经纬度点的打车人数近似服从泊松分布； 5.假设深圳市一年出租车的拥有量可以反映一年出租车的供给量； 6.假设搜集到的出租车数据是真实可靠的。四、符号说明符号说明 Col 经度 Lat 纬度 xi 第i个经纬度点出租车数 Yi 随机变量，第i个经纬度点打车需求数 Y 深圳市每天出租车的需求数 Class 交通小区的分类号泊松分布参数参数为泊松的分布 Z 出租车的年度拥有量（注：其它未提及的符号在文中说明）五、模型建立与求解 5.1问题一的模型建立与求解 5.1.1数据来源我们利用网络爬虫从滴滴快的苍穹数据网站得到，深圳市2015年9月4日至9月9日出租车分布： …….. 图1 原始数据示例复制粘贴到Excel，用数据分列功能进行分列，得到三个变量经度（Log）、纬度（Lat）、该位置的出租车数（x）的数据。再将Excel数据导入SPSS（共7224条记录）： …… 图2 将数据导入SPSS 5.1.2出租车供应 1. 数据预处理按经度（Log）对数据排序，观察经度分布：有24条记录在102附近、23条记录在108附近、13条记录在116附近、10条记录在117附近、23条记录在120附近、24条记录在121附近。而其余7120条记录的经度都介于113.7970~116.5649之间。可见，那7120条记录位于主城区，是出租车分布的主要区域；其余都是偏远地区出租车数也很少。故本文只考虑主城区数据即可。 2. 对数据进行区域汇总文献[1]中，利用出租车GPS数据分析研究深圳道路交通拥堵情况，将深圳主城区分为12个交通小区及其经纬度范围为[1]：第1小区（22.7,2.77）（113.78,113.89）第2小区（22.68,22.74） (114.22,114.3) 第3小区（22.6,22.67）(114,114.08) 第4小区(22.58,22.63) (114.09,114.16) 第5小区(22.5,22.6) (113.84,113.92) 第6小区(22.52,22.57) (113.9,114.01) 第7小区(22.528,22.546) (114.01,114.08) 第8小区(22.53,22.58) (114.08,114.18) 第9小区(22.47,22.522) (113.87,113.95) 第10小区(22.6,22.66) (113.8,113.9) 第11小区(22.546,22.572) (114.01,114.08) 第12小区 (22.528,22.546) (114.01,114.08) 每个交通小区的中心经纬度为[1]：第1小区：谭海酒店（113.841904，22.748808）第2小区：龙岗镇（114.262398，22.733534）第3小区：珠三角环线高速公路（114.041931，22.620899）第4小区：吉华路(114.112，22.599) 第5小区：创业立交(113.892，22.568) 第6小区：深南南海立交（113.962234，22.542618）第7小区：福强路与新洲路（114.042，22.521）第8小区：红岭北路，红岭中路与笋岗西路，笋岗东路交叉口( 114.115，22.558) 第9小区：南海大道与东滨路交叉口( 113.92，22.508) 第10小区：沈海高速公路与京港澳高速公路交叉口（113.858，22.625）第11小区：新洲路与红荔路交叉口( 114.044，22.557 ) 第12小区：深南新洲立交桥与新洲路交叉口(114.043，22.536). 根据上面的交通小区划分，我们考虑将这12个交通小区的中心坐标作为k均值聚类的初始聚类中心，以经度和纬度变量对数据做聚类分析，聚类数=12类。操作步骤如下：（1）用前文12个交通小区的中心坐标创建初始聚类中心数据集center.sav（注意：为了格式规范可用，先不设置初始聚类中心进行12类聚类分析，得到聚类中心数据集，再用12个交通小区的中心坐标替换对应数据）。（2）SPSS操作界面依次点击：分析——分类——k-均值聚类，打开聚类分析窗口，再将变量Log、Lat放入变量窗口，聚类数设为12；（3）为了尽量保证小区中心固定不变，设置迭代-最大迭代次数设1次，保存-勾选聚类成员，选项-勾选初始聚类中心和每个个案的聚类信息；（4）聚类中心—选择读取初始聚类中心—外部数据文件，选择center.sav文件，确定。图3 聚类分析运行结果（5）将新出现的聚类号的数据列QCL_1修改变量名为Class 图4 合并聚类号到数据集（6）分类（交通小区）汇总出租车数，得到各交通小区9月4日分布的出租车数。先按Class对数据排序，点击数据——分类汇总，打开分类汇总窗口，分组变量选为Class，汇总变量选为x，修改函数为：总和。保存-选择创建只包含汇总变量的新数据集，并命名为sumche94.sav. 确定。图5深圳市12个交通小区分布的出租车数（9月4日）根据各个交通小区出租车的分布数，后续就可以分别讨论不同交通小区（地段）出租车的供求问题。另外，再做汇总得到深圳市9月4日出租车分布总数为243401台次。 5.1.3 出租车需求和前文同样的处理方法，可以分别处理9月5日—9日深圳市出租车需求的数据，将这些数据汇总，并求出各小区9月5日—9日出租车需求数和均值。但是由于我们抓取的出租车需求数据有较大缺失：9月4日只有3829条记录，其余几天只有1100左右条记录，处理之后发现和需求数相差较大，不足以作为研究深圳市出租车供应和需求匹配的依据。为了得到出租车的需求数，我们考虑用泊松分布来预测。以固定的平均瞬时速率（或称密度）随机且独立地出现时，则该事件在单位时间（面积或体积）内出现的次数或个数就近似地服从泊松分布[2,114-116]。由假设4，一段时间内（一天），来某个经纬度点的打车人数近似服从泊松分布： (1) 其中，t为时间间隔，为某地点t时间间隔的打车人数为k的概率，为人们来打车平均速率。令，为t时间间隔内平均打车人数，故 (2) 即通常的泊松分布. 注意是泊松分布的均值。利用极大似然法来估计打车人数k，即让概率最大。令可推得. 再令故当为整数时，或时，概率最大；当不为整数时，时，概率最大。用xi表示第i个经纬度点出租车数，由假设3，xi也即深圳市第i个经纬度点每天出租车的供应数。用表示第i个经纬度点一天内来打车的人数，它是随机变量，由假设4, (3) 现在需要每天第i个经纬度点一天内来打车的平均人数。空驶率[3]分为时间空驶率和空间空驶率两类，单位时间内非载客时间与运营时间的比值，称为时间空驶率；单位时间内非载客里程与运营里程的比值，称为空间空驶率。 , (4) 根据出租车协会对国内外城市出租车交通供求关系的调查分析[3]，城市出租车交通达到基本饱和（供求平衡）时，出租车的空驶率在30%左右；当空驶率超过40%时，出租车交通呈现出明显的供过于求的状态，而当空驶率低于25%时，出租车交通就呈现出明显的供不应求的状态。文献[3]得到：深圳市出租车的日平均时间空驶率介于集44%~54%之间，日平均空间空驶率介于37%~45%之间。我们取空驶率K=40%，用 (5) 来修正各经纬度点的出租车供应数以得到各经纬度点出租车需求数。用SPSS转换—计算变量实现（具体步骤略）。由(3)式，注意到泊松分布的均值为，则 (6) 用Y表示深圳市每天出租车需求数，由泊松分布的可加性，有 (7) 因此，由极大似然法可得 (8) 注意：这里的是车人次，一台出租车每天可以搭乘很多人次。比较深圳市9月4日，出租车总供应台次243401>146041, 故从总体来看深圳市公交车是供大于求的。 5.2 多指标因素交互影响的因子分析模型因子分析是从研究相关系数矩阵内部的依赖关系出发，把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。简言之，即用少数不可观测的隐变量来解释原始变量之间的相关性或协方差关系。因子分析的作用是减少变量个数，根据原始变量的信息进行重组，能反映原有变量大部分的信息；原始部分变量之间多存在较显著的相关关系，重组变量（因子变量）之间相互独立；因子变量具有命名解释性，即该变量是对某些原始变量信息的综合和反映。问题一是要用合理的指标，并分析不同时空出租车资源的“供求匹配”程度，需要分析并搜集影响出租车“供”和“求”的指标因素以及一定量的数据，再利用因子分析模型，分析影响“供”和“求”内在综合指标。但是，由于国家大数据刚刚起步，多数大数据并未做到开放，影响出租车“供”和“求”的时段因素：高峰时段（早7:00-9:00和晚16:00-19:00）、白天非高峰时段、晚间时段；地段因素：不同的出租车需求程度的交通小区，这些数据都很难找到。为此，我们这节主要建立宏观出租车需求的因子模型，只要数据到位可以替换数据代入模型，就能得到想要的结果。我们搜集到与出租车行业有关的一些来自统计年鉴的数据，如表1所示：表1 1999-2013与出租车有关的统计年鉴数据年份出租车 /辆 GDP/万元常住人口/万人第三产业产值/万元公共汽车/辆燃油价格（元/升）家庭总收入元/每人每月公路总里程 1999 8505 18040176 632.56 8884245 2772 7.64 1645.37 1343.5 2000 8505 21874515 701.24 10858007 2920 7.52 1756.22 1356.5 2001 8505 24824874 724.57 12366796 3495 7.64 1923.40 1360.5 2002 9705 29695184 746.62 14881426 3495 7.7 2194.78 1510 2003 10255 35857235 778.27 17540952 4885 7.99 2308.45 1539.9 2004 10305 42821428 800.8 20585811 5376 7.99 2450.30 1540.3 2005 10305 49509078 827.75 22986438 6091 7.64 1880.25 1579.9 2006 10305 58135624 871.1 27465059 7305 7.28 1973.19 1929.5 2007 11205 68015706 912.37 33780554 8188 7.28 2167.90 1938 2008 12991 77867920 954.28 39180316 8396 7.28 2392.00 1619.1 2009 13411 82013176 995.01 43675520 11928 7.44 2661.02 1619.1 2010 14340 95815101 1037.2 50516743 12456 7.21 2960.31 1617.4 2011 14735 115055298 1046.74 61556537 15365 7.54 3362.66 1617.7 2012 15300 129500601 1054.74 72061210 14546 7.78 3785.31 1659 2013 15973 145002302 1062.89 81981396 14617 7.54 4168.54 1680 5.2.1因子分析下面用SAS软件对表1的数据进行因子分析，代码见附录程序1。运行结果及说明：（1）输出了各变量的相关系数矩阵：　 cars GDP people service bus Oilprice income road Cars 1 0.97824 0.96672 0.97422 0.97275 -0.25993 0.92603 0.44078 GDP 0.97824 1 0.95434 0.99753 0.9729 -0.27006 0.93528 0.49973 people 0.96672 0.95434 1 0.93666 0.96951 -0.38701 0.84304 0.59302 service 0.97422 0.99753 0.93666 1 0.96554 -0.23909 0.95106 0.45578 Bus 0.97275 0.9729 0.96951 0.96554 1 -0.30079 0.89192 0.49077 oilprice -0.25993 -0.27006 -0.38701 -0.23909 -0.30079 1 0.01597 -0.47557 income 0.92603 0.93528 0.84304 0.95106 0.89192 0.01597 1 0.29227 Road 0.44078 0.49973 0.59302 0.45578 0.49077 -0.47557 0.29227 1 从中可以各个变量两两之间的相关性关系，绝对值越接近1，表明相关性越强；正数表示正相关，负数表示负相关。（2）先验公因子的方差估计　特征值差值比例累积 1 6.096852 4.819542 0.7621 0.7621 2 1.27731 0.786566 0.1597 0.9218 3 0.490745 0.40997 0.0613 0.9831 4 0.080775 0.050647 0.0101 0.9932 5 0.030127 0.014878 0.0038 0.997 6 0.015249 0.006674 0.0019 0.9989 7 0.008575 0.00821 0.0011 1 8 0.000366 0 1 相关矩阵的特征值和累积贡献，前三个主成分的累积贡献为98.31%，NFACTOR 准则选取三个公共因子。（3）因子载荷矩阵　 Factor1 Factor2 Factor3 cars 0.98266 0.11019 -0.0767 GDP 0.99185 0.08058 -0.0174 people 0.98072 -0.08195 -0.00578 service 0.98379 0.12745 -0.03886 bus 0.98257 0.0463 -0.05375 oilprice -0.33086 0.84507 0.41481 income 0.90946 0.37954 0.0163 road 0.56194 -0.61268 0.55479 即公因子用原始变量表示的回归系数，即 Factor1=0.98266*z_cars+0.99185*z_GDP+0.98072*z_people +0.98379*z_service+0.98257*z_bus-0.33086*z_oilprice +0.90946*z_income+0.56194*z_road Factor2=0.11019*z_cars+0.08058*z_GDP-0.08195*z_people +0.12745*z_service+0.0463*z_bus+0.845076*z_oilprice +0.37954*z_income-0.61268*z_road Factor3=-0.0767*z_cars-0.0174*z_GDP-0.00578*z_people -0.03886*z_service-0.05375*z_bus+0.41481*z_oilprice +0.0163*z_income+0.55479*z_road 公因子Factor1好解释——经济状况；但Factor2和Factor3不好解释。故可以考虑做因子旋转。（4）每个因子说明的方差和最终的公因子方差估计 Factor1 Factor2 Factor3 6.096853 1.277311 0.490745 Total = 7.864908 5.2.2 因子旋转为了更好地解释公因子，我们进行因子旋转。代码见附录程序2。旋转因子目的是让一些变量取值是0. 运行结果及说明：（1）正交旋转矩阵为（2）旋转后的载荷矩阵　 Factor1 Factor2 Factor3 income 0.97254 0.07263 0.14262 service 0.97 0.1858 -0.1009 cars 0.9684 0.16475 -0.13676 GDP 0.95999 0.2303 -0.12624 bus 0.94517 0.21721 -0.17305 people 0.89673 0.32354 -0.24447 road 0.26281 0.93133 -0.25002 oilprice -0.09813 -0.22088 0.96812 旋转后公因子Factor2的主要载荷是road、people、bus，故可解释为——交通状况；旋转后公因子Factor3的主要载荷是oilprice，故可解释为——燃油价格。 5.2.3 因子得分进一步可以计算因子得分。代码见附录程序3。结果及解释：（1）标准化评分系数　 Factor1 Factor2 Factor3 income 0.229684 -0.08999 0.225378 service 0.193446 -0.06956 0.001763 cars 0.199016 -0.12347 -0.05475 GDP 0.177429 -0.01483 -0.00112 bus 0.177146 -0.05956 -0.066 people 0.132479 0.071715 -0.08624 road -0.21152 1.179987 0.281966 oilprice 0.048069 0.298832 1.031276 用回归法得到的因子得分系数，由此可以写出三个因子得分函数： Factor1=0.229684*income+0.193446*service+0.199016*cars +0.177429*GDP+0.177146*bus+0.132479*people -0.21152*road+0.048069oilprice Factor2=-0.08999*income-0.06956*service-0.12347*cars -0.01483*GDP-0.05956*bus+0.071715*people +1.179987*road+0.298832oilprice Factor3=0.225378*income+0.001763*service-0.05475*cars -0.00112*GDP-0.066*bus-0.08624*people +0.281966*road+1.031276oilprice 将各个年份的原始观测值代入上面的因子评分函数，即得各年份的因子得分：表2 各年份公因子的得分 year Factor1 Factor2 Factor3 1999 -1.0428 -1.2968 -0.0532 2000 -0.9462 -1.3449 -0.5503 2001 -0.807 -1.1923 -0.0082 2002 -0.7381 -0.2018 0.52859 2003 -0.5079 0.30245 1.78739 2004 -0.3656 0.27893 1.80885 2005 -0.5542 0.17829 0.19408 2006 -0.8558 2.06417 -0.7838 2007 -0.5696 2.04173 -0.7682 2008 0.1544 -0.2146 -1.2788 2009 0.53057 -0.1114 -0.6053 2010 0.82642 -0.4962 -1.5443 2011 1.34231 -0.2298 -0.0826 2012 1.63842 0.2427 1.12149 2013 1.89503 -0.0206 0.2343 再根据前两个公因子得分绘制散点图（略）。从中可以看出：1999、2000、2001年经济状况和交通状况都较差；2006、2007年交通状况有较大改善，经济状况一般；2011、2012、2013年经济状况很好，交通状况改善一般；其余年份情况比较居中。当然，也可以绘制任何两个公因子得分的散点图并分析结果。 5.3问题二的模型建立与求解有网上可查询，交通运输部与财政部联合制定了《城乡道路客运成品油价格补助专项资金管理暂行办法》和《岛际和农村水路客运成品油价格补助专项资金管理暂行办法》（简称两个《办法》），规定从2010年1月1日起，中央财政对城市公交、农村客运、出租汽车、岛际和农村水路客运实行成品油价格补助。有关人士透露，深圳市出租小汽车协会八月中旬已决定，从本月起所有会员单位出租车企业对其出租车司机按车辆数给予相应的油价补贴，补贴视各种车型不同而设有不同的标准，分别有二百五十元、三百元、五百元每月的补贴标准，同时协会将视油价变化及时调整有关补贴标准。由于相继各出租公司对出租车提出了补贴方案，至于这些补贴方案对“缓解打车难”是否有帮助，需要我们进行建模验证。以深圳市，我们利用在实行补贴方案后出租汽车的拥有量与没有实施方案的出租车预测值的情况，来判断这些方案是否有帮助。根据搜集到的深圳市2000年到2013年的出租车拥有量，利用MATLAB软件对数据进行标准化，在进行多项式拟合。程序代码见附录程序4，得到拟合曲线见图6 图6 对2000-2009年的出租车拥有量的拟合曲线另设，出租车拥有量为Z，时间序列为t,其中t=0,1，……8,9. 根据MATLAB运行结果，我们可知该拟合曲线的方程为 (9) 当然，为了检验该模型的拟合程度，有必要进行一定的检验，下面给出该对数出租车拥有量时间序列拟合之后的残差图，如下图 1 2 3 4 5 6 7 8 9 10 -10 -5 0 5 10 15 Residual Case Order Plot Residuals Case Number 图7 对数出租车拥有量时间序列拟合的残差图图7显示，这一拟合式子是通过残差检验的，所以，进一步我们认为出租车拥有量Z和年t之间的关系为（10）所以，我们可以根据式子(10)将未来2010年至2018年的出租车拥有量估计出来，将估计结果整理出来，如下表3所示：表3 未来2010年至2019年的出租车拥有量预测值年份出租车拥有量（辆） 2010 13538 2011 14194 2012 14880 2013 15601 2014 16355 2015 17147 2016 17977 2017 18846 2018 19758 为了进行更加直观的描述未来出租车拥有量的趋势，考虑将2000年至2013年出租车拥有量的趋势图做出来，具体代码参照附录，MATLAB运行结果如下图8所示。图8 2000-2014年出租车拥有量变化情况根据图8可以发现，航班总数从2000年到2013年的趋势是逐年递增的，且在2010年以后出租车实际拥有量要比预测值高，这说明实施补贴方案使出租车的供给量一定程度上增加了，即可以说明，各公司的补贴方案对“缓解打车难”有一定的帮助。但重图形上也可以看出实际值与预计值的差在减小，随时间的推移，补贴方案的效果也在下降。据了解，广州开始实行燃油补贴政策，每台出租车每月收取的二百元客运附加费暂停收取。广骏集团的有关人士表示，全市共有出租车约一万二千辆左右，这次的补贴政策对于双班的的士司机来说，平均到每个班次的司机身上，每月可减负一百元。但有部份受访的士司机表示仅减免承包费还不够。广州交通集团的朱先生说，油价今年来持续上涨，比起三月份第一次油价上调，现在一个月要多支出一千元左右的油费，一个月减少一百元的客运附加费是“杯水车薪”，只有提高基础租价才是根本解决办法。综上，各公司的补贴方案对“缓解打车难”有帮助，但很小，甚至会导致租价上升。 5.3问题三的解答有多家公司依托移动互联网建立了打车软件服务平台，如滴滴打车，快的打车等打车软件，实现了乘客与出租车司机之间的信息互通，同时推出了多种出租车的补贴方案。如乘客车费返现10元，司机奖励10元；乘客返现11元，司机返5-11元，乘客返现13元等等。但这些打车软件对顾客在一天之中各个时段的补助没有详细规定。对于问题三创建一个新的打车软件服务平台，我们可以讨论新的补贴方案中，令软件服务平台中7：00—9:00,12:00—14:00,18:00—20:00这三个时间段为高峰其余时间段为正常期。规定：顾客在高峰期返现要比在正常的时期返现少，司机在高峰期少用甚至不用打车软件，若用打车软件的话，可以对司机的奖励减少。下面为不足方案流程图解释是否是是否否是是否否是奖励多是否用软件开车奖励少是否用软件返现多返现少顾客？顾客？是否高峰期打车时间图9 补贴方案的流程图为了判断这一补助方案是否合理，对“缓解打车难问题”有帮助吗？我们从网上，以及知网上搜集一些研究成果来探究这一补贴方案的合理性。《2013-2014年打车软件市场分析报告》报告中给出用户使用手机打车应用的时段分布：图10 用户使用打车软件的统计时间分布折线图[4] 从图10中可以看出顾客在使用打车软件的统计时间分布折线图，可以看出在6—9点，12—14点，18-20点用户数占总数的比例都超过了35%，可以看出再打车软件中这三时段都可以作为高峰期，其余少于30%的时段作为正常期。即上下班高峰的时刻也是打车软件集中使用的高峰时刻。而在一些科研成果中也有一些关于“打车难”问题的研究及方法。例如，避开高峰期，员工实行晚下班早出行，或者拼车等政策。下面是在文献[5]中利用实际数据所做的两幅图：图11 4月18日上班时间调整后的出租车分布[5] 图12 4月18日7:00到8:00的出租车分布[5] 由此我们可以看出，如果将上班时间交错开，就会减少很多路段的压力，一定程度上可以缓解“打车难问题”。上述补贴方案中实施的补贴，可以使用户既避开高峰期拥堵、打车难有可以享受较好的优惠服务，当高峰期的优惠减少，有一些不太急，收入较少的用户会选择自动避开高峰期，或者提早出行，回家。综上，可认为这一新的补贴方案是合理的。 5.4 误差分析聚类分析模型中，只用了9月4日一天的出租车分布数据，不能很好的反映深圳市平均出租车分布情况，会造成误差；在聚类分析划分交通小区时，由于聚类算法的迭代，使得原始聚类中心可能发生小的偏移，也会造成误差；另外，从聚类算法本身的不稳定性（重新聚类，结果会有差异），也会造成误差。若是采用KNN邻近距离分类法，结果将会更好。用空载率修正出租车分布数，作为用泊松分布预测出租车需求数的基础数据，也有误差产生。因子分析模型中，由于缺少时段、地域数据，只从宏观上建立模型分析与出租车需求有关的指标因素，找到影响“供”和“求”内在综合指标，与问题的供求匹配相差较大。由于没有足够的数据，具体的误差程度也不能计算。但是这些误差基本都是没有数据造成的，如果有相应的数据，用到模型中将极大的改进模型。在拟合模型中，由于所找的数据为深圳市出租车一年的拥有量，并不能全部代表出租车的供给量，这对结论也有误差。而在问题三种进行判断新的补贴方案的合理性时，数据的不完整，判断的结果有偏差。六、模型评价模型的优点： 1. 本文采用聚类分析法利用已知的交通小区中心坐标，将大量经纬度点快速分类，操作远比KNN邻近距离分类法简单，在对分类精度要求不高的情况下很实用。 2. 本文利用因子分析模型，对宏观上影响出租车供求的指标因素，进行重组、旋转、解释，以及计算各个案在新的公因子上的得分。如果有微观上影响出租车供求的时段、地域等细分数据，可以直接套用该因子分析模型，得到想要的结果。模型的缺点： 1.由于收集到的数据不全，使得模型的结果误差较大，与题目也有偏差。 2. 在补贴方案方面没有找到真正适合的理论模型。七、模型推广在初

展开阅读全文