1、第 23 卷 第 5 期2023 年 10 月交摇 通摇 工摇 程摇 摇Vol.23No.5Oct.2023DOI:10.13986/ki.jote.2023.05.014基于 K鄄means 聚类的城市轨道站点周边共享单车需求预测方法研究胡雅群1,哈米提1,许子凯2(1.新疆维吾尔自治区交通建设管理局项目执行三处,乌鲁木齐摇 830000;2.长安大学公路学院,西安摇 710064)摘摇 要:针对共享单车作为公共交通的重要组成能形成轨道交通+共享单车的出行方式,提高城市公共交通的运行效率,但也引发了共享单车运营不合理的问题.论文采用 K鄄means 算法,划分 5 类轨道交通站点,其中共享单
2、车借还量作为聚类变量,提出了 1 组通过量化指标进行特征分析的聚类方式.对不同轨道站点接驳共享单车需求预测,利用随机森林和套索回归算法,并对比不同模型的预测准确度.结果表明,类型 4 站点下,使用套索回归模型效果更好,其他 4 类站点均为随机森林模型表现优于套索回归模型.本研究可为轨道站点及其附近停车设施的规划与建设提供参考.关键词:交通工程;城市轨道交通;K鄄means 算法;共享单车需求预测方法;随机森林算法;套索算法中图分类号:U 491郾 3文献标志码:A文章编号:2096鄄3432(2023)05鄄082鄄09收稿日期:2022鄄10鄄20.作者简介:胡雅群(1972),男,本科,高
3、级工程师,研究方向为公路工程施工,设计、建设管理等.E鄄mail:.Research on the Demand Prediction Method of Shared BicyclesAroundUrbanRailStationsBasedonK鄄meansClusteringAlgorithmHU Yaqun1,Hamiti1,XU Zikai2(1.The Third Project Execution Division of Transport Construction Administration of The Xinjiang Uyghur AutonomousRegion,Uru
4、mqi 830000,China;2.School of Highway,Chang爷an University,Xi爷an 710064,China)Abstract:Aiming at the fact that shared bicycles as an important component of public transportation canform a rail transit+shared bicycle travel mode and improve the operation efficiency of urban publictransportation,but it
5、also causes the problem of unreasonable operation of shared bicycles.In this paper,the K鄄means algorithm is used to divide five types of rail transit stations,in which the amount of sharedbicycle borrowing and repayment is used as a clustering variable,and a set of clustering methods forfeature anal
6、ysis through quantitative indicators is proposed.For the demand prediction of shared bicyclesconnected to different rail stations,random forest and lasso regression algorithms were used,and theprediction accuracy of different models was compared.The results show that the noose regression model isbet
7、ter under the type 4 station,and the random forest model of the other four stations outperforms thelasso regression model.This study can provide a reference for the planning and construction of railstations and parking facilities nearby.Key words:traffic engineering;urban rail transit;K鄄means algori
8、thm;demand forecasting method forshared bicycles;random forest algorithm;lasso regression algorithm摇 第 5 期胡雅群,等:基于 K鄄means 聚类的城市轨道站点周边共享单车需求预测方法研究0摇 引言共享单车大提高了公共交通利用效率.在城市轨道交通与共享单车接驳需求预测的研究方面,学者们主要关注预测模型的比较和改进1.Zilu Kang等2利用机器学习构建了 3 类预测模型,并比较模型优劣.此外,其他学者也提出了不同的预测方法,如基于马尔可夫链模型的预测方法3鄄4、贝叶斯分类5引入注意力机制的
9、长短时记忆网络预测模型6、二元 Logit 选择模型7鄄8等.综合现有研究可知,轨道交通接驳共享单车需求预测的研究主要关注于预测模型的比选.此类研究通常采用传统的线性回归预测和时间序列预测作为起点,转变为数据驱动型预测方法.然而,目前的研究多采用单一预测方法,而对于组合模型的精度比较研究仍有提升空间.针对轨道交通站点接驳共享单车停车分类研究,研究人员通常关注轨道交通站点的功能定位和停车需求特征.轨道交通站点是城市公共交通布局的核心,随着地铁物业的发展,使其成为城市集聚关键点9鄄10.CERVERO11鄄13聚焦于香港地铁,站点被聚为 5 类,计算了地体规模开发强度及混合度均值.其他研究,针对不
10、同区位14、不同交通功能15将轨道交通站点划分为不同类别.但是,由于轨道站点分类有差异,致使接驳的共享单车停放需求特征差异,产生不同类型站点配合停车设施规模不同的结果.值得注意的是,目前很少有研究考虑到不同类型的轨道交通站点对共享单车停车规模的影响,这导致共享单车在城市轨道交通站点周围的投放显得无序.因此,为了合理配置共享单车停车设施,需要进一步研究不同类型轨道交通站点的停车需求特征和对共享单车停车设施规模的影响.基于上述分析,本文以 K鄄means 聚类算法进行分析,将分时段共享单车借还量作为变量,构建随机森林和套索回归算法下城市轨道站点周边共享单车需求预测模型,最终对比不同算法下需求预测结
11、果,为后续研究起到参考价值.1摇 城市轨道站点 K鄄means 聚类方法1郾 1摇 城市轨道站点 K鄄means 聚类算法步骤1)选择 K 个聚类中心;2)计算各站点到聚类中心的间距,以距离作为条件进行分配;3)更新每个簇的聚类中心,如果变化则重新进行分配,直到收敛;4)输出聚类结果.在开始之前,需要选择合适的距离度量方法和目标函数来计算聚类质心.计算误差平方和:SSE=移ki=1移x沂Ci椰x-滋i椰22(1)滋i=1|Ci|移x沂Cix(2)式中,SSE 为误差平方和;k 为聚类簇的数量;Ci为第 i 个簇;x 为样本数据;滋i为第 i 个簇 Ci的聚类中心(质心).1郾 2摇 K鄄mea
12、ns 聚类簇数估计在轨道交通站点 K鄄means 分析中,多利用站点周围土地利用维度、时间空间维度、商业经济维度.然而,这些变量对于共享单车连接站点需求差异的解释并不直观.因此,本文利用站点周边分时段共享单车借还量作为变量.轮廓系数(Sihouette Coefficient)用来评估聚类簇离散程度.当轮廓系数值离 1 近时,即效果越好,密集度越高;当轮廓系数值越接近-1 时,即分离度高,结果不合理;轮廓系数计算见式(3):SC(i)=1-aibi,ai bi或 SC(i)=bi-aimax(ai,bi)(3)式中,ai为样本点 i 的簇内不相似度;bi为样本点i 的簇外分散度;i 为样本数.
13、如图 1 所示,聚类簇数为 5 时,轮廓系数的值为 0郾 856,为聚类结果中最接近 1 的簇数,故本文将轨道交通站点类型划分为 5 类,为了达到最好的结果.2摇 城市轨道站点周边共享单车需求预测方法2郾 1摇 随机森林算法随机森林是机器学习中的分支集成学习算法17鄄19,即训练时从原始数据集 N 里面,有放有回的抽取样本,从而得到训练集,但这样会导致 1 个样本可能会重复出现.根据统计学理论,当 n 足够大时,1 个样本不会被取到的概率约为 0郾 368.limn寅(肄1-1)nn圯1e抑0郾 368(4)38交摇 通摇 工摇 程2023 年图 1摇 轮廓系数确定聚类簇数摇本文对 m 个结果
14、计算算术平均值,从而得到弱学习器最终结果.即 Bagging 集成算法,它通过将多个模型的预测结果进行平均或投票等方式计算结果.如图 2 所示.图 2摇 集成学习示意图摇随机森林算法如图 3 所示.2郾 2摇 套索回归算法套索回归是由 Robert Tibshirani 提出的线性回归方法.给定数据集 D=(x1,y1),(x2,y2),(xm,ym).线性回归模型优化函数为:L=椰y-X兹椰22(5)式中,兹 为函数的回归系数;y 为预测值;L 为线性回归优化函数;x 为样本数据.为了缓解函数过拟合,本文采用套索回归模型正则化范数 L1,从而式(5)变为:L=椰y-X兹椰22+琢E椰兹椰(6
15、)3摇 实例分析3郾 1摇 数据来源2017 年由共享单车与电动车停放研究表明,2017 年北京地区摩拜共享单车的投放量占总量的40%,具有相对的代表性.故本文数据使用 2017 年摩拜单车在北京地区数据.同时为了进行轨道站点接驳共享单车分布解析,笔者提前对数据进行筛选和清洗,留下合理的数据集.3郾 2摇 城市轨道站点 K鄄means 聚类空间分布与结果3郾 2郾 1摇 K鄄means 聚类结果分布通过计算轮廓指标系数,确定了最佳的聚类簇数为 5,并使用 Python 程序实现了 K鄄means 算法,并获得了 5 类轨道站点的聚类结果.根据聚类结果,轨道站点类型被分别记为类型 1 5,分布情
16、况如图 4 所示.站点类型的具体统计如表 1 所示.3郾 2郾 2摇 K鄄means 聚类结果分析本节根据前文的聚类结果,得到五大类站点的共享单车借还状况.通过标准化处理不同时段共享单车借还量,进而利用借还时间变化图清晰展示借还特征.结果见表 2.摇 摇 由表 2 可知,类型 2 早高峰借车率最低、晚高峰借车率最高,类型 3 早高峰还车率最低、晚高峰借车率最高.相反,类型 2 晚高峰最低,类型 3 早高峰借车率最高,晚高峰借车率最低.摇 摇 见图5,结合不同类型轨道站点共享单车借还48摇 第 5 期胡雅群,等:基于 K鄄means 聚类的城市轨道站点周边共享单车需求预测方法研究图 3摇 随机森
17、林算法示意图摇表 1摇 站点类型数量及图像表示站点类型类型数量图形表示站点特征类型 1106居住就业混合类型 213居住型类型 314就业型类型 449居住就业商业混合类型 584以居住为主的居住就业混合表 2摇 不同类别城市轨道站点周边早晚高峰共享自行车借还情况%站点类型早高峰借车量/每日借车量晚高峰借车量/每日借车量早高峰还车量/每日还车量晚高峰借车量/每日还车量类型 121郾 3215郾 9518郾 9717郾 41类型 211郾 3323郾 1014郾 9113郾 52类型 323郾 9413郾 7511郾 7119郾 76类型 416郾 6118郾 9717郾 7615郾 51类型
18、522郾 0815郾 7614郾 8218郾 5958交摇 通摇 工摇 程2023 年图 4摇 各类站点在北京城市轨道上的分布情况摇率分析得到对应类型:图 5摇 共享单车时均借还率时间变化图1)类型 1 从表中可看出,在早高峰时段,还车率略低于借车率.在晚高峰时段,借车率低于还车率.符合“居住就业混合型冶站点特征.2)类型 2 从表中可看出,在早高峰时段,该类型站点的还车率远高于借车率.在晚高峰时段,借车率远高于还车率.符合“居住型冶站点特征.3)类型 3 从表 2 中可看出,在早高峰时段,该类型站点的借车率远高于还车率.在晚高峰时段,该类型站点的还车率远高于借车率.符合“就业型冶站点特征.4
19、)类型 4 轨道交通站点在早高峰时段的借车量占全天借车总量的 16郾 61%,而在全天还车总量中,早高峰时段的还车量占 17郾 76%.符合“居住就业商业混合型冶站点特征.68摇 第 5 期胡雅群,等:基于 K鄄means 聚类的城市轨道站点周边共享单车需求预测方法研究5)类型 5 在早高峰时段,该类型站点在早高峰时段的借车率高于还车率.此外,在晚高峰时段内,还车率高于借车率.符合“以居住为主的居住就业混合型冶站点特征.3郾 3摇 算法对比下的轨道站点周边共享单车需求预测分析3郾 3郾 1摇 实验验证评价标准EV(解释方差):EV=1-Vary(yi-yi)Vary(yi)(7)图 6摇 随机
20、森林预测结果摇MAE(平均绝对误差):MAE=1m移mi=1|(yi-yi)|(8)MSE(均方误差):MSE=1m移mi=1(yi-yi)2(9)R2(决定系数):R2=1-移i(yi-yi)2移i(yi-yi)2(10)式中,m 为测试集数量;yi为测试集上的真实值;yi为测试集上的预测值;yi为实际的平均值.实验验证评价标准中 EV、R2的值接近1 代表预测效果越好,MSE、MAE 值越小代表预测精度越高.3郾 3郾 2摇 随机森林预测结果随机森林预测结果如图 6 所示.随机森林模型可对特征进行重要度评分,不同站点重要度如图 7.78交摇 通摇 工摇 程2023 年图 7摇 随机森林模型
21、指标重要性评估摇摇 摇 图 7 表示,类型 4 站点在午高峰期间具有较高的特征重要度,这与其自身的特性有关.不同类型摇 摇的站点受特征影响的程度也不尽相同.对随机森林模型结果进行评估.评估结果见表 3.表 3摇 随机森林预测结果评价随机森林EVMAEMSER2类型 10郾 922 32422郾 291 667615郾 791 6670郾 916 200类型 20郾 956 81826郾 708 333892郾 791 6670郾 955 552类型 30郾 986 94220郾 791 667584郾 791 6670郾 986 264类型 40郾 560 79023郾 375 000787郾
22、 958 3330郾 499 945类型 50郾 834 93319郾 791 667593郾 208 3330郾 831 3673郾 3郾 3摇 套索回归预测结果套索回归预测效果对比结果如图 8 所示.套索回归训练结果如图 9 所示.根据图 9,在套索回归模型中,站点小时共享单车使用情况影响最大.结果见表 4.综上所述,随机森林模型在预测类型 1、2、3、5 站点上预测精度优于套索回归模型.套索回归模型在类型 4 预测结果优于随机森林模型.4摇 结束语建立精度更高的组合模型,本文旨在提供共享单车在不同类型轨道交通站点周边的使用情况,并比较了在不同类型轨道站点周围需求预测中随机森林和套索回归
23、2 种算法的精度,为后续轨道站点和轨道站点周围停车设施的规划和建设提供参考价值.88摇 第 5 期胡雅群,等:基于 K鄄means 聚类的城市轨道站点周边共享单车需求预测方法研究图 8摇 套索回归预测结果摇表 4摇 套索回归模型预测结果评价套索EVMAEMSER2类型 10郾 899 93324郾 583 333791郾 583 3330郾 892 278类型 20郾 949 28027郾 708 3331 027郾 541 6670郾 948 844类型 30郾 984 57122郾 250 000664郾 416 6670郾 984 393类型 40郾 627 97119郾 083 333
24、597郾 333 3330郾 620 920类型 50郾 845 57722郾 833 333630郾 333 3330郾 820 813摇 摇 本文利用共享单车借还量为聚类变量,聚为5 类站点.这些类别分别对应特征:类型 1 5 分别为居住就业混合型、居住型、就业型、居住就业商业混合型、以居住为主的居住就业混合型.进而使用随机森林和套索回归 2 种算法构建需求预测模型,对 5 类站点计算其结果.进而利用 EV、MAE、MSE和 R2评估预测结果.结果表明,除类型4 以外站点,随机森林模型预测结果中表现最好.参考文献:1 2017 年共享单车与城市发展白皮书R.2017.2Zilu Kang,
25、Yuting Zuo,Zhibin Huang,Feng Zhou,Penghui Chen.Research on the Forecast of Shared BicycleRentalDemandBasedonSparkMachineLearning98交摇 通摇 工摇 程2023 年图 9摇 套索回归模型指标重要性评估摇FrameworkC.2017 16th International Symposium onDistributed ComputingandApplicationstoBusiness,Engineering and Science.3 Vogel P,Mattfel
26、d D C.Strategic and Operational Planning ofBike鄄Sharing Systems by Data Mining鄄A Case Study J.Computational Logistics,2011(1):127鄄141.4 Zhou Y,Wang L,Rong Z,et al.A Markov Chain BasedDemand Prediction Model for Stations in Bike SharingSystems J.Mathematical Problems in Engineering,2018,2018:1鄄8.5 Ca
27、gliero L,Cerquitelli T,Chiusano S,et al.Predictingcritical conditionsinbicyclesharingsystems J.Computing,2017,99(1):1鄄19.6 许淼,刘宏飞,初凯.基于 AM鄄LSTM 模型的共享单车时空需求预测J.湖南大学学报(自然科学版),2020,47(12):77鄄85.7 吴志周,范宇杰,陶佳,等.城市轨道交通公共自行车换乘需求预测方法研究J.武汉理工大学学报交通科学与工程版,2013,37(5):919鄄923.8 曾小明.城市轨道交通与公共自行车换乘需求分析 以广佛地铁(佛山段)
28、为例J.交通与运输:学术版,2014(z1):158鄄162.9 傅搏峰,吴娇蓉,陈小鸿.郊区轨道站点分类方法研究J.铁道学报,2008,30(6):19鄄23.10 贺鑫,李科.基于聚类分析法的城市轨道交通站点分类J.信息通信,2015(7):36鄄37.11 Cervero R,Duncan M.Residential self selection and railcom鄄muting:a nested logit analysis J.University ofCalifornia Trans鄄portation Center,Berkeley,2002:604.12 Cervero R
29、,Jin M.Rail+property development:Amodel ofsustainable transit finance and urbanism J.2008:21,37.13 Michael Kuby and Anthony Barranda and ChristopherUpchurch.Factors influencing light鄄rail station boardingsin the United StatesJ.Transportation Research Part A,2003,38(3):223鄄247.14 覃矞.轨道交通枢纽规划与设计理论研究D,
30、上海:同济大学,2002.15 陈丽君.城市轨道交通站点功能定位方法研究D.南京:东南大学,2009.(下转第 98 页)09交摇 通摇 工摇 程2023 年modelingsharedautonomousvehicleswithdynamicnetwork鄄loading and dynamic ride鄄sharing applicationJ.Computers Environment&Urban Systems,2017.3 Knox J.REPORT:95%of U.S.car miles will be traveledin self鄄driving,electric,shared
31、 vehicles by 2030 J.Automotive Industries AI,2017,197(5).4 Chen T D,Kockelman K M,Hanna J P.Operations of ashared,autonomous,electric vehicle fleet:Implications ofvehicle&charginginfrastructuredecisions J.Transportation Research Part A Policy and Practice,2016,94(9):243鄄254.5 Krueger R,Rashidi T H,R
32、ose J M.Preferences for sharedautonomous vehiclesJ.Transportation Research Part CEmerging Technologies,2016,69(8):343鄄355.6 Psaraftis,Harilaos N.Analysis of an O(N2)heuristic forthe single vehicle many鄄to鄄many Euclidean dial鄄a鄄rideproblem J.TransportationResearchPartB:Methodological,1983,17(2):133鄄1
33、45.7 Nourinejad M,Roorda M J.Agent based model fordynamic ridesharingJ.Transportation Research Part C,2016,64(3):117鄄132.8 Galland S,Knapen L,Yasar A U H,et al.Multi鄄agentsimulation of individual mobility behavior in carpoolingJ.Transportation Research Part C Emerging Technologies,2014,45(9):83鄄98.9
34、 邵增珍,王洪国,刘弘,等.多车辆合乘问题的两阶段聚类启发式优化算法J.计算机研究与发展,2013,50(11):2325鄄2335.10 H覿me L.An adaptive insertion algorithm for the single鄄vehicle dial鄄a鄄ride problem with narrow time windowsJ.European Journal of Operational Research,2011,209(1):11鄄22.11 宋程.我国三大城市圈主要城市居民出行特征比较分析J.交通与运输,2010(1):6鄄9.12 王殿海,叶盈,朱文韬,等.
35、基于条件价值法的公交车内拥挤成本测算模型J.吉林大学学报(工学版),2016,46(1):57鄄62.13 邵春福.交通规划原理M.北京:中国铁道出版社,2004.14 蒋华伟,郭陶,杨震.车辆路径问题研究进展J.电子学报,2022,50(2):480鄄492.15 曾超,崔子豪.基于改进 Dijkstra 算法的水平循环类立体车库存取车辆路径优化模型J/OL.重庆交通大学学报(自然科学版):1鄄62022鄄07鄄03.http:椅 90 页)16 王学贺.一种基于改进微粒群和轮廓系数的划分聚类方法J.云南民族大学学报:自然科学版,2016,25(4):367鄄371.17 Smith A,S
36、terba鄄Boatwright B,Mott J.Novel Application ofa Statistical Technique,Random Forests,in a BacterialSource Tracking StudyJ.Water Research,2010,44(14).18 Lee S L A,Kouzania A Z,Hu E J.Random Forest BasedLung Nodule Classification Aided by Clustering J.Computerized Medical Imaging and Graphics,2010,34(7).19 Pan S J,Yang Q.A Survey on Transfer Learning J.IEEE Transactions on Knowledge and Data Engineering,2010,22(10):1345鄄1359.20 Candes,E.and Tao,T.The Dantzig selector:statisticalestimation when p is much larer than nJ.Annals ofStatistics,2007,35,2313鄄2351.89