收藏 分销(赏)

基于BO-FCM和PSO-XGBoost的城市快速路交通状态识别.pdf

上传人:自信****多点 文档编号:1985389 上传时间:2024-05-13 格式:PDF 页数:8 大小:2.61MB
下载 相关 举报
基于BO-FCM和PSO-XGBoost的城市快速路交通状态识别.pdf_第1页
第1页 / 共8页
基于BO-FCM和PSO-XGBoost的城市快速路交通状态识别.pdf_第2页
第2页 / 共8页
基于BO-FCM和PSO-XGBoost的城市快速路交通状态识别.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、交通运输研究第9卷 第4期2023收稿日期:2023-05-23基金项目:国家自然科学基金项目(41771478);北京市科技计划项目(Z121100000312101)第一作者:孙经伟(1999),男,江西赣州人,硕士研究生,研究方向为智能交通管理。E-mail:通信作者:谷远利(1973),男,辽宁海城人,博士,副教授,研究方向为交通规划、交通管理与控制及智能交通。E-mail:基于BO-FCM和PSO-XGBoost的城市快速路交通状态识别孙经伟,谷远利(北京交通大学 综合交通运输大数据应用技术交通运输行业重点实验室,北京 100044)摘要:为准确识别城市快速路交通拥堵状态,基于交通状

2、态识别的实时性和变化性,构建了一种基于贝 叶 斯 优 化 改 进 的 模 糊 C 均 值(Fuzzy C-Means,FCM)算 法 与 粒 子 群 优 化(Particle SwarmOptimization,PSO)-极度梯度提升树(eXtreme Gradient Boosting,XGBoost)相结合的交通状态识别模型。首先,考虑到FCM算法初始聚类中心的随机性对聚类结果的影响,利用贝叶斯算法对FCM算法进行优化,以避免FCM算法陷入局部最优解;然后,针对XGBoost算法的参数过多且对参数敏感的问题,使用PSO对其重要参数进行优化;最后,采用已分类的交通流数据对PSO-XGBoos

3、t模型进行训练,并采用北京市三环快速路的交通流数据对模型进行实例验证和性能对比分析。结果表明,所建模型能较准确和稳定地识别交通状态,识别准确率达 99.94%,相比于支持向量机(Support VectorMachine,SVM)模型、随机森林(Random Forest,RF)模型、K-近邻规则(K-Nearest Neighbor,KNN)模型分别提高1.23%,1.06%,1.57%,交通状态的识别精度和稳定性都得到有效提升,可为准确提供交通出行信息和缓解交通拥堵提供方法支撑。关键词:快速路;交通状态识别;XGBoost;贝叶斯优化;FCM;粒子群优化中图分类号:U491.1文献标识码:

4、A文章编号:2095-9931(2023)04-0064-08Traffic State Recognition on Urban Expressways Based onBO-FCM and PSO-XGBoostSUN Jingwei,GU Yuanli(Key Laboratory of Transport Industry of Big Data Application Technologies for Comprehensive Transport,Ministry of Transport,Beijing Jiaotong University,Beijing 100044,Chi

5、na)Abstract:In order to accurately identify the traffic congestion state of urban expressway,based on the real-time and variability of traffic state identification,a traffic state identification model based on the combina-交通运输研究TRANSPORT RESEARCH第9卷 第4期Vol.9No.4孙经伟,谷远利.基于BO-FCM和PSO-XGBoost的城市快速路交通状态

6、识别J.交通运输研究,2023,9(4):64-71.SUN J,GU Y.Traffic state recognition on urban expressways based on BO-FCM and PSO-XGBoostJ.Transport Research,2023,9(4):64-71.DOI:10.16503/ki.2095-9931.2023.04.00664TRANSPORT RESEARCHVol.9 No.4孙经伟,等:基于BO-FCM和PSO-XGBoost的城市快速路交通状态识别tion of the improved Fuzzy C-Means(FCM)alg

7、orithm of Bayesian Optimization and the XGBoost al-gorithm of Particle Swarm Optimization(PSO)was constructed.Firstly,considering the influence ofthe initial clustering center of the FCM algorithm to the cluster results,Bayesian algorithm was used tooptimize the FCM algorithm to avoid the results fa

8、lling into the local optimal solution.Then,consider-ing the problems of XGBoost algorithm with too many parameters and sensitivity to parameters,someimportant parameters were optimized using PSO.Finally,the PSO-XGBoost model was trained withthe classified traffic flow data,and the traffic flow data

9、of the Third Ring Road in Beijing was used forexample validation and performance comparison analysis of the model.The results show that the mod-el proposed can recognize the traffic state more accurately and stably,and the recognition accuracyreaches 99.94%,which is 1.23%,1.06%,and 1.57%higher than

10、that of the Support Vector Machine(SVM)model,Random Forest(RF)model,and K-Nearest Neighbor(KNN)model,respectively,andthe recognition accuracy and stability of the traffic state have been effectively improved,which canprovide a method to support the accurate provision of traffic and travel informatio

11、n and the improve-ment of traffic congestion.Key words:expressway;traffic status;XGBoost;Bayesian optimization;FCM;particle swarm op-timization0引言交通状态识别是智能交通管理和控制中的重要一环,通过实时、准确的交通状态识别可获得道路状态信息,据此诱导和控制交通,有助于缓解城市交通拥堵。因此,交通状态识别成为智能交通系统中重要的研究方向。目前,交通状态识别方法主要有聚类算法和有监督的机器学习两种。聚类算法具有良好的分类效果,能对交通流数据进行有效分类,同

12、时对交通状态识别的模糊性有较好的适应性。部分学者通过对聚类算法优化或结合其他算法对交通状态进行识别,如结合最优自编码器和K均值(K-means)聚类算法1、加权指数的模糊 C 均值(Fuzzy C-Means,FCM)算法2、投影寻踪动态聚类3、高斯混合模型聚类算法4等,从而实现对交通状态实时有效的判别。不过,聚类算法结果易受初始聚类中心随机选择的影响而陷入局部最优问题,从而导致交通状态识别结果的准确性和稳定性不高。有监督的机器学习算法具有良好的学习能力,可通过训练数据样本获得较高的分类精度,目前已经在交通状态识别领域得到广泛应用。如一些学者尝试使用 BP 神经网络(BackPropagati

13、on Neural Network,BPNN)5、随机森林算法6、融合多个机器学习模型7、遗传算法优化SVM8、K-近邻规则(K-Nearest Neighbor,KNN)9、贝叶斯算法10等来构造交通状态识别模型,并得到较好的识别结果。不过许多研究对机器学习算法的超参数取值会影响模型训练结果和拟合程度的问题考虑不足,使得模型识别结果未达到最优。近年来,将聚类算法和监督学习算法相结合的模型越来越多,如商强等11提出谱聚类算法和KNN 算法相结合的交通状态判别模型;常丽君等12提出优化后的FCM算法结合概率神经网络的交通状态识别方法。可以看出,聚类算法和监督学习算法相结合的效果较好,聚类算法为监

14、督学习提供了先验数据,监督学习算法则利用先验数据进行训练和测试,保证了交通状态识别结果的实时性。目前集成学习已经成为机器学习的重要组成部分,其通过结合多个学习器来获得优越的泛化能力,在分类问题上展现出明显优势13。极度梯度提升树(eXtreme Gradient Boosting,XGBoost)算法是集成学习中的重要算法,其收敛速度快,准确率高且不易过拟合,但XGBoost算法参数过多且对参数较为敏感,使得其应用较为复杂。为提高城市快速路交通状态识别的准确性,本文将利用贝叶斯优化算法快速确定FCM算法的最优初始聚类中心,并利用粒子群算法确定XG65交通运输研究第9卷 第4期2023Boost

15、算法的最优参数,结合交通状态识别的变化性,构建基于贝叶斯优化改进的FCM聚类算法与粒子群优化改进的XGBoost算法相结合的交通状态识别模型,并使用聚类分析后的交通数据对监督学习算法进行训练,提升交通状态识别的效率和稳定性,最后采用北京市三环快速路的交通数据对模型进行实例验证,并与其他方法进行性能对比分析。1模型构建本文主要通过对某一时刻的交通数据进行识别,来判断其所处的交通状态。首先对历史交通数据进行聚类分析并划分出不同的交通状态,得到先验信息,然后利用先验信息训练 PSO-XGBoost模型,在模型中对待识别交通数据进行测试,得到该交通数据所处的交通状态。1.1聚类分析模糊C均值算法是一种

16、经典的聚类算法,因其能提供灵活的聚类结果且适用于不同的数据类型而在众多模糊算法中应用最为广泛。本文利用FCM算法对交通流量、速度和道路占有率进行聚类分析,得到每个交通数据的状态标签,目的是实现被划分为同一聚类的样本数据对象间的最大相似性和不同聚类的样本数据对象间的最小相似性。通过对目标函数进行优化,获取每个样本对所有类中心的相似程度,即隶属度,进而对样本进行自动分类。目标函数14为:J=i=1nj=1cumijxi-cj2(1)式(1)中:J是目标函数;n是样本数;c是聚类中心个数;m是任何大于1的实数;xi是第i个样本点;uij是第i个样本点的第j个类中心的隶属度;cj是第j个类中心。FCM

17、算法初始聚类中心的随机性对聚类的结果影响很大,容易使算法陷入局部最优,造成聚类结果的准确度不高且运行时间较长,故需要优化FCM算法以解决算法局部收敛的问题。贝叶斯算法是一种运行速度快、稳定性良好的全局优化算法,其利用已搜索过的点的信息来提升搜索效率,减少迭代次数,进而快速获得最优解,可有效解决FCM算法问题。贝叶斯优化 FCM 算法(Bayesian Optimization,BO-FCM)的流程如下:1)初始化高斯回归模型(Gaussian ProcessRegression,GPR),采集函数 UCB(Upper Confidence Bound),确定最大迭代次数,定义目标函数Jm=f(

18、C)和聚类中心的参数空间。2)随机选取聚类中心点作为 BO 算法的初始值。3)拟合高斯回归模型,通过采集函数 UCB来计算优化结果,执行贝叶斯优化算法后得到聚类中心Ci,计算目标函数值Jm=f(Ci)。4)不断迭代直至达到最大迭代次数,输出历史最佳参数即聚类中心。5)将贝叶斯优化算法的结果代入FCM算法得到样本数据的聚类结果,完成交通状态划分。1.2PSO-XGBoost算法XGBoost 算法15属于 Boost 算法,其目标函数为:L()=il()yi,yi+()fk(2)()fk=T+12w2(3)式(2)式(3)中:L()为目标函数;l为单个样本的损失;yi为标签值;yi为预测输出;(

19、fk)为正则化项;fk为树模型;k为树的数量;为叶子树惩罚正则项;T为树叶子节点数;w为叶子权重值;为叶子权重惩罚正则项。XGBoost算法主要是在损失函数的基础上加入了正则化和采用缩减办法来防止过拟合,同时对目标函数进行泰勒展开,利用推导得到的表达式作为分裂准则来构建每一棵树。该算法能在避免过拟合的前提下对目标函数进行拟合,提升识别精度,具有较强的泛化能力,同时支持并行化处理,运行速度得以提高。XGBoost算法的缺点是参数过多,对参数敏感,因此算法的应用较为66TRANSPORT RESEARCHVol.9 No.4复杂。为了合理有效地选择算法的超参数,提高算法识别精度,使用收敛速度快、可

20、调整参数少、寻优能力强的粒子群优化算法(ParticleSwarm Optimization,PSO)对 XGBoost的参数进行优化。粒子群优化算法通过在一组无质量的粒子中对鸟类进行建模,所有粒子根据所寻求的个体极值和当前全局最优解来调整位置和速度,进而找到粒子群的全局最优解。PSO算法实现较为简单,不涉及复杂的神经网络模型且收敛速度较快。PSO-XGBoost算法流程如图1所示。根据图1,PSO-XGBoost算法的具体流程如下:1)定义 PSO 算法的参数,包括粒子群规模N、粒子维度D、迭代次数K、惯性权重,确定需要优化的超参数,同时设置每个参数的调节范围。2)随机初始化粒子群,通过评估

21、粒子的适应度值来对粒子和群体的全局最优位置进行比较,不断更新速度和位置,当达到最大迭代次数后结束粒子群算法流程,得到最优参数。3)将历史交通流数据的聚类结果分为训练集和测试集,对参数优化后的XGBoost模型进行训练和测试,实现交通状态识别。1.3交通状态识别模型本文利用贝叶斯优化后的FCM 算法对历史交通流数据进行状态划分,将聚类结果分为训练集和测试集,对PSO-XGBoost算法进行训练和测试验证,从而实现交通状态识别。完整的交通状态识别步骤如下:1)以交通流量、速度和道路占有率作为特征参数,进行交通状态划分。2)根据文献12,将城市交通状态划分为畅通、平稳、拥挤和拥堵4个等级,对应的标签

22、编号为0,1,2,3。使用BO-FCM模型对交通流数据进行聚类分析并获得实验数据的交通状态标签。3)将已经划分交通状态的特征变量数据按4 1分为训练数据和测试数据,其中训练集的输入为所选取的3个特征参数,输出为相应的交通状态。4)使用训练集数据对 PSO-XGBoost 模型进行训练,然后利用测试数据对训练后的模型进行验证测试,对模型性能进行评价。2实例验证2.1数据处理采用北京市西三环快速路的交通流数据进行交通状态识别实验和模型测试。选取西三环航天桥南紫竹桥北作为实验路段,检测器分布如图2所示。采集 2014年 1月 6日2014年 1月 10日全天流量、速度和道路占有率数据,以2 min为

23、时间间隔,日交通数据序列个数为720个,数据缺失率不高于 5%,数据总量为 17 897条,能较好地展现交通流变化和交通流特性。在实验开始前,先对原始数据进行筛选,剔除缺失数据和异常数据,如北京市三环快速路的限速为80 km/h,因此删除速度为80 km/h以上的数据点,然后使用 Z-score 标准化方法将数据转换为正态分布,同时将Z-score值的绝对值小于3的数据点视为异常点,予以删除。将所有数据点绘制成箱线图,设置关键参数的范围和初始值初始化粒子的位置和速度开始获取XGBoost模型的各个参数值更新速度和位置,计算每个粒子的适应度更新每个粒子的个体历史最优适应值和位置更新群体历史最优适

24、应度值和位置是否满足结束条件YNN是否达到最大迭代次数输出模型评价效果结束计算模型的拟合值(目标函数值)训练XGBoost模型训练集导入验证集导入图1PSO-XGBoost算法流程图Y孙经伟,等:基于BO-FCM和PSO-XGBoost的城市快速路交通状态识别67交通运输研究第9卷 第4期2023如图3所示,可以看出3项交通流参数属性正常,异常点已剔除。以1月6日1月9日的数据为训练数据,1月10日的数据为测试数据,在Python平台进行模型实验。2.2基于BO-FCM的交通状态划分根据交通流中的速度、交通流量及道路占有率,将样本数据所处的交通状态划分为4类,分别是顺畅、平稳、拥挤、拥堵。确定

25、聚类数目为4,通过贝叶斯优化算法不断迭代300次得到FCM算法的初始聚类中心矩阵为:302.7353326143.826942 43179.76932561271.6661311555.299770 5497.62991359197.674309560.6830243362.4960062544.200 231762.8635439711.63808504基于以上初始聚类中心进行聚类,得到聚类结果如图 4所示。每类交通状态下的交通流量、速度和道路占有率的均值如表1所示。从表中可以看出,每种交通状态下的交通流量、速度和道路占有率都有较大差异,且4种交通状态都有较明显的规律。处于第0类交通状态下的

26、速度较大,但交通流量和道路占有率都很低,对应于顺畅的交通状态;第1类交通状态的速度较第0类下降,但交通流量和道路占有率有所提高,此时处于平稳状态;第2类和第3类的交通状态变化情况相同,对应于拥挤和拥堵状态。从顺畅到拥堵的交通状态变化过程中,可以看出速度在不断降低,而交通流量和道路占有率不断提高,算法优化后所得结果与实际交通流变化规律相同。表1交通流参数均值聚类编号0123交通状态顺畅平稳拥挤拥堵交通流量/(pcu/2 min)67.6240.7350.8452.4速度/(km/h)167.956.846.743.9道路占有率(%)2.314.726.636.8为验证聚类结果的准确性,以点位 3

27、 063的数据聚类结果为例,其2014年1月6日1月9日的交通状态变化情况如图 5 所示。可以看出,0:006:00,交通流处于顺畅状态;6:00之后车流量不断加大,出现早高峰,交通流状态从顺畅转流量(pcu/2 min)速度(km/h)占有率(%)6005004003002001000属性值图3样本数据箱线图图2检测器分布图60050040030020010008010203040607050速度/(km/h)流量/(pcu/2 min)6050403020100占有率(%)拥挤拥堵顺畅平衡图4聚类结果68TRANSPORT RESEARCHVol.9 No.4为拥堵;随后交通流状态不断波动

28、,晚高峰出现在 15:0018:00,此时交通状态又转变为拥堵,之后逐渐趋于平稳状态。模型得到的聚类结果和实际道路交通变化情况较为接近,BO-FCM模型能有效划分交通状态。2.3PSO-XGBoost模型交通状态识别实验中,选取6个对模型结果影响较大的参数对XGBoost算法进行优化,分别为影响模型稳定性的学习率,控制模型拟合程度的树的最大深度,最小叶子节点样本权重,随机采样比例,控制随机采样列数占比的使用的特征占比,影响模型损失函数值的节点分裂所需的最小损失函数下降值。设置各参数的变化范围,使用PSO算法进行寻优得到最佳模型参数,如表2所示。将优化得到的模型参数代入XGBoost中进行训练和

29、测试,使用 1 月 6 日1 月 9 日的数据作为训练数据,1月10日的数据作为测试数据。表2最优参数值参数名称学习率树的最大深度随机采样比例使用的特征占比最小叶子节点样本权重节点分裂所需的最小损失函数下降值变化范围0.010.23100.510.5111001默认值0.36.01.01.01.00最优值0.23.00.51.01.00.432.4模型性能整体评价为了明确本文模型的准确率和稳定性,将其与支持向量机(Support Vector Machine,SVM)模型、随机森林(Random Forest,RF)算法、K 最近邻算法进行对比分析。依据文献8,先将SVM模型中的RBF核函数设

30、置为21,惩罚系数设置为0.5,随机森林算法和K最近邻算法的参数值采用默认值,然后采用Python中的sklearn库建立和运行 SVM,RF,KNN 模型。本文模型和其他模型的交通状态识别混淆矩阵如图6所示,图中各行是实际交通状态,每列是预测交通状态,对角方格中的数表示每个交通状态识别正确的数量,如第1行第1列表示能正确识别为顺畅状态的数据有853个。由该图可知,本文算法在全部3 487个测试数据中,识别错误的数据只有2个,其识别出的状态和实际状态只相差1个交通状态类型,分别是将实际的平稳状态识别为顺畅状态和拥挤状态,模型的总体准确率达 99.94%,识别精度较0:003:006:009:0

31、012:0015:0018:0021:0024:00时间0:003:006:009:0012:0015:0018:0021:0024:00时间0:003:006:009:0012:0015:0018:0021:0024:00时间0:003:006:009:0012:0015:0018:0021:0024:00时间0123012301230123交通状态交通状态交通状态交通状态(a)1月6日(b)1月7日(c)1月8日(d)1月9日图51月6日1月9日交通状态变化孙经伟,等:基于BO-FCM和PSO-XGBoost的城市快速路交通状态识别69交通运输研究第9卷 第4期2023高,其他模型则多次出

32、现识别状态和实际状态相差2个类型的情况,这表明本文算法稳定性较好。本文算法与另外3种算法的识别结果如表3所示。从该表可知,本文模型的识别准确率比SVM,RF,KNN等常见模型分别提高了1.23%,1.06%,1.57%。表3不同方法的识别结果比较模型本文模型RFSVMKNN准确预测样本数/个3 4853 4483 4423 430错误预测样本数/个2394557准确率(%)99.9498.8898.7198.373结束语交通状态识别是城市智能交通的重要基础,为提高交通状态识别的准确率,本文结合聚类算法和监督学习算法的优势,提出一种基于贝叶斯优化的FCM算法和PSO-XGBoost算法相结合的快

33、速路交通状态识别模型,针对FCM算法易陷入局部最优和XGBoost算法参数复杂敏感的问题,对FCM算法的初始聚类中心和XGBoost算法的重要超参数两个方面进行优化,最后利用历史交通流数据对模型性能进行了测试和比较分析。结果表明,本文方法实现了对交通状态的精准识别,对比其他常见算法,不仅对交通状态识别的准确率更高,错判率更低,而且稳定性好,表明所建立的模型性能更优越,可为准确获取交通出行信息和改善交通拥堵提供方法支撑。本文在交通状态识别过程中未考虑聚类中心数量对识别结果的影响,在未来研究中将对不同聚类中心数量下不同道路的交通数据进行测试和模型性能分析。1 2001 00080060040020

34、001 2001 0008006004002001 2001 000800600400200预测状态(a)PSO-XGBoost模型预测状态(b)RF模型预测状态(c)SVM模型实际状态实际状态实际状态图6不同模型识别结果的混淆矩阵1 3266516238421 3286536248431 3426606308531 2001 000800600400200预测状态(d)KNN模型实际状态图6(续)1 32083965062170TRANSPORT RESEARCHVol.9 No.4参考文献1彭博,张媛媛,唐聚,等.基于自编码器与k-means聚类的视频交通状态自动识别J.公路交通科技,20

35、20,37(12):117-123.2吴启顺,蔡晓禹,蔡明.基于 FCM 快速路交通状态判别加权指数研究J.科学技术与工程,2017,17(6):289-295.3邴其春,龚勃文,杨兆升,等.基于投影寻踪动态聚类的快速路交通状态判别J.西南交通大学学报,2015,50(6):1164-1169.4黄艳国,张升升,刘红军.基于高斯混合模型聚类算法的交通状态划分J.现代电子技术,2022,45(7):168-173.5巫威眺,靳文舟,林培群.基于BP神经网络的道路交通状态判别方法研究J.交通信息与安全,2011,29(4):71-74,79.6高林,刘英,盛子豪.随机森林算法在交通状态判别中的应用

36、J.实验技术与管理,2017,34(4):43-46.7LI L,CHEN X,ZHANG L.Multimodel ensemblefor freeway traffic state estimationsJ.IEEE Trans-actionsonIntelligentTransportationSystems,2014,15(3):1323-1336.8李巧茹,郝恩强,陈亮,等.遗传算法优化支持向量机的城市交通状态识别J.重庆交通大学学报(自然科学版),2020,39(8):1-5,13.9刘擎超,蔡英凤,江浩斌,等.基于强空间集成的交通状态判别方法J.计算机工程,2017,43(11)

37、:297-302.10KYRIACOU V,ENGLEZOU Y,PANAYIOTOU CG,et al.Bayesian traffic state estimation using ex-tended floating car dataJ.IEEE Transactions onIntelligent Transportation Systems,2023,24(2):1518-1532.11商强,林赐云,杨兆升,等.基于谱聚类与RS-KNN的城市快速路交通状态判别J.华南理工大学学报(自然科学版),2017,45(6):52-58.12常丽君,郑黎黎,杨帆.基于(SAGA-FCM)-PN

38、N的交通状态判别方法研究J.交通信息与安全,2019,37(2):120-127.13GOMEZ S E,MARTINEZ B C,SANCHEZ-ES-GUEVILLAS A J,et al.Ensemble network trafficclassification:Algorithm comparison and novel en-semble scheme proposalJ.Computer Networks,2017,127:68-80.14BEZDEK J C,EHRLICH R,FULL W.FCM:Thefuzzy c-means clustering algorithmJ.Computers&Geosciences,1984,10(2):191-203.15王博文,王景升,吴恩重.面向不平衡数据集的SMOTENC-XGBoost 驾驶人交通安全评估模型J.科学技术与工程,2023,23(2):831-837.孙经伟,等:基于BO-FCM和PSO-XGBoost的城市快速路交通状态识别71

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服