1、交通信息与安全2023 年3 期第 41卷总 244期基于ADASYN-XGBoost的交通事故自动检测方法*陈俊宇1李金龙1许伦辉1,2吴攀1林永杰1(1.华南理工大学土木与交通学院广州 510641;2.广东科技学院计算机学院广东 东莞 510812)摘要:基于数据驱动的交通事故自动检测对道路事故的及时救援与降低事故影响具有重要作用。为解决道路交通事故自动检测中的样本不均衡问题,研究了混合自适应过采样技术与极限梯度提升树算法的交通事故自动检测方法(ADASYN-XGBoost)。其中,为从不均衡的交通事故样本中有效挖掘数据的时空特征与事故发生之间的内在关联规律,构建了初始特征变量组合,引入
2、自适应合成过采样方法(adaptive synthetic oversam-pling method,ADASYN)来平衡事故类与非事故类的样本数量,以增强训练数据的质量;其次,为提高检测效果,构建了基于XGBoost的交通事故检测模型,利用该模型对增强后的数据样本进行特征筛选;最后,为获取最佳参数组合,采用了贝叶斯优化算法对XGBoost进行参数的快速标定。本文使用波特兰高速公路数据集对ADASYN-XGBoost方法进行模型验证与实证研究。结果表明:与先进的基准模型相比,ADASYN-XGBoost的各项检测指标均最优,其F1分数达到94.47%且误检率低至8.95%。在模型训练样本数为2
3、800,500(18%的初始样本量),150(5%的初始样本量)时,ADASYN-XGBoost的F1分数分别为94.47%,88.89%,81.93%。在进一步的消融实验中,均衡正负样本后各基准模型的性能指标提高了2.68%44.85%。本文提出的方法能够有效解决道路交通事故检测中的样本不均衡问题,同时也为道路交通安全预防与事故处理等提供了技术保障。关键词:智能交通;交通事故自动检测;样本不均衡;自适应过采样技术;极限梯度提升树算法中图分类号:U491.3文献标识码:Adoi:10.3963/j.jssn.1674-4861.2023.03.002An Automatic Detection
4、 Method for Traffic Accidents Based onADASYN-XGBoostCHEN Junyu1LI Jinlong1XU Lunhui1,2WU Pan1LIN Yongjie1(1.School of Civil Engineering and Transportation,South China University of Technology,Guangzhou 510641,China;2.ITAcademy,Guangdong University of Science and Technology,Dongguan 510812,Guangdong,
5、China)Abstract:A data-driven approach for automatic detection of road traffic accidents plays an important role in timelyrescue and reducing the impact of road accidents.In order to solve the sample imbalance problem in automatic de-tection of traffic accidents a hybrid adaptive oversampling techniq
6、ue and extreme gradient boosting tree algorithm(ADASYN-XGBoost)is studied.In particular,to effectively mine the intrinsic correlation law between spatio-tem-poral feature of the data and accident occurrence form the unbalanced traffic accident samples.The initial combina-tions of feature variable ar
7、e set.And to improve the quality of the training data,the adaptive synthetic oversamplingmethod(ADASYN)is introduced to balance the number of samples between the accident class and the non-accidentclass.To improving the detection effect,a traffic accident detection model based on extreme gradient bo
8、osting(XG-Boost)is developed,which is utilized to filter the features of the enhanced data samples.Finally,to obtain the best收稿日期:2022-09-22*国家自然科学基金项目(52072130)资助第一作者简介:陈俊宇(1997),硕士研究生.研究方向:交通安全与数据挖掘.E-mail: 通信作者:李金龙(1993),博士研究生.研究方向:时空数据建模与交通信号控制.E-mail:120引言随着城市人口和城市化活动迅速增加,道路交通事故发生的比率显著上升,诱发的交通拥
9、堵现象在城市路网内蔓延,极大地干扰了正常的交通活动。先进的交通检测设备为智能交通系统(intelli-gent transportation system,ITS)提供了如流量、速度与密度等海量的交通数据,也为交通事故检测及事故处理提供了支持1。但在ITS建立初期,数据量不足的问题难以避免,因此迫切需要1个能解决小样本学习问题的方法。随着时间增长,数据量越来越大,若更换模型,必将增加成本。1个能解决小样本问题且适应不同规模数据的检测方法,能有效进行交通事故检测,为交通管理者制定合理的预防与应对措施提供精准的数据支持。同时,在大数据背景下,有效的交通事故检测还能为事发点上游驾驶人提供及时信息,并
10、告知车辆及时绕道,避免加剧拥堵,维持城市路网的正常运行。目前,交通事故自动检测方法可分为4类:基于阈值的传统方法、基于概率的统计学习方法、基于分类的机器学习方法和集成学习方法。其中,传统方法如加利福尼亚算法(california algorithm,CA)2通过判断特征参数是否超过规定阈值来判定异常交通事故的发生。当选取特征变量的检测值超过设定阈值时,算法将样本判定为交通事故并发出警报。例如,李红伟等3提出基于突变强度的检测方法,该方法通过分析交通事故下的流量、速度与占有率突变强度随时间的变化来判定事故是否发生;龙琼等4建立了基于尖点突变理论的城市道路交通流表征模型,通过检测表征事故的离群点来
11、完成交通事故的检测。上述基于突变理论的检测方法通过交通流序列中的突变特征是否超过规定阈值来判定交通事故是否发生,但未对突变的空间分布特征进行深入分析。尹春娥等5基于小波方程建立了高速公路交通事故检测模型,该模型基于交通流突变特征,提出阈值检测自适应策略,从而提高了交通事故平均检测率。然而,该类方法由于阈值设置复杂,可移植性较差,导致检测效果不佳。统计学习方法如偏最小二乘回归6通过对历史数据的时空特征进行统计,获得正常与异常交通运行参数先验分布,并以此计算当前交通状态异常的条件概率,从而判定交通事故是否发生。该类方法严重依赖历史数据的先验分布,对不同的交通场景泛化能力较差,且需要手动进行模型参数
12、的调整和更新。基于机器学习的交通事故检测方法选取流量和速度等基本交通参数作为分类模型的输入,利用异常和正常状态的交通参数训练分类器。目前,多层前馈神经网络(multilayer perceptron,MLP)7-9、支持向量机(support vector machines,SVM)10等算法已被证明能实现交通事故的自动检测。集成学习方法通过构建多个基本学习模型来完成预定任务。大量研究结果表明,该方法在分类与回归等问题上表现优异。例如,Liu等11通过集成SVM和K近邻算法(k-nearest neighbor,KNN)来提高分类器的鲁棒性。贝叶斯分类器12和随机森林(random fores
13、t,RF)13-14在交通事故检测中也有较好的表现。然而,针对道路交通事故检测中的少样本或样本不平衡问题,上述方法难以达到令人满意的效果。Parsa等15采用过采样算法(synthetic minori-ty over-sampling technique,SMOTE)16解决样本不均衡问题。结果证明:与SVM和概率神经网络(proba-bilistic neural networks,PNN)相比,通过SMOTE均衡样本后 PNN 比 SVM 具有更高的检测率。XIE等17对少数类样本进行过采样后,利用RF算法进行combination of parameters,a Bayesian op
14、timization algorithm is used to quickly calibrate the parameters of XG-Boost.In this paper,the ADASYN-XGBoost method is validated and investigated using the Portland Freeway datas-et.The results show that ADASYN-XGBoost optimizes all detection metrics compared to the state-of-the-art bench-mark mode
15、l.TheF1score reaches 94.47%and the false detection rate is as low as 8.95%.TheF1scores ofADASYN-XGBoost are 94.47%,88.89%,and 81.93%when the number of model training samples are 2800,500(18%of the initial sample size),and 150(5%of the initial sample size).In further ablation experiments,the perfor-m
16、ance indexes of each benchmark model after equalizing positive and negative samples are improved by 2.68%to44.85%.The method proposed in this paper can effectively solve the sample imbalance problem in detection of roadtraffic accidents,which also provides technical support for road traffic safety p
17、revention and accident management.Keywords:intelligent transportation;automatic detection of road traffic accidents;sample imbalance;adaptive syn-thetic sampling technique;extreme gradient boosting tree algorithm基于ADASYN-XGBoost的交通事故自动检测方法陈俊宇李金龙许伦辉吴攀林永杰13交通信息与安全2023 年3 期第 41卷总 244期特征筛选,最终建立了 1 个随机子空
18、间 KNN(ran-dom subspace k-nearest neighbor,RSKNN)检 测 模型。然而,该研究仅适用于小样本数据集。综上所述,针对交通事故自动检测任务,现有研究同时存在如下问题:难以构造1组合理且全面的特征变量集;面对小样本和样本不均衡数据时,检测模型的性能不佳;面对不同规模的数据集时,检测模型的鲁棒性难以保证。为解决上述问题,本文融合极致梯度提升树算法(extreme gradient boosting,XGBoost)19,设计了基于 ADASYN-XGBoost 算法的交通事故检测方法。该方法首先综合考虑了交通流状态参数的时空特性,构造了57维特征来描述交通运
19、行状态的事故风险特性;然后,采用ADASYN对不均衡数据集中的少数类别进行扩充;并采用XGBoost对所构造的特征重要性进行排序;最后,将筛选的特征作为样本的最终特征,并使用XGBoost算法进行分类,判别是否为事故样本。本文提出的ADASYN-XGBoost方法能利用间隔20 s的检测器数据构造交通运行状态的时空特征,保证了实时检测;并通过数据增强自动均衡正负样本,有效提取时空特征中的异常风险信息,对道路异常状态进行准确判别。利用真实道路交通运行与事故数据对本文检测算法进行验证,并与其他先进的异常检测方法进行对比分析,从而证明ADASYN-XGBoost方法的有效性和优越性。1问题定义高速公
20、路交通事故风险建模需要采集目标时段内路段的复杂交通流的运行时空特征。在1条高速公路的部分路段(含2个运行方向),设有P个交通检测器,将路段划分为P/2-1段,以距离该高速公路起始点的里程表示它们的位置。按交通运行方向,选取事故发生地点所在路段相邻的2个检测器分为上游和下游检测器,其位置关系见图1。通过2个检测器采集及处理交通流运行参数特征,构造Xi=(xi1xi2xin;yi)为第i个样本,其中xij()j1n为该样本第j个特征,yi01为该样本标签值,0为该路段此时为正常状态,1为异常状态。交通事故检测方法可定义为:通过含有m个样本的训练集Dtr=(X1X2Xm)训练1个交通事故检测器f()
21、Xt,给定t时刻下的特征向量Xt,f()Xt能够自动捕捉Xt中的交通运行异常信息,判定检测器间的路段是否发生事故,yt01为标签值。图1交通事故与检测器的位置分布Fig.1Locationdistributionof trafficaccidentsanddetectors2基于ADASYN-XGBoost的交通事故自动检测方法2.1样本结构设计事故发生前,交通参数波动规律保持稳定。一旦发生交通事故,交通参数在短时间内发生剧烈变化。为合理且全面地表征交通流运行状态,本文根据如下3种思路提取交通流运行特征并设计样本结构。1)采取事故发生时刻所在检测器采样间隔前后1,2,3 min内,所在路段上下
22、游检测器的交通流参数如交通流量、交通速度和道路占有率共36个特征作为第1组特征,代表可能有事故发生的目标检测时刻前后短时间内的交通流运行特征。2)基于事故发生前实际测量数据可获得交通事故发生时的交通参数预测值,该值可以反映事故发生前几分钟交通参数变化的正常趋势。一旦发生事故,这种趋势会转变为异常状态。因此,本文构造事故发生时刻的交通参数值和预测所得交通参数值的差值来表征交通状态是否异常。在研究中,根据前3 min的检测器参数,采用移动评价法来预测事故发生时段内的正常交通参数,采集上、下游检测器的当前参数,将它们的差值作为第2组特征(共18个)。事故发生时,上、下游检测器采集的参数呈现明显差异性
23、,构造参数差值特征在一定程度上反映了事故造成的异常情况,这有助于及时检测事故,本文在这个部分构造了3个特征作为第3组。综上,每个样本由57个表征道路交通运行状态的特征构成,特征详细信息见表1。142.2基于ADASYN的样本均衡ADASYN18常用于机器学习分类任务,其主要思想是通过合成样本来自动将分类决策边界向困难的样本移动,以解决类别不平衡问题。本文利用ADASYN对原始训练集Dtr(事故与非事故样本比例不均衡)进行数据增强。主要计算过程如下。在包含m个样本xi=(xi1xi2xin;yi)的训练集Dtr中,(xi1xi2xin)包含了表1中的所有n个特征,yi-11是与xi对应的类别标签
24、,分别表示非事故与事故;将ms和ml分别定义为事故样本和非事故样本的数量。由此,msml且ms+ml=m。而对训练集Dtr,执行如下步骤。1)计算类别不均衡度。d=msml(1)式中:不均衡度d(01。2)当ddth时(dth是类别不平衡比率的预设阈值)。步骤1。计算每个事故样本需要合成的对应事故样本数量。G=(ml-ms)(2)式中:01为生成合成样本后制定所需平衡级别的参数。=1为操作后形成的1个完全平衡的数据集。步骤2。对于每个样本,根据n维空间中的欧式距离找到K个近邻样本,并计算xi的K近邻样本中非事故样本的占比ri。ri=DiKi=1.msri01(3)式中:Di为xi的K近邻中非事
25、故样本个数。步骤3。对ri进行标准化处理。ri=rii=1msri(4)步骤4。计算每个样本xi需要生成的合成事故样本的个数。gi=riG(5)步骤 5。根据 SMOTE 算法合成样本,SMOTE的计算见式(6)。si=xi+()xzi-xi(6)式中:()xzi-xi为n维空间中的差分向量;为随机数,满足01。2.3基于XGBoost的特征重要性计算本文共构造57个完整的特征变量来表述交通运行状态的异常风险,然而,大多数机器学习和统计模型难以处理高维数据20,需要通过有效方法从初始特征组筛选特征。再剔除一些冗余特征后,保留关键特征作为事故检测分类模型的输入。对于每个特征,计算XGBoost所
26、有树中该特征作为分裂节点存在时带来的增益的平均值,作为重要性的表征指标,计算见式(7)。表1样本初始特征变量集及表示方法Tab.1Initial feature variable set and its representation method特征变量时间事故发生1 min前事故发生2 min前事故发生3 min前事故发生1 min后事故发生2 min后事故发生3 min后事故发生时刻事故发生时刻事故发生时刻事故发生时刻位置上游检测器下游检测器上游检测器下游检测器上游检测器下游检测器上游检测器下游检测器上游检测器下游检测器上游检测器下游检测器上游检测器下游检测器上游检测器下游检测器上游、下游
27、上游检测器下游检测器参数交通流/交通速度/占有率交通流/交通速度/占有率交通流/交通速度/占有率交通流/交通速度/占有率交通流/交通速度/占有率交通流/交通速度/占有率交通流/交通速度/占有率交通流/交通速度/占有率交通流/交通速度/占有率交通流/交通速度/占有率交通流/交通速度/占有率交通流/交通速度/占有率交通流/交通速度/占有率交通流/交通速度/占有率交通流/交通速度/占有率预测值交通流/交通速度/占有率预测值交通流/交通速度/占有率的差值3参数预测值与检测值的差值3参数预测值与检测值的差值表示符号b1_up_vol/sped/ocupb1_dn_vol/sped/ocupb2_up_v
28、ol/sped/ocupb2_dn_vol/sped/ocupb3_up_vol/sped/ocupb3_dn_vol/sped/ocupb1_up_vol/sped/ocupa1_dn_vol/sped/ocupa2_up_vol/sped/ocupa2_dn_vol/sped/ocupa3_up_vol/sped/ocupa3_dn_vol/sped/ocupnow_up_vol/sped/ocupnow_dn_vol/sped/ocuppred_up_vol/sped/ocuppred_dn_vol/sped/ocupup_dn_vol/sped/ocupup_now_pred_vol/
29、sped/ocupdn_now_pred_vol/sped/ocup序号1/2/34/5/67/8/910/11/1213/14/1516/17/1819/20/2122/23/2425/26/2728/29/3031/32/3334/35/3637/38/3940/41/4243/44/4546/47/4849/50/5152/53/5455/56/57基于ADASYN-XGBoost的交通事故自动检测方法陈俊宇李金龙许伦辉吴攀林永杰15交通信息与安全2023 年3 期第 41卷总 244期式中:k为树中某结点;T为所有树的数量;N(t)为第t棵树的非叶子节点数量;(tj)为第t棵树第j个非
30、叶子节点的划分特征;I()为指示函数;G(tj)和H(tj)分别为落在第t棵树第j个非叶子节点上所有样本的一阶导数和二阶导数的和;G(tjL)和G(tjR)分别为落在第t棵树第j个非叶子节点的左右节点上的一阶导数的和;H(tjL)和H(tjR)分别为落在第t棵树第j个非叶子节点的左右节点上的二阶导数的和;为正则化参数。按照式(7)计算所有特征的重要性,并依此对特征进行排序,筛选前N个特征作为下游交通事故检测模型的输入,N157的大小将在实验中确定。由此,得到了特征筛选后的训练集D。2.4基于XGBoost的交通事故自动检测模型XGBoost通过串联多个弱学习器(回归树)获得比单个弱学习器更好的
31、预测性能。在XGBoost训练过程中,第1个弱学习器拟合样本数据,而后每个弱学习器拟合前1个弱学习器拟合的误差,以提高模型在各种分类与回归任务的预测精度。基于数据增强与特征筛选后的训练集D,构建基于XGBoost的交通事故检测模型,模型的目标函数见式(8)。obj()t=il()yiFt-1()xi+ft()xi+()ft(8)式中:xi为第i个输入样本,包含N个特征;yi为第i个样本对应的标签,即标注该样本为事故样本或非事故样本。obj()t为计算前第t-1棵树的预测结果Ft-1()xi加上第t棵树的预测结果ft()xi与真实值yi的损失函数l()yiFt-1()xi+ft()xi的和,再加
32、上对ft()xi的正则化项()ft的结果。值得注意的是,本文采用均方误差来定义损失函数。并加入正则化项()ft用于避免过拟合,见式(9)。()ft=T+12j=1T2j(9)式中:为正则化系数,用于控制树的个数T;为控制叶节点维度的正则化系数;j为第j个叶子节点的权重,2j为叶子节点值的L2范数。对损失函数l()yiFt-1()xi+ft()xi进行二阶泰勒展开,见公式(10)。obj()t iniIjgij+12iIjhi+2j+T(10)式中:gi=l()yiFt-1()xiFt-1()xi,hi=2l()yiFt-1()xiFt-1()xi,gi和hi分别为损失函数的一阶和二阶梯度。令目
33、标函数对j的导数为0,求解j的最优值*j和损失函数的最小值obj()t*。*j=-G2iH2i+(11)obj()t*=-12j=1TG2iH2i+T(12)式中:Gi=iIjgi为节点上所有样本的一阶导数的和,Hi=iIjhi为节点上所有样本的二阶导数的和。采用贪心策略寻找所有树结构中的最优结构。从根节点开始,每次对1个叶子节点进行分裂,针对每种可能分裂,根据分裂前后的目标函数最小值之差(Ggain)来选取最优的分裂,Ggain可表述为Ggain=G2LHL+G2RHR+-(GL+GR)2(HL+HR+)-(13)式中:GL和GR分别为左右叶子节点上所有样本的一阶导数的和;HL和HR分别为左
34、右叶子节点上所有样本的二阶导数的和。每次分裂,选取Ggain值最大的节点进行分裂,生成最优的树结构。当达到最大树深度或叶子节点中样本数小于特定阈值时,停止分裂。此时完成了树的完全生长,每个样本分类结果的误差最小,且能够避免过拟合当前样本中交通运行特征真实的发生交通事故的概率。当1棵树完成分裂时,下1棵树开始学习上1棵树的残差,直至最后1棵树完成分裂后,将所有树的预测值相加,得到最终的预测结果,即代表交通事故发生的概率值。至此,完成了整个交通事故自动检测模型的建模。V()k=12t=1Ti=1N(t)I()(tj)=k(G2(tjL)H2(tjL)+G2(tjR)H2(tjR)+-G2(tj)H
35、2(tj)+)t=1Ti=1N(t)I()(tj)=k(7)162.5基于ADASYN-XGBoost的交通事故自动检测方法图 2 展示了 ADASYN-XGBoost 交通事故自动检测方法的5个步骤。步骤1。定时采集道路交通检测器数据,获得目标采集间隔t内,前后1,2,3 min的交通流量、交通速度和道路占有率,并按2.1中方法构造样本。按照事故是否发生对样本进行标注,构造训练集与测试集。首先,根据事故时空信息匹配交通参数数据,构造事故样本;然后,在非事故时段随机采样,并按照同样方法构造非事故样本。步骤2。通过ADASYN生成合成样本并加入到训练集,以平衡训练集中的事故样本和非事故样本的比例
36、。步骤3。通过XGBoost的特征重要性计算获取步骤1中初始特征的重要性并排序,取最重要的前N个特征作为算法输入。步骤4。使用经过正负样本比例均衡、特征筛选后的训练集D训练基于XGBoost的交通事故自动检测模型,并采用贝叶斯方法搜索其最优超参数。步骤5。使用真实事故样本与非事故样本构造测试集并评估XGBoost。步骤步骤 1 1:时空匹配、特征变量构造衡数据集交通事故数据交通检测器数据真实非事故样真实事故样本真实+合成事故样本真实非事故样本步骤步骤 2 2:ADASYN 合成事故样本步骤步骤 3 3:基于 XGBoost 的特征重要性计算、排序及筛选步骤步骤 4 4:XGBoost 算法的训
37、练及参数优化步骤步骤 5 5:最终输出结果的评估根据样本训练弱学习器 F1根据 F1 预测结果计算残差 R1根据残差 R1 训练弱学习器 F2根据 F2 预测结果计算残差 R2根据残差 R2 训练弱学习器 F3根据残差 Rn-1 训练弱学习器 Rn强学习器 F不均衡数据集均衡数据集基于 ADASYN-XGBoost 的交通故事检测框架XGBoost 训练过程图2ADASYN-XGBoost交通事故检测框架Fig.2ADASYN-XGBoost automatictrafficaccidentdetectionframework3实验结果与分析3.1数据描述与处理实验数据采用波特兰州立大学联邦公
38、路管理局(FHW-A)的测试数据集项目 PORTAL。POR-TAL是波特兰市区的官方交通数据档案。在本研究中,使用了I-205公路环路2011年9月15日11月15日期间的数据。数据集由交通检测器记录数据集和交通事故数据集组成。交通检测器记录了I-205公路中南北向共18个检测站点以20 s为间隔采样的交通流量、交通速度、道路占有率;交通事故数据集来自 Oregon 冲突数据系统(Oregon statewide crashdata system),对每条事故记录了其152条原始属性,本文利用事故发生的具体时间和地理位置2项属性,将事故与对应检测器记录的交通运行参数进行时空匹配。根据2.1中
39、所述方法构造样本,剔除存在缺失值的异常样本,最终共获得了207个事故样本,1 786个非事故样本。为有效地避免实验过程中的随机性和偶然性,准确评价模型的泛化性能,采用五折交叉验证测试模型的检测效果。五折交叉验证将数据集划分为5等份,每份数据含41个事故样本,357个非事故样本。按所划分的5份依次取第1份作为测试集,其他4份作为训练集,取5次训练结果的平均值作为该模基于ADASYN-XGBoost的交通事故自动检测方法陈俊宇李金龙许伦辉吴攀林永杰17交通信息与安全2023 年3 期第 41卷总 244期型的最终结果。3.2评价指标交通事故自动检测是1个异常检测任务,在机器学习中被划分为二分类任务
40、,本文采用精确度(accuracy,ACC)、误检率(false detection rate,FDR)、检测率(detection rate,DR)、准确率(precision)、马修斯相关系数(Matthews correlation coefficient,MCC)和F1分数作为ADASYN-XGBoost的性能指标。1)精确度(AACC)是分类任务中常见的评估指标,它反映了模型的整体检测精度,计算公式见式(14)。AACC=TP+TNTP+TN+FP+FN(14)式中:TP为将事故样本检测为事故样本的个数;FP为将非事故样本检测为事故样本的个数;FN为将事故样本检测为非事故样本的个数;
41、TN为将非事故样本检测为非事故样本的个数。2)误检率(FFDR)表示算法在一定时间内误检的事故次数与算法检测到的交通事故总数的比值,即FFDR=FPTN+FP(15)3)检测率(DDR)表示算法成功检测的事故次数与真实发生事故总数的比值,即DDR=TPTP+FN(16)4)准确率(Pprecision)表示算法检测的所有事故中,真实事故占总事故数的比值。Pprecision=TPTP+FP(17)5)F1分数表示准确率和检测率2项指标的调和平均值,其值在0之间,1表示性能最佳,见式(18)。F1=2PprecisionDDRPprecision+DDR(18)6)马修斯相关系数(MMCC)表示
42、分类任务中的综合指数。MMCC值位于-11之间,当其趋近于1时,算法表现趋好,否则表示模型输出结果与真实样本完全不相关。MMCC=TPTN-FPFN()TP+FP()TP+FN()TN+FP()TN+FN(19)3.3实验设计与结果分析为综合评价ADASYN-XGBoost的效果,本研究设计了2组实验。1)对比实验。为评估ADASYN-XGBoost的事故检测效果及应对不同训练样本量时的稳定性,对比 本 文 方 法 和 其 他 基 准 方 法(E-SVM-KNN11,FA-WRF13,SASYNO-RF-RSKNN17)的检测效果。2)消融实验。为评估ADASYN合成数据的合理性和有效性,对比
43、合成样本和原始样本的差异,并评估不同分类模型在均衡数据前后的效果;为评估 XGBoost 的有效性和优越性,对比经典分类算法逻辑回归(logistic regression,LR)、SVM、RF、RSKNN、反向传播神经网络(back propagation neu-ral network,BPNN)与XGBoost在6项评估指标上的效果;为评估XGBoost进行特征重要性计算、排序和筛选的重要性,对比了不同特征输入条件下XGBoost模型的效果变化。所涉及到模型的超参数设置见表2。表2超参数调优说明Tab.2Hyperparameter tuning instructions方法LRSVMR
44、FRSKNNBPNNE-SVM-KNNFA-WRFSASYNO-RF-RSKNNADASYN-XGBoost调优过程及结果LR模型无超参数核函数采用高斯核子估计器数量为100,有放回采样RSKNN 采用 100 个 K 近邻数为 5 的 KNN为基学习器,子空间最大采样率为1.0,采用有放回采样;KNN难以处理高维特征,每个样本仅使用前5个重要特征网络结构为搭配ReLU激活函数的2层神经网络,采用2个隐藏层单元数为30的线性层;采用交叉熵损失函数、Adam优化器、学习率0.01和200个epochsSVM采用高斯核函数;KNN近邻数为5因子分析(factor analysis,FA)提取7个特
45、征,WRF的子空间维度为3,子估计器数量为100RF 仅用于提取重要特征,无重要超参数RSKNN超参数设置同上通过贝叶斯方法进行超参数搜索,XGBoost的最优参数组合为:树最大深度为6,学习率为0.06,最小子叶权重为2.46,正则化系数(gam-ma)为0.125,子采样率(subsample)为0.79。面向小样本情形时,仅使用前8个重要特征3.3.1对比实验研究选取了具有代表性的几个基准方法进行对比实验,并分析了它们在不同样本数量下检测的效果。其中,E-SVM-KNN是1种融合SVM和KNN的集成方法,该方法首先单独训练SVM和KNN,然后采用投票机制选择 2 个分类器中最好的结果;F
46、A-WRF使用因子分析方法进行特征降维,然后将样本送入加权RF算法中进行分类,以取得较好的结果;SASYNO-RF-RSKNN首先采用SASYNO算法均衡样本,然后使用 RF 筛选重要特征,最后使用RSKNN对特征进行分类。RSKNN采用bagging思想在特征空间中随机采样特征并送入多个KNN分类器,取最好的分类结果作为最终输出。为保证公18平性,对各模型超参数进行了调优。图3展示了所有模型的最终实验结果。由图3可见:当训练样本数量为 2 800 时,本研究提出的ADASYN-XGBoost的平均准确率、检测率、误检率和精度分别达到了98.60%,91.05%,0.89%,98.95%,在相
47、同数据集中,6项指标均表现最优。原因在于本方法在上游特征工程中收集了完备的初始特征,捕捉到了异常事故状态下交通流参数时空变化的隐特征,为特征筛选提供了有效且充分的采样空间。同时,特征筛选为机器学习模型剔除了对分类结果影响低的特征,避免了分类器被噪声干扰;在下游,基于boosting思想的XGBoost模型在训练过程中能有效减少残差,从而提高预测精度;同时在目标函数中加入正则化项,使模型能够有效避免过拟合,从而提高了预测精度与泛化能力。相同方法在不同样本数量下的检测性能指标对比结果表明:ADASYN-XGBoost在训练样本数大小为2 800,500(18%的初始样本量),150(5%的初始样本
48、量)的F1分数分别为94.47%,88.89%,81.93%。当样本量仅有150时,ADASYN-XGBoost的准确率最高(97.14%),检测率(70.83%)高于 E-SVM-KNN(67.65%)和FA-WRF(58.97%),误检率(29.17%)仅高于SASYNO-RF-RSKNN(28.21%)。这表明,针对不同的样本数量,ADASYN-XGBoost不仅有较好的E-SVM-KNNFA-WRFSASYNO-RF-RSKNNADASYN-XGBoostE SVM-KNNFA-WRFSASYNORFRSKNNADASYNXGBoostE-SYM-KNNFA-WRFSASYNORF-R
49、SKNNADASYN-XGBoost1.00.80.60.40.20.01.00.80.60.40.20.01.00.80.60.40.20.05.36%样本量(150)17.86%样本量(500)100%样本量(2 800)0.969 90.957 30.969 90.962 40958 30958 30.965 50.971 40.676 50.589 70.717 90.708 30.323 50.410 30.282 10.291 70.791 10.733 10.818 00.811 30.793 10.730 20.823 50.819 30.969 80.977 40.982 5
50、0.979 90.965 50.955 60.965 50.969 70.717 90.735 30.794 10.820 50.282 10.264 70.205 90.179 50.818 00.847 10.882 70.881 60.823 50.847 50.885 20.888 90.985 00.987 50.982 40.989 50.971 40.975 00.955 60.986 00.871 80.852 90.895 80.910 50.128 20.147 10.104 20.089 50.912 30.917 30.915 40.941 00.918 90.920