基于数据分解和深度强化学习的交通流预测方法.pdf

资源描述

1、2023年第3期（总第12 4期）牡丹江师范学院学报（自然科学版）Journal of Mudanjiang Normal UniversityNo.3,2023Total No.124文章编号：10 0 3-6 18 0(2 0 2 3)0 3-0 0 2 8-0 7基于数据分解和深度强化学习的交通流预测方法刘嘉辉，杜金（哈尔滨理工大学计算机科学与技术学院，黑龙江哈尔滨150 0 8 0）摘要：提出一种基于数据分解和深度强化学习（DRL)的交通流预测框架。为了减轻不规则波动的影响，利用局部加权回归时间序列分解方法将数据分解为趋势分量、季节分量和剩余分量：趋势分量由门控循环单元（GRU)训练，

2、季节分量和剩余分量作为环境状态采用策略梯度算法和强化学习模型学习，根据门控循环单元网络的趋势预测结果，环境状态对预测结果进行及时调整：实验结果表明，本文提出的方法优于其他模型：关键词：交通流预测；强化学习；时间序列；策略梯度中图分类号TP391Traffic Flow Prediction Method Based on Data Decomposition文献标志码Aand Deep Reinforcement LearningLIU Jiahui,DU Jin(School of Computer Science and Technology,Harbin University of Sc

3、ience and Technology,Harbin 150080,China)Abstract:A traffic flow prediction framework based on data decomposition and deep reinforcement learning(DRL)is proposed.In order to mitigate the impact of irregular fluctua-tions,the time series decomposition method of local weighted regression is applied to

4、 de-compose data into trend component,seasonal component and residual component.Thetrend component is trained by gated recurrent unit(GRU),while the seasonal and residualcomponent are trained as environmental states by the strategy gradient algorithm and rein-forcement learning model,and the predict

5、ion results are timely adjusted according to thegated recurrent unit networks trend prediction results and environmental state.The exper-imental results show that the proposed method is superior to other models.Key words:traffic flow prediction;reinforcement learning;time series;strategy gradient收稿日

6、期：2 0 2 3-0 1-11基金项目：黑龙江省自然科学基金项目（LH2021F031）作者简介：刘嘉辉（197 4-），男，黑龙江哈尔滨人，教授，博士，主要从事人工智能、混沌理论及并行计算研究；杜金（1998-），男，辽宁葫芦岛人.硕士研究生，主要从事强化学习和时间序列预测研究，282023年随着经济发展，机动车辆数量迅速增加，导致交通拥挤、交通事故、环境污染等问题.准确预测未来交通流量的变化趋势是缓解交通问题的基础，交通流预测是智能交通系统的重要指标.基于深度学习的模型广泛用于交通流预测，然而对交通流数据的非平稳波动难以及时预测.随着强化学习(RL)在机器人控制领域的深人应用，一些人将强

7、化学习引人到预测过程中.其中一种基于半监督深度强化学习（DRL)的网络异常流量检测模型可以提高预测性能.此外，根据RL可以预测加密货币价格的变化.将网络流量预测问题建模为马尔可夫决策过程，通过蒙特卡罗Q学习预测网络流量，以满足所提出机制的实时要求.边缘云故障预测的自动概念漂移处理框架，利用RL选择最合适的漂移适应方法以及适应所需的数据量.对于数据集相对较小的领域，可以利用DRL技术构建一个基于时间的链接预测模型，使用相对较小的真实数据集进行训练.基于强化学习非线性时间序列智能预测模型可以将强化学习与隐马尔可夫模型相结合，强化学习运用统计方法，采用历史观测数据作为回报，优化模型参数，提高预测精度

8、.由于网络结构的复杂性和大量的网络参数，深度网络训练非常耗时，因此,DRL的学习效率有限.从近似策略迭代强化学习算法误差分析的角度，一种新的基于近似策略的加速算法被提出，以提高DRL的效率.DQN算法分析这三种神经网络的适应性，是可以获得能够更好预测结果的集成模型.代理人的日间行车灯决策过程通常不透明，一个自我监督的可解释框架可以发现可解释的特征，从而使非专家也能轻松理解RL代理.本文提出一种基于数据分解和深度强化学习的框架（简称D-DRL）.D-D RL的基本思想是利用对交通流数据的分解，提取季节因子以减轻季节波动的影响，利用DRL模型对分解后的交通流数据作预测.1相关工作交通流数据容易受天

9、气影响，如果出现极端天气，交通流量将急剧下降.为了减轻不规则波动的影响，提高交通流预测的性能，使用STL算法对交通流进行分解，对不规则波动信息进行分离.与其他分解过程相比,STL对数据中的异常值具有很强的鲁棒性，可生成健壮的分量子序列.分量序列的鲁棒性可以提高应用子序列预测的精度.STL算法是一个过滤过程，用于将时间序列分解为三个组成部分：趋势、季节和剩余分量.趋势分量代表长期低频变化，季节成分代表时间序列中周期频率的变化，残差部分表示原始时间序列减去趋势和季节的剩余结果.时间序列、趋势分量、季节分量和剩余分量分别用Yi,T,S,和R,表示.(1)STL由两个递归过程组成：嵌套在外部循环中的内

10、部循环，每次传递都包含一个更新季节成分的季节平滑，然后是更新趋势成分的趋势平滑.每一次外循环都由内循环组成.鲁棒性权重将在下一次内循环运行中使用，以减少瞬态、异常行为对趋势和季节成分的影响.假设进行内部循环的初始运行，获得残差、趋势和季节成分的估计值.表示为：(2)时间点t的鲁棒性权重表示为：P,=B(IR/h).式(3)中,B是双平方权重函数,h=6median（I R/l).GRU网络是专门为时间序列信号设计的，该网络是基于长短期记忆（LSTM)的改进网络模型.与LSTM相比，GRU有可以自动学习的特征，可有效对远距离相关信息建模，减少选通单元的数量，从而减少处理时间，保持准确性.它的可伸

11、缩性有利于构建更大的模型.GRU将LSTM模型的门控制信号减29刘嘉辉，等：基于数据分解和深度强化学习的交通流预测方法Y=T+S,+Rt,t-1,2,.N.R=Y,-T,-St.第3期(3)2023年少为两个门，即更新门和重置门.图1显示了GRU模型的总体结构ytGRRV文2图1GRU网络结构图图1中a1,2和c,是输入值，ho,hi和h,是存储在每个GRU网络中的状态，yi,y2和y,是GRU网络的输出.GRU神经网络是由多个神经单元模块组成的链模型.DeepQ-Network(DQN)可以训练AI代理使用未经处理的像素进行比人类玩家更好的Atari视频游戏.然而，虽然DQN解决了高维观测空

12、间的问题，但它只能处理离散和低维的动作空间，对于交通流预测任务，有连续的动作空间，不能直接应用.无模型方法DeepDPG(DDPG)将DQN与确定性策略梯度(DPG)算法相结合，可以在学习策略的同时处理连续的动作空间，再次保持超参数和网络结构不变.DDPG通常由一个代理以离散的时间步长与动态环境交互组成.在每个时间点t,代理都会收到一个状态st,采取一个动作a,并收到一个奖励ri,DDPG的目标是学习一项策略，该策略的目的是最大化未来折扣奖励的总和R.(4)式（4)中，表示范围从0 到1的折扣因子，用来度量当前奖励对未来奖励的重要性.动作价值函数描述了在状态s,下执行动作a,后以及随后遵循策略

13、后的预期回报，2基于数据分解和深度强化学习的交通流预测框架本文提出的基于数据分解和深度强化学习的交通流预测框架（D-DRL)见图2.牡丹江师范学院学报（自然科学版）y1y2R,=ZTi=(i-t)r(st,ai).第3期RhtV3趋势分量交通流数据STL分解图2 基于数据分解和深度强化学习的交通流预测框架利用STL算法将交通流数据分解为趋势分量、季节分量和剩余分量，以减轻不规则波动的影响.用GRU网络训练分解后的趋势分量，用GRU-DDPG网络训练季节分量和剩余分量.在GRU-DDPG网络30RU季节分量V剩余分量GRUV动作集GRU-DDPGExperiencepoolRewardCriti

14、cnetworkSamplingMinibatch预测结果2023年中，交通流数据、GRU网络和DDPG网络输出用于计算GRU-DDPG模型的奖励值.训练后将两个分支合并为一个输出，实现交通流预测.使用在Critic网络结合GRU网络的DDPG-GRU神经网络模型，通过在强化学习，使用深度确定性策略梯度方法与环境交互，构建强化学习中的代理模型，并将GRU网络添加到关键网络中进行改进.GRU-DDPG模型通过Actor网络根据环境状态输出动作，Critic网络通过参与者网络输出的动作和环境状态估计当前策略的价值，使用GRU网络了解关键网络中的状态，以增强对时序信息的感知.此外，Actor网络和C

15、ritic网络都有一个目标网络和一个在线网络.目标网络通过缓慢跟踪在线网络进行更新，以确保目标网络的稳定变化.在GRU-DDPG模型与环境的交互过程中,DDPG-GRU模型根据环境提供的状态选择动作输出，从环境中获取奖励和下一时刻的状态st+1和奖励rt，动作和行动信息下一时刻的状态存储在内存缓冲区中.通过从缓冲区中选择最小批量数据学习和更新参数.环境状态构建.利用STL算法对交通流时间序列Y,进行分解，得到交通流序列的趋势分量T、周期分量S,和剩余分量R.GRU网络用于预测分解得到的趋势序列T.由于代理在强化学习中所做的行动选择受到不断变化环境的影响，因此，代理被用来预测剩余的波动.强化学习

16、的状态包括交通流时间序列的剩余波动序列，即StateS,十R代理输出的动作不是直接的下次交通流，而是根据GRU网络对分解的趋势序列T趋势预测t之后的加减运算，即交通流时间序列的波动值.因此，agent动作定义为动作空间中的连续动作，动作空间是归一化后的波动范围,具体奖励函数为：(5)式（5)中，r,表示在时间上获得的奖励值，a,是代理在时间t上的动作值,t,是时间t上的趋势预测值，l,是与时间t相对应的交通流量值.为了让代理获得足够的经验来学习，在前k个回合给代理动作添加噪声，然后去除噪声，以便代理能够更加专注地提高预测准确性.由于交通流时间序列数据是一组连续的数据，因此，状态以时间顺序开始和

17、结束.为了学习更多经验，根据以下公式选择环境状态的开始和结束：(6)stateend=min(statestar+stepmar),statemar).(7)式（6）和式（7）中，statestar表示开始状态，random是一个随机函数，stateo是交通流时间序列的初始序列，statemar是交通流量时间序列的最后一个序列，stepmar是一个代理在单个回合时间内探索的最大步数.本文提出的D-DRL框架使用GRU-DDPG模型作为代理具体学习过程，如GRU-DDPG-DRL算法所示，每个训练过程包括五个步骤：Stepl:初始化关键网络、参与者网络和缓冲区R和参数k.Step2：循环并随机选

18、择开始位置开始探索.Step3：根据是否小于选择动作.Step4：计算奖励并存储转换信息.Step5：从缓冲区和更新网络中选择最小批量数据.算法1-GRU-DDPG-DRL算法描述如下：1:Initialize the Actor,critic,R and k刘嘉辉，等：基于数据分解和深度强化学习的交通流预测方法r=-la,+t-ll.statestari=random(stateo,statemar).第3期.312023年2:for epoch to MAX_EPOCH do3:Receive initial observation state4:for step to do5:if ep

19、och k:Select action by selector with exploration noiseelse:Select action only GRU-DDPG6:Receive from the environment7:Store transitions(st,at,rt,Si+1)from R8:Select min batch data from buffer9:Set y and update critic by minimizing the loss10:Update the actor networks using the policy gradient1l:Soft

20、 update process of the target networks12:end for,end for3实验结果与分析3.1数据集描述实验数据选自英国高速公路的交通数据集.采样间隔为15分钟，不考虑平日和周末的交通流量数据。经过归一化预处理后，将训练集和测试集按照4:1的比例进行划分.由于实验数据太多，因此，选取部分交通流数据绘制交通流数据曲线，以便直观地显示交通流的变化.图3显示了数据集的详细信息。可以看到交通流数据的最大值为50 0 左右，最小值为0 左右.整体具有周期性，但波峰与波谷处较为不平稳.3.2评价指标使用四个评估指标，即平均绝对误差（MAE）、均方根误差（RMSE）、

21、平均绝对百分比误差（MAPE）和决定系数（DF）来评估该模型的预测精度.MAE使用绝对误差描述实际值和预测值之间的平均偏差.RMSE是实际值和预计值之间残余误差的标准偏差，MAPE以平均绝对百分比衡量误差，MAE，RM SE和MAPE是与量表相关的指标.DF的取值范围为O1，用于衡量实际值与预测值之间的拟合优度.3.3数据集重构分析STL算法可以分解周期大于2 的任何时间序列、季节数据.时间序列可以通过较小周期的分解来平滑和过滤.为了测试分解周期对D-DRL算法的影响，绘制以分解频率为横坐标的MAE值的箱型图（图4）.可以看到，随着分解周期的增加，MAE值随之增加.分解频率在从3到4的过程中增

22、加最为明显.分解后的STL分解后的数据曲线如图5所示.观察到的是数据的原始曲线，趋势、季节和残差是STL分解的趋势项曲线、季节项曲线和残差项曲线.趋势曲线与原始曲线的趋势基本相同，在2 5，7 5个时间点附近达到峰值，在30，10 0 个时间点处达到低谷.曲线比原始曲线更平滑.剩余项在波峰附近剧烈波动，在波谷处平缓波动.从图6 中可以看到，强化学习中状态数据的acf值在0 和1处的变化很大，然后在0 左右上下波动.可以32牡丹江师范学院学报（自然科学版）第3期2023年看出状态数据不具有明显的趋势，大部分数据集中在0 附近，其余数据呈现以0 为中心并随着距离越远数据分布逐渐减少.500-400

23、-300200-100-005002500.50.5-0.5-250250图5基于STL的数据分解图3.4预测结果分析为了评价基于D-DRL的交通流预测模型的有效性，选择RDPG,BI-LSTM，T r a n s f o r m e r 以及STL-SVR进行对比.以RMSE，M A E，M A PE和DF作为实验的测量指标.表1显示了交通流预测比较方法的结果.与未使用STL时间序列分解的RDPG,BILSTM，T r a n s-former等模型相比,STL-SVR,STL-GRU,D-DRL等模型的RMSE,MAE,MAPE均小于单一模型,DF均大于单一模型，表明其预测均具有较高的准确

24、性.STL算法可以有效降低交通流数据中波动对预测结果的影响，其中D-DRL的RMSE，M A E，M A PE，D F值分别为5.7 6 6，4.130,0.0 31,0.998，表明通过结合深度学习与强化学习的方法，进一步提高了预测的准确性.总体而言,D-DRL的预测效果优RDPG,BI-LISTM,Transformer,STL-SVR和STL-GRU,表明D-DRL具有更好的预测性能.ModelRDPGBI-LSTMTransformerSTL-SVRSTL-GRUD-DRL刘嘉辉，等：基于数据分解和深度强化学习的交通流预测方法车流量56100200时间图3交通流数据曲线图2040时间R

25、MSE30.67530.23330.98615.7246.8265.766第3期16O1412-10-8-6-4-3004006080表1交通流预测预测结果比较表评价指标MAEMAPE21.4390.16720.4880.14521.8460.14910.9490.0825.3550.0564.1300.0318工7234500图4STL分解周期MAE值箱型图Autocirrelation1.00.80.60.40.2-0.0-0.2-0.4-100-0.6：FREQ1020图6状态数据acf图10304050DF0.9370.9390.9360.9830.9970.998332023年4结论

26、本文提出了D-DRL法，用于交通流预测.首先，为了减轻不规则波动的影响，使用STL算法将数据分解为趋势分量、季节分量和残差分量.趋势分量由GRU训练，季节分量和残差分量由GRU-DDPG模型添加、组合和训练.在GRU-DDPG网络中，将GRU网络添加到DDPG模型的关键网络中，可以使GRU-DDPG模型以矩阵的形式处理交通流的时间特征信息，从而提高对时间状态的感知.将GRU-DDPG模型的GRU输出与预测趋势的GRU输相结合，并将其与实际值进行比较,GRU-DDPG模型可以在原始数据和交通流之间创建直接的非线性或线性映射，而不会高度依赖提取特征的质量.实验结果表明，该方法在准确性和稳定性方面优

27、于传统方法.未来，我们将把实验扩展到更多的交通数据集，以测试D-DRL方法的泛化能力.交通网络中不同位置的道路交通流相互影响，通过多智能体的协调可以提高预测的及时性和准确性.牡丹江师范学院学报（自然科学版）第3期参考文献1宋大华，宋大全，章慧鸣.Logistic方程混沌周期点与精度研究J.牡丹江师范学院学报：自然科学版，2 0 2 0（0 1）：2 2-2 6.【2 彭辉，周莹青，李瑜琪.人工智能在数字出版行业的应用研究J.牡丹江师范学院学报：社会科学版，2 0 2 0（0 2：1-10.3谷嘉炜，韦慧.XGBoost-ESN组合模型股价预测方法J.牡丹江师范学院学报：自然科学版，2 0 2

28、2（0 1：1-5.编辑：琳莉(上接第2 7 页）3结论通过水热法和硒化法制备了10%Ni-FeSe2，将其作为修饰电极材料运用到有机物的电化学检测中.10%Ni-FeSe2GCE在0.1MPBS（p H=6.0 的缓冲液中，对ONP的DPV响应具有良好的传感性能.该工作为有机污染物的电化学检测提供了一种很有前景的方法，为基于金属掺杂硒化物的高催化传感器的设计提供了新的思路.参考文献1王东梅，陈千喜，张雪琪，等.我国生态环境中多环芳烃污染状况研究进展J.环境监测管理与技术，2 0 2 2，34（0 5)：10-15.2刘菁，邵华.农药检测方法研究进展J.中国公共卫生，2 0 0 9，2 5（1

29、1：139 9-140 1.3李珊珊，胡志豪，周阳，等.开放实验设计：水热法制备Fe:O4纳米颗粒及其电化学检测重金属离子J.牡丹江师范学院学报：自然科学版,2 0 2 0(0 4)：7 7-8 0.【4武浩桐，李爱学，王清涛.电化学传感器检测-氨基丁酸的研究进展J.广东化工，2 0 2 2，49（19）：8 0-8 3.【5南亚林，张鹏，范文燕，等.负载型二硒化铁催化单过硫酸盐降解多氯联苯的研究J.现代化工，2 0 2 2，42（10）：190-195.6Cheng XL,Xia X,Li SS,etal.Superior conductivity FeSe2 for highly sens

30、itive electrochemical detection of p-nitrophenol and o-nitrophenolbased on synergistic effect of adsorption and catalysisJJ.Sensors and Actuators:B.Chemical,2021,348(1):130692.【7 王福洋，宋伟明，孙立，等.多孔纳米立方FeSe2/石墨烯复合材料的可控构建及在钠离子电池中的应用J.应用化学，2 0 2 2,39（0 5）：779-786.【8 薛明喆，傅正文.脉冲激光沉积法制备FeSe薄膜电极及其电化学性质J.化学学报，

31、2 0 0 7（2 3）：2 7 15-2 7 19.9Liu Z,Xia X,Li SS,etal.Ultrasensitive detection of Hg(II)by small-sized Mn:O4 loaded on g-C:N4 nanosheets:Heterojunction facilitateselectron transfer and Mn(II)/Mn(III)/Mn(IV)cycleJ.Analytica Chimica Acta,2022,1230(16):340404.10左广兴，吕强，朱维贵，等.钻镍基二元超级电容器电极材料的电化学性能J.牡丹江师范学院学报：自然科学版，2 0 19，（0 1)：2 5-2 8.11翟红，孙豆，张雪然，等.新型荧光比率传感器的构建及对抗坏血酸检测J.分析试验室，2 0 2 2,41（11)：12 6 9-12 7 3.编辑：琳莉34

展开阅读全文