收藏 分销(赏)

深度确定性策略梯度算法耦合模型驱动的行人过街仿真.pdf

上传人:自信****多点 文档编号:710877 上传时间:2024-02-19 格式:PDF 页数:15 大小:3.05MB
下载 相关 举报
深度确定性策略梯度算法耦合模型驱动的行人过街仿真.pdf_第1页
第1页 / 共15页
深度确定性策略梯度算法耦合模型驱动的行人过街仿真.pdf_第2页
第2页 / 共15页
深度确定性策略梯度算法耦合模型驱动的行人过街仿真.pdf_第3页
第3页 / 共15页
亲,该文档总共15页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 29 卷 第 4 期2023 年 8 月(自然科学版)JOURNAL OF SHANGHAI UNIVERSITY(NATURAL SCIENCE EDITION)Vol.29 No.4Aug.2023DOI:10.12066/j.issn.1007-2861.2519城市交通与环境深度确定性策略梯度算法耦合模型驱动的行人过街仿真宋涛1,2,王彦林1,魏昕恺1,韦艳芳3(1.湖州师范学院 理学院,浙江 湖州 313000;2.湖州市数据建模与分析重点实验室,浙江 湖州 313000;3.玉林师范学院 物理与电信工程学院,广西 玉林 537000)摘摘摘要要要:行人仿真在公共安全研究中扮演着

2、重要的角色,但如何增强仿真环境中智能体的真实性一直是一个难题.本工作提出了一种深度确定性策略梯度-行人二维优化速度模型耦合驱动算法,并对无信号交叉口行人过街行为进行仿真.通过构建考虑无速度差项和有速度差项 2 种行人二维优化速度模型的策略探索方案,揭示出带有速度差项行人二维优化速度模型的耦合驱动算法倾向于灵活地选择相对安全的动作,从而使行人选择动作的策略也更优,达到了完全避免行人碰撞、确保行人安全的功能.关关关键键键词词词:深度确定性策略梯度;二维优化速度模型;碰撞;无信号交叉口;行人仿真中中中图图图分分分类类类号号号:TP 39文文文献献献标标标志志志码码码:A文文文章章章编编编号号号:10

3、07-2861(2023)04-0651-15Pedestrian crossing simulation driven by a coupledmodel of deepdeterministic policy gradient algorithmSONG Tao1,2,WANG Yanlin1,WEI Xinkai1,WEI Yanfang3(1.School of Science,Huzhou University,Huzhou 313000,China;2.Huzhou Key Laboratory of Data Modeling and Analysis,Huzhou 313000

4、,China;3.School of Physics and Telecommunication Engineering,Yulin Normal University,Yulin 537000,China)Abstract:The simulation of pedestrian flow plays an important role in public safetyresearch.However,the enhancement of agent authenticity in simulation environmentsremains a challenge.Herein,we pr

5、opose simulating pedestrian crossing behaviour atunsignalized intersections using a deep deterministic policy gradient algorithm to drivea two-dimensional optimal velocity pedestrian model.We constructed a strategy explo-ration scheme that considered two types of two-dimensional optimal velocity ped

6、estrianmodels:non-velocity and velocity difference terms.The analysis revealed that the modelconsidering the velocity difference term tended to flexibly select relatively safe actions,thusits action-selection strategy was considered optimal.Furthermore,this model completelyavoided pedestrian collisi

7、ons and ensured pedestrian safety.收稿日期:2023-05-16基金项目:国家自然科学基金资助项目(12271158);浙江省教育厅科研资助项目(Y202248528);湖州市科技计划资助项目(2023YZ28);国家级大学生创新创业训练计划资助项目(202210347046)通信作者:宋涛(1980),男,博士,研究方向为交通科学和交通大数据分析.E-mail:652(自然科学版)第 29 卷Key words:deep deterministic policy gradient;two-dimensional optimal velocity model;

8、collision;unsigned intersections;pedestrian simulation行人是城市道路和公共场所中最为普遍的交通参与者之一,其行为和决策对于公共安全具有很大的影响1.通过行人建模和仿真技术可以对行人在空间设施下的行为和决策进行研究,如行人过街等城市道路和公共场所中人流密集区域的安全性问题,在提高公共安全水平的同时为公共安全管理提供科学依据2-3.目前,行人仿真技术包括基于动力学模型的方法4-5、基于规则的方法6-7、基于数据驱动的方法8-9、基于机器学习的方法10-11等.2015 年,受到人工智能技术在自动驾驶领域应用的启发,Mnih 等12通过结合深度学

9、习的感知能力和强化学习的决策控制能力,将智能体(如汽车、行人等)对周边场景的理解和决策从传统建模逐步转化为端到端的决策控制方法.最近,研究人员根据输入信息尝试使用深度确定性策略梯度算法直接控制行人的行为,通过行人与环境的不断交互获取用于控制动作输出的深度强化学习网络参数13-15.例如:Yao 等16提出了一种基于强化学习的数据驱动人群疏散框架,用于在动态环境中更真实地模拟人群疏散现象;Zheng 等17提出了一种改进的多行人深度确定性策略梯度(deep deterministic policygradient,DDPG)算法,提升了大规模人群疏散场景中的路径规划任务性能;Li 等18通过区分

10、人群中的领导者和跟随者,提出了一种高效多行人深度确定性策略梯度算法,提高人群疏散效率;陈妙云等19提出了基于值分布的多行人分布式深度确定性策略梯度算法,使行人可以适应于多种不同场景的仿真,具有较强的动作决策能力.但是,单纯基于深度确定性策略梯度算法进行数据驱动的行人不适用于复杂场景,并且由于缺少环境约束条件的输入,会出现行人碰撞的非现实现象.为了解决上述问题,本工作提出了一种深度确定性策略梯度-行人二维优化速度模型耦合驱动算法,并对无信号交叉口行人过街行为进行仿真研究.1算法和仿真1.1DDPG 算法DDPG 算法是针对连续行为的策略学习方法,使用确定性策略将价值函数与策略函数结合,可用于解决

11、连续动作空间上的强化学习问题,并且取得了优异的性能20.DDPG 算法基于演员-评论家(actor-critic,AC)网络,其中演员表示为策略函数,负责生成动作并和环境交互;而评论家表示为价值函数,负责评估演员的表现,并指导演员下一状态的动作以得到最大的评估动作价值(Q 值).基于 DDPG 算法的神经网络结构包括策略网络、策略目标网络、价值网络、价值目标网络和经验池模块,具体如图 1 所示.策略网络负责策略网络参数 Q的迭代更新,可根据 t 时刻智能体状态进行动作选择,并与环境交互生成下一状态.策略目标网络负责从经验池中采样,选取最优动作,并定期更新策略目标网络参数 Q0.价值网络负责价值

12、网络参数 的迭代更新,可计算 t 时刻的即时报酬和输出总和;价值目标网络负责计算价值目标网络参数 0中的 Q 值,并定期更新 0.经验池模块负责存储各类参数,为策略目标网络和价值目标网络的动作生成提供采样依据.当经验池存满时,最新样本覆盖最老样本.每次训练从缓冲区中随机抽取样本以更新策略和评论家网络.DDPG 算法步骤如下:首先,需要将 t 时刻智能体的状态 st,包括策略网络、策略目标网络、价值网络、价值目第 4 期宋涛,等:深度确定性策略梯度算法耦合模型驱动的行人过街仿真653?st,at,rt,st+1?at?-?st,at,rt,st+1st,at,rt,st+1(st+1|)(st|

13、)st,rt,st+1st,st+1ytat+stt 时刻智能体所处的状态;st+1t+1 时刻智能体所处的状态;att 时刻选择的动作;rt即时收益.图 1 DDPG 算法结构图Fig.1 Structure diagram of DDPG algorithm标网络参数 Q、Q0、0等输入演员网络,计算该状态下的动作 at,at=(st|)+Nt.式中:为行为策略,为神经网络的更新参数,为演员网络的权重;Nt为随机噪声.假设训练样本来自策略,则算法的目标函数为J(Q)=maximizeQEQ(st,at|Q),J()=minimizeE?12yt Q(st,at|Q)2,则损失函数的权重更新

14、为L=1NXtyt Q(st,at|Q)2,yt=rt+Q0st+1,0(st+1|0)|Q0,式中:yt为下一个状态智能体的策略和评论家网络的即时报酬和输出总和;为折扣因子.通过最小化 yt与使用评论家网络计算的原始 Q 值的均方差损失函数来更新评论家网络.确定性策略梯度为J 1NXaQ(s,a|Q)|s=st,a=(st)(s|)|st.为了提高训练的稳定性,DDPG 算法使用双网络结构21.网络经过随机抽样训练后目标网络的权值进行一次软更新.在状态-动作序列,即软更新系数每次以Q0 Q+(1 )Q0,0+(1 )0进行更新,最终输出策略网络参数 Q0和评论家网络参数 0,同时作为状态参量

15、,参与 t+1时刻的 DDPG 算法的神经网络.654(自然科学版)第 29 卷1.2行人仿真交叉口处的交通流问题一直吸引着研究人员的关注22-23,例如行人过街2和智能网联汽车协同控制24-27等.无信号交叉口行人过街因各方向行人过街意图不同(直行、左转和右转),就会形成冲突点,而冲突点之间还会形成多组交织环,交织环中的行人会阻碍其他方向行人进入或走出交织环,称为“死锁”现象6-7.“死锁”现象不仅严重阻碍行人交通,还会造成非现实的行人碰撞现象.在基于规则的行人仿真技术中,“死锁”现象是必须克服的难点6-7.目前,使用 DDPG 算法研究行人过街行为还非常少,大多研究集中在人群疏散路径规划1

16、3-19.研究人员主要考虑基于 DDPG 构建智能网联汽车通过交叉口的协同控制算法.例如:Lowe 等24提出了考虑混合合作竞争环境的多智能体演员评论家算法,Wu 等25提出了多智能体协同深度确定性策略梯度算法,徐泽洲等26将其与非支配排序遗传算法对比验证了自动驾驶汽车的稳定性;蒋明智等27提出的渐进式价值期望估计的多智能体协同控制算法.但是上述仅由数据驱动的算法并没有解决智能体在交叉口的“死锁”现象,当交通流量较大或交叉口复杂时,会产生智能体碰撞现象.因此,基于 DDPG 算法驱动的行人流仿真与车辆驱动类似,同样会出现行人碰撞的非现实现象26-28.设置一个双向单行道、无信号交叉口作为仿真实

17、验场景(见图 2),行人(红点)在交叉路口中可以选择直行、左转或右转.为了描述行人的动力学特性,假设行人通过交叉路口时随机选择直行、左转或右转行进.该场景中,每个行人在 t 时刻的行动控制为vt+1=vt+atT,pt+1=pt?vtT+12atT2,式中:at表示由 DDPG 算法根据当前状态产生的动作,即行人的加速度;pt+1是 t+1 时刻行人与交叉路口的距离;vt+1是 t+1 时刻行人的速度;T 为程序控制周期.1501005005010010050050100150图 2 仿真场景示意图Fig.2 Schematic diagram of simulation scenario2基

18、于环境约束条件的行人动力学建模和耦合驱动算法DDPG 算法驱动的智能体发生碰撞是由于缺少环境约束条件的输入28,为了解决这一缺陷,在实现行人防碰撞功能基础上提高算法对复杂场景的适应性.本工作通过引入行人二维优第 4 期宋涛,等:深度确定性策略梯度算法耦合模型驱动的行人过街仿真655化速度模型实现环境约束条件,进而与 DDPG 算法比对完成输入,再利用仿真实现行人防碰撞功能,来验证耦合模型驱动控制策略的有效性.2.1行人二维优化速度模型Nakayama 等29提出的行人二维优化速度模型为d2xj(t)dt2=aV0+XkF(xk(t)xj(t)!dxj(t)dt!,(1)式中:二维矢量 xj=(

19、xj,yj),xk=(xk,yk)分别表示行人 j 和 k 的位置;V0为常矢量,表示行人的期望速度,即当某个行人周围没有其他行人时,其将会以期望速度前进;函数 F(xk xj)表示行人之间的相互作用力.F(xk xj)=f(rkj)(1+cos)nkj,式中:rkj=|xk xj|;cos=xkxjrkj;nkj=xkxjrkj.行人行走需考虑周边环境的影响,因此存在相互作用力(吸引力和排斥力)之间的差异.Kuang 等30提出了一种非对称相互作用力函数,f(rkj)=rnkjrnkj+dn+!.另外,行人行走还需考虑前方行人的影响.Zhao 等31提出了一种带有速度差项的行人二维优化速度模

20、型,但由于形式复杂,使用较少.基于上述考虑,同时结合优化速度模型增加速度差项的改进32-33,本工作提出了带有速度差项且使用非对称相互作用力函数的模型,d2xj(t)dt2=aV0+XkF(xk(t)xj(t)!dxj(t)dt!+krkjvj,(2)式中:vj表示行人 j 与前方行人的速度差(当行人呈单列单向运动时);常数 k 为速度差项系数.当行人之间距离较近时,速度差项的作用较大;而距离较远时,作用较小.2.2耦合模型驱动算法流程行人通过无信号交叉口的算法流程如图 3 所示.(1)算法开始.(2)将每个行人的状态作为程序输入,其中包括行人的速度、与前方行人的距离、前方行人的速度以及该行人

21、是否已经通过交叉路口等信息.(3)与行人的周边环境进行交互,同时生成当前行人的 2 个加速度.一个加速度是由深度确定梯度策略生成,另一个是由当前行人的速度、与前方行人的距离以及前方行人的速度决定的行人二维优化速度模型生成.(4)将生成的 2 个行人加速度进行比较并决定驱动加速度,以此更新实际加速度.(5)输出行人的加速度,并使用该加速度更新其状态.(6)如果还有未通过交叉路口的行人,则循环,直到遍历完毕.(7)算法结束.步骤(4)的驱动加速度通过afact=max(an,at),其中 afact amin,amax656(自然科学版)第 29 卷进行选择,其中 afact为每个行人的实际(驱动

22、)加速度,由 t 时刻 DDPG 算法产生的加速度at与行人二维优化速度模型生成的加速度 an比较产生.综合考虑行人通过交叉口的紧迫性和安全性2,本工作选择 2 个加速度中的更大值作为实际加速度 afact.?:?n?:?n?图 3 算法流程示意图Fig.3 Schematic diagram of algorithm3模型假设及参数设置3.1模型假设仿真场景是连续行人通过无信号交叉口.为了体现引入带有速度差项的行人二维优化速度模型实现环境约束条件下对深度确定梯度策略驱动智能体运动算法的改进,假设如下:道路是平直的,行人运动按照前后顺序行动,不允许行人突然超越另一个行人或者改变道路;行人的加速

23、或减速仅受到前方最近的行人速度和与本行人的距离的影响,且没有延迟或者干扰;当前方行人与本行人的距离较远时,行人将加速达到期望速度运动;当行人之间的距离在一定范围内时,行人二维优化速度模型将会生效,其中行人将考虑与前方行人的距离、自身速度、与前方行人速度等条件动态调整加速度;当这些行人通过交叉口时,已经确定了明确的行走意图,例如直行、左转或右转;由于在交叉口处不同行走意图的行人轨迹将有重合,会产生行人碰撞现象,如果检测到行人在交叉口处发生碰撞,为了不干扰正常行人流的运动,将直接从仿真场景中删除发生碰撞的行人,具体情形如图 4 所示.第 4 期宋涛,等:深度确定性策略梯度算法耦合模型驱动的行人过街

24、仿真657(a)?(b)?(c)?图 4 两个行人发生碰撞示意图Fig.4 Schematic diagram of the collision between two pedestrians3.2参数设置3.2.1奖励函数使用强化学习算法关键是设置奖励函数.由于安全性和紧迫性是行人通过无信号交叉口最重要的考虑因素,基于此,结合交叉口处避免车辆碰撞的工作26-27,34,本工作中的奖励函数将目标行人与最近邻(nearest neighbor,NN)行人的预计碰撞时间(time to collision,TTC)和相邻距离 Sd作为构建的主要评估因素,有ru(t)=rTTC(t)+rSd(t),

25、r(t)=ru(t),交叉口内,5,道路,10,发生碰撞,式中:奖励函数 r(t)表示当目标行人发生碰撞或者行走在道路上不在交叉口范围内时,采用常数作为奖励值;而当行人处于交叉口范围内时,奖励函数 ru(t)由时间因素和空间因素两部658(自然科学版)第 29 卷分组成.Sd(t)=|xNNj xj|,tTTC=Sd(t)vj vNNj,rSd(t)=lg?Sd(t)dcr,0 Sd(t)dcr,0其它rTTC(t)=1.tanh?tTTCtcr,0 tTTC tcr,0,其他,式中:xj和 vj分别是目标行人的位置和速度;xNNj和 vNNj分别是其最近邻行人的位置和速度;rTTC(t)和

26、rSd(t)分别是考虑时间和空间的奖励函数;tcr和 dcr分别是考虑行人过街紧迫性和安全性的时间阈值和空间距离阈值;为伸缩因子.当低于 tcr或 dcr时,认为行人此时的状态有碰撞风险,奖励函数开始生效,对行使该策略的决策进行惩罚,否则奖励函数不生效.3.2.2环境参数行人流仿真使用随机生成的时间序列 Tseq=t1,t2,tn 构建训练集,以模拟不同道路的行人流量.每条道路的行人时间序列根据泊松分布随机生成,为了避免初始产生的前后行人发生碰撞,设置阈值 tmin.ti+1=ti+max?tmin,1FRlgR,式中:tmin表示前后行人进入仿真场景下道路的时间间隔阈值;FR表示行人流量,即

27、每小时通过该道路的行人数目除以道路数;R 表示服从标准正态分布的随机变量.为了解决样本的相关性和非静态分布问题,使用不同密度和流量的时间序列数据构建训练集,并利用生成的时间序列进行不间断的训练,直到程序完成所有循环.而在测试过程中,则可以通过调整行人流量 FR来进行不同场景下的测试.对于行人二维优化速度模型(式(1)和(2),参数 a=2.因为假设行人加速度只会受其前方行人状态的影响,所以函数 F(xk xj)中角度 =0.非对称相互作用力函数 f(rkj)中取=0.55,=0.9,n=3,d=1.035.对于带有速度差项的模型(式(2),速度差项系数 k 取0.1.取初始演员网络学习率为10

28、4,评论家网络学习率为103,每一次优化迭代次数为6 000,优化抽样样本数为 128,训练回合数为 60,测试回合数为 1 000.其他相关参数的实际取值如表1 所示.4行人流仿真实验结果与分析4.1训练实验结果及分析因为单纯由 DDPG 算法驱动的行人仿真在复杂场景下存在碰撞现象,所以需要将耦合行人二维优化速度模型的改进算法进行对比分析.将耦合无速度差项的行人二维优化速度模型(式(1)称为无速度差模型;耦合速度差项的行人二维优化速度模型(式(2)称为有速度差模型.在下述分析中,“DDPG”“无速度差”和“有速度差”分别指代 DDPG 算法模型、无速度差模型和有速度差模型.第 4 期宋涛,等

29、:深度确定性策略梯度算法耦合模型驱动的行人过街仿真659表 1 参数和取值Table 1 Parameters and values参数取值人行道长/m150速度 vm,vM/(ms1)1,2加速度 am,aM/(ms2)0.3,0.336行人初始速度 v0/(ms1)V0行人期望速度 V0/(ms1)1.5537最小时间间隔 tmin/s0.1空间距离阈值 dcr/m1时间阈值 tcr/s0.4在模型算法训练方面,尽管图 5(a)中的平均准确率曲线似乎表明 DDPG 算法和无速度差模型的平均准确率要高于有速度差模型,并且在训练步数达到 100 000 之后,其保持稳定在更高的水平上,波动很小

30、,而有速度差模型则表现为平均准确率稍低,波动较大.但是,从图 5(b)的平均奖励曲线来看,DDPG 算法和有速度差模型的平均奖励值要高于无速度差模型,并且相比于无速度差模型,DDPG 算法和有速度差模型的平均奖励值随着训练步数的增加而逐渐增加.因此,对比看出,有速度差模型相比无速度差模型在训练后选择动作的性能相对更好,最终得到的奖励也更高,即更趋向于选择回报较大的动作.DDPG?/104?/104(a)?0510202530353.53.02.52.01.51.065432115?DDPG?(b)?05102025303515图 5 平均准确率和平均奖励值随训练步数的变化Fig.5 The a

31、verage accuracy and average reward values changing with the training steps图 6(a)的评论家网络损失函数值在无速度差和有速度差 2 个模型之间没有明显的区别;同时,随着训练步数的增加,DDPG 算法得到的评论家网络损失函数值也与 2 个耦合模型趋近.但是图 6(b)的演员网络损失函数值曲线中,有速度差模型的损失函数下降得最快.由于智能体在强化学习算法设计中倾向于选择更优的动作,这表明有速度差模型在行人流仿真中相比 DDPG 算法和无速度差模型而言是相对更优的.从图 7(a)可以看出,DDPG 算法始终不收敛,意味着在仿

32、真时无法避免行人碰撞.无速度差模型在开始时收敛速度更快,但当训练回合数达到 11 回合时,碰撞率不再降低,反而有所反660(自然科学版)第 29 卷DDPG?/104?/104(a)?05102025303512010080604020015510152025303540?DDPG?(b)?05102025303515图 6 评论家网络损失函数值和演员网络损失函数值随训练步数的变化Fig.6 The loss function values of critic network and actor network changing with the trainingstepsDDPG?(a)?0

33、1020305040600.120.100.080.060.040.025040302010?/102DDPG?/104(b)?05102025303515图 7 行人碰撞率和碰撞行人累计数随训练步数的变化Fig.7 Pedestrians collision rate and cumulative number of collision changing with the train-ing steps弹,最终稳定在较高水平,导致在仿真时不断有行人发生碰撞.相比之下,有速度差模型虽然收敛速度较慢,但在 20 回合时已基本收敛到 0,并在之后的训练中保持极低碰撞率,几乎不再发生行人碰撞现象.从

34、图 7(b)也可以看出,当训练步数超过 100 000 时,有速度差模型的碰撞行人累计数已经不再增加,而 DDPG 算法和无速度差模型始终线性增加,不过无速度差模型增长率远大于 DDPG 算法.因此,有速度差模型在碰撞率的收敛性表现上相比 DDPG 算法和无速度差模型而言更优.对行人碰撞现象的算法差异也可以从行人运动指标方面进行进一步解释.图 8(a)显示了行人平均速度随训练步数的变化趋势,图 8(b)显示了行人加速度变化率随训练步数的变化趋势.行人加速度变化率是指每个行人加速度变化率绝对值之和的计算结果.从图 8(a)可以看出,有速度差模型和无速度差模型在曲线趋势上并没有太大的差别,DDPG

35、 算法曲线随着训练步数的增加与两个模型趋于一致.这也可以从图 8(b)中看出,无速度差模型的加速度变化率曲线呈现先上升后下降的趋势,DDPG 算法曲线始终较为稳定,两者最后均保持在较低同值水平.这表明每个行人智能体在学习初期采用探索性策略,通过改变加速度来改变速度与环境进行交互,但是在后期则使用保守策略,不再大幅改变加速度来避免碰撞.这也是 DDPG 算法和无速度差模型的行人碰撞率极难控制,碰撞行人累计数始终线性增加的原因.相比之下,有速度差模型采用更积极的策略与环境交互,不断改变加速度以改变平均速第 4 期宋涛,等:深度确定性策略梯度算法耦合模型驱动的行人过街仿真661度,这表现为图 8(b

36、)中曲线波动较大.在图 8(b)中,当 DDPG 算法和无速度差模型的加速度稳定在低水平时,有速度差模型仍然会与环境交互,改变加速度以避免碰撞.最后,有速度差模型的碰撞率得到有效控制,仿真效果更加接近现实且效率更高.20.0019.7519.5019.2519.0018.7518.5018.2518.00?DDPG?/104?/104(a)?05102025303515250225200175150125100755025?DDPG?(b)?05102025303515图 8 行人平均速度和加速度变化率随训练步数的变化Fig.8 The average speed and accelerati

37、on rate of pedestrians changing with the training steps4.2测试实验结果及分析采用 3 种算法分别对无信号交叉口行人流仿真场景测试 1 000 回合,分别提取仿真场景的 101、301、501、701 和 999 回合时行人的碰撞率和行人通过交叉口的平均时间,具体结果见表 2.从表 2 中可以发现,在训练相同的回合数下,在行人避免碰撞方面,有速度差模型的表现优于 DDPG 算法和无速度差模型.DDPG 算法和无速度差模型在实际场景测试中仍会发生少量行人碰撞现象.在 501 回合时,57 个行人中就已有 2 人发生了碰撞,碰撞率为 0.03

38、5 1;此后就没有产生行人碰撞现象,直到 999 回合测试终止,105 个行人中还是此 2 人发生了碰撞,碰撞率为 0.019.对比有速度差模型,在测试的 1 000 回合中,始终没有发生行人碰撞现象,即碰撞率为 0,有效改善了基于 DDPG 算法驱动的智能体仿真时产生的碰撞效应,做到了仿真与现实相吻合.此外,在行人通过交叉口的平均时间方面,DDPG 算法的行人经过交叉口的平均通过时间从 101 回合的 7.874 8 s 递减至 999 回合的 7.839 8 s,无速度差模型的行人经过交叉口的平均通过时间从 101 回合的 7.874 8 s 递减至 999 回合的 7.837 6 s,有

39、速度差模型的行人经过交叉口的平均通过时间从 101 回合的 7.924 8 s 递减至 999 回合的 7.884 2 s.这说明,一方面有速度差模型通过增加行人通过交叉口的一点有效时间来避免行人因轨迹重合而造成的碰撞现象,体现了行人过街的安全性.另一方面,随着训练回合数的增加,由 DDPG 算法产生和行人二维优化速度模型生成的加速度中两者的较大者为实际行人加速度驱动行走策略,相比单纯由 DDPG 算法生成的行人行走策略,有效地造成了行人经过交叉口的平均通过时间的缩减,体现了行人过街的紧迫性.图 9 为 DDPG 算法、无速度差模型和有速度差模型的仿真测试结果,分别显示了 501 和999 回

40、合时的仿真场景,展示了碰撞行人累积数目、行人碰撞率和行人通过交叉口的平均通过时间等参数.综合上述训练和测试仿真实验可知,本工作中提出的深度确定性策略梯度-行人二维优化速度模型耦合驱动算法具有下述 3 个优点:能够降低单纯由深度确定性策略梯度算法驱动智能体运动产生的碰撞率,实现在仿真测试中完全无行人碰撞的现实场景;耦合行人二维优662(自然科学版)第 29 卷表 2 行人仿真数据的比较Table 2 Comparison of pedestrian simulation data算法回合数碰撞率/%通过交叉口的平均时间/s10107.874 830107.833 3DDPG5010.035 17

41、.840 07010.027 07.841 29990.019 07.839 810107.874 830107.833 3无速度差5010.035 17.840 07010.027 07.838 29990.019 07.837 610107.924 830107.916 6有速度差50107.905 870107.892 899907.884 2化速度模型的驱动算法在行人过街场景中体现了安全性和紧迫性;带有速度差项的行人二维优化速度模型的耦合驱动算法利用增加行人通过交叉口的平均时间以达到完全避免行人碰撞,确保行人安全的功能.5结 束 语本工作对基于深度确定性策略梯度算法的行人过街行为进行仿

42、真研究,首先构建了深度确定性策略梯度-行人二维优化速度模型耦合驱动算法,提出了考虑无速度差项和有速度差项的行人二维优化速度模型的策略探索方案;然后利用训练实验对比发现了耦合驱动算法在平均奖励值、演员网络的损失函数值、行人碰撞率、碰撞行人累计数、行人加速度变化率等指标上存在较大差异,有速度差项模型表现明显优于无速度差项模型和 DDPG 算法;最后通过测试实验揭示,耦合速度差项模型算法更倾向于灵活地选择相对安全的动作从而使得其选择动作的策略也相对更优,可以达到利用增加行人通过交叉口的平均时间以实现完全避免行人碰撞,确保行人安全的功能.本研究证明了深度确定性策略梯度-行人二维优化速度模型耦合驱动算法

43、可以正确描述行人智能体安全、高效地完成行人过街任务,并且控制效率较高,完成行人避免碰撞的能力更强.第 4 期宋涛,等:深度确定性策略梯度算法耦合模型驱动的行人过街仿真6631501005005010010050050100150(a)DDPG?(b)?(c)?1501005005010010050050100150frame:501people:57c-people:2c-r:0.035 1p-people:50pT-m:7.840 0 sframe:999people:105c-people:2c-r:0.019 0p-people:93pT-m:7.839 8 s1501005005010

44、0100500501001501501005005010010050050100150frame:501people:57c-people:2c-r:0.035 1p-people:50pT-m:7.840 0 sframe:999people:105c-people:2c-r:0.019 0p-people:93pT-m:7.837 6 s15010050050100100500501001501501005005010010050050100150frame:501people:57c-people:0c-r:0.000 0p-people:52pT-m:7.905 8 sframe:99

45、9people:105c-people:0c-r:0.000 0p-people:95pT-m:7.884 2 sframe测试的回合数;people环境中总的行人数目;c-people碰撞行人的累积数目;c-r行人碰撞率;p-people成功通过交叉口位置的行人累计数;pT-m行人经过交叉口的平均通过时间.图 9 DDPG 算法、无速度差模型和有速度差模型的仿真测试结果Fig.9 Simulation test results of DDPG algorithm,non-velocity difference model,and veloc-ity difference model664(自

46、然科学版)第 29 卷参参参考考考文文文献献献:1 Bendali-Braham M,Weber J,Forestier G,et al.Recent trends in crowd analysis:areview J.Machine Learning with Applications,2021,4:100023.2 韦艳芳,时伟,邝华,等.无信号交叉口行人过街决策行为分析 J.上海大学学报(自然科学版),2013,9(3):315-318.3 吴成,蓝冬恺,董力耘.有障碍物通道内双向行人流的自组织现象 J.上海大学学报(自然科学版),2020,26(3):382-392.4 Chen X

47、,Treiber M,Kanagaraj V,et al.Social force models for pedestrian traffic-state ofthe art J.Transport Reviews,2018,38(5):625-653.5 都恩源,陈心如,韩祥临,等.高校典型建筑物学生群体应急疏散研究 J.湖州师范学院学报,2021,43(4):81-88.6 Kuang H,Li X L,Song T,et al.Analysis of pedestrian dynamics in counter flow via anextended lattice gas model

48、J.Physical Review E,2008,78(6):066117.7 Li Y,Chen M Y,Dou Z,et al.A review of cellular automata models for crowd evacuation J.Physica A,2019,526:120752.8 Zhou Z X,Nakanishi W,Asakura Y.Data-driven framework for the adaptive exit selectionproblem in pedestrian flow:Visual information based heuristics

49、 approach J.Physica A,2021,583:126289.9 Ju E,Choi M G,Park M,et al.Morphable crowds J.ACM Transactions on Graphics,2010,29(6):140.10 熊冰蕾.基于机器学习的信号交叉口右转机动车与行人交互行为建模与预测 D.成都:西南交通大学,2020.11 Li X L,Chen M L,Wang Q.Measuring collectiveness via refined topological similarity J.ACM Transactions on Multimed

50、ia Computing,Communications,and Applications,2016,12(2):34.12 Mnih V,Kavukcuoglu K,Silver D,et al.Human-level control through deep reinforcementlearning J.Nature,2015,518(7540):529-533.13 张兴磊.基于群体追逐的人群疏散建模与决策优化 D.北京:北京邮电大学,2021.14 陈妙云.基于深度强化学习的智能体行人仿真研究 D.合肥:中国科学技术大学,2021.15 李信金.基于深度强化学习的人群疏散路径规划方法研

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服