收藏 分销(赏)

基于状态精细化长短期记忆和...成对抗网络用于行人轨迹预测_吴家皋.pdf

上传人:自信****多点 文档编号:282797 上传时间:2023-06-28 格式:PDF 页数:6 大小:1.62MB
下载 相关 举报
基于状态精细化长短期记忆和...成对抗网络用于行人轨迹预测_吴家皋.pdf_第1页
第1页 / 共6页
基于状态精细化长短期记忆和...成对抗网络用于行人轨迹预测_吴家皋.pdf_第2页
第2页 / 共6页
基于状态精细化长短期记忆和...成对抗网络用于行人轨迹预测_吴家皋.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1565-1570ISSN 1001-9081CODEN JYIIDUhttp:/基于状态精细化长短期记忆和注意力机制的社交生成对抗网络用于行人轨迹预测吴家皋1,2*,章仕稳1,2,蒋宇栋1,2,刘林峰1,2(1.南京邮电大学 计算机学院,南京 210023;2.江苏省大数据安全与智能处理重点实验室(南京邮电大学),南京 210023)(通信作者电子邮箱)摘要:针对当前行人轨迹预测研究仅考虑影响行人交互因素的问题,基于状态精细化长短期记忆(SR-LSTM)和注意力机制提出一种用

2、于行人轨迹预测的社交生成对抗网络(SRA-SIGAN)模型,利用生成对抗网络(GAN)学习获得目标行人的运动规律。首先,使用SR-LSTM作为位置编码器提取运动意图信息;其次,通过设置速度注意力机制合理地为同一场景中的行人分配影响力,以更好地处理行人的交互;最后,由解码器生成预测的未来轨迹。在多个公开数据集上的测试实验结果表明,SRA-SIGAN模型的总体表现良好。特别是在Zara1数据集上,与SR-LSTM模型相比,SRA-SIGAN模型的平均位移误差(ADE)和最终位移误差(FDE)分别减小了20.0%和10.5%;与社交生成对抗网络(SIGAN)模型相比,SRA-SIGAN的ADE和FD

3、E分别下降了31.7%和24.4%。关键词:生成对抗网络;长短期记忆网络;行人轨迹预测;注意力机制;行人交互中图分类号:TP18;TP391.4 文献标志码:ASocial-interaction GAN for pedestrian trajectory prediction based on state-refinement long short-term memory and attention mechanismWU Jiagao1,2*,ZHANG Shiwen1,2,JIANG Yudong1,2,LIU Linfeng1,2(1.School of Computer Scienc

4、e,Nanjing University of Posts and Telecommunications,Nanjing Jiangsu 210023,China;2.Jiangsu Key Laboratory of Big Data Security and Intelligent Processing(Nanjing University of Posts and Telecommunications),Nanjing Jiangsu 210023,China)Abstract:In order to solve the problem of most current research

5、work only considering the factors affecting pedestrian interaction,based on State-Refinement Long Short-Term Memory(SR-LSTM)and attention mechanism,a Social-Interaction Generative Adversarial Network(SIGAN)for pedestrian trajectory prediction was proposed,namely SRA-SIGAN,where GAN was utilized to l

6、earn movement patterns of target pedestrians.Firstly,SR-LSTM was used as a location encoder to extract the information of motion intention.Secondly,the influence of pedestrians in the same scene was reasonably assigned by setting the velocity attention mechanism,thereby handling the pedestrian inter

7、action better.Finally,the predicted future trajectory was generated by the decoder.Experimental results on several public datasets show that the performance of SRA-SIGAN model is good on the whole.Specifically on the Zara1 dataset,compared with SR-LSTM model,the Average Displacement Error(ADE)and Fi

8、nal Displacement Error(FDE)of SRA-SIGAN were reduced by 20.0%and 10.5%,respectively;compared with the SIGAN model,the ADE and FDE of SRA-SIGAN were decreased by 31.7%and 24.4%,respectively.Key words:Generative Adversarial Network(GAN);Long Short-Term Memory(LSTM)network;pedestrian trajectory predict

9、ion;attention mechanism;pedestrian interaction0 引言 近年来,基于深度学习方法的行人轨迹预测问题在计算机视觉和人工智能领域重新引起人们的兴趣。轨迹的预测1-4对于社交机器人导航5、自动驾驶6和智能跟踪7-8具有很高的价值。行人轨迹预测指基于行人的历史轨迹生成行人未来的位置,然而,由于行人复杂的运动行为,尤其是在拥挤的场景中,会增加行人轨迹预测的困难。基于循环神经网络(Recurrent Neural Network,RNN)的方法和基于生成对抗网络(Generative Adversarial Network,GAN)的方法是轨迹预测中最常用的两

10、种方法。在基于RNN 的方法中,Alahi 等9提出了社会长短期记忆(Social Long Short-Term Memory,SLSTM)网络模型,采用 LSTM 编码器-解码器的结构,再通过社会池化模块得到交互信息,最后通过 LSTM 解码器输出预测的轨迹。该模型的社会池化模块以每一个目标行人为中心建立池化邻域,然后将邻域中行文章编号:1001-9081(2023)05-1565-06DOI:10.11772/j.issn.1001-9081.2022040602收稿日期:2022-04-29;修回日期:2022-07-10;录用日期:2022-07-11。基金项目:国家自然科学基金资助

11、项目(61872191)。作者简介:吴家皋(1969),男,江苏苏州人,副教授,博士,CCF会员,主要研究方向:计算机网络、人工智能;章仕稳(1996),男,江苏南京人,硕士研究生,主要研究方向:轨迹预测、深度学习;蒋宇栋(1999),男,江苏盐城人,硕士研究生,主要研究方向:轨迹预测、深度学习;刘林峰(1981),男,江苏丹阳人,教授,博士,主要研究方向:计算机网络、移动计算。第 43 卷计算机应用人对应的LSTM隐状态进行“和池化”;但该池化方式并未将不同的行人区别对待,影响了池化效果。Lee等10提出了深度学习逆最优RNN编码器-解码器框架,通过条件变分自编码器获得一组不同的假设未来预测

12、样本,并通过 RNN 评分模块对预测样本进行排序和细化,可以作出更好的长期预测。Bartoli等11提出了环境感知的 LSTM模型,通过对环境中可能影响行人运动的环境物体进行位置标记,运用池化层对行人交互和行人环境交互进行建模,引入了环境物体对行人运动的影响。Xu 等12提出了人群交互深度神经网络(Crowd Interaction Deep Neural Network,CIDNN)模型,使用双 层 LSTM 和 三 层 多 层 感 知 机(Multi-Layer Perceptron,MLP),并引入“空间亲和力”以及“全局和池化”来处理不同行人对目标行人的不同影响。但是空间亲和力没有包含

13、速度信息,不足以描述行人间的相互作用。此外,全局池化方式会将距离很远的行人也考虑在内,这必然导致模型性能的下降。在上述工作中,研究人员通常倾向于最小化与未来真实坐标的L2距离,以预测目标行人唯一的未来轨迹。然而,预测人类行为(包括行人轨迹)是一个多模态问题,因为给定部分历史轨迹,可能有多条未来轨迹都适合该行人。这时,使用基于 GAN13的方法可以预测多个可接受的轨迹,并从中选择“最佳”轨迹作为预测结果。Gupta等14提出了社会 GAN(Social GAN,SGAN)模型,由一个基于 LSTM的编码器-解码器生成器、一个池化模块和一个基于 LSTM的鉴别器组成。SGAN在训练时能一次生成多个

14、预测结果,从而使预测轨迹具有多样性。SGAN的池化模块采用“最大池化”操作来处理行人交互,但全局池化方式同样会导致过多的无效交互。Amirian等15在SLSTM和SGAN的基础上提出了Social ways模型,并引入了注意力机制使模型自主分配对交互信息的关注,进一步提升了模型效果。本研究组在之前的工作中提出了社交生成对抗网络(Social-Interaction GAN,SIGAN)模型16,采用一种社会交互模块获取场景中相邻行人与目标行人之间的位置和运动信息。然而,在SIGAN的位置编码器中,LSTM的隐藏态信息并不是最新的状态,特别是当行人在短时间内改变了运动状态时,LSTM只能获得目

15、标运动前的状态信息,而不能获取邻居行人的运动意 图。而 Zhang 等17提 出 的 状 态 精 细 化 LSTM(State-Refinement LSTM,SR-LSTM)在 LSTM 之上增加了一层状态精细化模块(States Refinement Module,SRM),能让目标行人共享编码的邻居行人隐状态,从而获取精细化LSTM细胞状态和隐状态。采用 SR-LSTM 作为位置编码器时,可以更好地提取场景中行人的运动意图信息,尤其在短时间的预测中,这种“意图”就显得极为重要。但是,SR-LSTM对行人运动意图中的速度考虑不足,需要通过设置速度注意力机制对同一场景中行人进行影响力分配。综

16、上所述,本文提出了一种基于SR-LSTM和注意力机制的 社 交 对 抗 生 成 网 络(SR-LSTM and Attention mechanism based Social-Interaction GAN,SRA-SIGAN)用于行人轨迹预测。本文的主要工作包括:1)提出基于SRA-SIGAN的行人轨迹预测模型,使用SR-LSTM作为位置编码器,以有效提取行人运动意图,使社会交互模块能更准确地表达目标和相邻行人之间的位置和运动信息。2)针对SR-LSTM在行人运动速度方面考虑不足的问题,基 于 自 注 意 力 机 制 设 计 了 速 度 注 意 力 模 块(Velocity Attenti

17、on Module,VAM),对同一场景中行人进行影响力权重分配,使模型能充分利用行人间的交互信息,提升预测精度。3)在多个公开的真实世界数据集上对所提模型进行了大量实验,结果表明 SRA-SIGAN 模型具有较高的行人轨迹预测准确性。1 本文模型 1.1问题定义对于行人的轨迹预测问题,可以进行如下定义:在一个场景中,给定场景中n个行人过去的tobs个坐标,用于预测每个行人接下来的tpred个坐标。本文将行人称为代理。本文的目标是观测同一个场景中所有代理的一段历史轨迹来预测他 们 的 一 段 未 来 轨 迹。假 设 一 个 场 景 中 有 n 个 代 理 P1,P2,Pn,设 这 些 代 理

18、的 历 史 轨 迹 分 别 为 X1,X2,Xn,相应的预测轨迹分别为Y?1,Y?2,Y?n。对于代理Pi来说,历史轨迹为Xi=X1i,X2i,Xtobsi,其中Pi在t时刻的坐标定义为Xti=(xti,yti),且t 1,tobs;同理,代理Pi在t时刻预测的坐标为Y?ti=(x?tobs+ti,y?tobs+ti),由于要预测多个位置坐标,因此Pi的预测轨迹为Y?i=Y?1i,Y?2i,Y?tpredi。将Pi在t时刻的预测坐标的真实值定义为:Yti=Xtobs+ti,则Pi的预测轨迹的真实值为Yi=Xtobs+1i,Xtobs+2i,Xtobs+tpredi。由于同一个代理的轨迹中提取的

19、相邻坐标的前后时间间隔相同,所以Pi在t时刻的速度定义为Vti=(xti-xt-1i,yti-yt-1i)。1.2SRA-SIGAN总体结构如图 1 所示,SRA-SIGAN 模型是由生成器 G(Generator)和鉴别器D(Discriminator)构成的GAN。生成器将同一个场景中的全部代理的历史轨迹作为输入,然后输出所有代理的未来轨迹作为预测值。其中,生成器由编码器(Encoder)、解码 器(Decoder)、社 会 交 互 模 块(Social Interaction Module,SIM)和速度注意力模块(VAM)组成。编码器又由两个子编码器组成:位置编码器以观测到的轨迹 t

20、时刻坐标Xti为输入,采用SR-LSTM编码输出得到Uti;运动编码器以坐标Xti和速度Vti为输入,采用三层的MLP进行编码输出得到dti。SIM将所有Uti和dti作为输入,输出融合的社会交互张量Mti。VAM 以所有代理 t 时刻的速度Vt为输入,通过自注意力机制,输出各代理的速度注意力向量Ati。在此基础上,解码器生成预测的未来轨迹,而鉴别器D将其分类为真或假。1.3生成器1.3.1Encoder编码器对于位置编码器,根据式(1)可以得到第i个行人对应的LSTM的输出Gti:Gti=LSTM(Gt-1i,Oti;Wencoder);Oti=fc1(Xti;WO)(1)其中:fc1为全连

21、接层,表示一个带有线性整流单元(Rectified Linear Unit,ReLU)的嵌入函数;WO代表嵌入函数的权重;Wencoder代表LSTM编码器的权重;LSTM在所有的代理之间是共享的,也就是说Wencoder在编码阶段是共享的,Gti R32是被编码的位置向量。接着,令Gt=Gt1,Gt2,Gtn,则SR-LSTM输出获得的意图信息Ut(Ut Rn 32)为:Ut=SR(Gt,Xt;WSR)(2)其中:Xt表示所有行人在 t时刻的观测坐标;WSR为 SR 模块对应的权重。矩阵Ut的第i行表示第i个人所获取其他行人运动意图所表示的向量,记为Uti(Uti R32)。如前所述,SR-

22、LSTM将LSTM输出的隐藏态和细胞状态以及当前时刻的1566第 5 期吴家皋等:基于状态精细化长短期记忆和注意力机制的社交生成对抗网络用于行人轨迹预测所有行人的坐标作为SR模块的输入。使用SR-LSTM除了能提取出他们之前的运动信息之外,还能提取出他们当前的意图信息,这样可以在后面处理交互问题时获取更多有用的信息。对于运动编码器,使用一个三层的多层感知机(MLP)来编码观测到的每个代理在t时刻的坐标Xti和速度Vti,通过式(3)将Xti和Vti升维成一个高维的向量dti(dti R64):dti=MLP(Xti,Vti;W1,W2,W3)(3)其中:W1、W2、W3表示带有 ReLU 非线

23、性激活函数的三层MLP的权重。对于每个代理来说,分别将它们的历史轨迹和当前时刻的位置与速度输入到位置编码器和运动编码器中以获得高维向量,以便将其作为后续SIM的输入。1.3.2社会交互模块社会交互模块(SIM)将编码的位置和速度矢量作为输入,计算每个目标代理受到的邻居的代理的交互影响,它由两部分组成:时空亲和力部分和局部池化部分。对于时空亲和力部分,一种简单的方法是线性组合所有代理的位置和运动特征用于位移预测。因此,本文采用时空亲和力衡量每个邻居代理对目标代理影响的大小。对于任何代理Pj,将其在时间步为t时刻与目标代理Pi的时空亲和力定义为ati,j,即:ati,j=exp()dti,dtj

24、jexp()dti,dtj(4)其中:dti,dti是对dti与dtj求内积操作。采用Softmax方式对内积进行归一化,得到时空亲和力度量。式(4)同时考虑了空间和速度因素,如果时空亲和力更大,则目标可能会受到更大社会交互的影响。因此,结合时空亲和力度量,目标代理Pi受到邻居代理Pj的交互影响bti,j的定义如下:bti,j=ati,j Utj(5)考虑到目标代理的移动只会受到邻居代理的影响,本文采用局部池化方案,并将这些因素结合到行人轨迹预测中。该方案为每个目标代理设置了一个以自己位置为中心的基于正方形网格的邻域,并且设从中心到邻域边的垂直距离为k,所以正方形邻域是一个2k 2k的网格。然

25、后,可以得到其他代理对目标代理Pi的交互影响,如下所示:Mti=j Ni(k)bti,j(6)其中:Mti R32;Ni(k)表示在这个2k 2k的网格大小内目标代理的邻居代理的集合。可以看出,k值是局部池化中的一个非常重要的参数,它表示所有目标代理受到影响的范围。1.3.3速度注意力模块由于SR-LSTM仅仅只是关注代理之间的相互坐标,缺少速度的注意力信息,因此,本文采用注意力机制获取代理之间基于速度的注意力。将所有代理 P1,P2,Pn在 t时刻的速度Vt=Vt1,Vt2,Vtn(Vt Rn 2)输入VAM中。图 2 是 VAM 的 示 意 图,该 模 块 根 据 自 注 意 力(self

26、-attention)机制18的方式得到相互的速度注意力信息:|Qt=VtWQKt=VtWKFt=VtWF(7)其 中:WQ,WK,WF R2 16分 别 代 表 三 种 线 性 变 换,则Qt,Kt,Ft Rn 16,即将矩阵Vt中的每一行的行向量维度升成16维。然后,对于Qt和(Kt)T矩阵相乘得到的结果Qt(Kt)T(Qt(Kt)T Rn n)进行 Softmax 操作,从而获得权重系数,最后,再将其与Ft相乘,即可获取对应代理的基于速度的注意力,即At=Softmax(Qt(Kt)T)Ft(8)根据式(8)即可得到的矩阵At即为每一个目标行人相对于邻居行人基于速度的注意力矩阵,并且At

27、 Rn 16,矩阵At的第i行表示第i个人相对于其他行人基于速度的注意力向量,记为Ati。1.3.4解码器模块由于解码器的主要作用是生成预测轨迹,所以,本文采用了最基本的LSTM进行轨迹的解码,这需要结合来自编码器的信息以及注意力模块的信息来有效地推理人与人之间的交互,所以,通过如下方法来初始化 LSTM 解码器的隐状态Dti(Dti R32):Dti=fc2(Uti,Ati,Mti;Wc),z)(9)其中:fc2是一个全连接层,Wc是相应的权重;z是一个随机的图1SRA-SIGAN模型结构Fig.1Structure of SRA-SIGAN model图2速度注意力模块的示意图Fig.2S

28、chematic diagram of velocity attention module1567第 43 卷计算机应用Gauss 分布的噪声,z R8。在通过式(9)将解码器 LSTM 进行初始化后,就可以利用式(10)迭代地预测出在同一个场景中所有的代理未来轨迹Y?:Y?ti=fc4(Dti;Wp);Dti=LSTM(Dt-1i,fc3(Xt-1i;Wco);Wdec)(10)其中:全连接层fc3被用来作为坐标的嵌入函数,Wco代表该函数的权重;Wdec是解码器的权重,而全连接层fc4用于处理并生成二维坐标;Y?ti是在t时刻预测的坐标,Y?ti R2,Wp是预测的权重。1.4鉴别器与SG

29、AN类似,鉴别器的作用是将生成器预测出的轨迹分类成可接受与否。它将场景中所有代理的未来轨迹预测值和真实值作为输入,即 X1,X2,Xn,Y?1,Y?2,Y?n或者 X1,X2,Xn,Y1,Y2,Yn,然后输出对场景中每个代理的预测的未来轨迹为真实或虚假的标签。同样地,本文使用 LSTM 对鉴别器的输入进行编码,并使用全连接层对预测轨迹进行可接受与否的分类。1.5损失函数与SGAN一样,本文模型的损失函数L由两部分组成:对抗性损失和L2损失,即:L=maxDLCGAN(G,D)+LL2(G)(11)其中:是一个平衡因子。因 为 本 文 模 型 基 于 条 件 GAN(Conditional GA

30、N,CGAN)19,并且计算了一个场景中所有代理的损失,所以对抗损失LCGAN的定义如下:LCGAN(G,D)=i Sln(D(Yi,Xi)+ln(1-D(G(z,Xi)(12)其中:S表示场景中所有代理的集合。而L2损失定义如下所示:LL2(G)=minmYi-Y?i2(13)L2损失的设置是为了确保生成器生成轨迹的多样性。在计算位置偏移损失时,采样m次,为每个观察到的代理生成m个预测的轨迹样本,并选择损失最小的轨迹以优化网络的反向传播。与SGAN一样,设置m=20。2 实验与结果分析 本章通过实验来评估SRA-SIGAN模型的性能。数据预处理:遵循与 SLSTM9和 SGAN14相同的数据

31、预处理策略,将视频中所有行人出现的时间和位置数据转换为真实世界的坐标,然后每0.4 s提取一次数据以获得坐标系中行人的坐标值。数据集:在 ETH20和 UCY21两个公共行人轨迹数据集上开展评估。ETH和UCY总共有5个子数据集,包括Zara1、Zara2、ETH、Hotel、Univ。此外,本文在数据集的使用上采用“漏一法”,即在实验的训练过程中,使用 4个子集对网络进行训练,然后用剩下的1个子集在模型上进行测试。2.1实验准备SRA-SIGAN的参数使用 Adam优化器训练优化,学习率设置为 0.001。所有模型都经过 300 轮(Epoch)的训练。本文 模 型 在 Pytorch 0.

32、4 上 使 用 Python 3.6 构 建,并 使 用NVIDIA RTX-2080 GPU 进行训练。位置编码器的隐藏节点数分别设置为16、32和64,L2损耗中设置m=20。2.2评价指标本 文 使 用 最 终 位 移 误 差(Final Displacement Error,FDE)9和 平 均 位 移 误 差(Average Displacement Error,ADE)20作为度量标准来衡量不同模型的性能。ADE定义为一个场景中所有行人的预测的坐标值和地面真实位置的坐标之间的平均距离的均方差(设预测了tpred个坐标),计算公式如下:RADE=1ni=1nRADE(i)(14)其中

33、:RADE(i)=1tpredt=1tpredYti-Y?ti,i表示第 i个行人,n表示同一时刻一个场景中的所有的人数。FDE是预测轨迹的最终目的地与行人的实际目的地之间的距离的均方差。其计算公式如下:RFDE=1ni=1nRFDE(i)(15)其中:RFDE(i)=Ytpredi-Y?tpredi,与ADE一样,i表示第i个行人,n 表示同一时刻一个场景中的所有的人数。与 ADE 相比,FDE表示最后一步与真实值的差值,更加侧重于行人预测目的地的准确性。2.3对比预测方法为了评估本文 SRA-SIGAN 模型的性能,与以下几种有代表性的轨迹预测模型进行比较:1)SLSTM9:对每个行人都采

34、用LSTM进行编码,并在预测未来步骤之前汇集他们的状态编码。该模型仅结合了被观测的具有共同相邻空间的行人的特征。根据经验设置邻域和占用网格大小,以便在 ETH 和 UCY 数据集上获得最佳结果。2)CIDNN12:一种通过考虑其空间关系来同全局的行人进行交互的模型。该模型首次利用空间亲和力处理在行人轨迹预测中人与人的交互,并且对每个行人使用LSTM编码历史轨迹。3)SGAN14:第一种使用GAN处理轨迹预测的多模态模型,该模型也为每个行人使用 LSTM 进行编码,然后部署在编码器-解码器结构内,以使用 GAN生成未来的预测轨迹。每个代理获得多个采样轨迹,并最终选择误差最小的样本进行演示。4)S

35、R-LSTM17:在 LSTM 基础上加入一种新的状态精细化模块,从而提取运动意图信息,仍然采用编码器-解码器的结构。5)SIGAN16:使用GAN处理轨迹,使用LSTM进行编码,然后使用“时空亲和力”区分不同的行人并且在社会交互模块中采用局部池化的方式从而提取出邻居行人对目标行人的交互影响信息。2.4实验结果2.4.1不同预测模型之间的比较表 1 给出了 tobs=8 和 tpred=12 时,SLTM、SGAN、SR-LSTM、SIGAN 与 SRA-SIGAN 的 ADE 和 FDE 值,结果数值越小代表效果越好。tobs和tpred的取值与上述预测模型文献中的设置保持一致。另外,由于C

36、IDNN仅有tobs=5和tpred=5的结果,因此,为了便于比较,本文也给出了在 tobs=5 和 tpred=5 时,CIDNN 与SRA-SIGAN的ADE值,如表2所示。1568第 5 期吴家皋等:基于状态精细化长短期记忆和注意力机制的社交生成对抗网络用于行人轨迹预测由表 1 结果可知,除了在 Hotel 数据集上的 SIGAN 模型预测效果最好以外,SRA-SIGAN 模型对 ADE 和 FDE 的预测结果是最好的,尤其是在Zara1和Zara2数据集上。例如,在Zara1数据集上,SRA-SIGAN比SR-LSTM的ADE和FDE分别减少了 20.0%和 10.5%,比 SIGAN

37、 的 ADE 和 FDE 分别下降了 31.7%和 24.4%。表 2的结果与表 1类似,SRA-SIGAN 在各个数据集上的表现均好于CIDNN模型。这是因为,仅采用LSTM的预测模型没有考虑到行人的交互特征,SGAN和SLSTM仅考虑基于位置的特征效果也有所欠缺;CIDNN也只提出了空间亲和力,缺乏时间亲和力的思考;SIGAN考虑了影响目标行人运动的邻居行人的速度和所在位置这两个因素;而 SR-LSTM 只考虑了当前时刻与邻居行人的相对坐标的信息作为与邻居行人的运动意图。本文的 SRA-SIGAN 结合了上述模型的优点,采用 SR-LSTM 编码和速度注意力机制,既考虑了邻居当前的运动意图

38、,也考虑到了与邻居行人的基于速度和位置上的交互信息。此外,SRA-SIGAN采用的局部池化,也能更好地处理邻近行人间的社会交互,从而在性能上有显著提高。同时也要看到,SRA-SIGAN 在 Hotel 数据集上表现略逊于 SIGAN 和 SLSTM,这是因为Hotel数据集中多为直线型道路,场景相对简单,在特殊情况下可能会造成SRA-SIGAN模型的过拟合。2.4.2SRA-SIGAN不同模块之间的比较1)SR-LSTM vs.LSTM。若 SRA-SIGAN 模型采用基本的LSTM作为位置编码器,就变成了基于速度注意力的 SIGAN模型,这里称为VA-SIGAN模型。表3给出了在tobs=8

39、和tpred=12时VA-SIGAN与SRA-SIGAN的ADE和FDE值。从中可以看出,二者相比有明显差距,SRA-SIGAN在所有数据集上的性能均优于 VA-SIGAN。这说明 SR-LSTM 在获取邻居行人运动意图上效果更明显。SR-LSTM除了可以提取出目标行人本身的运动状态,还可以提取出其邻居行人的运动意图信息,而运动意图信息对于后面处理行人交互的问题上有至关重要的意义。2)有注意力 vs.无注意力。若 SRA-SIGAN 模型不采用速度注意力机制,就变成了基于SR-LSTM的SIGAN模型,这里称为 SR-SIGAN 模型。表 4 给出了在 tobs=8 和 tpred=12 时,

40、SR-SIGAN与SRA-SIGAN的ADE和FDE值。从中可以看出,SRA-SIGAN的性能在所有数据集上也都比 SR-SIGAN高,这说明基于速度的注意力机制是有效的。从实际的角度来说,行人在运动时会更注意那些运动速度较快的行人,这些人往往会较明显地影响到目标行人。另外,参考表 1、3的结果,可以看到 VA-SIGAN 和 SR-SIGAN 的性能总体上也都优于SIGAN,进一步验证了本文提出的SR-LSTM和速度注意力机制在应用中的有效性。3)局部池化 vs.全局池化。行人在运动时为了避免发生碰撞,只能被迫改变运动轨迹,但这种行为只会发生在局部的区域中,相距很远的行人不可能发生碰撞。所以

41、,设置式(6)中的局部池化参数k=1,2,20,得到不同的预测值,并将最佳预测值设置为最终结果,从而确定相应的k值。图 3、4 分别是不同数据集上 ADE 和 FDE 与 k 的关系曲线,可以看出,随着k值的增加,ADE和FDE都是先减小后增大,最后逐渐趋于稳定。当k=9,10时,SRA-SIGAN模型能实现最佳预测,验证了局部池化机制的有效性。图3不同数据集上ADE与k的关系曲线Fig.3Relation curve between ADE and k on different datasets表1不同预测模型的ADE和FDE对比(tobs=8,tpred=12)单位:mTab.1ADE a

42、nd FDE comparison of different prediction models(tobs=8,tpred=12)unit:m数据集ETHHotelUnivZara1Zara2SLSTMADE0.770.380.580.510.39FDE1.600.801.281.190.89SGANADE0.810.720.600.340.42FDE1.521.611.260.690.84SR-LSTMADE0.620.520.480.350.32FDE1.231.011.060.760.69SIGANADE0.630.370.510.410.32FDE1.250.741.100.900.7

43、0SRA-SIGANADE0.560.410.400.280.29FDE1.170.810.980.680.66表2CIDNN与SRA-SIGAN的ADE对比(tobs=5,tpred=5)单位:mTab.2ADE comparison of CIDNN and SRA-SIGAN(tobs=5,tpred=5)unit:m数据集ETHHotelUnivCIDNN0.090.110.12SRA-SIGAN0.090.070.10数据集Zara1Zara2CIDNN0.150.10SRA-SIGAN0.110.07表3SRA-SIGAN与VA-SIGAN的ADE和FDE对比(tobs=8,tpr

44、ed=12)单位:mTab.3ADE and FDE comparison of SRA-SIGAN and VA-SIGAN(tobs=8,tpred=12)unit:m数据集ETHHotelUnivZara1Zara2VA-SIGANADE0.610.500.470.310.32FDE1.210.991.060.730.70SRA-SIGANADE0.560.410.400.280.29FDE1.170.810.980.680.66表4SRA-SIGAN与SR-SIGAN的ADE和FDE对比(tobs=8,tpred=12)单位:mTab.4ADE and FDE comparison o

45、f SRA-SIGAN and SR-SIGAN(tobs=8,tpred=12)unit:m数据集ETHHotelUnivZara1Zara2SR-SIGANADE0.590.440.430.290.31FDE1.200.841.010.700.68SRA-SIGANADE0.560.410.400.280.29FDE1.170.810.980.680.661569第 43 卷计算机应用3 结语 本文提出了一个基于SR-LSTM和注意力机制的社交生成对抗网络行人轨迹预测模型(SRA-SIGAN),该模型采用SR-LSTM作为位置编码器来获取行人轨迹预测中的邻居行人的运动意图;同时,提出了基于

46、速度的注意力机制以合理分配行人的影响力;最后,采用局部池化来发现最合适的行人交互影响范围。ADE和FDE的实验结果表明,SRA-SIGAN模型在预测精度方面明显优于其他模型。在未来的工作中,将进一步考虑环境因素,在轨迹预测中加入环境中的道路特征以及静态或动态障碍物对行人轨迹的影响;另外,可考虑结合行人的平视及第一人称视角等不同视角进行行人轨迹的预测。参考文献(References)1 GRANT J M,FLYNN P J.Crowd scene understanding from video:a surveyJ.ACM Transactions on Multimedia Computin

47、g,Communications,and Applications,2017,13(2):No.19.2 ALAHI A,RAMANATHAN V,LI F F.Socially-aware large-scale crowd forecasting C/Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2014:2211-2218.3 代雨柔,杨庆,张凤荔,等.基于自监督学习的社交网络用户轨迹预测模型 J.计算机应用,2021,41(9):254

48、5-2551.(DAI Y R,YANG Q,ZHANG F L,et al.Trajectory prediction model of social network users based on self-supervised learning J.Journal of Computer Applications,2021,41(9):2545-2551.)4 MA L,TIAN S.A hybrid CNN-LSTM model for aircraft 4D trajectory prediction J.IEEE Access,2020,8:134668-134680.5 LIU J

49、,WANG G,HU P,et al.Global context-aware attention LSTM networks for 3D action recognitionC/Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2017:3671-3680.6 DEO N,RANGESH A,TRIVEDI M M.How would surround vehicles move?a unified framework for maneuver

50、 classification and motion predictionJ.IEEE Transactions on Intelligent Vehicles,2018,3(2):129-140.7 BAGAUTDINOV T,ALAHI A,FLEURET F,et al.Social scene understanding:end-to-end multi-person action localization and collective activity recognitionC/Proceedings of the 2017 IEEE Conference on Computer V

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服