基于多模态特征融合的行人穿越意图预测方法.pdf

资源描述

1、2023 年（第 45 卷）第 10 期汽车工程Automotive Engineering2023（Vol.45 ）No.10基于多模态特征融合的行人穿越意图预测方法*陈龙1，杨晨1，蔡英凤1，王海2，李祎承2（1.江苏大学汽车工程研究院，镇江212013；2.江苏大学汽车与交通工程学院，镇江212013）摘要行人行为预测是城市环境智能汽车决策规划系统面临的主要挑战之一，提升行人穿越意图的预测准确率对于行车安全意义重大。针对现有方法过度依赖行人的边界框位置信息，且很少考虑交通场景中环境信息及交通对象间的交互关系等问题，本文提出一种基于多模态特征融合的行人过街意图预测方法。首先结合多种注意力

2、机制构建了一种新型全局场景上下文信息提取模块和局部场景时空特征提取模块来增强其提取车辆周边场景时空特征的能力，并依赖场景的语义解析结果来捕获行人与其周围环境之间的交互关系，解决了交通环境上下文信息与交通对象之间的交互信息应用不充分的问题。此外，本文设计了一种基于混合融合策略的多模态特征融合模块，根据不同信息源的复杂程度实现了对视觉特征和运动特征的联合推理，为行人穿越意图预测模块提供可靠信息。基于JAAD数据集的测试表明，所提出方法的预测Accuracy为0.84，较基线方法提升了10.5%，相比于现有的同类型模型，所提出方法的综合性能最佳，且具有更广泛的应用场景。关键词：自动驾驶汽车；行人意图

3、预测；多模态特征融合；注意力机制Pedestrian Crossing Intention Prediction Method Based on Multimodal Feature FusionChen Long1，Yang Chen1，Cai Yingfeng1，Wang Hai2&Li Yicheng21.Institute of Automotive Engineering，Jiangsu University，Zhenjiang212013；2.School of Automotive and Traffic Engineering，Jiangsu University，Zhenji

4、ang212013Abstract Pedestrian behavior prediction is one of the main challenges faced by urban environment intelligent vehicle decision planning system.It is of great significance to improve the prediction accuracy of pedestrian crossing intention for driving safety.In view of the problems that the e

5、xisting methods rely too much on the location information of pedestrian boundary box，and rarely consider the environmental information in traffic scenes and the interaction between traffic objects，a pedestrian crossing intention prediction method based on multi-modal feature fusion is proposed.In th

6、is paper，a new global scene context information extraction module and a local scene spatiotemporal feature extraction module are constructed by combining multiple attention mechanisms to enhance its ability to extract spatiotemporal features of the scene around the vehicle，and rely on the semantic a

7、nalysis results of the scene to capture the interaction between pedestrians and their surroundings，which solves the problem of insufficient application of the interactive information between the context information of the traffic environment and the traffic objects.In addition，a multimodal feature f

8、usion module based on hybrid fusion strategy is designed in this paper，which realizes the joint reasoning of visual features and motion features according to the complexity of different information sources，and provides reliable information for pedestrian crossing intention prediction module.The test

9、 based on JAAD dataset shows that the prediction accuracy of the proposed method is 0.84，which is 10.5%higher than that of the baseline method.Compared with existing models of the same type，the proposed method has doi：10.19562/j.chinasae.qcgc.2023.10.001*国家自然科学基金（52225212，U20A20333，52072160）资助。原稿收到日

10、期为 2023 年 02 月 13 日，修改稿收到日期为 2023 年 03 月 14 日。通信作者：蔡英凤，教授，博士，E-mail：。汽车工程2023 年（第 45 卷）第 10 期the best comprehensive performance and has a wider application scenario.Keywords：autonomous vehicles；pedestrian intention prediction；multimodal feature fusion；attention mechanism前言城市交通环境纷繁复杂，行人是道路交通参与者中最易暴露和

11、最脆弱的道路使用者之一，根据世界卫生组织报告统计结果，在全球每年死于交通事故的135万人中，超过一半的交通事故死亡者为弱势道路使用者，保护行人等弱势道路使用者的安全刻不容缓1。保护行人安全的关键在于避免人车冲突，如今随着先进驾驶辅助技术和自动驾驶技术的迅速发展，自动驾驶汽车可以借助视觉、激光雷达和毫米波雷达等车载传感器感知周围的道路环境、车辆和行人等目标，进而预测行人行为，让自动驾驶汽车可以提前进行规划和决策，从而避免发生人车冲突。在交通管理的背景下，人车冲突多发于人行横道，能够准确预测行人是否从车辆前方穿越，可以减少行人延误和交通拥堵，提高道路行车效率，从而帮助自动驾驶汽车找到安全和效率之间

12、的平衡2。目前解决行人穿越意图预测问题的主流方法主要有两种，一是基于行人未来轨迹预测的方法，二是基于人体姿态估计的方法。其中基于轨迹预测的方法相对更加普遍，行人轨迹预测领域的研究也已经相对成熟，许多基于人机交互模型预测行人轨迹的模型已经被提出。例如 Alahi 等3提出了 Social-LSTM，其将最大池化应用于邻近交通参与者，建模交通场景中的人人交互。Gupta等4提出了Social-GAN，其将 Social-LSTM 扩展为基于递归神经网络（RNN）的生成模型，将最大池化应用于所有交通参与者。Kosaraju等5提出了Social-BiGAT，其也是一种基于GAN 的方法，它引入图注意

13、力网络（GAT）建模场景中的人人交互，解除先前模型中的 RNN 依赖。Mohamed等6提出了Social-STGCNN，其使用图卷积网络代替先前模型的交互机制，使用TCN代替先前模型的循环递归架构，用时空图捕捉随时间变化的动态交互作用。考虑到视角和自身运动，Yagi 等7针对第一人称视频中的行人轨迹预测问题提出了一种新型行人轨迹预测模型，其采用一种多流卷积-反卷积架构的预测框架聚合相机自我运动、行人尺度和人体姿态信息预测行人的未来轨迹，该模型克服了相机视角的问题，但模型结构和性能还有较大的优化空间。近期的研究表明，行人穿越前的早期动作（如走动、挥手、注视等）与行人的穿越意图有关8。基于人体姿

14、态特征进行行人穿越意图预测开始受到研究者们的广泛关注。早期的方法多基于CNN 9和LSTM 10处理人体骨架特征进行动作识别和轨迹预测，例如Fang等11提出基于单目视觉的人体姿态估计方法来预测行人和骑自行车人的意图。Zhang 等12提出使用多层 LSTM 网络进行基于骨架的动作识别的几何特征，提供了一种与 RNN 模型增强垂直的简单通用空间建模方法，进一步提高了模型性能。最近的研究开始在人体姿态估计任务中引入图结构，例如Cadena 等13开发了二维行人图结构和行人图网络，以预测行人是否要过马路。Huynh 等14提出了GPRAR模型，该模型基于图卷积网络进行人体姿势重建和动作识别，模型包

15、括一个特征聚合器（FA），FA以通道方式聚合学习到的特征：人体姿势、动作、位置和相机运动，使用基于编码器-解码器的时间卷积神经网络来预测未来位置。综上所述，现有的运动轨迹预测方法，常常是借助先验的历史轨迹信息在未来的某个时刻对其进行轨迹预测，且没有充分考虑到自然驾驶环境下外界条件的不确定性干扰。此外，这些方法大多需要在俯视视角下的位置信息，这受限于要借助移动摄像机来获得场景的俯视图，且目前也缺乏俯视视角下带有行人位置信息和穿越意图标签的数据集。基于人体姿态估计的行人意图预测方法在特定的环境下表现出不错的性能，但在复杂的城市交通环境中，人体姿态关键点的检测精度会受到变化的相机视角、人车距离、遮挡

16、等因素的较大影响，且行人通常表现出受到各种背景元素影响的复杂行为，具有高度的可变性，仅通过行人的历史轨迹进行推断或是只通过人体姿态估计不足以在复杂的城市交通背景下实现行人穿越意图的准确预测。为继承上述方法的优点，同时避开其缺陷，近期的研究已经开始转向关注基于多流循环网络和多输入特征的行人意图预测方法，例如Aliakbarian等15使用多流LSTM对视觉特征、光流图像和车辆动力学进行编码，其输出被连接后生成用于意图预测的共享表示。自 JAAD16和 PIE17数据集被提出后，Fussi-Net 18、SF-GRU 19、PCPA 20等依赖多种输入 17802023（Vol.45）No.10陈

17、龙，等：基于多模态特征融合的行人穿越意图预测方法特征的行人穿越意图预测模型逐渐被提出，并在公开数据集上表现出不错的性能，这些模型的输入特征一般是检测到的行人边界框、姿势、外观，甚至是自我车辆信息。总的来说，尽管该领域在近几年的研究中取得了显著进展，但仍普遍存在诸如行人穿越意图预测精度不高、模型输入考虑不全面以及模型泛化性能不强等问题。究其原因，主要是现有方法在充分利用交通场景中的环境上下文信息以及各个交通对象之间的交互信息方面存在不足。此外，现有意图预测模型在探究多模态特征融合策略和模型优化方向的方法系统性存在局限。针对上述问题，本文中提出一种基于多模态特征融合的行人穿越意图预测方法，实现了在

18、复杂交通场景下对行人意图的准确预测。首先，针对全局场景上下文信息、局部场景上下文信息、自车车速等输入信息，该方法以输入目标行人的边界框信息为基准设计了正交试验，并通过试验分析筛选获得性能最佳的模型架构；其次，建立了一种新型全局场景上下文交互信息提取模块，该模块包含膨胀卷积、SE模块和交互注意力机制，依赖场景语义掩码对行人与交通元素间的交互关系进行建模；同时，构建了局部场景时空特征提取模块，该模块结合通道注意力、空间注意力和AUGRU，基于多重注意力机制提升了模型捕获复杂交通场景下局部交通场景的时空信息的能力；最后，设计了一种基于混合融合策略的多模态特征融合模块，根据不同信息源的复杂程度实现了对

19、视觉特征和运动特征的联合推理，为行人穿越意图预测模块提供可靠信息。在公开数据集JAAD上的验证结果显示，相比于现有的同类型模型，文中所提出的方法在行人穿越意图预测方面优于最先进的模型。综上所述，本文的主要贡献可以归纳为：（1）提出了一种基于多模态特征融合框架的行人穿越意图预测方法，设计正交试验法筛选获得最佳输入条件，通过混合融合方式对视觉特征和运动特征进行联合推理，进而实现对行人意图的准确预测。（2）建立了一种新型全局场景上下文交互信息模块，该模块基于多种注意力机制构建交互建模注意力关系网络处理全局场景的语义掩码，从而捕获行人与其周围环境之间的交互关系。1行人穿越意图预测模型构建1.1问题描述

20、本文将人行横道上的行人穿越意图预测定义为一个与多个模态信息输入源相关的优化问题，即P(At+ni|Cli，Pi，Li，Cg，S)，它通过聚合的受试者的反应来测量并被重新调整到 0，1 的范围内，因此对于每个目标行人 i，给定从车辆前视图观察到的 m 个时步的视频帧序列和自车运动的相关信息，根据所设计的模型可以估计出目标行人t+n时刻在车辆前方穿越的概率。用于预测行人是否会穿越人行横道的信息源包括：由行人二维边界框表示的目标行人i的位置轨迹信息Bi=bt-mi，bt-m+1i，.，bti；目标行人i的姿态关键点信息Pi=pt-mi，pt-m+1i，.，pti；目标行人i周围的局部环境上下文信息C

21、li=ct-mli，ct-m+1li，.，ctli；全局环境上下文交互信息Cg=ct-m，ct-m+1，.，ct以及自我车辆的运动速度信息S=st-m，st-m+1，.，st，这里m为历史观测时间。1.2框架概览所提出的意图预测模型的整体架构图如图1所示。该模型架构主要由RNN模块、全局场景上下文交互信息提取模块、局部场景的时空特征提取模块、多模态特征融合模块以及行人穿越意图预测模块5个部分组成，下面对该模型中各输入特征的获取以及模型中的各个模块进行详细介绍。1.3输入信息获取1.3.1自车车速信息及行人边界框信息获取本文提出的模型主要在JAAD数据集上进行实验验证。行人的边界框位置坐标和自车

22、车速是JAAD数据集中注释的显式特征，因此自车车速和行人的二维边界框位置轨迹信息可以直接从数据集的标签信息中获取。自车车速可以从自车的车速传感器中直接获取，这里直接采用数据集中自车速度的地面实况标签，也即S=st-m，st-m+1，.，st。目标行人 i 的二维边界框位置轨迹信息表示为Bi=bt-mi，bt-m+1i，.，bti，其中bi由边界框的左上角和右下角的位置坐标表示，也即bt-mi=xt-mit，yt-mit，xt-mib，yt-mib。1.3.2行人周边局部场景图像信息获取本文所指的局部环境上下文信息包括目标行人及其周围局部环境的外观变化，由目标行人周围的局部

23、场景图像序列表示，具体表示为Cli=ct-mli，ct-m+1li，.，ctli。在给定的时间步长，通过裁剪放大的二维边界框来提取每个行人的局部环境图像序列，然后调整缩放框的尺寸，使其高度与宽度相匹配。1781汽车工程2023 年（第 45 卷）第 10 期1.3.3行人姿态关键点信息获取行人的姿态关键点信息可以表示目标行人每一帧的姿态，姿态可以反映目标行人详细的运动状态（如行走、站立、蹲下以及行人的凝视方向等），表示为Pi=pt-mi，pt-m+1i，.，pti。由于JAAD数据集自带的数据标签中不包含行人的姿态关键点，在正交试验中采用在COCO数据集21上预训练的H

24、RNet 22提取JAAD数据集中的行人姿态信息（即由18个人体关键点坐标连接而成的36维特征向量pi），具体可以表示为pt-mi=xt-mi1，yt-mi1，xt-mi2，yt-mi2，.，xt-mi18，yt-mi18。1.3.4全局场景上下文信息获取全局场景上下文提供了解释目标行人与其他交通参与者以及道路环境之间或其他交通参与者之间的多重交互的视觉特征，文中将其表示为Cg=ct-m，ct-m+1，.，ct，对于输入的交通场景图像序列，本文采用在 Cityscapes 23上预训练的 deeplabV3 24来提取输入场景图像中各交通参与者与静态交通环境的语义地图。1.4RNN模块所提出的

25、模型涉及到的输入信息均为序列特征，结合注意力机制的RNN模块可以自动为序列特征分配权重，使更重要的特征分配到更大的权重，从而突出特征变化，提高模型处理序列特征的准确性。本文在GRU模块中引入注意力机制构成了AUGRU模块25，其在对目标行人的边界框位置序列提取特征时，可以通过概率分配的方式自动提高模型对重要的行人边界框位置坐标的关注程度，突出行人横向位移以及人车距离变化等关键信息，在不额外增加计算和储存成本的前提下改善行人过街意图预测的准确度。和LSTM网络10一样，GRU 26也是RNN的一种变体，两者都是为解决简单RNN所面临的长期依赖问题而被提出来的，但GRU相比于LSTM网络参数量更少

26、，可以更快地在更少计算量的前提下获得更好的表现。图2所示为GRU的结构图，它有两个门神经元，分别为更新门和重置门，其均采用Sigmoid作为激活函数。更新门控制前一时步的状态信息被代入到当前状态中的程度，重置门则控制忽略前一时步的状态信息的程度。假设t时刻GRU网络的输入为X=(x1，x2，.，xn)，则GRU中各变量的关系表达式如下。更新门：u()t=(W()ux()t+U()uh()t-1+b()u)（1）重置门：r()t=(W()rx()t+U()rh()t-1+b()r)（2）t时刻的新记忆：h()t=tanh(W()hx()t+r()t U()hh()t-1+b()h)（3）t时刻隐

27、藏层的状态量：h()t=(1-u()t)h()t-1+u()t h()t（4）图2GRU结构简图图1本文所提算法的整体架构图 17822023（Vol.45）No.10陈龙，等：基于多模态特征融合的行人穿越意图预测方法式中：xt表示当前时刻的输入；r(t)和u(t)分别表示重置门和更新门的权重；h(t)表示当前时刻隐藏层新的记忆状态；h(t)和h(t-1)分别表示当前时刻和前一时刻的隐藏层状态；为Sigmoid()函数；tanh()为双曲正切激活函数；b(r)、b(u)和b(h)分别表示重置门、更新门和新记忆中的偏差项，其余参数均可在训练过程中获得。AUGRU的模型结构如图3所示，其在GRU的

28、基础上引入了注意力机制，将GRU的update gage替换为 attention-score*update-gate，即将注意力权重(t)乘到更新门u(t)上，然后用更新门控制当前信息与历史信息保留的比例。注意力分数（attention score）可以反映隐向量ea与输入h(t)的关系，且它们之间的相关性强度会影响attention score。注意力分数的计算公式为()t=exp(tan h()tWea)j=1Texp(h()jWea)（5）则AUGRU中更新门的输出为u()t=()tu()t（6）AUGRU中隐藏层的状态量为h()t=(1-u()t)h()t-1+u()t h()t（7

29、）式中：ea为GRU编码器输出的隐状态连接得的隐向量；W为可通过学习获得的记忆矩阵。1.5全局场景上下文交互信息提取模块提出一种新型的全局场景上下文交互信息提取模块，其结构如图4所示。这是一种结合SE通道注意力机制27和交互注意力机制的新型交互建模注意力关系网络，它依赖场景的语义解析隐式的建模目标行人与不同交通元素之间的交互关系。对于输入的交通场景图像序列，首先采用在Cityscapes数据集上预训练的deeplabV3来提取输入场景图像中各交通参与者与静态交通环境的语义地图，这里参考交通场景中最常见的几种交通对象，根据所提取的语义掩码将语义地图分为目标行人(p)、目标行人附近的行人(pl)、

30、骑行者 (b)、周边车辆(v)以及其他静态交通场景(st)5个类别作为全局语境。考虑到仅使用多层卷积对语义地图进行连续的下采样处理会丢失较多的细节特征，从而无法在更高的分辨率下表达更广泛的上下文信息。为克服这个缺点，尽可能多地捕捉目标行人与其周边交通参与者之间的交互特征，提出采用膨胀卷积28策略来处理语义地图。相比之下，膨胀卷积可以在保图3AUGRU结构简图图4全局场景上下文交互信息提取模块 1783汽车工程2023 年（第 45 卷）第 10 期持参数量不变的情况下增大卷积核的感受野，让每个卷积输出都包含较大范围的信息，同时它可以保证输出的特征映射的大小不变，这允许模型在不需要下采样的情况下

31、捕获更加广泛的空间上下文特征。膨胀卷积处理后的语义类别特征经过SE注意力模块后进入GRU编码生成各语义图的时空表示。在SE注意力模块中，Fsq()表示Squeeze操作，将尺寸为H W C的特征图压缩为1 1 C，该操作通过全局平均池化来实现。Fex(，W)表示 Excitation 操作，这里通过使用两个FC全连接层对每个通道的重要性进行预测，一个FC层降低维度，一个FC层恢复维度，从而可以在特征维度不变的情况下得到不同通道的重要性大小。Fscale(，)表示Scale操作，这里指对每个通道的特征进行加权操作。连接AUGRU的隐藏状态可以得到如下的时空分类表示：Ccat=ht-m+1：tp

32、ht-m+1：tpl ht-m+1：tb ht-m+1：tv ht-m+1：tst（8）时空表示被连接并输入全局交互注意模块29生成统一的加权表示，各语义图的加权输出经连接后即得到大小为 1，256 的全局场景上下文的关系特征Ca。在全局交互注意模块中，输入为连接的各个AUGRU在t-m+1，t时步的隐藏状态，该模块通过测量最后一个时步与其他的每个时步之间的相似性来生成注意力分数：Score()i=h()tWah()i（9）式中：上角标“”表示转置操作；Wa为可训练权重。由注意力分数可计算得每个时步的注意力权重为()i=Softmax(Score()i)（10）计算得上下文向量为c()t=i=

33、t-m+1t()ih()i（11）全局环境交互上下文最终表示为Ca=tanh(Wcctht)（12）式中：为连接操作；Wc为可训练权重。1.6局部场景时空特征提取模块针对局部场景图像，本文联合多层卷积和AUGRU对其进行结合时空注意力机制的时空特征提取。首先统一局部场景图像的尺寸为 512，512，则输入大小为 16，512，512，3（N、H、W、C），结合VGG16网络30、通道注意力、空间注意力和AUGRU设计了一个基于时空注意力机制的局部场景时空特征提取模块，最终得到大小为N11256的局部场景时空特征Cb。该模块的具体构造如图5所示，其在连续的两个 VGG Block 间插入了一个

34、CBAM 模块31，该模块结合了通道注意力机制和空间注意力机制，可以在不改变特征图尺寸的情况下增强有用的特征表达。图5局部场景时空特征提取模块 17842023（Vol.45）No.10陈龙，等：基于多模态特征融合的行人穿越意图预测方法1.7多模态特征融合模块如何合理地利用和融合不同模态的特征是提高行人意图预测性能的一个重要研究方向，现有的多模态特征融合方法总体上可以分为像素级融合、特征级融合以及决策级融合，且根据以往的试验表明，特征级别的融合相比之下具有更好的性能。如前文所述，所提出的过街意图预测模型的输入包括行人边界框位置轨迹、车速、行人姿态关键点以及图像视觉特征等多种异构信息，在此基础上

35、本文根据不同信息源的复杂程度提出了4种不同的融合策略，具体结构如图6所示。图6中（1）为early-fusion，其先融合多层特征，然后采用融合后的特征训练分类器，常用有 concat和 add两种操作，本文中采用了 add；（2）为 late-fusion，其与 early-fusion 相对应，采用类似特征金字塔的方法，对特征融合后进行预测；（3）为 hierarchical-fusion，其为一种分层融合架构，这里将输入的非图像特征按其复杂程度进行先后融合，每一次融合都采用与（1）中相同的early-fusion。（4）为hiybrid-fusion，在该框架中对视觉类特征和非视觉特征分

36、别根据其特征复杂程度进行先后融合，特征融合同样采用了 add 操作，是一种混合融合方式。1.8意图预测模块如图6所示，模型预测模块由一个注意力模块和一个全连接层组成，处理后的各输入特征经融合模块和注意力模块后生成用于最终预测的特征表示 V，可表示为V=i=1kVi，k=2或k=3或k=5（13）则最终的预测结果可表示为At+ni=fFC(V)（14）2试验设计2.1公开数据集介绍本文在自动驾驶联合注意数据集（JAAD）上对所提出的意图预测模型的性能进行评估，JAAD数据集是由约克大学的研究者提出的用于研究交通参与者行为的大型自然公开数据集，其包含有346段由车载相机拍摄的高分辨率交通场景视频剪

37、辑。JAAD 数据集提供两个子集，其中行人行为数据集（JAADbeh）包含了涵盖各种场景下具有穿越意图的686个行人（正在穿越495人/即将穿越191人），而完整的 JAAD 数据集（JAADall）则包含所有的可见行人，相比 JAADbeh 增加了 2 100个远离道路且没有穿越行为的人。本文对数据集的训练集、验证集和测试集的分割处理保持与文献 32 中相同的设定，使用数值为0.8的采样重叠率，所有模型的观测长度固定为16帧。此外，本文遵循与PCPA模型中相同的数据采样程序，使用与PCPA模型架构中相同的评估指标（准确性、AUC曲线、F1评分、精密度和召回率）报告所有的试验结果。2.2实施细

38、节所采用的试验平台搭载了一块 RTX 2080Ti GPU和一块Intel I9 CPU，试验环境为Ubuntu18.04、Pytorch框架。分别在JAADbeh和JAADall上训练所有的模型 45个 epoch，训练采用的优化器为 Adam，图64种融合策略对应示意图 1785汽车工程2023 年（第 45 卷）第 10 期设置最大学习率为5e-6，L2正则化项为0.000 2，训练采用二元交叉熵损失函数，受计算平台的限制，本文将batch size设为2。2.3正交试验多模态学习可以聚合多源数据的信息，使模型学习到的表示更加完备。行人意图预测模型的性能受多种因素的影响，理论上模型输入的

39、特征量越多，模型的性能会越好，但特征量增多的同时也会带来计算量的大幅增加，且一些因素之间可能存在交互作用。正交试验法是多因素分析的有效手段，有助于在考虑到交互作用的情况下评估相关因素对试验指标的影响，并根据其效果对它们进行排序，从而便于优化模型。为系统地探究各个输入信息源对意图预测模块性能影响的显著性，从而优化模型设计出行人意图预测的最佳模型架构，本文首先引入了正交试验法对多模态输入的意图预测模型进行充分试验。为最终能够得到最佳的模型，首先在默认所有影响因子均输入的情况下分别在 JAADall 和JAADbeh上针对3种不同的融合方式进行了对比试验。试验结果如表1和表

40、2所示。试验的评估指标包括准确性（Accuracy）、AUC 曲线（AUC）、F1 评分（F1 Score）、精密度（Precision）和召回率（Recall）。表中字体加黑数据为最佳数据，斜体数据次之。如表 1 所示，对比 4 种不同融合策略模型在JAADall上的试验结果，基于hiybrid-fusion融合框架的模型在Acc、AUC和F1精度上均得到最优且远超其它模型的结果，在未达到最优性能Pre和Recall也仅仅是稍微有些逊色；表2所示的在JAADbeh上的结果也类似。综上根据表1和表2的试验结果，基于多模态输入混合融合的模型架构综合性能最佳，因此本文基于混合融合的模型架构设计了正

41、交试验，试验因素水平表如表3所示。正交表的表示方法为Ln（tm），其中L为正交表代号，n代表正交表的行数也即试验次数，t代表因子水平数，m代表正交表列数也即最多可安排的因子个数。本试验以仅输入行人边界框位置轨迹为基准，设计 7因素 2水平正交试验，因此选取L8（27）标准正交表，具体的试验结果如表4所示，这里以精度作为模型的主要评估指标。如表4所示，对正交试验的结果进行极差分析，本试验采用7因素2水平正交表，其余3个空列的极差大小反映试验误差的大小，本试验中3个空列的极差远远小于试验因子的极差，可忽略不计。由结果可知，在JAADall上，4个因子对行人意图预测性能的影响程度顺序为：局部场景上下

42、文全局场景上下文人体姿态关键点自车车速，且在4个因子均输入的情况下模型的性能最佳。在JAADbeh上，4个因子对行人意图预测性能的影响程度顺序为：全局场景上下文局部场景上下文自车车速人体姿态关键点，且在试验2（不输入人体姿态关键点信息）的情况下模型性能最佳。表1JAADall上采用不同融合策略的模型对比试验Fusion strategyearly-fusionlate-fusionhierarchical-fusionhiybrid-fusionAcc0.7400.7500.8120.836AUC0.7880.7880.8060.825F10.5370.5410.5910.633Pre0.59

43、00.6310.5670.620Recall0.8610.8440.8460.808表2JAADbeh上采用不同融合策略的模型对比试验Fusion strategyearly-fusionlate-fusionhierarchical-fusionhiybrid-fusionAcc0.6170.6220.5420.619AUC0.5500.5470.5130.566F10.7270.7300.6430.731Pre0.6560.6470.6340.683Recall0.8140.8370.6910.779表3多模态输入行人意图预测模型正交试验因素水平表levels12Cg（A）A1=Input

44、A2=Not InputCli（B）B1=InputB2=Not InputS（C）C1=InputC2=Not InputPi（D）D1=InputD2=Not Input表4基于正交试验的行人意图预测试验数据分析计算表FactorsNumbers1234567811RangeOrder22RangeOrderA1A1A1A1A1A2A2A2A20.8050.7760.029B、A、D、C0.6120.5770.035A、B、C、DB2B1B1B2B2B1B1B2B20.8120.7690.0430.6080.5820.026C3C1C1C2C2C2C2C1C10.7940.7870.007

45、0.5900.5990.009D4D1D2D1D2D1D2D1D20.7970.7840.0130.5990.5900.009Accuracy（JAADall）0.8360.8240.7860.7740.8020.7870.7660.750T1=0.791Accuracy（JAADbeh）0.6190.6220.6090.5970.6050.5840.5630.557T2=0.595 17862023（Vol.45）No.10陈龙，等：基于多模态特征融合的行人穿越意图预测方法表中：1=JAADall上因素水平为1时所对应的评估指标值的平均值；1=JAADall上因素水平为2时所对应的评估指标值

46、的平均值；2=JAADbeh上因素水平为1时所对应的评估指标值的平均值；2=JAADbeh上因素水平为2时所对应的评估指标值的平均值；T1=JAADall上所有评估指标值的平均值；T2=JAADbeh上所有评估指标值的平均值。分析试验结果可知：（1）视觉特征对行人意图的预测性能影响程度较大，而全局环境上下文信息作为重要的视觉特征在以往的方法中并未被充分地考虑进去，而本文所提出的新全局上下文特征提取模块的有效性也得到了验证。（2）非视觉特征对模型性能的影响程度较小。但之前的工作中有研究者仅根据人体姿态估计进行行人意图预测，并取得了不错的结果，因此这两个因子的信息可能是没有被充分地提取或没有得到有

47、效利用，在后续研究中，也会把对这两个因子信息的提取和应用作为该模型优化的重点方向。2.4试验结果分析本文遵循相同的数据采样设置，报告了模型优化前后的试验结果，并报告了该模型与其他主流方法的对比结果。定量结果如表5和表6所示，图7和图8分别为在JAADall和JAADbeh数据集上定量试验的ROC曲线，试验的定性分析如图9所示。图中ROC曲线的横纵坐标分别为FPR和TPR，FPR=FP/（TN+FP），TPR=TP/（TP+FN），其中TP、FN、FP和 TN分别为分类结果混淆矩阵中的真正例、真反例、假正例和假反例。2.4.1定量试验为更好地与其他方法进行对比，分别在JAADall和JAADbe

48、h数据集上选取了3种模型，前两种模型是在保证与其他方法同输入下的分层融合模型，区表5JAADall数据集上的定量结果ModelsSF-GRUPCPAOurs1Ours2Ours3Visual EncoderVGG+GRU3DCNNVGG+GRUVGG+AUGRUVGG+AUGRUInputsBox+BCDBox+BCDBox+BCDBox+BCDBox+ABCDMain Fusion Approachhierarchical fusionlater-fusionhierarchical-fusionhierarchical-fusionhiybrid-fusionAccuracy0.760.7

49、60.800.810.84AUC0.770.790.810.820.83F1Score0.530.550.590.610.63Precision0.400.410.490.500.52Recall0.790.830.810.800.81表6JAADbeh数据集上的定量结果ModelsSF-GRUPCPAOurs1Ours4Ours5Visual EncoderVGG+GRU3DCNNVGG+GRUVGG+AUGRUVGG+AUGRUInputsBox+BCDBox+BCDBox+BCDBox+BCDBox+ABCMain Fusion Approachhierarchical-fusionla

50、ter-fusionhierarchical-fusionhierarchical-fusionhiybrid-fusionAccuracy0.580.530.600.610.62AUC0.560.530.560.570.57F1Score0.650.590.710.730.73Precision0.680.660.670.670.69Recall0.620.530.810.760.78图7JAADall数据集上定量试验的ROC曲线图8JAADbeh数据集上定量试验的ROC曲线 1787汽车工程2023 年（第 45 卷）第 10 期别在于第1种模型中的RNN采用普通GRU，第2种模型中的RN

展开阅读全文