收藏 分销(赏)

骨架引导的多模态视频异常行为检测方法.pdf

上传人:自信****多点 文档编号:2395615 上传时间:2024-05-29 格式:PDF 页数:9 大小:5.41MB
下载 相关 举报
骨架引导的多模态视频异常行为检测方法.pdf_第1页
第1页 / 共9页
骨架引导的多模态视频异常行为检测方法.pdf_第2页
第2页 / 共9页
骨架引导的多模态视频异常行为检测方法.pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 56 卷第 1 期郑 州 大 学 学 报(理 学 版)Vol.56 No.12024 年 1 月J.Zhengzhou Univ.(Nat.Sci.Ed.)Jan.2024收稿日期:2022-09-23基金项目:国家重点研发计划项目(2018YFC0824402)。第一作者:付荣华(1996),女,硕士研究生,主要从事深度学习、视频异常行为检测研究,E-mail:furh1996 。通信作者:石磊(1967),男,教授,主要从事大数据与人工智能、服务计算、高性能计算、智慧城市研究,E-mail:shilei 。骨架引导的多模态视频异常行为检测方法付荣华1,刘成明1,刘合星2,高宇飞1,石磊

2、1(1.郑州大学 网络空间安全学院河南 郑州 450002;2.郑州市公安局 科技通信管理处河南 郑州 450000)摘要:视频异常行为检测是智能视频监控分析的一项重要且具有挑战性的任务,旨在自动发现异常事件。针对只采用单骨架模态导致部分相似运动模式的行为难以区分和缺乏时间全局信息的问题,提出骨架引导的多模态异常行为检测方法。为了充分利用 RGB 视频模态和骨架模态的优势进行相似行为下的异常行为检测,将从骨架模态中提取的动作行为特征作为引导,使用新的空间嵌入来加强 RGB 视频和骨架姿态之间的对应关系。同时使用时间自注意力提取相同节点的帧间关系,以捕获时间的全局信息,有效提取具有区分性的异常行

3、为特征。在两个大型公开标准数据集上的实验结果表明所提方法能够有效加强骨架引导的多模态特征在空间和模态上的对应关系,并捕获时空图卷积缺乏的时间全局信息,使运动模式相似的异常行为实现更准确检测。关键词:视频异常行为检测;骨架;多模态融合;时空自注意力增强图卷积;空间嵌入中图分类号:TP391.4文献标志码:A文章编号:1671-6841(2024)01-0016-09DOI:10.13705/j.issn.1671-6841.2022284Skeleton-guided Multimodal Video Abnomaly Behavior DetectionFU Ronghua1,LIU Chen

4、gming1,LIU Hexing2,GAO Yufei1,SHI Lei1(1.School of Cyber Science and Engineering,Zhengzhou University,Zhengzhou 450002,China;2.Science and Technology Communication Management Department,Zhengzhou Municipal Public Security Bureau,Zhengzhou 450000,China)Abstract:A multi-modal abnormal behavior detecti

5、on algorithm based on the fusion of RGB video and skeleton sequences was proposed to solve the problem that the behavior of similar motion patterns was dif-ficult to distinguish by using only human skeleton features.In order to make full use of the advantages of each mode for abnormal behavior detec

6、tion with similar behaviors,a new spatial embedding was used to strengthen the correspondence between RGB and skeletal poses,and temporal self-attention was used to extract the inter-frame relationship between the same nodes,which could effectively extract discriminative abnormal behavior features.I

7、n two large-scale public standard datasets,the results showed that the meth-od could achieve accurate detection of human abnormal behaviors compared with the good performance of spatiotemporal graph convolutional network detection algorithms when similar abnormal behaviors were in-distinguishable.Ke

8、y words:video abnormal behavior detection;skeleton;multimodal fusion;spatiotemporal self-atten-tion augmented graph convolution;spatial embedding第 1 期付荣华,等:骨架引导的多模态视频异常行为检测方法0引言视频异常行为检测是智能视频监控系统的一项重要、具有挑战性的任务。在智慧城市时代,视频监控用于监控基础设施财产和公共安全已变得非常重要。大量的摄像头安装在地铁口、购物中心、校园环境等公共场所,并不断产生大量的视频数据。对于观察者来说,人工监控长时间

9、的实时视频流并检测是否存在异常事件是一件非常困难和耗时的任务。从监控视频流中自动检测出异常事件可以显著减少人工的监查工作。近年来,随着深度学习和计算机视觉等领域的蓬勃发展,视频特征提取借鉴了图像特征提取的先进研究成果,提出多种视频特征提取网络并取得了良好的成果。可以利用多种特征如外观、深度、光流和人体骨架等对视频中的人类行为进行识别。在这些特征中,动态的人体骨架通常能传达与其他特征互补的重要信息。监控视频中的人类异常行为通常具有较低的类间方差,部分日常行为活动表现出相似的运动模式,如步行和慢速骑车的人,慢速骑车的人因为与步行有相似的速度和姿势而被误判为步行模式,这种情况下须要进行细粒度的理解。

10、早期对 视 频 异 常 行 为 检 测 的 研 究 主 要 基 于RGB 视频模态,其包含了丰富的细节信息,但其面对背景复杂和可变性的干扰,以及身体尺度、光照、视角等因素的变化时容易受到影响。在人类异常行为检测领域,有利用骨架特征且基于图卷积的方法关注人体关节的空间配置。时空图卷积网络(spatial temporal graph convolutional networks,ST-GCN)1在学习非欧几里得数据的空间和时间依赖性方面表现了其有效性,ST-GCN 的局限性在于只捕捉空间和时间维度的局部特征,缺乏全局特征。与 RGB 视频模态相比,骨架模态能够提供更丰富的人体骨架行为关键点信息,

11、并且对光线和尺度的变化具有较强的鲁棒性,是对人体的高层级语义表示,但缺乏外观信息,特别是人与对象交互的行为信息2-3,这是检测细粒度异常行为的关键。骨架模态总体信息量也不如 RGB 模态的高,比如对于某些和物体交互的动作,光用骨架信息就很难完全描述。为了利用骨架姿态和 RGB 视频模态的优点,可将多模态信息融合成一组综合的鉴别特征。由于这些模态是异构的,必须通过不同类型的网络进行处理以显示其有效性,这限制了它们在简单的多模态融合策略4-5中的性能,因此,许多姿态驱动的注意力机制被提出来指导基于 RGB 的动作识别。文献6-7通过 LSTM 实现姿态驱动注意力网络,专注于显著的图像特征和关键帧。

12、随着三维卷积的成功发展,一些工作尝试利用三维姿态来加权 RGB 特征图的鉴别部分6-9。Das 等8提出了一种在三维卷积网络上的空间注意力机制来加权与动作相关的人体部位。为了提升检测性能并提取更具鉴别性的特征,陈朋等10提出的弱监督视频行为检测结合了RGB 数据和骨架数据。以上方法提高了动作的识别性能,但它们存在以下缺点:在计算注意力权值的过程中,三维姿态与RGB 线索之间没有准确的对应关系;在计算注意力权值时忽略了人体的拓扑结构。由于目前基于骨架单一模态的自注意力增强图卷积网络11克服了 ST-GCN 空间局部特征的局限性,空间自注意力增强图卷积网络可以捕获空间维度的局部和全局特征,但无法捕

13、捉动作中微妙的视觉模式,与骨架动作姿态相似的行为动作容易出现误判。为了充分利用 RGB 模态与骨架模态之间的优势并克服时间卷积的局限性,本文提出了一种骨架引导的多模态异常行为检测方法,使用新的空间嵌入来加强 RGB 和骨架姿态之间的对应关系,并使用时间自注意力提取相同节点的帧间关系。如图 1 所示,本文提出的方法将原始监控视频的 RGB 视频帧及其提取的对应骨架姿态作为输入。通过视觉网络处理视频帧,并生成时空特征图 f。所提出的引导模块(RGB pose networks,RPN)以特征图 f 和骨架时空图 P 作为输入,通过骨架姿态和视频外观内容的空间嵌入(RGB-Pose spatial

14、embed-ding,RGB-Pose)加强视频 RGB 帧和骨架姿态之间的对应关系,并在时间维度上使用时间自注意力模块(temporal self-attention module,TSA)研究同一关节沿时间的帧间相关性,从而获取更好的判别性特征。RPN 由改进的时空自注意力增强图卷积和空间嵌入(RGB-Pose)两部分组成。改进的时空自注意力增强图卷积进一步由空间自注意力增强图卷积11和时间自注意力(TSA)组成,融合 RGB 视频和骨架两种模态进行异常行为检测。RPN 计算特征映射 f。然后使用特征图 f 进行深度嵌入聚类,并进行异常行为检测,异常分数用于确定动作是否正常。本文提出了一种

15、新的时空自注意力增强图卷积算子,由空间自注意力增强图卷积模块以及时间自注意力模块(TSA)构成。使用时间自注意力(TSA)提取相同骨骼节点的帧间关系,捕获时间全局信息。71郑 州 大 学 学 报(理 学 版)第 56 卷图 1骨架引导的多模态视频异常行为检测方法框架图Figure 1The framework of skeleton-guided multimodal video anomalous behavior detection method使用新的空间嵌入(RGB-Pose)来加强 RGB 和骨架姿态之间的对应关系,充分利用各个模态的优势。所提出的方法在 ShanghaiTech C

16、ampus 异常检测数据集和 CUHK Avenue 数据集上进行实验评估,实现了优秀的性能指标,证明了所提方法的有效性。1骨架引导的多模态异常行为检测方法1.1特征提取监控视频中人体骨架数据从预训练的视频姿势估计算法或运动捕捉设备中获得。通过改进的时空自注意力增强图卷积块11构建时空自注意力增强图卷积自编码器(spatioteporal self-attention augmen-ted graph convolutional autoencoder,SAA-STGCAE)来提取骨架特征,使用编码器将提取的骨架姿态嵌入到时空图中。人的行为被表示为时空图。时空图的骨架时空连接配置如图 2 所示

17、,配置描述遵循 ST-GCN。将 N 定义为人体骨架的关节数,F 定义为视频的总帧数。对于监控视频流中的每一个人,构建时空图 G=(V,E),其中:V=vtnt=1,2,T,n=1,2,N 是所有关节节点作为图的顶点的集合;E 表示时空图的边,描述人体结构中自然联系的所有边和时间的集合。此外,E 由两个子集 Es和 Et组成,其中:Es=(vtn,vtm)t=1,2,T,n,m=1,2,V 表示每一帧 t 中任意关节对(n,m)的连接;Et=(vtn,v(t+1)n)t=1,2,T,n=1,2,N 表示沿连续时间的每一帧之间的连接。图 2 中的节点表示人体骨架关节,实线为人体骨架关节的自然连接

18、,表示空间维度边,虚线为相同骨架关节相邻帧之间对应的时间维度连接,表示时间边。对于 RGB 视频,从视频剪辑中提取人类裁剪图像作为输入,通过三维卷积网络提取视频的时空特征表示。然后,在两种模态特征的基础上,利用引导模块的空间嵌入融合骨架和 RGB 特征,增强两种模态特征的对应关系。图 2骨架时空图Figure 2Spatiotemporal graph1.2时间自注意力模块时间自注意力模块(TSA)的每个独立关节沿所有帧分别研究每个关节的动力学。通过沿着时间维度的相同身体关节的变化来计算各帧之间的相关性,如图 3 所示。当计算源节点加权结果时,所有帧的该节点参与计算,此为捕捉时间全局特征的体现

19、。图 3时间自注意力模块示例图Figure 3Example of temporal self-attention module为了说明 TSA,图 3 中以一组 4 帧关节进行说明,实际计算过程是在每一个关节上均执行。对于骨架 v 在不同时间的每个关节,首先计算查询向量qvt Rdq,键向量 kvt Rdk和值向量 vvt Rdv,dk、dq、dv分别是键向量、查询向量和值向量的通道维度。设参数 Wq RCindq,Wk RCindk,Wv RCindv,使用可训练的线性变换,对关节 v 的每一相邻时间计算两个关节之间相关性强度的分数 vtu R,即81第 1 期付荣华,等:骨架引导的多模态

20、视频异常行为检测方法vtu=qvtkvu,(1)其中:同一骨架节点 v 在两个不同的时间状态表示为 t 和 u;时间状态 t 的查询值为 qvt Rdq;时间状态 u 的键向量和值向量分别为 kvu Rdk和 vvuRdv。对同一关节每个时间状态的相关性强度 vtu进行加权来获得关节 v 的新嵌入 zvt RCout,即zvt=nsoftmax(vtudk)vvu。(2)TSA 使用下标表示时间,上标表示关节。TSA采用多头注意力机制,所用公式为headNh(XT)=softmax(XTWq)(XTWk)TdNhk)(XTWV),(3)SAT=concat(head1,head2,headNh

21、)Wo。(4)为了便于处理,输入矩阵变维为 XT RVCinT,可沿时间维度在每个关节上单独操作。Wo是一个可学习的线性变换,结合了所有头的输出。TSA 模块通过提取相同骨骼节点的帧间关系,学习同一关节不同帧间的关系,例如首帧中的关节与末帧中的关节。TSA 是沿着同一关节(如所有左脚或所有右手)的时间维度上进行,从而在时间维度得到判别特征,并捕获时间全局特征,这是通过标准 ST-GCN 中 TCN 无法达到的。1.3时空自注意力增强图卷积本文提出了一种新的时空自注意力增强图卷积算子,如图 4 所示。由空间自注意力增强图卷积模块11(如图 5 所示)、时间自注意力模块(TSA)构成(如图 6 所

22、示)。其中空间自注意力增强图卷积是核心部分。图 4时空自注意力增强图卷积算子Figure 4Modified spatiotemporal self-attention augmented graph convolution空间自注意力增强模块基于空间图卷积提出,空间维度使用三种类型的邻接矩阵:静态邻接矩阵(A1);全局学习邻接矩阵(A2)和自适应邻接矩阵(A3)。空间自注意力模块应用修改后的自注意力算子,捕捉同一帧中不同关节的空间特征,并动态构图 5空间自注意力增强图卷积模块Figure 5Spatial self-attention augmented graph convolution

23、module图 6时间自注意力模块Figure 6Temporal self-attention module建关节内和关节之间的空间关系,以加强非直接连接的人类骨架关节的相关性。空间自注意力增强图卷积主要关注关节之间的空间关系,其输出被传递到时间自注意力模块,以提取帧间的时间关系,可描述为ST-SAAGCN(x)=TSA(GCN(x),(5)时空自注意力增强图卷积算子既可以捕获空间局部和全局特征信息,又可以捕获时间全局信息。1.4骨架引导的 RGB 视频和姿态的空间嵌入骨架自注意力增强图卷积网络11被认为是主干网络,可以检测出行为动作中显著的异常行为信息。对于引导网络,在骨架姿态和 RGB

24、数据之间有一个准确的对应关系是很重要的。空间嵌入的目的是使用骨架姿态和 RGB 模态之间紧密的对应关系,向 RGB 视频帧提供骨架姿态反馈。如图 7 所示。文献8-9使用姿态信息在 RGB 特征图上提供注意力权重,而不是将它们投影到相同的参考中。因为没有像素到像素的对应,通过骨架数据计算出的空间注意力并不与图像部分对应,但这对于检测相似的动作行为至关重要。为了将这两种模态关联起来,本文使用了一种来自图像字幕任务12-13的嵌入技术来构建一个精确的 RGB-Pose 嵌入,使姿态能够表示动作的视觉内容,空间嵌入说明如图 8 所示。91郑 州 大 学 学 报(理 学 版)第 56 卷图 7空间嵌入

25、对应关系Figure 7Spatial embedding correspondence图 8空间嵌入说明图Figure 8Spatial embedding illustration从视频剪辑中提取的人类裁剪图像作为输入,通过三维卷积网络计算时空表示 f,其中 f 是维度为tc m n c 的特征图。然后,利用本文提出的网络对特征图 f 和相应的骨骼姿态 P 进行处理。空间嵌入输入的是一个 RGB 图像及其相应的骨架姿态。强制嵌入人体关节中代表图像的相关区域。假设视频特征图 f(一个 Dv维向量)及其对应的基于姿态的潜在空间注意力向量 Z1(一个 Dp维向量)的全局空间表示存在低维嵌入。映射

26、函数推导公式为fe=Tvf,Se=TpZ1,(6)其中:Tv RDeDv和 Tp RDeDp是将视频内容和骨架姿态投影到相同的 De维嵌入空间的变换矩阵;fe、Se分别为 RGB 嵌入和骨骼嵌入。将该映射函数应用于视觉空间特征和基于姿态的特征上,以实现上述空间嵌入的目标。为了衡量视频内容和骨架姿态之间的相关性,计算它们在嵌入空间中映射之间的距离。将嵌入损失定义为Le=Tvfs(-TpZ1(22,(7)其中:Tvfs(=TvfsTvfs2和 TpZ1(=TpZ1TpZ12是投影到单位超球体上的特征表示;范数约束Tv2=Tp2=1,避免 Tv(=Tp(=0。这种嵌入损失和全局分类损失在 RGB 特

27、征映射上提供了一个线性变换,保留了动作表示的低秩结构,并为不同的动作引入了最大分离特征。因此,通过最小化相关性嵌入损失来加强视频和姿态之间的对应关系。这种嵌入确保了用于计算空间注意力权值的姿态信息与视频的内容保持一致,能更好地体现视频的语义。1.5深度嵌入式聚类聚类层的开始是 SAA-STGCAE 的嵌入。该方法调整了深度嵌入式聚类14,并使用提出的 SAA-STGCAE 架构对时空图进行软聚类。该聚类模型由编码器、解码器和软聚类层三部分组成。基于初始重构对嵌入进行微调以获得最终的聚类优化嵌入,然后每个样本由分配给每个集群的概率 Pnk表示,所用公式为Pnk=Pr(yn=kZn,)=exp(T

28、kZn)Kk=1exp(TkZn),(8)其中:Zn是 SAA-STGCAE 的编码器部分生成的潜在嵌入;yn是软聚类分配;是聚类层数为 k 的聚类层参数。按照聚类目标14执行算法优化,最小化当前模型概率聚类预测 P 和目标分布 Q 之间的 Kullback-Leibler(KL)散度,所用公式为qnk=pnk/(npnk)12kpnk/(npnk)12,(9)Lcluster=KL(QP)=nkqnklogqnkpnk。(10)在期望的过程中,固定模型并更新目标分布 Q,在最大化步骤中,模型被优化用以最小化聚类损失Lcluster。1.6异常检测模块异常分数计算由狄利克雷过程混合模型进行评估

29、。狄利克雷过程混合模型是评估比例数据分布的有用度量,理论上是处理大型未标记数据集的理想选择。它在估计阶段评估一组分布参数,并使用拟合模型为推理阶段的每个嵌入样本提供分数。在测试阶段,使用拟合模型以对数概率对每个样本进行评分。模型提供的正态性分数用于确定动作是否正常。2实验与结果分析 2.1数据集在 ShanghaiTech Campus 和 CUHK Avenue 两个02第 1 期付荣华,等:骨架引导的多模态视频异常行为检测方法公共数据集上评估了所提视频异常检测方法的性能,这两个数据集可以轻松识别行人并提取人体骨架数据,HR-ShanghaiTech 为第一个数据集中异常的且仅与人类有关的子

30、集。图 9 显示了实验所使用数据集中的一些正常和异常事件。本节将提出的网络与基于外观15-17和基于骨架的11,18-20方法进行比较。所有实验都在帧级 AUC 度量上进行评估。图 9数据集正常和异常事件示例Figure 9Examples of normal and abnormal events in the datasetCUHK Avenue 与 ShanghaiTech 数据集的帧数(训练帧、测试帧)、异常事件和场景数等相关信息如表 1 所示。表 1数据集比较表Table 1Comparison of datasets数据集总帧数 训练帧 测试帧异常事件场景数CUHK Avenue3

31、0 65215 32815 324471ShanghaiTech Campus 317 398 274 515 42 883130132.2实验设置本文方法由 Pytorch 框架实现,在 Nvidia Ge-Force RTX 2080Ti(4)Ubuntu 18.04 操 作 系 统,CUDA 10.0 支持下进行实验。本文实验中,所选择的视觉网络是在数据集ImageNet 和 Kinetics-400 上 预 训 练 的 I3D(Two-Stream Inflated 3D ConvNet)网络。视觉主干以 64帧视频作为输入。从 I3D 的 Mixed_5c 层中提取的特征图和相应的骨

32、架姿态组成 RPN 的输入。使用 Alpha-Pose 算法来提取视频中每一帧人的骨架姿态估计。对于自注意力时空图卷积的配置,遵循 ST-GCN 中的设置,其中包含 9 个时空自注意力图卷积层。前 3 层、中 3 层和后 3 层分别有 64、128 和 256 个通道用于输出。Resnet 机制应用于每个自注意力时空图卷积。2.3消融实验模型包括两个新的组件,空间嵌入和时空自注意力。这两者对相似行为下的异常行为检测识别性能都是至关重要的。2.3.1自注意力网络消融实验本文进行了空间自注意力、时间自注意力以及时空自注意力的消融实验,结果如表 2 所示。表 2自注意力网络消融实验结果表Table

33、2Self-attention network ablation experimental results消融模块ShanghaiTechHR-ShanghaiTech空间自注意力0.7890.793时间自注意力0.7390.741时空自注意力0.7900.794结果表明,仅采用空间自注意力,可以捕获空间局部和全局特征但缺乏时间全局特征。仅采用时间自注意力,考虑了时间全局特征,但缺乏空间全局特征。时空自注意力增强图卷积计算注意力权重时,不仅在空间维度上考虑了骨架特征的局部和全局信息,而且在时间维度上考虑同一关节的时间全局关系,这进一步提高了异常行为检测的性能,使模型能减少误判。2.3.2时空自

34、注意力与空间嵌入消融实验进行了时空自注意力网络和 RPN 的空间嵌入模块的消融实验。时空自注意力网络在数据集 ShanghaiTech上结果为 0.790,在数据集 HR-ShanghaiTech 上结果为 0.793;空间嵌入在数据集 ShanghaiTech 上结果为 0.795,在 数 据 集 HR-ShanghaiTech 上 结 果 为0.798。结果表明,空间嵌入提供了 RGB 模态和骨架姿态模态的精确对齐,与没有嵌入的动作相比,细粒度动作的检测性能有所提高。时空自注意力增强图卷积操作和空间嵌入使识别模型能够更好地消除外观相似的动作歧义。2.3.3时空自注意力增强图卷积数量的选择本

35、文还对时空自注意力增强图卷积数量进行消融研究,以探索其有效性。实验逐渐增加时空自注意力增强图卷积的数量。如图 10 所示。由图 10 可知随着增加时空自注意力增强图卷积数量,在 ShanghaiTech Campus 数据集上的 AUC性能逐渐增加。当时空自注意力增强图卷积数量选择为 9 时,模型在 ShanghaiTech Campus 数据集上的性能最好。消融实验表明更深层次可能会导致模型12郑 州 大 学 学 报(理 学 版)第 56 卷图 10改变时空自注意力增强图卷积数量在ShanghaiTech Campus 数据集上的性能Figure 10Performance of chang

36、ing the number of spatiotemporal self-attention augmented graph convolutions on the ShanghaiTech Campus dataset优化困难。2.4实验结果的可视化为了直观地评价模型,将 CUHK Avenue 数据集和 ShanghaiTech 数据集的部分实验结果可视化。异常分数可视化图以视频帧为 x 轴,以异常分数为 y轴,图中阴影区域表示异常行为发生的时段。图 11 为 CUHK Avenue 数据集的摄像头采集的第 11 视频片段的异常得分。异常分数归一化为0,1,图中阴影区域代表异常,此视频片

37、段异常事件为扔掷东西和逆向行走。图 11数据集 CUHK Avenue#11 异常分数可视化图Figure 11The visualization of anomaly scores for CUHK图 12 为数据集 CUHK Avenue#11 的典型异常帧,图 12(a)93 帧表示人准备开始向上扔掷动作,图 12(b)150 帧表示人捡起扔掷物品,图 12(c)300帧表示逆向行走的人,行人的运动方向与他人不一致,即运动轨迹异常。图 12数据集 CUHK Avenue#11 的典型异常帧Figure 12Typical anomalous frame for dataset Avenu

38、e#11图 13 为 ShanghaiTech 数据集的 07 号摄像头视角的第 009 视频片段的异常得分,图中阴影区域代表异常,此视频片段异常事件为突然跳跃。从图 13中可以看出,异常行为从 115 帧到 198 帧,视频片段中的人进行了多次跳跃动作。图 13数据集 ShanghaiTech#07_009 异常分数可视化图Figure 13The visualization of anomaly scores for ShanghaiTech#07_009如图 14 所示,图(a)118 帧表示人准备跳跃的下蹲起势动作,图(b)132 帧表示人向前跳跃的动作,图(c)145 帧表示跳跃的落

39、地动作,图(d)155 帧表示人再次起跳动作,图(e)167 帧表示再次落地,图(f)180 帧表示 3 次起跳动作。图 14数据集 ShanghaiTech#07_009 的典型异常帧Figure 14Typical anomalous frame for dataset ShanghaiTech#07_009图 15 为 ShanghaiTech 数据集的 06 号摄像头视角的第 150 视频片段的异常得分,图中阴影区域代表异常,此视频片段异常事件为骑自行车的人。慢速骑自行车的人与行走的人具有相似的运动模式,在只使用骨架模态进行异常检测时极易产生误判,本文方法可以对其进行异常检测,降低误判

40、率。图 15数据集 ShanghaiTech#06_150 的异常分数可视化图Figure 15The visualization of anomaly scores for ShanghaiTech#06_15022第 1 期付荣华,等:骨架引导的多模态视频异常行为检测方法2.5实验结果与分析对比本 文 所 提 方 法 与 其 他 单 模 态 的 方 法 在ShanghaiTech Campus 数据集、与人 类活动相关 的HR-ShanghaiTech Campus 数 据 集 和 CUHK Avenue数据集上的性 能,显示帧级 的 AUC 分 数,如 表 3所示。表 3异常检测结果表T

41、able 3Table of anomaly detection results特征方法ShanghaiTech CampusHR-ShanghaiTech CampusAvenue外观Conv-AE160.7040.6980.848TSC sRNN150.680N/AN/ALiu et al.170.7020.7270.682骨架MPED-RNN200.7350.7540.863Normal Graph180.7340.7650.873GEPC190.7490.7560.876SAA-Graph110.7890.7930.884RGB 和骨架RPN0.7950.7980.892注:N/A 表

42、示无此种情况。将本文所提出的方法与基于外观的方法15-17和基于骨架的方法18-20进行比较。一般来说,基于骨架的方法比基于外观的方法表现更好,尤其是在ShanghaiTech Campus 数据集中,异常仅存在与人类有关的子集 HR-ShanghaiTech Campus 上。原因是这些算法只关注人体姿势而不是不相关的特征,例如复杂的背景、光照变化、动态摄像机视图等。对于基于骨架的方法,基于 GCN 的方法18-19表现更好,与基于 RNN 的方法20相比,因为骨架可以自然地定义为图结构,并且图卷积网络在处理非欧几里得结构数据方面优于 RNN 网络。对于只使用单模态的异常 行 为 检 测,由

43、 于 外 观 信 息 的 缺 乏,MPED-RNN20、Normal Graph18、GEPC19、SAA-Graph11无法消除具有相似视觉外观动作的歧义。骨架模态和 RGB 模态结合可以提升检测的性能,使用新的空间嵌入来加强 RGB 视频和骨架姿态之间的对应关系,以及使用时间自注意力提取相同节点之间的帧间关系,可以提高部分相似行为下的异常行为检测性能。3总结本文主要研究相似运动模式下的异常行为检测。提出了一种新的视频姿态网络 RPN,提供了一种精确的视频姿态嵌入方法,通过显式嵌入来结合RGB 模态和骨架模态并采用时间自注意力捕获时间全局信息。结果表明,RGB-Pose 嵌入与骨架时空自注意

44、力产生了一个更具区别的特征图,提升了相似异常行为的检测性能。本文异常行为检测模型在两个公共数据集上的性能都取得了优异的结果。本文针对不同监控场景下的人类异常行为检测进行了相关研究,但仍然存在一些可以进一步改进的问题。未来与人类行为相关的监控视频异常行为检测工作:1)在有噪声的骨架姿态情况下,可利用本文提出的嵌入方法提高网络的异常行为检测。2)引入更多视觉特征或拓展模态并研究轻量级模型,在考虑保证特征的全 面性和有效 性 的 同 时 提 高 计 算速度。参考文献:1YAN S J,XIONG Y J,LIN D H.Spatial temporal graph convolutional net

45、works for skeleton-based action recogni-tionJ.Proceedings of the AAAI conference on artificial intelligence,2018,32(1):7444-7452.2CARREIRA J,ZISSERMAN A.Quo vadis,action recog-nition?A new model and the kinetics datasetC2017 IEEE Conference on Computer Vision and Pattern Recog-nition.Piscataway:IEEE

46、 Press,2017:4724-4733.3CRASTO N,WEINZAEPFEL P,ALAHARI K,et al.MARS:motion-augmented RGB stream for action recogni-tionC2019 IEEE/CVF Conference on Computer Vi-sion and Pattern Recognition.Piscataway:IEEE Press,2020:7874-7883.4LIU G Y,QIAN J C,WEN F,et al.Action recognition based on 3D skeleton and R

47、GB frame fusionC2019 IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway:IEEE Press,2020:258-264.5LUO Z L,HSIEH J T,JIANG L,et al.Graph distil-lation for action detection with privileged modalitiesCEuropean Conference on Computer Vision.Cham:Springer Press,2018:174-192.6BA

48、RADEL F,WOLF C,MILLE J.Human action recog-32郑 州 大 学 学 报(理 学 版)第 56 卷nition:pose-based attention draws focus to hands C2017 IEEE International Conference on Computer Vision Workshops.Piscataway:IEEE Press,2018:604-613.7BARADEL F,WOLF C,MILLE J,et al.Glimpse clouds:human activity recognition from unst

49、ructured fea-ture pointsC2018 IEEE/CVF Conference on Comput-er Vision and Pattern Recognition.Piscataway:IEEE Press,2018:469-478.8DAS S,CHAUDHARY A,BREMOND F,et al.Where to focus on for human action recognition?C 2019 IEEE Winter Conference on Applications of Computer Vi-sion.Piscataway:IEEE Press,2

50、019:71-80.9DAS S,DAI R,KOPERSKI M,et al.Toyota smart-home:real-world activities of daily living C 2019 IEEE/CVF International Conference on Computer Vision.Piscataway:IEEE Press,2020:833-842.10 陈朋,王顺,党源杰,等.融合骨骼数据的弱监督视频行为 检 测 方 法 研 究 J.小 型 微 型 计 算 机 系 统,2022,43(8):1739-1745.CHEN P,WANG S,DANG Y J,et

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服