收藏 分销(赏)

基于骨架的自注意力增强图卷积聚类网络异常行为检测方法.pdf

上传人:自信****多点 文档编号:582230 上传时间:2024-01-02 格式:PDF 页数:7 大小:3.49MB
下载 相关 举报
基于骨架的自注意力增强图卷积聚类网络异常行为检测方法.pdf_第1页
第1页 / 共7页
基于骨架的自注意力增强图卷积聚类网络异常行为检测方法.pdf_第2页
第2页 / 共7页
基于骨架的自注意力增强图卷积聚类网络异常行为检测方法.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、文章提出了一种新的基于骨架的自注意力增强图卷积算法来检测人类异常行为。骨架数据已被证明对复杂的背景、光照变化和动态摄像机场景具有鲁棒性,并被自然地构造为非欧几里得空间中的图,特别是建立时空图卷积网络可以有效地学习非欧几里得结构数据的时空关系。然而,它只作用于局部邻域节点,因此缺乏全局信息。文章提出了一种新的时空自注意增强图卷积网络(SAA-Graph),通过将改进的空间图卷积算子和改进的Trans-former自注意力算子相结合来捕获关节的局部和全局信息。空间自我注意增强模块用于理解人体各部位之间的帧内关系,并在公共数据集ShanghaiTechCampus和CUHKAvenue上进行实验和分

2、析。关键词:视频异常检测;骨架;自注意力;图形卷积网络中图分类号:TP391.41文献标识码:AA Self-attention Augmented Graph Convolutional Clustering Networksfor Skeleton-based Video Anomaly DetectionFU Rong-hua(The 27th Research Institute of China Electronics TechnologyGroup Corporation,Zhengzhou 450047,China)Abstract:In this paper,we propos

3、e a new method for detecting abnormal human behavior based on skeletonfeatures using self-attention augment graph convolution.The skeleton data have been proved to be robust to thecomplex background,illumination changes and dynamic camera scenes and are naturally constructed as a graphin non-Euclide

4、an space.Particularly,the establishment of spatial temporal graph convolutional networks(ST-GCN)can effectively learn the spatio-temporal relationships of Non-Euclidean Structure Data.However,it onlyoperates on local neighborhood nodes and thereby lacks global information.We propose a novel spatial

5、temporalself-attention augmented graph convolutional networks(SAA-Graph)by combining improved spatial graph con-volution operator with a modified transformer self-attention operator to capture both local and global informationof the joints.The spatial self-attention augmented module is used to under

6、stand the intra-frame relationships be-tween human body parts.Moreover,to validate the proposed model,we performed extensive experiments on twolarge-scale publicly standard datasets Shanghai Tech Campus and CUHK Avenue.Key words:Video Anomaly Detections;Skeleton;Self-attention;Graph Convolutional Ne

7、tworks1引言近年来,监控视频异常检测随着深度学习和计算机视觉的发展以及在社会治安管理等领域的应用而受到广泛关注。视频异常检测是无监督视频分析中一项极具挑战性的任务。目前主要对外观、深度、光流等特征进行深入研究,对基于骨架的视频异常检测模型关注较少。监控视频大多数异常事件由人类引起。现有模型大多基于图像级,不专注于人类行为活动模式建模,更多强调背景,从而增加模型负担。本文利用骨架紧凑、语义作者简介:付荣华(19 9 6 一),女,硕士研究生,毕业于郑州大学,研究方向:视频异常检测。第1期系电光统18丰富的属性,以及对人类行为和运动的强描述,使分析可以不受照明和繁忙背景等因素造成的干扰。传统

8、异常事件检测提取和分析手工制作的低层次视觉特征。这些方法提取的特征相对单一,泛化能力通常较弱,对人群场景不具有鲁棒性。如轨迹 1-2 被用来描述运动物体。方向梯度直方图(HOG)【3 和流量直方图(HOF)【4 在静态图像中表征人体的形状和轮廓信息。光流 5 描述相邻顿之间像素的灰度值的变化并常表征运动信息。在复杂的监控场景和大规模数据处理下,上述方法性能表现不佳。近年来,各种工作使用深度学习的模型来解决问题。视频异常检测模型可大致分为重建、预测和生成模型。重建模型利用重建与原始图像之间的差值进行异常检测的评分和定位,通常使用自编码器 6-7 。预测模型利用递归神经网络18-10 或三维卷积

9、7 ,预测和重建未来顿来计算损失。生成模型主要使用变分自编码器或生成对抗网络来重建预测模型的数据分布。Leo等人 早期工作已被用于广域自动视觉监测中的人类活动识别。Liu等人 12】提出结合U-Net和Beyond-MSE的未来帧预测模型。Wu等人【13 基于高级特征的快速稀疏编码网络来区分空间区域姿态图和狄利克雷过程混合用于视频异常检测。Morais等人【14 使用消息传递的编码器解码器RNN架构,形成全局和局部特征来分析异常姿态。Luo等人工作 15 第一次将图卷积应用于基于骨架的视频异常检测来分析人类关节的图连接。AmirMarkovitz等人【16 特征编码使用了时空图卷积自编码器,使

10、用深度嵌人聚类来进行视频异常检测。目前,图卷积网络(GCN)是分析非欧几里得结构数据最常用的方法之一。作为非欧结构数据的表示方法,可以有效地捕获空间(顿内)和时间(顿间)信息。ST-CCN17首先将CCN应用于骨架数据建模,并已被证明在骨架数据 18-2 0 1上表现良好。由于时空图卷积只操作于局部邻域节点,受卷积核大小的限制,缺乏全局信息。此外,人体骨骼中未直连关节之间相关性被低估。TransformerSelf-atention21最近被用于捕获图像中像素的全局上下文来求解卷积算子的局部性问题 2 。因骨架序列的顺序性和层次结构,这种机制可以扩展到骨架数据,并解决ST-GCN只能捕获空间维

11、度的局部特征的难题T-1T=2T=31SAA-STGCAESAA-STGCAE(编码器)(解码器)输人视频姿态估计+特征提取Pak深度嵌人聚类层异常分数潜在向量分配概率图1基于骨架的自注意力增强图卷积聚类网络的异常行为检测模型首先执行姿态估计算法来提取视频中每骨架。利用时空自注意增强图卷积自编码器的编码器部分对提取的骨架特征时空图进行编码,生成潜在向量。利用深度嵌人聚类层将潜在向量软分配给聚类。使用狄利克雷过程混合模型来测量其分布,可得到每个样本的正态性评分,并确定该动作是否应被归类为正常,如图1所示。本文工作的主要贡献:(1)提出一种新的时空自注意增强图卷积聚类网络用于基于骨架的视频异常检测

12、任务,利用空间自注意增强图卷积自编码器提取相关特征和嵌人聚类;(2)设计一种新的空间自注意增强图卷积算子来理解不同身体部位之间的顿内交互,并捕获骨架的局部和全局特征;(3)模型在SanghaiTech数据集实现0.7 8 9 的AUC,并为CUHKAvenue数据集提供了良好的性能指标。总第18 3期付荣华:基架的自注意力增强图卷积聚类网络为检测方法192基基于骨架的自注意力增强图卷积聚类网络2.1特征提取骨架特征提取SAA-STGCAE使用空间自注意力增强图卷积模块(SAA-Graph)和时间卷积模块来嵌人时空图,如图2 所示。SAA-STGCAE采用与ST-GCN相同的时间卷积并对从空间维

13、度获得的特征图执行1K,卷积,其中K,是时间维度中的内核大小。然后用SAA-STGCAE的编码器部分将提取的骨架姿态嵌人到时空图中,以生成用于聚类分支的潜在向量。T-1卷积时间卷积批量标准化ReLUT-2自注意力模块T-3骨骼姿势序列空间自注意力增强图卷积图2时空自注意力增强图卷积块2.1.1空间自注意模块自注意机制减少了对外部信息的依赖,更善于捕捉数据或特征的内部相关性。空间自注意力模块(SA)应用修改后的Self-attention算子,捕捉同一帧中不同关节的空间特征,并动态构建关节内和关节之间的空间关系,以加强非直接连接的人类骨架身体关节的相关性,如图3所示。a(h)d图3骨架关节自注意

14、力操作图3(a)计算查询q,键值k和值向量u;(b)通过点积()对关节和所有其他关节的进行查询,得加权值来表示每对关节之间的连接强度;(c)每个关节相关性被缩放到一个新的节点;(d)将新特征添加到()加权节点中。关节间关系是动态生成的,因此相关骨架结构是自适应生成的,不是对所有动作固定。SA通过独立计算每帧、每对关节间的相关性来实现,如图4所示。源节点计算加权结果时,需要其他所有节点参与,这是捕捉全局特征能力的体现Z,sofmax(q,k,)v,V.(q,ki,y)3V,(qs,k,vs)图4空间自注意(SAA)图图4以一组5个关节为例,但在实际执行中对所有关节运算。对于骨架在时间t的每个关节

15、un,首先计算查询向量qR),键向量k,eRk和值向量ER“通过将可训练的线性变换应用于联合特征jERCn,参数W,eRCaxda,W,=RCnxdk,W,ERCinxd为所有节点共享。其中C.是输人特征的数量,dk,d。,d、分别是键向量、查询向量和值向量的通道维度。然后,对于每一对身体关节(Vn,Vm),计算两个关节之间相关性强度的分数m,如式(1),第1期电系光20统=qh(km)TER,VtET(1)nmm用于每个关节值Vm加权,并获得关节uun的新嵌人Z,ERCour,如式(2),softmax,(2)nmnmmk多头注意力【10 通过多次重复该过程来应用多个独立的自注意计算,每次使

16、用不同的可学习参数,防止过拟合,如式(3),(XW,)(XNW,)headv,(X)=Softmax()(XWV)Nk(3)式中,X是重构后的输人;W。ERRCinxNaxda,WERCanxMxd和W.eRCaxM*是学习到的线性变换。然后所有头的输出连接如式(4),SA=concat(head,.,headn).wo(4)式中,W是可学习的线性变换,结合了所有头的输出。2.1.2空间自注意力增强图卷积本文提出了一种新的图卷积算子,称为空间自注意力增强图卷积,它基于改进的ST-GCN块,并使用自注意力模块来增强空间图卷积,如图5所示。卷积x维卷积QK批量标准化矩阵K变维一维卷积矩阵V变维W图

17、5空间自注意力增强图卷积对于空间维度,使用三种类型邻接矩阵:静态邻接矩阵(A,)、全局学习邻接矩阵(A,)和自适应邻接矩阵(A,)。A,是NN的图邻接矩阵,表示人体内部连接的物理结构。A2是NN邻接矩阵,通过完全训练一个初始化全连接图来学习数据。在训练过程中,矩阵和模型的参数一起优化。矩阵元素不仅表示两个关节之间是否存在连接,还表示连接的强度。A,为每个样本学习一个自适应图来表示两个顶点之间的连接强度。通过使用两组学习权重来嵌人输人两次,转置其中一个嵌人矩阵取两者之间的点积并归一化以获得自适应邻接矩阵 2 1对于空间维度,图卷积操作如式(5),式(6),3GCN,(f.)=(D,-(A,+I)

18、D,-)f.W,l=1,2,3(5)GCN(fu)=Concat(GCN,GCN2,GCN,)(6)其中,A,是相邻矩阵;D是度矩阵;I是描述关节自连接的单位矩阵;fi是关节集;W,是相邻子集的可训练参数;(D(A,+I)D)表示A,+的归一化。2.2深度嵌入聚类本文调整深度嵌人聚类 2 3,并使用提出的SAA-STGCAE架构对时空图进行软聚类。该聚类模型由编码器、解码器和软聚类层三部分组成。基于初始重构对嵌人进行微调以获得最终的聚类优化嵌入,每个样本由分配给每个集群的概率Pik表示,如式(7),exp(e,z,)Prk=Pr(y,=hlZ,)=-(7)式中,Z,是SAA-STGCAE编码器

19、部分生成的潜在嵌人;yn是软聚类分配;是聚类层数为k的聚类层参数。按照聚类目执行算法优化,以最小化当前模型概率聚类预测P和目标分布Q之间的Kullback-Leibler(K L)散度,如式(8),式(9),PPnknqnk(8)二PnkP2qnkLeluster=KL(Q Il P)=qnilog(9)Pnk在期望过程中,固定了模型并更新了目标分布Q,在最大化步骤中,模型被优化以最小化聚类损失Lolustero3实验结果与分析3.1参数设置本文由Pytorch框架实现,在Nvidia GeForceRTX2080Ti,Ubuntu18.04,CUDA10.0下进行实验。训练滑动窗口顿数为12

20、。使用Alpha-Pose24为数据集中每个视频顿提取骨架。未知长度的视频流,使用滑动窗口的方总第18 3期付荣华强图卷积聚类网络为检测方法21法将输人的位姿序列划分为固定长度的片段。剪辑中每个人都单独评分,取顿中每个人的最高分。遵循工作 2 5 多头注意力的头数设置为8,并每层的dg,d,和d、的嵌人维度都是0.2 5Cout。模型的训练包括两个阶段:自编码器的预训练阶段和细化嵌人和聚类调整的优化阶段。自编码器的预训练阶段通过最小化重建损失来学习编码和重建序列,为Lrecenstretion即原始时空图与SAA-STGCAE重建之间的L,损失。优化阶段结合了重建损失和聚类损失,组合损失函数如

21、式(10)所示。其中入值用于加权聚类损失,默认值为0.6。L=L.Lrecostruction+入 Loluster(10)异常分数计算由Dirichlet过程混合模型 2 6 进行评估。在估计阶段评估一组分布参数,使用拟合模型为推理阶段的每个嵌人样本提供分数。在测试阶段,使用拟合模型以对数概率对每个样本进行评分。3.2消融实验通过将其与图卷积基线(Graph)和自注意力模块进行比较,以评估本文的模型与SAA-Graph模块的有效性,其中所有这些方法都采用相同的时间卷积。实验遵循GEPCL16设置来实现图卷积基线。结果如表1所示。表1自注意力增强模块消融实验结果ShanghaiTechHR-S

22、hanghaiTechCampusCampusSAA-Graph/Graph0.7490.756SAA-Graph/SA0.7460.749SAA-Graph0.7890.793SA有条件地依赖于运动,独立于自然人体结构。表1自注意力模块的性能可以达到与图卷积基线相似的效果,这表明自注意力模块可以替代图卷积基线。实验结果证实了自注意力模块是有效的,在消融实验中SAA-Graph可以得到较好的结果。3.3实验结果与分析(1)实验结果基于骨架方法,GCN方法 8.16 比RNN方法 14 表现更好,因为骨架自然地定义为图结构,并且图卷积网络在处理非欧数据方面优于RNN网络。本文所提方法比仅使用ST

23、-GCN构建自编码器的CEPCL17性能好,GEPC只捕获空间维度上局部特征,而本方法利用自注意力捕获全局特征来增强图卷积。因此,SAA-Graph可以理解不同身体部位的顿内交互,并且可以动态建立骨架和关节之间的关系来表示人体的各个部位。表2异常检测结果方法ShanghaiTechCampusHR-ShanghaiTech CampusAvenueConv-AE60.7040.6980.848基于外观TSC sRNN100.680N/AN/ALiu et al.120.7020.7270.682MPED-RNN(140.7350.7540.863Normal Graph 150.7340.76

24、50.873基于骨架GEPC160.7490.7560.876SAA-Graph0.7890.7930.884(2)失败案例SAA-Graph性能优于相关方法,但仍存在一些失败情况。图6(a)显示视频中出现车辆是与人类无关的事件,由于无法提取骨架,因此本文方法无法处理。图6(b)显示在被障碍物阻挡时丢失情况。主要原因是骨架检测和跟踪的不准确。图6(c)显示了一个慢速骑车人由于与步行相似的速度和姿势而被误判为步行的模式,这说明所提出模型对人体具有良好的识别能力,但所有的外观特征都被过滤掉了。尽管在大多数情况下个体的动作和姿势可以反映异常,但不包括事件中多人之间以及人与物体之间的交互。(a)(b)

25、(c)图6数据集ShanghaiTechCampus失败的案例图4结束语本文通过采用SAA-STGCAE提取特征和嵌人下转第32 页)第1期系电光统22聚类,提出了一种新的时空自注意力增强图卷积聚类网络,用于骨架的视频异常检测任务。将自注意力用于时空图卷积的增强以捕获全局特征。证明了SAA-Graph在克服图卷积的局部性的同时,可以实现骨架之间更灵活和动态的表示。这种数据驱动的方法增加了图卷积网络的灵活性,并带来了更多的通用性来适应各种数据样本。该模型方法在ShanghaiTech Campus 和 CUHKAvenue这两个异常检测数据集上都取得了优异的性能。未来,可以考虑通过模拟人类骨骼关

26、节的运动来预测视频中常见的异常行为,预测关节运动特征可以作为辅助特征添加并引人更多的视觉特征或扩展模态进行视频异常行为检测。参考文献1TUNG F,ZELEK J S,CLAUSI D A.Goal-based trajecto-ry analysis for unusual behaviour detection in intelligentsurveillance J.Image and Vision Computing,2011,29(4):230-240.2NADEEM A,ANDREA C.Multifeature object trajectoryclustering for vi

27、deo analysis J.IEEE Transactions onCircuits Systems for Video Technology,2008,18(11):1555-1564.3DALAL,N,TRIGGS B.Histograms of oriented gradientsfor human detection C/IEEE Computer Society Con-ference on Computer Vision&Pattern Recognition,2005,1(1):886-893.4DALAL N,TRIGGS B,SCHMID C.Human detec

28、tion u-sing oriented histograms of flow and appearance C/European Conference on Computer Vision.Lecture NotesIn Computer Science,2006:428-441.5FISCHER P,DOSOVITSKIY A,ILG E,et al.FlowNet:Learning optical flow with convolutional networks C/IEEE International Conference on Computer Vision(IC-CV).Pisca

29、taway,USA:IEEE,2015:2758-2766.6HASAN M,CHOI J,NEUMANN J,et al.Learning tem-poral regularity in video sequences C/Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition(C V PR),2 0 16:7 33-7 42.7 CHONG Y S,TAY Y H.Abnormal event detection invideos using spatiotemporal autoencoder

30、 C/14th Infer-national symposium on Neural Network Sappora,Hokkai-do,Japan:Springer,2017:189-196.8MEDEL J R,SAVAKIS A.Anomaly detection in video u-sing predictive convolutional long short-term memory net-worksDB/0L.arXiv preprint:1612.00390,2016.9LUO W,WEN L,GAO S.Remembering history withconvolution

31、al LSTM for anomaly detection C/IEEE In-ternational Conference on Computer Vision,2017:341-349.10LUO W,WEN L,GAO S.A revisit of sparse codingbased anomaly detection in stacked RNN frameworkC/IEEE International Conference on Computer Vi-sion.2017:341-349.11LEO M,DORAZIO T,SPAGNOLO P.Human activityrec

32、ognition for automatic visual surveillance of wide areas A.In Proceedings of the ACM International Workshopon Video Surveillance&Sensor Networks C。Ne wYork,USA,2014:124-130.12LIU W,LUO W,LIAN D,et al.Future frame predic-tion for anomaly detection-一anewbaselineC/IEEEConference on Computer Vision

33、and Pattern Recognition,2018:6536-6545.13WU P,LIU J,LI M,et al.Fast sparse coding networksfor anomaly detection in videos.Pattern Recognit J2020,107:107515.14 MORAIS R,LE V,TRAN T,et al.Learning regularityin skeleton trajectories for anomaly detection in videosC/IEEE Conference on Computer Vision an

34、d PatternRecognition.IEEE Computer Society,2019:11996-12004.15LUO W,LIU W,GAO S.Normal graph:spatial tempo-ral graph convolutional networks based prediction networkfor skeleton based video anomaly detection J.Neuro-computing 2020,444,332-337.16MARKOVITZ A SHARIR G FRIEDMAN I,et al.Graphembedded pose

35、 clustering for anomaly detection C/Proceedings of the 2020 IEEE/CVF Conference on Com-puter Vision and Pattern Recognition(CVPR),2 0 2 0:10539-10547.17YAN S J,XIONG Y J,LIN D H.Spatial temporal graphconvolutional networks for skeleton-based action recogni-tion C/AAAI.Proceedings of the AAAI Thirty-

36、secondAAAI Conference on Artificial Intelligence.New Orleans:AAAI,2018:12328.18LI M S,CHEN S H,XU C,et al.Actional-structuralgraph convolutional networks for skeleton-based action rec-ognition C/Proceedings of the 32nd IEEE Conferenceon Computer Vision and Pattern Recognition.LongBeach:IEEE,2019:359

37、0-3598.19SHI L,ZHANG Y,CHENG J,et al.Skeleton-based ac-tion recognition with directed graph neural networks C/Proceedings of 2019 IEEE/CVF Conference on Computer上接第2 2 页)第1期系电光统322018,5(2):546-558.4张洪海,李翰,刘,等.城市区域物流无人机路径规划J交通运输系统工程与信息,2 0 2 0,2 0(6)2 2-2 9.5陈成,何玉庆,卜春光,等.基于四阶贝塞尔曲线的无人车可行轨迹规划J自动化学报,2 0

38、 15,41(3):48 6-496.6KIM C,PARK B U.Bezier Curve Smoothing of the Kap-lan-Meier Estimator J.Annals of the Institute of Statis-tical Mathematics,2003,55(2):359-367.7 JLIU P,HU Q.Gaussian pseudospectral optimization meth-od with smoothing penalty function path constraint han-Vision and Pattern Recognit

39、ion.Long Beach:IEEE,2019:7904-7913.20SHI L,ZHANG Y,CHENG J,et al.Two-stream adap-tive graph convolutional networks for skeleton-based ac-tion recognition C/Proceedings of the 32th Confer-ence on Computer Vision and Pattern Recognition.LongBeach:IEEE,2019:12018-12027.21JVASWANI A,SHAZEER N,PARMAR N,e

40、t al.Atten-tion is all you need C.Advances in Neural Informa-tion Processing Systems,2017,USA:5998-6008.22BELLO I,ZOPH B,VASWANI A,et al.Attention aug-mented convolutional networks C/Proceedings of the2019 IEEE/CVF international conference on computervision.Piscataway:IEE,2019:3285-3294.23XIE J,GIRS

41、HICK R,FARHADI A.Unsupervised deepdling for UAV obstacle avoidance planning C.ChinaAutomation Congress(CAC),2021.8PUTRI D M,ACUSTINAH T.Path smoothing usingBzier curve with maneuver constraint of fixed-wing UAVC.IEEE Delhi Section Conference,2022.9SOHELFA,DOOLEY L S,KARMAKAR G C.DynamicBezier Curve

42、Model C.IEEE International Conferenceon Image Processing,2005.10马华,刘峰,任春丽.Bzier曲线的计算机实现J.西安电子科技大学学报,2 0 0 2,2 9(4):5 6 5-5 6 8.embedding for clustering analysis C /ln Proceedingsof the International Conference on Machine Learning,2016:478-487.24FANG H S,XIE S,TAI Y W,et al.RMPE:regionalmulti-person

43、pose estimation C/In Proceedings of the2017 IEEE International Conference on Computer Vision(ICCV),2017:2334-2343.25PLIZZARI C,CANNICI M,MATTEUCCI M.Skeleton-based action recognition via spatial and temporal trans-former networks J.Comput.Vis.Image Underst.2021,208:10 3 2 19.26 BLEI D,JORDAN M I.Variational inference forDirichlet process mixtures J.Bayesian Analysis 2006,1(1):121-143.

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服