收藏 分销(赏)

基于多模态和关键帧的视频犯罪事件检测 (1).pdf

上传人:自信****多点 文档编号:2396134 上传时间:2024-05-29 格式:PDF 页数:9 大小:2.14MB
下载 相关 举报
基于多模态和关键帧的视频犯罪事件检测 (1).pdf_第1页
第1页 / 共9页
基于多模态和关键帧的视频犯罪事件检测 (1).pdf_第2页
第2页 / 共9页
基于多模态和关键帧的视频犯罪事件检测 (1).pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、中国人民公安大学学报(自然科学版)2023 年第 4 期 No.4 2023Journal of People蒺s Public Security University of China(Science and Technology)总第 118 期 Sum118基于多模态和关键帧的视频犯罪事件检测李摇 燕,摇 何摇 敏(甘肃政法大学网络空间安全学院,甘肃兰州摇 730070)摘摇 要摇 针对监控视频及网络上传视频中存在的犯罪事件问题,提出基于多模态融合和关键帧提取的视频犯罪事件检测方法,旨在准确高效的检测出视频中存在的犯罪事件,解决公共安全问题,为网民营造健康绿色的上网环境。该方法首先使用关

2、键帧提取技术提取视频中的关键帧序列;然后,将提取的关键帧序列输入到深度卷积神经网络中提取关键帧序列的局部特征;将提取到的局部特征再分别输入到长短期记忆网络中(Long Shor鄄Term MemoryNetwork,LSTM)和 Transformer 网络中,提取关键帧序列之间的时序特征和语义特征;同时,使用 VGG(Visual Geome鄄try Group)网络提取视频的音频特征;最后,将以上提取到的 3 种视频特征融合在一起,输入到图注意力网络(Graph Attention Network,GAT)中,提取融合特征的内部依赖关系,并检测出结果。论文实验在公开数据集 XD鄄Vi鄄ol

3、ence 上进行验证,犯罪事件检测的平均精度可达到 86郾 45%。测试结果表明,基于多模态和关键帧的视频犯罪事件检测方法能够较有效的检测出视频中的犯罪事件。关键词摇 犯罪事件检测;多模态融合;GAT;Transformer;LSTM中图分类号摇 TP391郾 4文献标志码摇 A收稿日期摇2023鄄08鄄10基金项目摇甘肃省自然科学基金项目(20JR10RA334;21JR7RA570);2021 年陇原青年创新创业人才项目(2021LQGR20);甘肃政法大学校级科研创新项目(GZF2020XZD18;jbzxyb2018-01);甘肃政法大学校级科研创新团队资助。第一作者简介摇李燕(198

4、0),女,甘肃兰州人,硕士,教授。研究方向为计算机视觉。通信作者摇何敏(1996),女,在读硕士研究生。E鄄mail:Video Criminal incident Detection Based onMultimodality and Key FramesLI Yan,摇 HE Min(Cyberspace Security Academy,Gansu University of Political Science and Law,Lanzhou 730070,China)Abstract:Aiming at the problem of criminal incidents in surv

5、eillance videos and online uploaded videos,a video criminal incident detection method based on multi-modal fusion and key frame extraction is pro鄄posed,so as to accurately and efficiently detect criminal incidents in videos,solve public safety issues forthe people,and create a healthy and green onli

6、ne environment for Internet users.Firstly,key frame ex鄄traction technology is used to extract key frame sequences from video in this method.Then the extractedkey frame sequence is input into a deep convolutional neural network to extract local features of the keyframe sequence.The extracted local fe

7、atures are input into the Long Short鄄Term Memory Network(LSTM)and Transformer network respectively to extract temporal and semantic features between keyframe sequences.Meanwhile,the audio features of the video are extracted by the VGG(Visual GeometryGroup)network.Finally,the three video features ext

8、racted above are fused together and input into theGraph Attention Network(GAT)to extract the internal dependencies of the fused features and detect theresults.The experiments are verified on the open dataset XD鄄Violence,and the average accuracy of crim鄄66李摇 燕等:詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬

9、詬詬詬詬詬詬詬詬基于多模态和关键帧的视频犯罪事件检测inal incident detection reached 86郾 45%.The test results show that the proposed video crime incident de鄄tection method based on multimodality and key frames can effectively detect criminal incident in video.Key words:criminal incident detection;multi鄄modal fusion;GAT;Transf

10、ormer;LSTM0摇 引言随着国家“平安城市冶工程的建设和人工智能技术的快速发展,智能视频监控成为公共安全中安防布控、任务追踪等问题的重要解决手段。其中犯罪事件检测技术是智能视频监控中的关键技术,可以使用该技术及时检测出监控中发生的犯罪行为并发出警报1-2。此外还可使用犯罪事件检测技术对网络视频进行检测,发现并及时处理其中犯罪事件视频。犯罪事件检测技术是利用算法模型对一段视频进行分析,从而判断视频数据中是否发生犯罪事件。目前犯罪事件检测技术大致可分为两类:基于单模态的犯罪事件检测技术和基于多模态融合的犯罪事件检测技术。基于单模态的犯罪事件检测技术是只使用一种模态特征来判断是否为犯罪事件。2

11、006 年,Gianna鄄kopoulos 等3人提出在时域和频域上采用一些流行的帧级音频特征,能够有效的判断出具有特殊声音的犯罪事件。2009 年,Sun 等人4提出通过匹配相邻帧之间的尺度不变特征转换(Scale鄄invariant Fea鄄ture Transform,SIFT)的特征点提取轨迹,提取了局部特征的同时,也充分利用到了上下文中的时空背景特征,更有利于检测出犯罪事件。2014 年,Ding等人5提出通过使用三维卷积网络提取视频高级特征,网络可以同时提取视频的时空特征,更有利于检测出犯罪事件。2020 年,Jain 等人6提出利用动态图像的运动特征进行犯罪检测,可以用更少的资源

12、获取与复杂模型相同的结果。仅使用单模态特征进行犯罪事件检测时,若出现以下情况,只使用视觉特征进行犯罪事件检测,当视频中的画面被遮挡或者光线昏暗时;只使用音频特征进行犯罪事件检测,当检测的事件为偷盗、纵火等不易发出声音的事件时,则无法准确判断出视频中是否存在犯罪事件。基于多模态融合的犯罪事件检测技术是将视频中多种模态的信息融合在一起,然后再根据融合之后的信息判断视频中是否存在犯罪事件。2009 年,Jian 等人7提出使用后期融合的方法融合视觉分类器和音频分类器的结果,得到了比单一模态更好的结果。2015 年,Penet 等人8提出同时使用早期、晚期两种特征融合方式,融合音频特征和视觉特征,可以

13、克服早期融合时特征之间相关性不大难以提取不同模态之间相关性的问题。2016 年,Wang 等人9提出融合 MFCC 特征、文本和颜色特征,并通过在数据集中添加子类注释来解释跨数据集的发散,使得模型的泛化能力更强。2021 年,闵新宇等人10提出结合 ConvLSTM 和注意力机制提取视频中的时序特征,使用卷积神经网络提取音频特征,然后融合两种特征,可提高犯罪事件检测的效率。马境远等人11提出将视频特征、音频特征及光流特征中任意两种不同模态的特征进行拼接,然后基于多头注意力,聚焦视频中不同模态的信息,生成区分力强的视频特征,提高犯罪事件检测的准确率。相较于单模态的犯罪事件检测,多模态的犯罪事件检

14、测更具优势,它能综合不同模态的信息,不同模态信息之间起到互补作用。但如何融合不同模态的特征,使其能充分发挥每种特征的作用,且能最大程度的提高犯罪事件检测的性能,是目前多模态犯罪事件检测待解决的问题。针对以上问题,本文提出一种基于多模态和关键帧的视频犯罪事件检测方法。1摇 相关技术1郾 1摇 关键帧提取技术视频是由一个图像序列组成,其内容比一张图像丰富很多,且表现力强,信息量大。对视频的分析通常是基于视频帧,但视频中的视频帧通常存在大量冗余,直接对所有的视频帧进行分析耗时又耗力。通过视频关键帧提取能够有效减少视频检索所需时间,并能够提高视频检测的精确度。若图像坐标系中每个“视频帧冶都叠加在一起,

15、这时镜头中视频帧的特征矢量会在空间中呈现出一个轨迹的状态,而与轨迹中特征值进行对应的“帧冶即可称之为关键帧12。关键帧提取技术分为很多种,如基于抽样的关键帧提取、基于颜色特征的关键帧提取、基于运动分析的关键帧提取等。以上关键76李摇 燕等:詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬基于多模态和关键帧的视频犯罪事件检测帧提取技术都是基于视频帧底层特征来提取的,无法适用于多种场景,故本文不予采用。本文使用基于深度学习的关键帧提取技术,首先使用深度学习网络提取视频帧的高级语义特征并给每一帧打分,再根据分值确定每帧在整个视频中的重要程度,最后抽取分值

16、最高的 64 帧作为关键帧。1郾 2摇 TransformerTransformer 模型由 Google 在 2017 年的 Atten鄄tion Is All You Need13中提出,使用 Attention 替代了原 Seq2Seq 模型中的循环结构,对自然语言处理(NLP)产生极大的影响。随着研究的推进,Trans鄄former 也逐渐由 NLP 领域流向其他领域,如计算机视觉、语音、生物等。Transformer 模型本质上是一个 Encoders鄄Decod鄄ers 架构,其输入为序列信息,分别经过 Input Em鄄bedding 层和 Position Encoding 层

17、,先对输入进行编码,然后再在编码信息中加入位置信息,可提升模型对位置信息的感知能力,弥补了自注意力机制中位置信息缺失的问题。输入序列信息经过 Encoders得到对应编码信息,然后将编码信息输入到 Decod鄄ers 中,得到最终任务所需的结果,Transformer 模型结构图如图 1 所示。图 1摇 Transformer 模型结构图摇图 1 中输入先通过 Input Embedding 进行编码,然后使用 Position Encoding 加入位置信息,加入位置信息后 Transformer 就可并行处理序列信息。位置信息可通过网络学习或预定义一个函数计算出位置信息两种方式得到,两种方

18、式的效果差不多,但第二种方式的模型参数比第一种少,且使用更加灵活。计算位置信息的由公式(1)、(2)计算位置信息:PE(pos,2i)=sin(pos/10 0002i/dmod el)(1)PE(pos,2i+1)=cos(pos/10 0002i/dmod el)(2)其中,pos 代表的是词或者其他信息在整个序列信息中的位置,dmod el是输入编码的维度,2i 代表 dmod el中的偶数维度,2i+1 代表 dmod el中的奇数维度,sin 代表正弦函数,cos 代表余弦函数。由图 1 可知,Encoders 由多个编码器堆叠而成,Decoders 由多个解码器堆叠而成,每一个编码

19、器由多头自注意力层和前馈网络组成,解码器由多头自注意力层、编码-解码注意力层和前馈网路组成。编码器/解码器结构如图 2 所示。图 2摇 编码器/解码器结构图摇编码器中的多头自注意力机制由若干个自注意力机制拼接而成,其中自注意力机制计算过程由公式(3)表示:Attention(Q,K,V)=Soft(maxQKTd)k(3)摇 摇 其中 Q、K 和 V 是由输入 X沂迬L 伊 dmod el进行不同的线性变换得到的,L 表示输入的长度,dmod el表示输入的维度。自注意力机制在对当前位置的信息进行编码时,会过度地将注意力集中于自身的位置,为了解决这一问题,便提出了多头注意力机制。多头注意力机制

20、由多组自注意力机制组成,每一组注意力的 Q、K 和 V 都不相同,通过每一组的注意力将输入映射到不同的子表示空间,这使得模型可以在不同表示空间中关注不同的位置,扩展了模型关注不同位置的能力,最后将每一组注意力的输出拼接在一起,通过全连接层得到最后的输出结果,整个计算过程可以表示为公式(4):MultiHead(Q,K,V)=Concat(head1,headh)WOwhere headi=Attention(QWQi,KWKi,VWVi)(4)其 中,WQi沂 迬dmod el伊 dk,WKi沂 迬dmod el伊 dk,WVi沂迬dmod el伊 dv,WO沂迬hdv伊 dmod el,h

21、表示几头注意力,dk=dv=dmod el/h。多头注意力机制的本质是,在保持参86李摇 燕等:詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬基于多模态和关键帧的视频犯罪事件检测数总量不变的情况下,将同样的 Q、K 和 V 映射到原来的高维空间的不同子空间进行注意力的计算,再合并不同子空间的注意力信息,这样做可以从不同角度获得序列之间的关联关系。前馈神经网络由两个线性变换组成,其输入为注意力机制的输出,可以表示为公式(5):FFN(x)=max(0,xW1+b1)W2+b2(5)其中 W1、W2、b1、b2为可训练参数,x 为注意力机制的输出。解

22、码器中的多头自注意力机制以及前馈网络和编码器中的相同,编码-解码注意力层的基本工作方式和多头注意力层是一样的,不同的是它的查询矩阵是解码器中多头注意力机制的查询矩阵,键、值矩阵是在编码器的输出,该层主要是为了让解码器聚焦到输入序列的相关部分。1郾 3摇 GATGAT 模型由 Bengio 等人14在 2018 年提出的,在图卷积网络(Graph Gonvolutional Networks,GCN)基础上引入了注意力机制。GCN 模型中对于同阶的邻域上分配给不同的邻居节点的权重是完全相同的,这限制了模型对于空间信息的相关性的捕捉能力,且局限了训练所得的模型在其他图结构上的泛化能力,针对以上问题

23、,GAT 提出了用注意力机制对邻居节点特征进行加权求和,邻居节点特征的权重完全取决于节点特征,且独立于图结构。GAT 是使用消息传递范式的形式对图的拓扑结构和图节点信息进行有效的归纳与结合,主要包含以下几个步骤:(1)邻接节点信息交换;(2)邻接节点信息聚合到中心节点;(3)聚合信息交换。GAT 将注意力机制引入到图上,在更新节点的特征向量时,先计算出所有邻居节点的注意力分数,再使用注意力分数乘以对应的邻居节点的特征值,最后将相乘结果加在一起作为更新后的该节点的特征值。具体节点更新过程可表示如下:给定 N 个节点特征值 h=h1,h2,hN,hi沂迬F,其中每个特征值的维度为 F。第一步,计算

24、注意力系数,计算过程可表示为公式(6):eij=(aTWhi椰Whj)(6)其中 eij表示节点 i 相对节点 j 的注意力值,aT和 W表示共享的可学习参数。第二步,注意力系数归一化。对生成的注意力分数矩阵进行归一化,计算过程可表示为公式(7):琢ij=softmaxj(eij)=exp(eij)移k沂Niexp(eik)=exp(LeakyRe LU(aTWhi椰Whj)移k沂Niexp(LeakyRe LU(aTWhi椰Whk)(7)第三步,对节点特征进行更新,计算过程可表示为公式(8):h忆i=(滓移j沂Ni琢ijWh)j(8)其中,h忆i表示节点 i 在融合了邻居节点信息后得到的新特

25、征,滓 表示激活函数。2摇 模型本文设计了一种基于关键帧提取的多模态犯罪事件检测模型,该模型主要由视觉特征提取器、时序特征提取器、音频特征提取器和特征融合及检测 4部分组成,旨在高效准确地检测出长视频中的犯罪事件,模型流程如图 3 所示。图 3摇 模型流程图摇2郾 1摇 关键帧提取提取关键帧的目的是为了得到更有效的数据,加速模型的收敛。本文研究的是对长视频中的犯罪事件进行检测,在硬件设备一定的条件下,视频帧的代表性是至关重要的。本节就有效提取视频帧的方法展开介绍:第一步是筛除冗余帧。视频中相邻若干帧之间的图像内容较为相似,可以近似地认为是重复数据。对于这类问题,传统的抽帧方法有等间距抽帧和固定

26、长度抽帧,两种方法都可以很好地清洗视频中的重复数据。但是,等间距抽帧法抽取长视频的视频帧时,可能太过稀疏,存在无法代表整段视频的问题。所以本文使用固定长度抽帧的方法,因为视频中每半秒钟内的视频帧不会发生太大的变化,故本文每隔 12 帧抽取一帧,每段视频抽取的帧数由视频长度决定;第二步是抽取关键帧。使用第一步固定长度抽帧法清洗长视频后,得到的视频帧还是太多,存在GPU 算力不足的问题。因此,本文使用关键帧技96李摇 燕等:詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬基于多模态和关键帧的视频犯罪事件检测术,提取清洗后的视频帧中的关键帧代表整段视频,

27、以减少模型计算量,节省存储空间,流程如图 4。图 4摇 关键帧抽取流程图摇摇 摇 首先,将第一步抽取的视频帧输入到预训练的 Resnet50 网络中,得到相对应的图像特征;其次使用 PCA 对图像特征进行主成分分析,取前 1 024个主成分;然后使用 Wu 等人15提出的关键帧提取方法,算出每一个视频帧对应的分数,取分数最大的 64 帧;最后根据该帧在原视频中的索引提取出相对应的视频帧,即使用这 64 个关键帧代表整段长视频。2郾 2摇 视觉特征提取器视觉特征提取器是将抽取的关键帧作为输入,提取其中抽象的高维视觉特征。视觉特征提取器由深度卷积网络 SkipNet 和 Transformer 组

28、成。其中,SkipNet 提取关键帧的局部特征;Transformer 通过特有的自注意力机制计算局部特征之间的权重,得到全局特征,即视觉特征,视觉特征提取器的模型结构如图 5 所示。图 5摇 视觉特征提取器模型结构图摇摇 摇 图5 中 SkipNet 由4 个相同的卷积单元组成,每个卷积单元由 2 个基础卷积块和最大值池化组成,基础卷积块由 3 个卷积层、批归一化层(Batch Nor鄄malization,BN)和 ReLU 激活函数层组成。每个关键帧经过一系列卷积池化操作后,通过跳跃连接将每一个卷积单元的特征进行拼接融合,作为 Trans鄄former 的输入,并使用 Transform

29、er 提取关键帧的全局特征。需要注意的是 SkipNet 网络的输入格式为(Batch,Channel,Height,Width),文中将一个视频中所抽取的 64 个关键帧作为一个批次,通道数为 3,高度为160,宽度为320,所以 SkipNet 网络输入的尺寸为 64*3*160*320,然后经过跳跃连接及平均值池化,网络最终的输出为 64*480*1*1,保存该结果并作为 Transformer 和 LSTM 的输入。Trans鄄former 的输入格式为(Batch,Sequence_length,Em鄄bedding_dim),文中这部分网络的输入批次为 1,序列长度为每个视频提取的

30、关键帧数,即为64,其维度为480,所以 Transformer 的输入为:1*64*480,经过转换输出为:1*64*512。视觉特征提取过程可表示为公式(19)、(10):fvl=SN(xk)(9)fv=T(fvl)(10)其中,xk表示提取的关键帧序列,SN 表示局部特征提取网络 SkipNet,fvl表示关键帧的局部特征,T 表示Transformer,fv表示提取到的视觉特征。2郾 3摇 时序特征提取器时序特征提取器使用的是长短期记忆网络(Long short鄄term memory,LSTM)16。LSTM 是一种用于处理序列数据的神经网络,能够很好地提取序列数据的上下文信息。64

31、 个关键帧虽然来自不连续的时刻,但是在时间轴上存在前后关系,并且在事件的发展上存在着因果关系,所以提取关键帧之间的时序信息是有必要的,时序特征提取器的模型结构如图 6 所示。时序特征提取器的输入是 SkipNet 网络输出的局部特征,通过 LSTM 提取关键帧之间上下文语义07李摇 燕等:詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬基于多模态和关键帧的视频犯罪事件检测图 6摇 时序特征提取器模型结构图摇信息。LSTM 的输入格式为(Batch,Sequence_length,input_dim),文中这部分网络的输入批次为 1,序列长度是每个视

32、频提取的关键帧数 64,其维度为 480,所以 LSTM 的输入为 1*64*480,输出为 1*64*512。时序特征提取过程可表示为公式(11):ft=LSTM(fvl)(11)2郾 4摇 音频特征提取器音频特征提取器使用的是在大型数据集 You鄄Tube 上预训练的 VGGish17-18,音频特征提取过程如图 7 所示。图 7摇 音频特征提取过程摇摇 摇 音频特征提取过程中,先使用 FFMpeg 工具包将视频文件转换成音频文件,再使用 python 包将音频文件转换成若干小段,然后对每段音频进行预处理和列操作,得到每段音频的梅尔频谱图块,将这些图块进行拼接后使用 VGGish 网络提取

33、每个梅尔频谱图的特征,最后将每段音频特征拼接在一起得到整段视频的音频特征。音频特征提取部分输入格式为(Batch,Embedding_dim,Length),文中使用的批次大小为 1,维度大小为 128,因为每个视频长度不一,故 Length 的大小不确定,所以其输入网络大小为 1*128*Length,经过转换得到的输出为 1*Length*512,音 频 特 征 提 取 过 程 可 表 示 为 公式(12):fa=cat(VGGish(mel(split(V2A(xk)(12)其中,V2A 是将视频文件转换为音频文件,split 表示将音频分割成若干小段,mel 表示生成音频文件的梅尔频谱

34、图,VGGish 表示提取音频特征网络,cat 表示拼接每一小段音频特征。2郾 5摇 特征融合网络视频中蕴含了多种模态的信息,比如音频信息、视觉信息和时序信息。多种模态信息的综合利用,能够起到信息互补的作用,能将视频中丰富的内容表达得更加准确。本节重点研究如何有效地进行不同模态特征之间的融合,以提高检测性能。本文采用拼接的方式融合不同模态的特征。以拼接的方式进行融合,能够保留每种模态信息的完整性,再通过 GAT 网络得到不同特征之间的依赖关系,特征融合网络模型结构如图 8 所示。图 8摇 特征融合网络模型结构图摇为了便于特征的融合,需要先使用全连接层将视觉特征、时序特征和音频特征映射到同一特征

35、空间,然后再按第二维度进行拼接,得到融合后的特征ffusion,其大小为 1*Node_number*512,因为每个视频长度不一样,故音频的特征长度不固定,所以融合后的节点数也不一样。将融合特征 ffusion作为 GAT网络的输入,利用 GAT 网络能有效结合不同模态特征的优势,使每个特征节点能最大程度地保留自身17李摇 燕等:詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬基于多模态和关键帧的视频犯罪事件检测的关键信息,同时聚合其他模态的有用信息,使不同模态之间融合得更加充分,特征融合及检测过程可表示为公式(13):foutput=GAT(c

36、oncat(fc(fv),fc(fa),fc(ft)(13)其中,fc 表示全连接层,concat 表示特征拼接,GAT表示 GAT 网络,foutput表示最终的输出结果,其大小为 1*Node_number*2。GAT 网络在进行节点信息更新时,主要是根据注意力系数矩阵对邻居节点进行加权求和,因此注意力系数矩阵的计算方法至关重要,本文使用两个特征之间的相似性及固定阈值来确定是否要保留两者之间的权重,若相似性小于阈值,则直接将权重置0,这样做主要是为了过滤弱关系以加强相似对的相关性,让不同模态特征更加有效地融合在一起,注意力系数矩阵如公式(14)、(15):琢ij=exp(琢ij)移Tk=1

37、exp(琢ik)(14)琢ij=Softmax(f(xi,xj)(15)其中 琢ij表示最终的注意力系数,T 表示特征第二维的长度,也即 GAT 中节点个数,琢ik表示第 i 行第 k列节点的注意力系数;Softmax 表示归一化函数,使得每行的权重之和为 1,f 表示计算一对特征的相似度函数,xi表示融合特征中第二个维度第 i 个特征,xj表示融合特征中第二个维度第 j 个特征。相似度函数 f 的计算如公式(16)、(17):f(xi,xj)=xTixj椰xi椰2椰xj椰2(16)f(xi,xj)=f(xi,xj)f(xi,xj)着0f(xi,xj)臆着(17)其中 着 表示阈值,当 f(x

38、i,xj)小于阈值时,将该值置0。3摇 实验3郾 1摇 实验环境实验 在 Windows10 系 统 下 进 行,使 用 Py鄄Torch1郾 8 深度学习框架,硬件配置为 NVIDIA Ge鄄Force GTX 3090,16 GB 显存,AMD Ryzen 7 4800Hwith Radeon Graphics 2郾 90 GHz,16 GB RAM。训练过程中采用 Adam 优化器,学习率为 0郾 000 6,共训练 100 个 epoch,每次迭代批次大小为 32。3郾 2摇 数据集XD鄄Violence 数据集是2020 年由 Wu 等人19发布的多模态犯罪视频数据集,数据集包含 4

39、754 个未修剪的视频,视频总长为 217 h,包含 6 种犯罪行为:枪击、打架、暴乱、爆炸、车祸和虐待,是迄今为止规模最大的犯罪视频数据集。XD鄄Violence 数据集与以往的数据集不同,它是从多种场景中捕获的,如电影和 YouTube。虽然 XD鄄Violence 数据集中视频存在数据不平衡问题,但是数据集中正常视频数据和 6 种犯罪行为视频数据的总和是 1颐 1的关系,所以文中将正常的视频数据检测为正常,6 种暴力行为视频统一检测为异常。训练集和测试集的划分为 XD鄄Violence中 3 803 个视频用于模型训练,951 个视频用于模型测试。3郾 3摇 消融实验3郾 3郾 1摇 S

40、kipNet 网络参数选定视觉信息在视频多种模态信息中占有很大比重,所以提取的视觉特征对检测结果的影响也比较大。为了能得到更好的视觉特征,本文通过对不同卷积核和学习率进行消融实验,以此来得到较好的模型参数,以提取出更加有效的视觉特征。首先,将事先抽取好的关键帧输入到 SkipNet 网络中;其次,由 SkipNet 网络提取关键帧特征;最后,通过特征判断出是否为犯罪事件,最终以平均精度(AP)作为模型好坏的评价标准,实验结果对比如表 1 所示。表 1摇 SkipNet 网络参数选择消融实验学习率卷积核3 伊35 伊57 伊70郾 000 171郾 32%69郾 54%70郾 25%0郾 000

41、 271郾 24%69郾 10%70郾 55%0郾 000 370郾 83%68郾 55%69郾 66%0郾 000 470郾 17%70郾 55%69郾 32%0郾 000 572郾 73%71郾 55%71郾 04%0郾 000 671郾 07%70郾 64%71郾 97%0郾 000 771郾 57%69郾 89%70郾 57%0郾 000 871郾 49%70郾 36%70郾 01%0郾 000 972郾 00%70郾 99%70郾 68%摇 摇 由表1 可知,当卷积核为 3 伊3,学习率为 0郾000 5时,得到的平均精度值最高。表明较大的卷积核可能无法提取到微小的局部特征,过大或者

42、过小的学习率可能跳过了局部最优解。3郾 3郾 2摇 多模态融合消融实验为了研究每种模态信息对视频检测结果的影响,可通过对 3 种模态分别进行单独检测、两两结合27李摇 燕等:詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬基于多模态和关键帧的视频犯罪事件检测检测、共同检测,实验过程中采用拼接的方式进行特征融合,将融合后的特征输入到全连接层得到检测结果,实验结果如表 2 所示。表 2摇 多模态融合消融实验视觉特征时序特征音频特征平均精度 AP/%姨74郾 05姨72郾 15姨70郾 99姨姨77郾 57姨姨75郾 48姨姨74郾 95姨姨姨78郾 4

43、8摇 摇 由表2 可知,只使用一种特征进行犯罪事件检测时,视觉特征和时序特征的平均精度均高于音频特征,这表明视觉特征更容易判断出视频中是否存在犯罪事件;视觉特征的结果又比时序特征更好,表明全局视觉特征比时序特征更容易判断出视频中是否存在犯罪事件。由表 2 结合不同模态的特征的结果可知,任意结合两种不同的特征都会比单种特征的效果好,且 3 种特征进行融合比两种特征融合的效果好,表明不同模态之间进行融合,能够很好地互补,提高犯罪事件检测的准确性。3郾 4摇 实验结果与分析通过消融实验,最终确定了 SkipNet 的学习率和卷积核大小,以及确定了分析视频需要的几种模态的特征。通过消融实验,只能知道每

44、种模态信息都对最后的结果有贡献,但是不能根据得到的平均精度值去判断贡献的多少,所以采用 GAT 去计算每种模态信息的权重,从而得到最佳的权重配比,得到较好的实验结果。为了验证模型的有效性,本文将实验结果与现有方法在 XD鄄Violence 数据集上的实验结果进行了比较,不同方法的实验结果如表 3所示。表 3摇 实验结果方法平均精度 AP/%文献 12050郾 78文献 22130郾 77文献 32273郾 20文献 41978郾 64文献 51180郾 30本文方法86郾 45摇 摇 表3 中文献120是使用支持向量机作为分类器的基础方法;文献 221使用无监督的方式训练全卷积网络模型,来学习

45、局部特征和分类器,用于捕捉视频中动作的规律性,识别出视频中不规律的行为;文献 322使用多示例学习算法来解决未剪辑视频中异常检测的弱监督问题;文献 419使用 3 个不同分支,分别提取视频的视觉特征、光流特征和音频特征,再使用 GCN 网络对特征进行融合;文献 511与文献 4 相同,使用 3 个不同的分支,分别提取视频的视觉特征、光流特征和音频特征,再将不同特征进行两两组合,之后再使用线性权重融合不同组的特征,最后使用 transformer 提取融合后的特征。通过实验证明,本文所提方法在 XD鄄Violence数据集上的平均精度达到了 86郾 45%,相较于目前最好的方法平均精度提高了 6

46、郾 15%,表明了本文方法的先进性。本文方法之所以能有效检测出视频中的犯罪事件主要有以下几方面原因:(1)模型采用关键帧提取技术提取长视频中的关键帧来代替整段视频,这样做既能节省空间又能减少模型参数量提升速度;(2)将多种模态特征进行融合,不同模态的特征起到互补作用,从而提升犯罪事件检测的精度;(3)使用 GAT 网络提取不同模态特征之间的依赖关系,得到最佳的权重配比。4摇 结语本文针对长视频提出了一种基于关键帧提取的多模态犯罪事件检测模型。首先,提取视频中的关键帧,再通过 SkipNet 网络提取关键帧的局部特征,并使用 LSTM 和 Transformer 提取局部特征的时序特征和语义特征

47、;然后使用 Vggish 网络提取关键帧的音频特征;最后将 3 种不同的特征融合在一起,并使用 GAT 网络提取不同特征之间的依赖关系,以便检测并判断出长视频中是否存在犯罪事件。虽然文中所提方法能有效检测出长视频中是否存在犯罪事件,但是不能确定视频中存在几种犯罪事件,若视频过长,仅使用 64 个关键帧无法代表整段视频。以后工作将从以下方面做出改进,以达到有效检测超长视频中存在哪几种犯罪事件的效果:(1)结合镜头分割技术,将一段超长视频分割开来,检测每个镜头中是否存在犯罪事件,存在哪几种犯罪事件,最终将每个镜头的结果统计返回作为整段视频的结果;(2)对犯罪事件检测网络进行优化,使其能检测出视频中

48、存在的犯罪事件的种类。37李摇 燕等:詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬基于多模态和关键帧的视频犯罪事件检测参考文献1摇 刘恩元.浅析平安城市建设与中国安防技术创新J.中国公共安全,2020(Z1):133-135.2摇 高振华.探讨平安城市智能运维服务中心建设J.通讯世界,2020,27(7):63-64.3摇 GIANNAKOPOULOS T,KOSMOPOULOS D,ARISTIDOUA,et al.Violence content classification using audio fea鄄turesC椅Hellenic

49、Conference on Artificial Intelligence,2006:502-507.4摇 SUN J,WU X,YAN S,et al.Hierarchical spatio鄄tem鄄poralcontext modeling for action recognitionC椅2009 IEEEConference on Computer Vision and Pattern Recognition(CVPR),2009:2004-2011.5摇 DING C,FAN S,ZHU M,et al.Violence detection in vid鄄eo by using 3D

50、convolutional neural networksC椅Inter鄄national Symposium on Visual Computing,2014:551-558.6摇 JAIN A,VISHWAKARMA D K.Deep neural net for vio鄄lence detection using motion features from dynamic imagesC椅2020 Third International Conference on Smart Sys鄄tems and Inventive Technology(ICSSIT),2020:826-831.7摇

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服