收藏 分销(赏)

面向类内互学习的暴力行为识别模型 (1).pdf

上传人:自信****多点 文档编号:2500224 上传时间:2024-05-30 格式:PDF 页数:9 大小:6.25MB
下载 相关 举报
面向类内互学习的暴力行为识别模型 (1).pdf_第1页
第1页 / 共9页
面向类内互学习的暴力行为识别模型 (1).pdf_第2页
第2页 / 共9页
面向类内互学习的暴力行为识别模型 (1).pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、中国人民公安大学学报(自然科学版)2023 年第 4 期 No.4 2023Journal of People蒺s Public Security University of China(Science and Technology)总第 118 期 Sum118面向类内互学习的暴力行为识别模型谭等泰,摇 赵进龙,摇 王轶群,摇 郭林祥(甘肃政法大学人工智能学院,甘肃兰州摇 730070)摘摇 要摇 暴力行为形式多样,造成同属暴力行为类别的动作之间区分非常大,这是暴力建模更为困难的主要原因。针对该问题,提出了类内互学习的暴力行为识别模型,以孪生网络为架构,首先,通过交互输入过程使同一时刻输入孪

2、生网络的标签相同,而样本不同;然后,经过孪生网络提取特征,并在输出向量中嵌入类内信息;最后,设计交互损失函数,并联合交叉熵损失函数共同优化模型,使模型不仅可以区分不同标签的视频信息,还能使模型学习同一类别下不同视频的差异。为了验证该模型的有效性,对比分析了独立模型、互学习模型和类内互学习模型在暴力行为数据集 RWF2000 和 RLVS2000 上的准确率,最终在测试集上分别达到了 89郾 00%和98郾 75%的识别精度。关键词摇 类内互学习;暴力行为识别;行为识别;互学习中图分类号摇 D917郾 7文献标志码摇 AViolence Recognition Model for Inter鄄c

3、lass Mutual LearningTAN Dengtai,摇 ZHAO Jinlong,摇 WANG Yiqun,摇 GUO Linxiang(College of Artificial Intelligence,Gansu University of Political Science and Law,Lanzhou 730070,China)Abstract:The diverse forms of violence make the distinction between actions that belong to the same cat鄄egory of violence v

4、ery large,which is the main reason why violence is difficult to model.To solve thisproblem,a violence recognition model based on inter鄄class mutual learning is proposed,and this model isbased on Siamese network.Firstly,through the interactive input process,the labels of the input Siamesenetwork at t

5、he same time are the same,but the samples are different.Then the features are extractedthrough the Siamese network,and the intra鄄class information is embedded in the output vector.Finally,the interactive loss function is designed and the Cross Entropy loss function is combined to optimize themodel,s

6、o that the model can not only distinguish the video information of different labels,but also learnthe difference of different videos under the same category.To verify the validity of this model,the accura鄄cy of independent model,mutual learning model and intra鄄class mutual learning model on the viol

7、ent datasets RWF2000 and RLVS2000 are compared and analyzed,and the recognition accuracy of the test setreached 89郾 00%and 98郾 75%,respectively.Key words:inter鄄class mutual learning;violence recognition;action recognition;mutual learning收稿日期摇2023鄄09鄄10基金项目摇甘肃省高等学校创新基金项目(2022A-095;2021B-181);甘肃政法大学司法

8、鉴定中心科研资助项目(jdzxyb2018-06)。第一作者简介摇谭等泰(1986),男,甘肃静宁人,硕士,副教授。研究方向为计算机视觉和行为识别。E鄄mail:465402383 57谭等泰等:詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬面向类内互学习的暴力行为识别模型0摇 引言近年来,盗窃、抢劫和暴力犯罪等危害社会公共安全的事件频繁发生,这些突发的恶性事件会对生命财产和治安秩序构成严重的威胁。传统的视频识别主要是依靠人工审核,然而,随着智慧城市的建设,城市的各个角落都部署了监控系统,这种人工审核的方法无法满足实际需求,从视频中自动识别与检测

9、暴力行为变得至关重要。二维卷积神经网络(Two Dimensional Convolu鄄tional Neural Networks,2DCNN)在图像识别领域取得了巨大成功,但是 2DCNN 无法直接提取时空特征,为了将其应用到视频特征提取中,研究者采用了2DCNN+LSTM(Long Short鄄Term Memory,LSTM)的网络结构,利用 2DCNN 提取空间特征,然后采用LSTM 网络对空间特征在时间轴上进行建模,从而实现暴力行为识别,文献1-3都采用了 2DCNN+LSTM 的结构。LSTM4网络的输入数据是序列数据,无法直接提取图像数据的信息,而 ConvLSTM5(Conv

10、olutional LSTM)通过对 LSTM 进行扩展,使其在输入到状态和状态到状态转换中采用卷积结构,图像类数据直接可以输入到网络中,能够更好地捕图 1摇 类内互学习模型捉时空相关性。Sudhakaran 等人6使用 ConvLSTM网络从帧差图像中提取时空特征,从而实现暴力行为识别。为了进一步提高网络的识别率和计算效率,Islam 等人7提出了一种双流深度学习架构,一个流将背景抑制作为输入,而另一个流将帧差图像作为输入,然后采用 MobileNet 网络分别提取特征,最后采用 SepConvLSTM 提取时空特征。暴力行为识别是视频理解中的一种特殊情况,视频理解中成熟高效的网络结构有双流

11、网络、三维卷积神经网络等,这些经典结构都可以用在暴力行为检测领域中。光流是描述视频运动或时序信息的一种有效方法,可以有效地去除静止背景。基于这个出发点,Ullah 等人12主要采用双流网络对暴力行为进行检测与识别,尤其是在训练数据有限的情况下,能够准确地描述行为特征。Ding 等人8最早实现了基于 3DCNN 的暴力行为识别模型,取得了不错的效果。为了更深层次的提取特征和降低三维卷积网络的训练复杂性,研究人员对三维卷积核和网络结构进行了改进,性能先进的网络结构有P3D9和 I3D10等。Cheng 等人11采用了 P3D 和I3D 网络实现了暴力行为的识别,同时,提出了RWF2000 数据集,

12、包含了 2 000 个监控环境下真实的暴力样本,为后期暴力识别研究做出了极大的贡献。综上所述,暴力行为识别与传统的行为识别有诸多相似之处,深度学习的方法已经代替了手工提取特征的方法,研究者主要从网络模型的优劣和算法的实时性等角度出发检测暴力行为,取得了不错的效果。与本文最相关的研究为深度互学习(DeepMutual Learning,DML)13。而本文提出的类内互学习模型与 DML 最大的区别是引入了交互输入过程和信息嵌入模块,使类内互学习模型能够提取类内特征,主要贡献有以下 4 点:(1)设计交互输入过程,为类内互学习模型提供交互输入;(2)提出类内互学习策略,使每个分支网络学习如何区分不

13、同的类别,还能使一个分支参考另一分支,提升每个网络的泛化能力;(3)引入信息嵌入模块,给同一类不同的样本中嵌入类内信息,提高网络的泛化能力;67谭等泰等:詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬面向类内互学习的暴力行为识别模型(4)解决了训练集损失下降而测试集损失上升的问题。1摇 类内互学习模型类内互学习模型主要由交互输入过程、信息嵌入模块和交互损失过程 3 个部分构成。如图 1 所示,从数据集中随机抽取一个小批量样本 v,变换输入顺序,得到样本为 v忆,使同一时刻输入 Net1 和Net2 网络的样本标签相同,而样本不同,这一过程称之为交

14、互输入过程;然后,将 v 和 v忆分别输入到分支网络 Net1 和 Net2,输出两个向量 z忆1和 z忆2,接下来引入随机变量 姿1、姿2分别乘以 z忆1和 z忆2,即 z1=z忆1姿1,z2=z忆2姿2,其中随机变量 姿1和 姿2是从区间为0,0郾 5及步长为0郾 01 的一个数列中随机抽取的。这是类内互学习模型的关键过程,引入随机变量 姿1、姿2在模型输出端嵌入类内差异信息,使网络学习视频的类内差异,相当于给同一类不同的样本输出向量中嵌入了类内信息;最后向量 z1和 z2经过 Softmax 层得到预测分布 p 和 q,并通过交互损失过程优化模型。类内互学习模型的损失函数由 3 部分组成

15、,如(1)式所示。l1、l2分别表示是 Net1 和 Net2 网络的交叉熵损失函数,用来度量预测类别与真实标签之间的差异,JS(p椰q)表示网络间的交互损失函数,采用 JS(Jensen鄄Shannon divergence)散度来度量两个网络预测分布之间的差异,琢 为交互损失函数的权重因子,简称权重因子。loss=(1-琢)(l1+l2)+琢JS(p椰q)(1)1郾 1摇 交叉熵损失函数交叉熵损失函数如(2)式所示,其中,p=p0,p1,pn-1是一个概率分布,每个元素 pi表示样本属于第 i 类的概率,y=y0,y1,yn-1是样本标签,值为 0 或 1,当样本属于第 i 类时,yi=1

16、,否则,yi=0。l=-移n-1yilog(pi)(2)1郾 2摇 交互损失函数KL(Kullback鄄Leibler divergence)散度又称相对熵,可以使用 KL 散度来衡量这两个分布的差异,如果用 p(x)表示 Net1 网络的预测分布,q(x)表示Net2 网络的预测分布,如果用 q(x)分布拟合 p(x),则 KL 散度表达式如(3)式所示。KL(p椰q)=移Ni=1p(xi)(logp(xi)q(xi)(3)从 KL 散度公式中可以得出 q(x)的分布越接近p(x),那么散度值越小。KL 散度是不对称的,用 KL散度来训练神经网络会有顺序不同造成训练结果不一样的情况。为了解决

17、 KL 散度非对称的问题,采用 JS 散度来度量两个概率分布的相似度,它是基于KL 散度的变体。JS 散度是对称的,其取值范围是0 1。因此,为了度量 Net1 和 Net2 网络预测分布的相似性,交互损失函数使用 JS 散度,如(4)式所示。JS(p椰q)=12(KLpp+q)2+12(KLqp+q)2(4)1郾 3摇 类内互学习模型的训练过程类内互学习模型的伪代码如表 1 所示,用 Py鄄torch 实现。对于每个小批量数据,首先,通过交互输入过程得到样本 v 和 v忆输入孪生网络;然后,在输出向量 z忆1和 z忆2中,分别乘以随机变量 姿1、姿2;最后,每个分支网络由交叉熵损失函数和交互

18、损失函数共同训练,如(1)式所示,在每次迭代中,同时计算两个模型的预测分布,并更新 Net1 和 Net2 网络的参数 兹。表 1摇 伪代码类内互学习模型的伪代码:#加载小批量的数据 vfor v in DataLoader:摇#变换样本顺序摇 v忆=d(v)摇#g1,g2为 Net1 和 Net2 的输出,z1,z2分别为输出向量摇 z1,z2=g1(v忆),g2(v)摇#姿1,姿2是0,0郾 5区间,步长为 0郾 01 的随机数摇 z1=z忆1姿1,z2=z忆2姿2摇#p忆,q忆分别为输出分布摇 p,q=nn.softmax(z1),nn.softmax(z2)摇#l1,l1为交叉熵损失函

19、数,JS(p椰q)为交互损失函数摇 loss=(1-琢)(l1+l2)+琢JS(p椰q)摇#反向传播摇 loss.backward()摇#更新参数摇 optimizer(兹)2摇 实验及结果分析2郾 1摇 RWF 2000 和 RLVS 2000 数据集RWF 2000 数据集11是从 You Tube 中采集,包括 2 000 个视频剪辑片段,训练集为 1 600 个视频片段,测试集为 400 个视频片段,其中暴力行为和非暴力行为各占一半,每个视频片段长度为 5 s,每秒 3077谭等泰等:詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬面向类内

20、互学习的暴力行为识别模型帧。所有视频都是从安防摄像头中获取,没有经过多媒体技术的修改,在清晰度、能见度上与实际应用场景类似,如图 2 所示。图 2摇 RWF2000 数据集摇RLVS 2000 数据集14由暴力行为和非暴力行为两个目录构成,非暴力行为包含 1 000 个真实生活场景视频,如吃饭、体育活动、唱歌等,而暴力行为包含 1 000 个在各种情况下存在严重暴力的视频。数据集是从 You Tube 上各种暴力场景的大视频中图 3摇 RLVS 2000 数据集截取的,清晰度相对较高。在训练过程中,随机选取1 600 个视频片段为训练集,400 个视频片段为测试集,如图 3 所示。2郾 2摇

21、参数设置表 2摇 参数设置摇 参数名参数值初始学习率lr=0郾 01优化函数Optimizer=“SGD冶动量Momentum=0郾 4迭代次数Epoch=100小批量数据bacth_size=4摇 摇模型的训练与测试采用 NVIDIA RTX4090 显卡,采用 Python3郾 7 和 Pytorch1郾 13 编程实现。实验过程中将原始视频剪裁为 112 伊112 分辨率的视频片段,以长度为 16 帧的视频片段作为网络的输入,训练过程中采用了随机剪裁和随机水平翻转的数据增强方法。采用小批量数据进行训练,每 4 个样本执行 1 次梯度下降,迭代次数 epoch 为 100,参数设置如表 2

22、 所示。类内互学习模型中的参数 姿1和 姿2是从区间0,0郾 5,步长为 0郾 01 的数中随机选取的。图 4摇 网络结构摇因为残差连接解决了深度神经网络训练中的梯度消失和梯度爆炸问题,使得网络可以更深,更容易学习到复杂特征,所以分支网络选择成熟、高效的特征提取网络 R(2+1)D_1815和 R3D_1816,参数量分别为 31郾 64 MB 和 33郾 84 MB,它们都使用了残差连接,共有 18 个卷积层。在数据样本有限的情况下,预训练模型相比从原始状态开始训练不仅节省了训练时间,还能提升准确率。如果在数据集上重新开始训练,由于模型过于复杂,会出现过拟合现象,因此采用在 Kinetics

23、400 数据集上预训练的R(2+1)D_18 和 R3D_18 网络的卷积层作为骨干网络,网络结构图如图 4 所示。为了验证类内互学习模型的性能,设计了两组对照实验,称之为独立模型和互学习模型。独立模型是只用传统的交叉熵损失函数来训练,其他结构87谭等泰等:詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬面向类内互学习的暴力行为识别模型不变,如图 5(a)所示。而互学习模型是去掉类内互学习模型中的交互输入模块和信息嵌入模块,其他结构不变,为了清晰地对比它们之间的区别,模型如图 5 所示。2郾 3摇 实验结果为了验证类内互学习模型的有效性,设计了对比

24、实验,分析独立模型、互学习模型和类内互学习模型在暴力行为数据集 RWF2000 和 RLVS2000 上的准确率,实验结果如表 3 所示,在训练过程中设置权重因子 琢=0郾 5,其他参数如表 2 所示。从表中可以得出以下结论:(1)不管分支网络怎么选择,互学习模型和类内互学习模型相比于独立模型在识别精度上都有所提升,因此,不管选择什么网络模型,互学习和类内互学习模型都能够提高网络的精度;(2)类内互学习模型的识别精度高于互学习模型,说明交互输入模块对类内互学习模型摇 摇图 5摇 模型简图摇表 3摇 不同模型下的最高识别精度RLVS2000RWF2000网络模型结构独立模型互学习模型类内互学习模

25、型独立模型互学习模型类内互学习模型Net1Net2NetNet1Net2Net1Net2NetNet1Net2Net1Net2R3DR3D95郾 50%96郾 50%96郾 75%97郾 00%97郾 25%85郾 00%84郾 75%86郾 00%86郾 25%87郾 25%R(2+1)D R(2+1)D96郾 50%97郾 25%97郾 25%98郾 25%98郾 50%86郾 00%86郾 75%85郾 25%88郾 75%89郾 00%R(2+1)DR3D97郾 75%97郾 75%98郾 25%98郾 75%86郾 5085郾 75%88郾 25%87郾 25%摇 摇 注:加粗字体表

26、示各列最优结果。是至关重要的,主要是由于交互输入模块使模型不仅可以区分不同标签的视频信息,还能使模型学习同一类别下不同视频的差异;(3)R(2+1)D 网络优于 R3D_18 网络,表明不同的网络结构对准确率有一定的影响,这一因素是由网络结构所决定的;(4)在 RWF2000 数据集上,类内互学习模型的最高识别精度为 89郾 00%,而在 RLVS2000 上,其最高识别精度为 98郾 75%,相 同 的 网 络 和 相 同 的 模 型 在RLVS2000 数据集上的准确率明显高于 RWF2000数据集,说明数据集样本的分布不一样,RWF2000识别难度高于 RLVS2000 数据集,这是由数

27、据集本身决定的。总之,在独立学习、互学习和类内互学习模型中,类内互学习模型的识别精度最高,是由于类内互学习模型相对于独立模型引入了交互输入模块、信息嵌入模块和交互损失函数。通过交互损失函数嵌入类内信息,学习同一标签不同样本间的信息,从而避免过拟合,提高模型的泛化能力,接下来通过实验进一步探究类内互学习模型的机理。2郾 4摇 探究类内互学习模型的机理R(2+1)D 网络在 RWF2000 数据集上达到了最先进的识别精度,RWF2000 数据集的识别难度高于 RLVS2000 数据集,因此以 RWF2000 数据集为例,Net1 和 Net2 网络都选取 R(2+1)D 网络探究类内互学习模型的机

28、理。训练过程中,非特殊说明,都采用表 2 中的参数。2郾 4郾 1摇 测试集上准确率变化与损失曲线如图 6 所示,参数 姿1,姿2沂0,0郾 5,通过改变权重因子 琢,观察测试集在训练过程中的变化,随着权重因子 琢 的逐渐增大,Net1 和 Net2 网络的损失曲线变得越来越平滑。但是,不管 琢 怎么变化,测试集的准确率曲线波动很小。为了探究这一现象,在权重因子 琢=0郾 8 和 琢=0郾 9 的类内互学习模型中,令参数 姿1=姿2=1,在测试集上的损失曲线如图 7(b)和 7(d)所示。图 7(a)和 7(c)为 姿1,姿2沂0,0郾 5时的损失曲线。97谭等泰等:詬詬詬詬詬詬詬詬詬詬詬詬詬

29、詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬面向类内互学习的暴力行为识别模型图 6摇 测试集上的准确率与损失曲线摇由图 7 可知,当参数 姿1=姿2=1 时,损失曲线在测试集上的波动非常大。引入的参数 姿1和 姿2对类内互学习模型起了关键的作用,相当于在模型输出端嵌入类内差异信息,使网络学习样本出现类内差异。传统 one鄄hot 编码标签的网络在利用交叉熵损失函数训练的过程中,使模型预测为目标类别的概率为 1,非目标类别的概率为 0,根据交叉熵公式,只有标签为 1 的那一维度参与了计算,其他的信息都忽略了,这样就会造成:(1)真实标签跟其他标签之间的关系被忽略了,很多有

30、用的知识无法学到;(2)倾向于让模型更加自信,成为一个“非黑即白冶的模型,导致泛化性能差;(3)面对易混淆的分类任务、有噪声、有错误标签的数据集时,更容易受影响。本文提出的类内互学习模型中,在预测的向量 z忆1和 z忆2乘以随机参数 姿1和 姿2,就相当于往真实分布中嵌入了类内信息,给同一类别不同的样本对之间随机赋予一个的置信度,并通过交互损失函数将信息嵌入到模型中,学习同一标签不同样本间的信息。这样就可以避免模型对于正确标签过于自信,使得预测正负样本的输出值差别变小,同时学习类内信息,从而避免过拟合,以提高模型的泛化能力。2郾 4郾 2摇 t鄄SNE 降维可视化为了进一步探究类内互学习模型的

31、机理,将分类网络最后一层之前的特征通过 t鄄SNE 降维以实现可视化,如图 8 所示,行表示权重因子 琢,分别为0郾 1、0郾 3、0郾 5、0郾 7、0郾 9,而列表示 Net1 网络最高准确率对应的 Net2 网络或 Net2 网络最高准确率对应的 Net1 网络。从特征分布图可以得出:不管权重系数怎么变化,在相同的训练目标下,Net1 网络和Net2 网络都表现出不同的特征分布,这表明 Net1 网络和 Net2 网络得到了不同的模型,即使它们具有相同的架构;随着权重因子 琢 从 0郾 1 0郾 9 逐次增大,特征分布从“细而长冶的分布逐渐变得“宽而集中冶。很显然随着权重因子逐渐增大,交

32、互损失函数在总的损失中贡献度变大,数据分布会发生明显的变化,权重因子越大,导致类内距离增大,每个类别的样本越分散。因此,交互损失函数决定了类内样本点的分布。08谭等泰等:詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬面向类内互学习的暴力行为识别模型图 7摇 损失曲线摇2郾4郾3摇 随机参数 姿1和 姿2对类内互学习模型的影响表 4 所示,改变随机参数 姿1和 姿2的取值,观察类内互学习模型在测试集上的准确率,其中,训练过程中权重因子 琢=0郾 5。当随机变量的取值范围越大,Net1 网络和 Net2 网络准确率呈现降低趋势,当随机变量的步长变大,

33、准确率也随之降低。随机参数 姿1和 姿2的主要作用是在信息嵌入模块中,改变预测向量 z 的大小,给同一类别不同的样本对之间随机赋予一个小的置信度,并通过交互损失函数将信息嵌入到模型中,如果随机参数的取值变大,会改变数据原来的分布,当随机变量的取值变大时,准确率会大幅度下降。因此,在选用随机变量时,应选择较小的参数,故选取 姿1,姿2沂0,0郾 5,步长为 0郾 01的随机数。表 4摇 随机参数对类内互学习模型的影响参变量取值范围步长Net1Net20郾 0,0郾 50郾 0188郾 75%89郾 00%0郾 0,0郾 50郾 186郾 75%87郾 50%0郾 5,1郾 00郾 0185郾 7

34、5%86郾 50%0郾 5,1郾 00郾 187郾 00%86郾 00%1郾 0,2郾 00郾 0186郾 75%86郾 25%1郾 0,2郾 00郾 186郾 75%86郾 00%摇 摇 注:加粗字体表示各列最优结果。3摇 本文方法与目前典型主流模型对比为了评价类内互学习模型的性能,将其与R3D、R(2+1)D、MC-18 和 S3D-G 等先进的特征提取网络进行比较,结果如表 5 所示,由于这些先进的模型并没有应用在暴力行为识别领域,本文采用表 2 中的参数在 RLVS2000 数据集和 RLVS2000 上进行了训练。在 RWF2000 数据集上,类内互学习模型达到了89郾 00%的识别

35、精度,与文献 21 相比,提高了0郾 29%,在 RLVS2000 数据集上,类内互学习模型达到了 98郾 75%识别精度,与 TL 网络相比提高了3郾 55%,而类内互学习模型的输入数据的形状仅为16 伊112 伊112 伊3,比其他网络的输入数据相比减小了 16 倍,依然取得了最先进的识别精度,进一步证明了类内互学习模型的高效性。由表 5 可知,互学习模型有较高的识别精度,依然优于目前大多数模型。RWF2000 数据集与 RLVS2000 数据集大小一样,但是同样的模型,在 RLVS2000 数据集上识别精度更高,这主要是由于数据集的分辨率和多样性造成的。摇 摇 本文方法的具有先进的识别精

36、度,有以下两方面的原因:第一,为了区分类内间的差异,引入了信18谭等泰等:詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬面向类内互学习的暴力行为识别模型图 8摇 t鄄SNE 降维可视化摇表 5摇 与目前典型模型对比模型RLVS2000RWF2000类内互学习98郾 7589郾 00互学习97郾 7586郾 75MC-1886郾 5083郾 75R(2+1)D86郾 0080郾 75R3D84郾 0081郾 25S3D-G90郾 7585郾 00CNN-LSTM-IOT1773郾 3573郾 35VD-Net1888郾 20X3D Transfer

37、 Learning1984郾 80Flow鄄Gated Net1187郾 30EVD2073郾 3582郾 30文献2192郾 8888郾 71TL2295郾 2085郾 00息嵌入模块,学习同一标签不同样本间的信息,提高模型的泛化能力;第二,类内互学习模型与互学习模型相比,提出了类内互学习机制,设计了交互损失函数,每个支路由交叉熵损失函数和交互损失函数共同优化,使每个分支网络学习如何区分不同的类别,还能使一个分支参考另一分支提升每个网络的泛化能力。4摇 结语本文提出了一种简单、通用的类内互学习模型,主要通过交互输入过程、信息嵌入模块和交互损失过程,学习同一标签不同样本间的信息,避免模型对于正

38、确标签过于自信,从而避免过拟合,提高模型的泛化能力。实验对比分析了独立模型、互学习模型和类内互学习模型在暴力行为数据集 RWF2000 和RLVS2000 上的准确率,该模型在测试集上分别达到了 89郾 00%和 98郾 75%的分类精度,有效地提高了暴力行为识别的准确率,并设计了对比实验探究了类内互学习模型的机理,类内互学习模型可以使测28谭等泰等:詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬面向类内互学习的暴力行为识别模型试集上的损失变得平滑。该模型可以部署在城市监控系统中,自动检测暴力行为。参考文献1摇 DONG Z H,QIN J,WA

39、NG Y H.Multi鄄stream deep net鄄works for person to person violence detection in videosC椅Chinese Conference on Pattern Recognition,2016:517-531.2摇 TRAOR魪 A,AKHLOUFI M A.2D bidirectional gated re鄄current unit convolutional neural networks for end鄄to鄄endviolence detection in videosC 椅International Confer

40、鄄ence on Image Analysis and Recognition,2020:152-160.3摇 ASAD M,YANG J,HE J,et al.Multi鄄frame feature鄄fu鄄sion鄄based model for violence detectionJ.The VisualComputer,2021,37(6):1415-1431.4摇 HOCHREITER S,SCHMIDHUBER J.Long short鄄termmemoryJ.Neural Computation,1997,9(8):1735-1780.5摇 SHI X J,CHEN Z R,WAN

41、G H,et al.ConvolutionalLSTM network:A machine learning approach for precipi鄄tation nowcastingC椅Proceedings of the 28th Interna鄄tional Conference on Neural Information Processing Sys鄄tems,2015:802-810.6摇 SUDHAKARAN S,LANZ O.Learning to detect violentvideos using convolutional long short鄄term memoryC椅

42、2017 14th IEEE International Conference on AdvancedVideo and Signal Based Surveillance,2017:1-6.7摇 ISLAM Z,RUKONUZZAMAN M,AHMED R,et al.Effi鄄cient two鄄stream network for violence detection using sep鄄arable convolutional LSTMC椅2021 International JointConference on Neural Networks(IJCNN),2021:1-8.8摇 D

43、ING C,FAN S,ZHU M,et al.Violence detection in vid鄄eo by using 3D convolutional neural networksC椅Inter鄄national Symposium on Visual Computing,2014:551-558.9摇 QIU Z,YAO T,MEI T.Learning spatio鄄temporal represen鄄tation with pseudo鄄3D residual networksC椅2017 IEEEInternational Conference on Computer Visi

44、on(ICCV),2017:5534-5542.10摇 XIE S N,SUN C,HUANG J,et al.Rethinking spatiotem鄄poral feature learning:speed鄄accuracy trade鄄offs in videoclassificationC 椅European Conference on ComputerVision,2018:318-335.11摇 CHENG M,CAI K,LI M.RWF鄄2000:An open largescale video database for violence detectionC 椅202025t

45、h International Conference on Pattern Recognition(ICPR),2021:4183-4190.12摇 ULLAH W,ULLAH A,HUSSAIN T,et al.Artificial in鄄telligence of things鄄assisted two鄄stream neural networkfor anomaly detection in surveillance big video dataJ.Future Generations Computer Systems:FGCS,2022,129:286-297.13摇 ZHANG Y,

46、XIANG T,HOSPEDALES T M,et al.Deepmutual learningC椅Proceedings of the IEEE Confer鄄ence on Computer Vision and Pattern Recognition,2018:4320-4328.14摇 SOLIMAN M M,KAMAL M H,NASHED E M,et al.Vi鄄olence recognition from videos using deep learning tech鄄niquesC椅2019 Ninth International Conference on In鄄tell

47、igent Computing and Information Systems(ICI鄄CIS),2019:80-85.15摇 TRAN D,WANG H,TORRESANI L,et al.A closer lookat spatiotemporal convolutions for action recognitionC椅Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition,2018:6450-6459.16摇 HARA K,KATAOKA H,SATOH Y.Can spatiotempo

48、ral3D CNNs retrace the history of 2D CNNs and imagenet?C椅IEEE/CVF Conference on Computer Vision andPattern Recognition,2018:6546-6555.17摇 ALDAHOUL N,KARIM H A,DATTA R,et al.Convolu鄄tional neural network鄄long short term memory based IOTnode for violence detectionC 椅2021 IEEE Interna鄄tional Conference

49、 on Artificial Intelligence in Engineer鄄ing and Technology(IICAIET),2021:1-6.18摇 ULLAH F U M,MUHAMMAD K,HAQ I U,et al.AI鄄as鄄sisted edge vision for violence detection in IoT鄄based in鄄dustrial surveillance networksJ.IEEE Transactions onIndustrial Informatics,2021,18(8):5359-5370.19摇 SANTOS F,DURAES D,

50、MARCONDES F S,et al.Effi鄄cient violence detection using transfer learningC椅In鄄ternational Conference on Practical Applications of A鄄gents and Multi鄄Agent Systems,2021:65-75.20摇 VIJEIKIS R,RAUDONIS V,DERVINIS G.Efficient vio鄄lence detection in surveillance J.Sensors,2022,22(6):2216.21摇 CHOQUELUQUE鄄RO

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服