1、Computer Engineering and Applications计算机工程与应用2023,59(7)目前,视频监控系统普遍应用于公共场所,在社会治安管理、打击犯罪、城市管理、服务人民生活等领域发挥着重要作用1-2。然而现实生活中人体异常行为类型复杂、数量众多,且不同的情况下非正常行为的界定标准也不一样3。大多数情况下异常行为样本仅在测试的时候可用,因此原YOLO网络不适合直接应用于人体异常行为检测。部分研究人员把目光投向了其他技术上,如基于重建的方法4-5、字典学习方法6-7等。重建方法的一个显著特征就是子类别依赖于预测掩蔽信息,利用相对于掩蔽优化YOLO网络的人体异常行为检测方法张
2、红民1,2,庄旭1,郑敬添1,房晓冰11.重庆理工大学 电气与电子工程学院,重庆 4000542.重庆理工大学 两江国际学院,重庆 401135摘要:鉴于公共场合监测视频信息中周围环境背景信息干扰大以及人体异常行为目标的尺度不同,目前人体异常行为检测的准确性难以进一步提高。针对上述问题,设计了通过改进YOLOv5网络的异常行为检测方法。该方法在原YOLOv5主干网络添加屏蔽卷积注意力模型,该模块从一个屏蔽卷积层开始,感受野的中心区域被遮掩,通过预测屏蔽信息并利用与屏蔽信息相关的误差作为异常得分。在检测网络中嵌入Swin-CA模块。通过对相邻层特征的学习,使得模型能够更好地掌握全局信息,从而减小
3、了背景信息对检测结果的影响,通过提取不同背景中人体异常行为尺度特征,降低了整个模型计算的复杂度,提高了模型对人体异常行为目标定位的精度。在UCSD-ped1、KTH和Shanghai Tech数据集上的实验结果表明,提出方法的检测精度分别达到了98.2%、96.4%和95.8%。关键词:人体异常行为;YOLOv5;屏蔽卷积;注意力机制;Swin-CA模块文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2208-0061Optimizing Human Abnormal Behavior Detection Method of YOLO Networ
4、kZHANG Hongmin1,2,ZHAUNG Xu1,ZHENG Jingtian1,FANG Xiaobing11.School of Electrical and Electronic Engineering,Chongqing University of Technology,Chongqing 400054,China2.Liangjiang International College,Chongqing University of Technology,Chongqing 401135,ChinaAbstract:Because of the large interference
5、 of environmental background information in public surveillance videos andthe different scale of abnormal human behavior goals,at present,it is difficult to improve the precision of human abnormalbehavior detection.For the above issues,this paper designs the abnormal behavior detection method by imp
6、rovingthe YOLOv5 module.In this method,a shielded convolutional attention model is added to the original YOLOv5 backbonenetwork.The module starts from a shielded convolutional layer,and the central region of the receptive field is covered.The shielding information is predicted and the errors related
7、 to the shielding information are used as abnormal scores.Atthe same time,Swin-CA module is embedded in the detection network.Through the study of characteristics of adjacentlayers,enables the module to get stronger grasp the overall situation information,thus reducing the affect of backdropmessage
8、on the detection results,by extracting the scale characteristics of human behavior abnormalities in differentbackgrounds,it decreases the order of complex of the whole model calculation and improves the precision of the moduleto locate the target of abnormal human behavior.Experimental results on th
9、e UCSD-PED1,KTH and Shanghai Tech datasetsshow that the precision of the proposed method reaches 98.2%,96.4%and 95.8%,respectively.Key words:abnormal human behavior;YOLOv5;mask convolution;attentional mechanism;Swin-CA module基金项目:重庆市自然科学基金面上项目(cstc2021 jcyj-msxmX0525)。作者简介:张红民(1970),通信作者,男,博士,教授,主要研
10、究方向为图像处理与模式识别,E-mail:;庄旭(1999),男,硕士研究生,主要研究方向为信号与信息处理;郑敬添(2000),男,硕士研究生,主要研究方向为信号与信息处理;房晓冰(1995),男,硕士研究生,主要研究方向为信号与信息处理。收稿日期:2022-08-04修回日期:2022-11-10文章编号:1002-8331(2023)07-0242-082422023,59(7)信息的重建误差作为异常得分。同时,目前公共场合监控视频数据中人体目标的尺度不同为当前人体异常行为检测的准确率以及检测速度带来了难题。为了解决目标的尺度不同这个问题,Lin等8于2017年首次公开地给出了FPN特征金
11、字塔网络来处理目标分类中的多尺度问题,该技术通过利用最简单的网络连接改变,从而使得对于小对象的检测和分析性能较大提高,但是,通过特征提取和将不同层次的特征加以融合的做法并不能将更多的特征集合在一起。为了能够更好地提取多尺度特征并将其融合,研究人员对特征金字塔网络进行改进,并于2018年提出了PAN网络结构9,PAN网络虽然有效地解决了特征融合的问题,但是对人体目标的检测及计算速率十分缓慢。文献10提出了YOLOv4。YOLOv4采用了FPN和PAN相结合的网络结构,使图像的视觉范围得到了最大程度的提高,同时也能迅速地分割出更加重要的特征信息。YOLOv511沿用了 v4 版本的网络结构,继续采
12、用FPN+PAN结构,但是经过实验发现FPN+PAN结构并不能很好地提取人体异常行为目标的特征,同时在上采样的过程中还会产生重叠效应。为此,本文对YOLOv5的网络结构进行改进,提出了一种人体异常检测方法(MCS-YOLO)。1优化YOLO网络的人体异常行为检测方法1.1MCS-YOLO方法改进思路YOLOv5模型在目标检测领域中取得了很好的效果,但对于具有复杂背景的人体异常行为的图片,YOLOv5很难得到比较精确的特征,容易产生误检或者漏检。此外,YOLOv5模型无法检测各种尺度的行为对象。针对上述问题,本文对 YOLOv5 网络结构进行分析,对YOLOv5模型优化得到新的人体异常行为检测模
13、型:MCS-YOLO。本文利用重建方法的思想,通过在主干网络中添加屏蔽卷积注意力模块MC,该模块由一个屏蔽卷积层12和注意力机制组成,屏蔽卷积层基于一个自定义的感受野,在那里图片的中心区域被屏蔽。产生的卷积激活图随后通过注意模块传递。注意模块用来确保网络不会简单地学习基于线性插值上下文信息的屏蔽区域,对网络的性能带来极大的改进。在YOLOv5网络的FPN+PAN结构中嵌入Swin-CA模块。Swin-CA模块由Swin transformer模块与坐标注意力结合而成,利用Swin transformer模块来引导特征聚合以改进多尺度特征学习的方式,借助坐标注意力机制的特点来获取特征图片的精确的
14、位置信息。Swin transformer可以从各种尺度中提取出异常的人类行为13,能够提高模型的目标识别能力。坐标注意力机制14能够精准地定位检测目标的位置。因此在本文中,将Swin transformer模块与坐标注意力机制结合,让模型能够得到更加丰富的图片的特征信息。该方法对原YOLOv5网络的主要改进有以下几点:首先,在YOLOv5主干网络中添加屏蔽卷积注意力模块MC,提高网络的特征学习能力,优化网络的检测性能;然后,在YOLOv5中的检测网络中嵌入Swin-CA模块,提取人体目标多尺度特征,利用坐标注意力机制,可以准确地保存人类行为对象的位置信息。优化后的MCS-YOLO网络如图1所
15、示。1.2屏蔽卷积注意力模块本文介绍了一种屏蔽卷积,如图2所示。利用该卷积进行上下文信息学习从而预测隐藏信息。同时将该卷积应用到注意力机制中,即屏蔽卷积注意力模块MC。图1改进后整体模型结构图Fig.1Improved overall model structure diagram输入端BackboneConvCBL CMC CBL CMCCMCCBLCMCCBLSPPCBLNeck上采样Concat上采样CBL Swin-CAConvSwin-CAConcatConvSwin-CACBLConcatCBLConvSwin-CAConcatCBLConvBNSiLUResunitCBLCBLa
16、ddCBLCSPResunitCSPCBLCMCConcatCBLMConv图2屏蔽卷积Fig.2Masked convolutionalK2K1K4K3DDDD张红民,等:优化YOLO网络的人体异常行为检测方法243Computer Engineering and Applications计算机工程与应用2023,59(7)屏蔽卷积注意力模块的作用是利用上下文信息学习重建隐藏信息。为了实现这一结果,本文将模块设计为一个带有扩展的屏蔽卷积层,然后是通道注意模块。在屏蔽卷积注意力模块中设计了关于预测信息的损失函数,其目的是最小化被屏蔽输入和预测输出之间的重建误差。1.2.1屏蔽卷积屏蔽卷积的感受
17、野如图2所示。该卷积的可学习参数位于感受野的角落KiRkkc,i1,2,3,4表示感受野4个角落的卷积核,其中kN+是定义子内核大小的超参数,c是通道数。每个核Ki位于距离感受野中心的掩蔽区域DN+的距离,用MR11c表示感受野中心的掩蔽区域。因此,感受野的空间大小k计算如下:k=2k+2D+1(1)XRhwc是屏蔽卷积层的输入张量,h和w分别是高度和宽度。在输入X的某个位置使用自定义核执行的卷积运算只考虑子核Ki所在位置的输入值,而忽略其他信息。每个Ki和相应输入之间的卷积运算结果被求和为一个数字。结果值表示与位于M相同位置的预测。一个屏蔽卷积产生单个激活图,为了预测M中每个信道的值,引入c
18、个屏蔽卷积,每个卷积预测来自不同信道的屏蔽信息。由于该模块的目标是学习和预测输入的每个空间位置的重建,本文在输入周围添加了k+D像素的零填充,并将步幅设置为1,这样输入中的每个像素都被用作屏蔽信息。因此,输出张量Z的空间尺度与输入张量X的空间尺度一致。最后,输出张量通过ReLU激活。1.2.2通道注意模块接下来,屏蔽卷积的输出由通道注意模块处理,该模块计算每个通道的注意分数。输出张量Z中的每个激活图都是在存在掩蔽信息的情况下由单独的屏蔽卷积预测的,由此可以推断屏蔽卷积最终会生成包含有不成比例的跨通道值的激活图,即会得到通道之间的关系。利用文献15所提供的通道注意机制对通道的特性响应可以进行自适
19、应校正,而利用这个机制,系统在特征提取时就能够提前使用全局图像信息,在必要时还能选择性强调或抑制重建信息。而使用注意力的另一原因是用于对屏蔽卷积注意力模块的输入和输出关系的非线性处理。通道注意模块通过在每个通道上执行全局池化将张量Z减少为向量zRc。然后,计算比例因子sRc,计算如下:s=(W2(W1z)(2)其中是Sigmoid激活,是ReLU激活,W1R(c/r)c和W2Rc(c/r)分别表示两个连续的完全连接层(FC)的权重矩阵。第一个FC层由c/r个神经元组成,以r的还原率压缩信息。然后,在空间维度中复制向量s,生成与Z大小相同的张量S。最后一步是S和Z之间的元素相乘,生成最终包含重新
20、校准特征图的信息的张量XRhwc。1.3添加Swin-CA模块的检测网络目前人体异常行为检测面临检测图像的尺寸变化大和系统运算复杂度高的挑战。为使检测网络具备较高检测速率的同时,进一步提高检测准确度,更好地使用在检测网络中的特征信息,在YOLOv5的检测网络中引进了由Swin transformer模型与坐标注意力机制相结合的新模型,即Swin-CA。1.3.1坐标注意力机制本文在对注意力机制的研究中发现一般的注意力模型会忽略对人体异常行为至关重要的位置信息。为此本文采用了一种基于坐标的注意力机制,它在一定的空间方位上捕捉目标的位置知觉依赖关系,然后在其他的具体目标的空间方位上,保留了更完整、
21、更精确的目标的空间定位信息,从而产生了具有空间方位感知相关特征的特征图,通过补充和有效地利用要输入此特征的特征图,以增强感兴趣的目标特征的表示。通过引入坐标注意力机制,在YOLOv5模型的检测过程中能够有效的捕获通道之间的关系,保留目标的确切位置,使网络能够更准确地识别目标并提高检测精度,同时在计算方面避免了大量的计算开销。1.3.2Swin-CA模块为了降低注意力机制的计算复杂度,同时提取多尺度特征,本文将Swin transformer模块与坐标注意力机制相结合,组成Swin-CA模块,并将其嵌入到YOLOv5的检测网络中。Swin transformer采用了分组运算的思想,通过采用CN
22、N结构中常见的分层构造方法来实现各特征矢量的融合,使模块可以掌握全局信息,而在特征图中引入坐标注意力机制,则可以更好地利用特征图中的异常行为对象的位置信息。Swin-CA模块结构如图3所示。图3Swin-CA模块Fig.3Swin-CA module坐标注意力机制多层感知器AddLNda+1dnAddW-MSA坐标注意力机制LNda坐标注意力机制坐标注意力机制da+2da+1多层感知器AddLNdn+1AddSW-MSALN2442023,59(7)Swin transformer模块主要由窗口多头自我注意层模块和移位窗口多头自我注意层模块分别组成。将屏蔽卷积注意力模块计算出的张量XRhwc(
23、图中表示为da)输入到窗口多头自注意层模块中,通过W-MSA模块进行特征学习并进行残差运算,同时将输入da送入坐标注意力机制并将两者的值相加得到输出特征dn。输出特征dn再分别经过坐标注意力机制和一个LN层和 MLP层,最后进行残差运算,得到输出da+1。公式如式(3),(4)所示。dn=W-MSA(LN(da)+CA(da)(3)da+1=MLP(LN(dn)+CA(dn)(4)移位窗口多头自我注意层的结构与窗口多头自我注意层的结构类似,唯一不同的是该层是利用SW-MSA模块来计算图片的特征部分。将Swin-CA模块嵌入到YOLOv5的检测网络中,可以让模型更好地掌握全局信息,借鉴CNN网络
24、分层构造方法,将所抽取的特征进行多尺度的划分,从而极大地减少了计算过程的复杂性。1.4损失函数为了充分利用屏蔽卷积注意力模块的特性,本文在对人体异常行为检测之外添加了一个监督任务,该任务包括屏蔽卷积感受野在内的每个屏蔽卷积的位置重建屏蔽区域。为此,屏蔽卷积注意力模块为每一个屏蔽区域提供相应的重建作为输出X。令F表示MC模块,将监督任务的重建损失定义为输入和输出之间的均方误差,如下所示:LMC=(X-X)2(5)将该损失函数的值简单地添加到YOLOv5网络的原损失数值中,从而产生一个新的损失函数,该函数包含两个项:Ltotal=LY+LMC(6)式中R+是一个超参数,它用来控制F对于整体损失函数
25、的重要性,而LY是原YOLOv5网络的损失函数。2实验结果与数据分析2.1实验数据集与参数设置实验在 UCSD-ped116、KTH17和 Shanghai Tech183个公共的人体异常行为数据集上进行。UCSD-ped1数据集包含70个人类行为的视频,视频来自室外场景,使用静态摄像头以每秒10帧的速度录制。在这些视频场景中的主要移动对象是行人,即正常行为。因此,所有其他物体(如汽车、滑板、轮椅或自行车)都被视为异常行为。Shanghai Tech数据集包含了13台高清摄像机拍摄的330个正常的动作和107个不正常的动作,该数据集中包含11种不同的人体行为,比如骑自行车、溜冰、打架、抢劫、摔
26、倒等,每一个视频都有856480的清晰度。KTH数据集与之前两个数据集有所不同,数据集中只包含了6种动作,数据集中视频的场景分为室内和室外。本文的实验平台是pytorch框架。网络输入图片尺寸按照数据集的不同分别编辑为相应图片大小,初始训练的学习率lr设置为0.005,图片批数量设置为8,每一个数据集都训练150个epoch。对模型训练时,利用迁移学习来加快模型的训练速度,将原YOLOv5网络的权重文件作为MCS-YOLO网络的初始训练权重,极大地较少了模型训练时间并得到了良好的检测结果。为了验证本文所提出的方法的有效性,选择准确率(Auc)、平均精度(mAp)、损失函数(Loss)以及模型运
27、行测试集所耗费的时间等指标。其中准确率(Auc)是为了评价本文方法在分类效果上的好坏。在使用YOLO方法进行人体异常行为检测时,考虑到与正常行为差异较大的都应被定义为异常行为,因此本文添加准确率(Auc)作为MCS-YOLO的评价指标之一。对MCS-YOLO训练之前需要对异常行为进行标记,本文将含有标记的帧图片定义为负样本,没有标记的图片定义为正样本。在测试时采用数据集中的所有帧图片进行测试并计算Auc值。具体计算如下:Accuracy=TP+TNTP+TN+FP+FN(7)式中每部分代表的含义如表1所示。平均精度(mAp)代表在数据集每个类别的平均精度的平均数。mAp越高则表示模型对于各类别
28、的平均检测效果越好。损失函数(Loss)是指用于衡量模型的预测值与实际数值之间的不同程度的运算函数。2.2MCS-YOLO方法通用性实验及结果本文中对MCS-YOLO方法在通用条件下的目标检测特性进行了研究。在 PASCAL VOC 数据集上对MCS-YOLO方法进行了检验。该数据集总共分为20种类别,总计约18 000张图片。从实验开始就划分了这个数据集,并根据3 1的比例分成了训练集和验证集,选择mAp(mean average precision)作为评价的标准。与4种目标检测的方法比较,比较结果如表2所示19-21。表1Auc各参数含义Table 1Meaning of each pa
29、rameter in Auc预测正确(T)预测错误(F)正样本(P)TPFP负样本(N)TNFN表2PASCAL VOC数据集下的实验结果Table 2Experimental results under PASCAL VOC dataset方法YOLOv319YOLOv3-MSEE20YOLOv421YOLOv5MCS-YOLOmAp/%78.281.282.783.485.7时间/s330340303310320张红民,等:优化YOLO网络的人体异常行为检测方法245Computer Engineering and Applications计算机工程与应用2023,59(7)从表2中的结果
30、可以看得出,MCS-YOLO方法相较于YOLOv5提高了2.3个百分点,在运行验证集方面比YOLOv5增加了10 s。由此可以看出,MCS-YOLO方法的检测性能要优于 YOLOv5,在检测速度方面也与原YOLOv5模型相差不多,速度能够得到保证。实验的结果表明MCS-YOLO在特征提取方面有了显著提升,对于图片中的特征信息掌握得更加全面,由于在检测网络添加了Swin-CA模块,使得MCS-YOLO方法在图片的多尺度检测性能方面得到了较大的提升。因此,可以推断MCS-YOLO方法适合用于对人体异常行为的检测。2.3与目前研究方法比较表 3中展示了 MCS-YOLO与其他方法的比较,主要是比较不
31、同方法之间的Auc值5,22-25。从表中可以看出,本文方法相较于RGB-STCNN和Two-Stream I3D这两种方法,在KTH数据集上的Auc提升明显,分别提高了 6.9个百分点和 23.4个百分点。在 UCSD-ped1数据集上,相较于其他方法也有提升,说明MCS-YOLO能够更好地提取图片中的特征信息,对于图片中的重建信息也进行了很好地利用。在 Shanghai tech 数据集上,MCS-YOLO 测试得到的 Auc值略低于 Lu等人提出的MAML方法,Shanghai tech数据集在校园拍摄,来往人员复杂且有重叠等问题导致在提取异常行为特征时会受到干扰,从而降低了模型对异常行
32、为的分辨能力。2.4不同损失函数的对比曲线图如图4是在3个数据集上分别采用原YOLOv5损失函数与添加了重建损失的新损失函数,在同一模型MCS-YOLO下的损失值随训练轮次的变化的对比结果图。红色表示采用原损失值的变化情况,蓝色表示添加重建损失的新损失函数的变化情况。图片中的横坐标表示训练轮次epoch,纵坐标代表损失值。从图中可以看出,本文采用的添加重建损失的损失函数的初始损失值和原YOLOv5的初始损失值相差不大;在UCSD-ped1数据集上当训练次数达到 30次后 MCS-YOLO开始收敛,而原YOLOv5模型在epoch达到90次左右的时候才开始收敛。在KTH和Shanghai Tec
33、h数据集上,两种方法的曲线大致相同。如表4展示了采用YOLOv5损失函数的MCS-YOLO和添加重建损失的MCS-YOLO在3个数据集上的检测结果对比,从表中可以看出在YOLOv5模型中加入重建损失对模型检测的mAp值提升较小,但是添加重建损失的MCS-YOLO经过较短时间的训练就能迅速收敛比采用YOLOv5损失函数的MCS-YOLO收敛速度更快,且最终都能收敛在较低的损失值。2.5实验结果对比分析上述选择的3个人体异常行为的数据集本身是视频,本文首先对视频进行处理,将其分为帧图片再对不同类别的人体异常行为进行标注。由于数据集的制作中有部分视频拍摄较为模糊且部分特征被背景遮挡,本表3不同方法在
34、3种数据集上的Auc对比Table 3Auc comparison of different methods ofthree datasets方法RGB-STCNN22Two-Stream I3D22ConvAE5AbnormalGAN23Dong et al24Lu et al26MCS-YOLOUCSD85.093.595.696.296.9Shanghai tech60.973.777.975.5KTH89.873.396.7单位:%图43种网络架构训练的Loss对比Fig.4Loss plots trained on three network architectures100 120
35、 1400.050.040.030.020.0120406080EpochLoss0MCS-YOLOYOLOv5(c)Shanghai Tech数据集0.050.040.030.020.01204060EpochLoss0MCS-YOLOYOLOv5(b)KTH数据集100 120 1400.050.040.030.020.0120406080EpochLoss0MCS-YOLOYOLOv5(a)UCSD-ped1数据集表4两种损失函数对比Table 4Comparison of two loss functions损失函数MCS-YOLOYOLOv5mAp/%UCSD-ped198.696.
36、3KTH95.294.5Shanghai tech96.895.3速度/(frame/s)UCSD-ped140.93042.450KTH42.15244.182Shanghai tech43.45045.1502462023,59(7)文在制作实验数据集时通过筛选选取高质量的图片。将图片格式统一转化为jpg,并通过make sense工具对数据集中人体异常行为特征进行标注,生成了TXT标签文档。本文分别在YOLOv4、原YOLOv5网络和MCS-YOLO方法上对制作的数据集进行训练,然后对检测结果中的mAp和检测所耗费的时间这些指标进行统计,测试的结果如表5所示。测试的结果表明:优化后的MC
37、S-YOLO在UCSD-ped1上提升最为明显,mAp值达到了98.6%,相对于YOLOv5和YOLOv4分别提高了7.8个百分点和9.1个百分点,运行验证集所花费时间为每秒40.93 frame,对比YOLOv4和YOLOv5的运行速度有所降低。而在另外两个数据集上MCS-YOLO方法相较于YOLOv5网络的 mAp值分别提高了 3.7个百分点、4.5个百分点左右,相较于 YOLOv4 提升了 5.6 个百分点、6.1 个百分点。对于运行验证机耗费的时间来说MCS-YOLO方法的提升不大。总体来说,MCS-YOLO方法在检测精度上得到了很大的提升,并且在验证集上的检测速度也有一定的保证。如图
38、5是3种模型的检测效果的对比示例,其中第一行到第三行,分别表示了MCS-YOLO、YOLOv5以及YOLOv4模型的检测结果,第一列到第三列则分别表示UCSD-ped1数据集、KTH数据集、Shanghai tech数据集中的检测结果。从表 5 的指标结果及图 5 结果图中可以看出,在UCSD-ped1 数据集和 Shanghai tech 数据集上,每种方法都能够检测出滑冰这一异常行为,其中MCS-YOLO模型检测的置信度最高,其次是YOLOv5模型,最低的是YOLOv4模型。而在KTH数据集中,MCS-YOLO与YOLOv5模型的检测结果并没有太大区别,而YOLOv4模型对跑步这一异常行为
39、的检测置信度较低。从整体的检测结果分析,MCS-YOLO相较于YOLOv5模型的人体异常行为的检测性能更强,能够更准确地检测出更多的异常行为目标。为了进一步验证MCS-YOLO网络检测人体异常行为的有效性,本文对3个数据集中的人体异常行为进行了分类并对网络进行训练,训练结果如表68所示。从表中的mAp值的结果来看,MCS-YOLO相较于YOLOv5与YOLOv4网络,在数据集上的分类性能更优,能够更方法MCS-YOLOYOLOv5YOLOv4mAp/%UCSD-ped198.690.889.5KTH95.291.589.6Shanghai tech96.892.390.7速度/(frame/s
40、)UCSD-ped140.93039.45040.240KTH42.15243.18242.117Shanghai tech43.45042.15043.750表53种模型的性能对比Table 5Performance comparison of three models(a)UCSD-ped1数据集(b)KTH数据集(c)Shanghai tech数据集图53种网络架构的检测结果对比Fig.5Comparison of detection results of three network architectures表6UCSD-ped1数据集下的检测结果Tab 6Detection resu
41、lts under UCSD-ped1 datasetCategorycartwheelchairskaterthrough the lawnbikeMCS-YOLO99.599.595.299.599.5YOLOv592.394.687.889.589.8YOLOv492.094.487.390.288.8单位:%张红民,等:优化YOLO网络的人体异常行为检测方法247Computer Engineering and Applications计算机工程与应用2023,59(7)加精确地检测出不同类型的人体异常行为,这也表明MCS-YOLO网络可以适用于不同场景下的人体异常行为的检测。2.6消
42、融实验本文为进一步验证MCS-YOLO方法对人体异常检测的有效性,通过进行消融实验分析各个优化点对与YOLOv5的改进效果,选择UCSD-ped1数据集来进行该实验。实验结果如表9所示,分别添加屏蔽卷积注意力模块、Swin-CA模块以及重建损失,每个模块都不同程度地提升了模型的整体性能。在原YOLOv5的主干网络中引入屏蔽卷积注意力模块,提升模型掌握全局信息的能力,网络的特征提取能力提升,人体异常目标的检测准确率有了较大的提升,有效地解决了原YOLOv5在进行人体异常行为检测时准确率不高的问题。引入屏蔽卷积注意力模块的YOLOv5网络在检测数据集中每一类异常行为的准确率都有较大的提升,相比原Y
43、OLOv5的mAp值提高了5.3个百分点。在检测网络中嵌入 Swin-CA 模块,mAp值提高了2.7个百分点。Swin-CA模块强化了模型对于不同大小的人体异常行为的检测能力,通过添加坐标注意力机制提升了网络对异常行为的定位能力,改善了网络对于多尺度异常行为的特征提取效果,mAp值提高了2.7个百分点。在YOLOv5模型中加入重建损失对模型的整体性能提升并没有太大的作用,但从上述对于损失函数的分析可以看出,添加重建损失可以加快模型的收敛的速度。从消融实验的对比结果来看,MCS-YOLO相较于YOLOv5,检测速率没有太多降低,但是检测的准确率却有了一个大幅度的提升,进一步说明了MCS-YOL
44、O方法的有效性。3结语本文提出的MCS-YOLO方法的主要创新点:(1)在YOLOv5网络结构中加入了屏蔽卷积注意力模块,提高了模型的特征提取能力以及检测网络的准确率;(2)在原有检测网络的基础上引入Swin transformer模块以及坐标注意力机制提高了人体异常行为的特征表现能力,提高了检测网络的准确性。该方法对检测人体异常行为具有积极意义。不过,MCS-YOLO方法还存在着不足:(1)由于不同数据集所收集的情景不同,对人体异常行为的定性在不同的情景中也是有所不同的,使得该方法通用性较为欠缺;(2)对模型的训练需要提前检测图像进行标注,前期工作量较大;(3)该方法对于图像中人动作的连续性
45、并不敏感,使得检测过程中对于人体异常情况的判断出现相应的延迟或误检、漏检。参考文献:1 LENTZAS A,VRAKAS D.Non-intrusive human activityrecognition and abnormal behavior detection on elderlypeople:a reviewJ.Artificial Intelligence Review,2020,53(3):1975-2021.2 ZHANG X P,JI J H,WANG L,et al.Review of videobased human abnormal behavior recogniti
46、on and detec-tionJ.Control and Decision,2021(1):1-14.3 FAN Z,YIN J,SONG Y,et al.Real-time and accurateabnormal behavior detection in videosJ.Machine Visionand Applications,2020,31(7):1-13.4 DONG G,LIU L Q,LE V,et al.Memorizing normalityto detect anomaly:memory-augmented deep autoencoderfor unsupervi
47、sed anomaly detectionC/Proceedings ofInternationalConferenceonComputerVision,2019:1705-1714.5 HASAN M,CHOI J,NEUMANN J,et al.Learning tem-poral regularity in video sequencesC/Proceedings of 2016IEEE Conference on Computer Vision and Pattern Rec-表7KTH数据集下的检测结果Table 7Detection results under KTH datase
48、tCategoryjoggingrunningboxinghand wavinghand clapingMCS-YOLO92.198.396.792.896.1YOLOv589.493.692.889.592.2YOLOv489.293.392.388.991.9单位:%表8Shanghai tech数据集下的检测结果Table 8Detection results under Shanghai tech datasetCategorybikefightcarskatethrough a bagmotorjumpruntumblerobberyMCS-YOLO97.596.196.995.39
49、8.297.298.197.694.896.3YOLOv597.195.595.894.597.896.997.797.394.692.3YOLOv496.594.396.094.197.497.397.896.995.891.8单位:%表9消融实验Table 9Ablation experiment屏蔽卷积注意力模块Swin-CA模块重建损失mAp/%90.896.193.596.398.62482023,59(7)ognition(CVPR),2016.6 CARRERA D,MANGANINI F,BORACCHI G,et al.Defect detection in nanostru
50、cturesJ.IEEE Transactionson Industrial Informatics,2017,99:1.7 CHENG K W,CHEN Y T,FANG W H.Video anomalydetection and localization using hierarchical feature rep-resentation and Gaussian process regressionC/Proceedingsof 2015 IEEE Conference on Computer Vision and PatternRecognition(CVPR),2015.8 LIN