1、 年 无线电工程 第 卷 第 期:引用格式:潘力基于四支路改进的监控视频异常事件检测框架无线电工程,():,():基于四支路改进的监控视频异常事件检测框架潘力(郑州工程技术学院,河南 郑州)摘要:随着视频监控的广泛部署,海量监控视频中人群异常行为的检测和定位已成为研究热点。提出了基于改进生成对抗网络(,)的四支路异常检测框架,并利用提高异常定位精度。通过在中引入注意力机制,实现远距离空间区域之间关系的高效建模。通过四支路并行的模块,提取不同类型和不同时间跨度的外观和运动信息,生成高质量的特征图。基于峰值信噪比(,)合并计算所有通道生成的图像,并训练支持向量机(,)完成异常检测。利用提取异常视频
2、帧的目标,并计算每个目标的异常概率,实现精准的异常定位。公开数据集上的实验结果表明,所提方法在和数据集上的帧级分别达到了 和,像素级分别达到了 和,异常检测和异常定位性能均优于其他先进方法。关键词:异常检测;异常定位;生成对抗网络;峰值信噪比;支持向量机中图分类号:;文献标志码:开放科学(资源服务)标识码():文 章 编 号:()(,):,(),(),(),:;引言当前,公共区域的监控系统得到了广泛使用,人群异常检测已成为智能视频监控系统中必不可少的一部分。监控视频的异常检测要求对捕捉到的事件进行连续观察和分析,随着监控视频数据量的不断增加,人工评估视频中大规模人群的行为效率过低,且准确度难以
3、保证。需要通过智能异常检测收稿日期:基金项目:河南省教育厅年度河南省高等学校重点科研项目基于人脸表情识别的高校宿舍安全管理系统设计与开发():“”,()工程与应用 系统,快速准确地识别和检测监控视频中人群的异常行为,提高公共安全,预防潜在风险,并确保快速响应。异常检测系统通过监测程序,自动识别并确定人群中的异常行为。“异常”指的是不规律或不均衡的数据模式。在数据挖掘和统计分析中,异常也称为偏倚值或离群点。由此,可将异常定义为不符合预期行为或位置的不寻常模式。对于视频或图像数据,通过分析和理解区域内对象的行为或模式,将不符合预期模式的对象识别为异常目标。由此,可将异常检测定义为不符合预期的模式或
4、行为的检测和定位。异常行为包括人群拥挤、行走到人行道之外、在车站等出入口处的跑动或攀爬等。此外,暴力事件也是一种典型的异常行为。视频异常检测与传统的动作识别问题是有区别的。首先,与正常事件相比,异常事件的发生频率非常低,因此数据集极度不平衡,异常类别样本的数量非常少。其次,异常事件的特征通常不遵循任何空间或时间关联,增加了对异常事件的特征结构进行预定义的难度。早期异常检测方法基于手工特征提取进行异常事件估计。其中,最常用的特征是移动轨迹,因为该特征可快速提取且易于实施。但仅凭运动信息不足以表现各种不同类型的异常事件,且运动估计器在复杂拥挤的场景中容易出错。为此,一些方法在轨迹之外还提取外观和运
5、动信息。如文献在分类器训练中结合梯度方向直方图(,)、光 流 方 向 直 方 图(,)和运动边界直方图(,),并取分类得分均值作为输出信号。但手工特征不适用于大规模数据集和复杂场景,局限性较大。近期,深度学习方法在视频异常检测中取得优秀成绩。可根据对异常特征的定义,将异常检测深度学习方法分为两大类,即基于变化检测和基于重建预测误差的检测方法。基于变化检测的方法对每个事件与其近邻相比较,以找到差异最大的事件。文献学习包括、和的所有运动轨迹特征,其后构建编码器解码器网络以进行场景重建,并使用重建误差计算异常值。文献提出了基于解遮罩技术的框架,将从梯度计算出的运动特征与利用预训练得到的外观特征相合并
6、,其后训练二元分类器在连续视频序列中进行异常判定。但此类方法不适用于异常事件在视频序列中始终存在或从未出现的情况。此外,此类方法不能给出异常类型或异常定位等额外信息。基于重建误差的方法利用生成对抗网络(,)或卷积自编码器(,)模型,针对每个动作生成未来信息预测或当前信息重建。文献利用 模型处理多个视觉任务,以利用异常事件检测和统计相关的语义信息,并将结果插入到与环境无关的异常检测器中。文献利用对每个视频帧的外观特征进行编码,利用记忆历史视频帧的运动特征,并利用架构学习正常的外观和运动特征标准。文献提出了基于未来预测的异常检测框架,利用条件(,)技术与模型作为生成器,对下一个视频帧进行预测,通过
7、外观和运动相关的损失函数生成高质量图像,基于预测帧与真值图之间的差异进行异常判定。文献提出重建网络与图像迁移模型共享相同的编码器,利用重建网络确定视频帧中的最显著结构,利用图像迁移模型将该结构关联到运动模板。文献构建重建误差模型,学习基于目标的外观和时空梯度特征,并结合均值聚类和支持向量机(,)技术生成异常值。提出了基于四支路和的异常检测和定位框架,基于峰值信噪比(,)合并每个通道生成的特征,由此考虑每个通道的特定信息,在保持特征完整度的同时降低了模型复杂度。主要创新点包括:提出了灵活的多通道框架,生成多种类型的外观和运动的预测信息,通过考虑更多的连续视频帧改善了特征空间。利用作为合成图像与真
8、值图像的特征描述子,并添加了基于的监督式训练阶段,以充分利用通过所提无监督架构提取出的特征,进一步提升了检测准确度。使用进行目标包围框分割,并基于每个包围框的值进行异常定位,提高了异常定位精度。图像生成网络所提方法基于重建视频帧与真值图之间的误差计算每个视频帧的异常值。本节将解释传统的工作原理,并给出结合注意力机制的,作为所提异常检测框架中视频帧预测重建的骨干网络。是无监督生成式模型,包含个主要模工程与应用 年 无线电工程 第 卷 第 期 块:生成器和判别器。在中,用于学习从先验分布中采样的随机噪声到真实数据分布的映射,由此生成符合真实数据分布的伪样本();用于将真实样本与生成样本()之间的差
9、异最大化。和通过对抗式学习对各自的性能进行迭代优化,以使得生成的数据能够使无法区分,并将合成样本分布与真实数据之间的差异最小化,使得判别器无法区分输入数据的真实性。图给出了的数据生成过程。图结构 的目标函数表示为:(,)()()()()。()训练时,首先将固定不变,并训练将数据区分为真实数据或合成数据。式()中,()表示判定真实数据符合分布,()的期望值接近。()表示从符合分布的随机噪声出发,对生成的合成样本做出的判定。旨在将目标函数最大化,从而将真实样本和生成样本之间的差异最大化。()的数值越接近,即()的值越接近,代表式()中整体(,)的损失值越大,即判别器对人工生成的伪样本的判别能力越强
10、。其后,将固定不变,以提升的数据生成能力。图所示的过程中,旨在使将生成样本()的判定结果()接近,并尝试将(,)最小化,也就是将的误分类误差最大化,从而使生成使无法区分真伪的高质量数据。结合注意力的当前用于图像生成的模型大多使用卷积层构建,通过卷积操作处理局部邻域信息,但仅使用卷积层不能很好地对图像中的远距离依赖关系进行建模。为此,向框架中引入注意力机制,以支持生成器和判别器对相隔较远的空间区域之间的关系进行高效建模。图给出了基于注意力的(,)的注意力模块示意,其中,表示矩阵乘法。图注意力模块 如图所示,将来自隐藏层的图像特征转换到个特征空间和,为通道数,为的特征位置数量。其后,进行注意力计算
11、:,()(),()()(),()工程与应用 式中:,表示模型在生成第个区域时对第个位置的关注程度,(),(),和为学习到的权重矩阵,实施尺寸为卷积。注意力层的输出为图中的注意力特征图,(,),瓗,计算为:(,(),()式中:(),(),和为学习到的权重矩阵。将注意力层的输出与尺度参数相乘,然后与输入特征图相加,得到的最终输出:,()式中:为初始值为的可学习标量。通过引入可学习参数,使得网络可以先关注局部邻域中的线索,并通过学习逐渐向非局部线索分配更多权重。将注意力模块应用到生成器和判别器,进行交替训练,以最小化对抗损失:(,)(,(,),(,(),),(),(),)。()最终损失计算为:,()
12、式中:和分别为判别器损失和生成器损失的正则化因子。异常检测和定位框架所提方法利用四支路框架完成对每个视频帧的异常检测,其后基于对异常视频帧进行准确定位。四支路异常检测框架所提监控视频异常检测框架中,根据对运动流和图像流的预测重建,利用预测误差进行异常检测。首先通过基于多个的多通道框架生成高质量特征图,并使用无监督策略训练多通道网络。其后,将经过转换后的特征图输入到中进行分类。图给出了本文的异常检测框架。图异常检测框架 为提高外观和运动信息建模的特征丰富度和敏感性,使用包含不同输入和输出配置的个并行的模块,共计个通道。每个流有着不同的通道数量,输入图像(源图像)和输出图像(合成图像)的每个通道的
13、类型也不同。取个灰度通道为输入,并输出个光流通道。取个灰度通道和个光流通道为输入,并输出个灰度通道和个光流通道。取个通道为输入,并输出个通道。取个灰度通道为输入,并输出个灰度通道。表给出了配置详情。输出图像通道数与真值图通道数相同。其中,为第帧的灰度图像,工程与应用 年 无线电工程 第 卷 第 期,为从第帧到第帧沿、轴的光流,为第帧的彩色视频帧。在计算损失函数时,综合考虑所有通道。表流配置 通道输入输入图像通道数输出输出图像通道数,由此,通过、和分析运动和外观随时间的演变情况,并利用分析在同一时间外观和运动之间的关系。在时间长度方面,和学习从第帧到帧的短期演变,和则分析从第帧到帧的长期变化。输
14、入到流之前,将所有源图像通道调整为 分辨率,并沿、轴方向将光流图归一化到,:,(,),()式中:,为像素位置(,)处的光流值,和分别为整个视频的光流最大值和最小值。通过式(),将负光流值映射到,并将正光流值映射到,由此保留不同运动方向之间的差异。特征提取参考文献,度量比传统使用的均方误差(,)度量能够更好地比较图像质量差异。为此,使用计算生成图像与真值图像之间的距离:(,)()()。()值越高,代表生成图像质量越好。若将所有通道上的值累积来学习异常判定阈值,会丢失每个通道的区分性。为此,应用晚融合策略,分别计算每个通道上的值,由此从个输出通道中得到个值,编码为特征向量并归一化到,得到全局值。较
15、低的值意味着该视频帧包含异常事件。异常检测所提方法中,首先使用无监督方法,在仅包含正常数据的训练数据集上训练多通道框架。其后,将包含正常数据和异常数据的测试集分为个子集,在子集上训练二元分类器,并在子集上进行性能测试。通过将无监督与监督式方法相结合,寻找到检测性能与标注工作量之间的最优权衡。具体来说,将所有视频帧分为类,即正常帧和异常帧。每个视频帧表示为维特征向量,对应于所提框架中的个流。将所有特征向量归一化到,然后训练二元分类器进行异常检测。异常定位通过异常检测框架检测出异常视频帧后,使用基于的外观异常定位实现对异常目标的像素级定位。是 的扩展,使用区域提议网络(,)提取特征并实现准确的包围
16、框分割。将 中的池化替换为对齐,并利用掩码分支连续对的结果进行标记。图给出了结构示意,其不但能提供目标包围框,且能够标注并确定包围框内的像素是否属于目标。其中,表示感兴趣区域对齐,、和分别为分类损失、包围框回归损失和掩码损失。图 在异常定位中,对于每个异常帧,利用()数据集上预训练的,获得视频序列中每个目标的包围框。其后,将每个包围框作为所提四支路异常检测框架的输入,并计算出每个包围框的值,将值低于阈值的包围框判定为异常目标。尽管对标注的每个包围框进行异常检测会增加计算量,但现实场景中异常事件的数量是非常少的,且所提框架仅对检测到的异常视频帧进行异常定位,因此对模型整体复杂度的影响非常小。实验
17、 数据集在监控视频异常检测领域,和工程与应用 是最常用的个公开数据集。本文使用和 评估所提方法的异常检测和定位性能,并与其他方法进行比较。数据集由个训练视频和个测试视频组成。训练集中共包含 个视频帧,测试集共包含 个视频帧。每个视频帧的分辨率为 。训练集中仅包含正常事件,测试集中包含种异常事件,例如投掷物品、徘徊走动或突然跑动等。目标行人的尺寸会随着相机位置和角度的变化而改变。测试集中的正常样本占比显著大于异常样本。该数据集提供了帧级和像素级注释。数据集包含和两个子集,记录了由静态相机以帧秒拍摄下的个不同的户外场景。本文使用子集,包含个训练视频和个测试视频。训练集共包含 个视频帧,测试集共包含
18、 个视频帧,分辨率为 。训练集仅包含正常样本,测试集中正常样本占比远大于异常样本。场景中主要移动目标为行人,因此任何其他移动物体(例如车辆、轮椅或自行车)均被视为异常目标。该数据集同样提供了帧级和像素级注释。评估指标在视频异常检测评估中,曲线下面积(,)是最常用的帧级评估指标。首先,使用真阳性率(,)和假阳性率(,)绘制受试者操作特征(,)曲线,相对于真值注释计算曲线下面积。在帧级评估中,不考虑场景中异常目标的定位,若视频帧中存在任何被检测到的异常像素,则将该视频帧标注为异常。在异常定位性能的评估中,使用像素级和双像素级指标。这个指标考虑到了检测到的异常目标的位置。像素级计算中,相对于真值图像
19、,若系统检测到了至少的异常像素,则视为正确检测。但像素级指标的缺点是,若真值图像中异常目标覆盖了以上的区域,就会忽略所有误检区域。因此模型可以给出尽可能多的假阳性检测(例如将检测到的异常视频帧中所有像素均标注为异常)来覆盖真实异常目标。为此,双像素级添加了额外约束,即要求检测到异常的区域中至少包含的真实异常像素。因此,若模型给出的异常区域非常大,将不会被视为正确检测。此外,还报告了异常检测和异常定位的等误差率(,)性能。为计算值,在曲线的(,)和(,)之间绘制直线,将二者的交点上的值作为结果,即 处的误分类率。针对帧级和像素级,分别计算指标。数值越低,证明性能越好。参数设置实验使用的操作系统为
20、,处理器,为 ,显存为。使用平台实施所提框架,应用 进行光流提取。所有模型的输出为 的图像。对每个的生成器和判别器使用谱归一化。使用优化器,动量参数,。判别器和生成器的初始学习率分别设为 和。所提方法在通过四支路流计算值并编码特征向量后,训练进行异常分类。在中,利用 工具箱学习二元分类器。在的训练数据中包含一定比例的测试集样本。为分析监督式学习模块的作用并寻找注释工作量和模型性能之间的平衡,本文对的训练数据中原始测试集的占比进行了分析,并给出在和 数据集上,向训练集中添加 测试集样本时的帧级性能变化情况。结果表明,添加的测试样本越多,模型的异常检测性能越好。在添加的测试集进行训练时,所提框架在
21、个数据集上分别取得了 和 的帧级结果。考虑到现实场景约束,后文实验中所提方法将测试样本添加到训练数据集中,并使用其余测试样本作为测试集。图给出了在个实验数据集上,训练数据不同占比时的帧级性能。图训练数据对异常检测性能的影响 工程与应用 年 无线电工程 第 卷 第 期 实验结果首先,比较所提方法与其他先进方法在个实验数据集上的异常检测性能,并报告了帧级和帧级结果。文献采用传统的手工特征方法,因此尽管结合了光流信息和运动信息,但在复杂监控场景下的大规模异常检测中性能依然较差,且指标表明,对视频帧的误分类占比很高,不能满足现实应用需求。深度学习方法中,文献在图像重建预测中尝试在外观流和运动流之间建立
22、关联,取得了相对较好的成绩,但指标相对较高,说明该方法的误分类样本较多。文献结合了模型和与环境无关的异常探测器,利用从多个视觉任务中学习异常事件检测相关的语义信息,在数据集上取得了较好的异常检测性能,但在数据集上表现不佳。这可能是因为数据集的训练样本相对较少,且环境更加复杂,基于视觉特征提取的模型的表现比基于重建预测的方法要差。文献首先训练以目标为中心的卷积自编码器网络,然后将异常事件检测作为多分类问题来处理,并在图像重建过程中考虑到了外观和运动信息,在个数据集上均取得了较好成绩。所提方法使用进行图像重建预测,在特征提取过程中考虑了更多的连续视频帧,通过注意力机制改善对远距离依赖关系的理解。采
23、用四支路框架,利用多个通道学习不同类型的丰富特征,充分利用外观和运动信息。此外,将基于的无监督特征提取和基于的监督式训练相结合,进一步提高了模型性能。在和上分别取得了 和 的帧级结果,且结果表明所提方法的误分类占比非常低,性能优于其他比较方法。表给出了不同方法在实验数据集上的异常检测结果。表异常检测性能比较 模型帧级 帧级 帧级 帧级 文献 文献 文献 文献 本文方法 为比较异常定位性能,对所提方法与其他方法在个实验数据集上的像素级、像素级,以及双像素级性能进行比较。从结果中可发现,传统手工特征方法由于异常检测性能较差,整体异常定位性能也最低。文献使用架构提取目标包围框,在异常定位中取得了仅次
24、于本文方法的性能。所提方法在异常定位阶段利用对四支路框架检测到的异常帧进行目标提取,然后将提取出的目标重新输入异常检测框架。能够有效利用场景中的先验知识进行语义分析,由此确保了对异常目标的准确定位,且有效移除了对异常视频帧中其他正常目标可能的误分类,因此在异常定位指标中显著优于其他比较方法。表给出了不同方法在实验数据集上的异常定位结果。表异常定位性能比较 模型像素级 像素级 双像素级 像素级 像素级 双像素级 文献 文献 文献 文献 本文方法 为分析所提方法中不同的支路模块对整体异常检测性能的影响,在所提方法中使用不同支路组合,并比较异常检测的帧级结果,如表所示。通过合并不同组合数据流的特征生
25、成新的向量,表中、分别代表、和。由于中仅包含灰度图像,由于考虑到后帧的时间演变,比的性能稍有提升。数据集为彩色图像,的性能则显著优于。整体上,当单独使用时,由于结合了外观和运动演化学习,取得了最好性能。而当和结合时,性能优于。此外,随着合并的流的数量增加,模型性能也不断上升,证明了所提多支路方法能够有效提高生成的特征图质量。工程与应用 表不同支路组合的帧级性能 支路组合帧级 最后,通过所提方法在数据集上进行异常检测和定位的可视化结果,直观展示所提方法的性能。其中,红色实线包围框为所提方法给出的异常检测结果,绿色虚线包围框为真值注释。图给出了可视化结果示例。从结果示例中可发现,所提方法能够准确完
26、成异常事件的检测和定位,包围框结果与真值注释非常接近,且能够在定位过程中有效移除异常视频帧中的正常对象。()示例()示例()示例()示例图异常检测和定位的可视化结果示例 结论为提高复杂场景中监控视频异常检测任务的识别和定位精度,提出了基于的四支路异常检测框架,并在异常定位中使用完成目标包围框的准确提取。实验结果表明,所提方法在帧级和像素级的异常检测和定位指标中的性能均优于以往先进方法,不同支路的模块的组合有效提升了模型的整体检测准确度,引入改善了异常目标的定位精准度。此外,在分类器训练中加入一定比例的异常样本,有助于提高分类器的判别能力。在实际应用中,可以根据不同的应用场景,灵活调节所需的支路
27、数量,以及训练中的异常样本数量,实现性能和效率的最优平衡。?参考文献王志国,章毓晋监控视频异常检测:综述清华大学学报(自然科学版),():,:,:工程与应用 年 无线电工程 第 卷 第 期 ,:(),():吉根林,许振,李欣璐,等监控视频中异常事件检测技术研究进展南京航空航天大学学报,():,:,():刘速,孙晨博物馆监控视频中慢速移动稀疏目标异常轨迹检测科学技术与工程,():,:,:,:,:,:,:,:,:,():,:,:,:,:,:,:,:陈亮,吴攀,刘韵婷,等生成对抗网络的发展与最新应用电子测量与仪器学报,():,:():,:,():,?,:,:李欣璐,吉根林,赵斌基于卷积自编码器分块学习的视频异常事件检测与定位数据采集与处理,():,():,:,:作者简介潘力女,(),硕士,副教授。主要研究方向:大数据、云计算。工程与应用