1、第 卷第期 年月太 原 师 范 学 院 学 报(自然科学版)J OUR NA LO FT A I YUANNO RMA LUN I V E R S I T Y(N a t u r a lS c i e n c eE d i t i o n)V o l N o M a r 收稿日期:基金项目:国家社科基金项目(B J L );山西省“工程”平台项目(P T );山西省重点研发计划项目(D )作者简介:王雅鑫(),女,山西太原人,在读硕士研究生,主要从事智能计算与数据建模研究通信作者:赵月爱,教授,E m a i l:q q c o m基于K L退火的V R N N视频异常预测算法研究王雅鑫,赵月
2、爱(太原师范学院 数学与统计学院,山西 晋中 )摘要针对变分递归神经网络(V R NN)上K L散度消失的问题引入K Lc o s ta n n e a l i n g,提出了一种基于退火变分递归神经网络(A n n e a l i n g V R NN)的半监督视频异常预测算法在U C S D p e d、U C S D p e d 上进行了大量实验,实验表明该算法有利于对异常事件更准确地预测,其AU C值分别达到了 和 关键词视频异常检测;变分递归神经网络;K L退火;长短时记忆网络 文章编号 ()中图分类号T P 文献标识码A 引言随着科学技术的发展和经济水平的提高,监控设备已经逐渐覆盖
3、到人们日常生活的各个角落,每天可产生大量的视频数据依靠人工对视频数据进行异常检测存在成本高、效率低等问题因此,通过计算机视觉、模式识别和深度学习等智能技术自动地从监控视频中检测出异常具有十分重要的研究价值目前,基于无监督学习的视频异常检测算法大致可分为基于聚类、重构和预测三种基于聚类判别异常的思想是假设异常行为是无规律且稀有的,通过基于距离、密度和高斯分布等聚类算法把正常样本的潜在变量信息聚成多个簇,将离群点的样本判定为异常 M a提出了一种基于变分自编码器(VA E)的视频异常检测和定位的方法,将事件表示和异常检测模型的建立分别转换为VA E的隐藏表示和高斯分布约束,若高斯分布中的概率值低于
4、阈值,则被认为异常 F a n等人设计了高斯混合全卷积变分自编码器(GMF C VA E)模型,采用双流全卷积自编码器进行测试样本的特征提取,并与训练好的高斯混合模型(GMM)进行拟合,若不属于任何高斯分量,则认为是异常由于正常行为样本的类间差距大,因此,基于聚类的算法需要对大量的正常样本进行训练,否则很容易造成正常行为的误检基于重构误差的视频异常检测的思想是仅在正常样本上训练一个e n c o d e r d e c o d e r的生成式模型,由于正常样本的重构误差较低,存在异常样本的重构误差较大,则可通过设定重构误差的阈值有效地区分出正常和异常,从而实现异常检测 N g u y e n等
5、人提出了一种利用外观和运动之间的对应关系进行异常检测的方法,将重建网络C o n v e n t A E和U N e t相结合,前者提取视频帧的重要结构特征,后者尝试将运动模块与之相关联同时,还提出了一种基于补丁的方案来估计帧级正态性得分,减少模型输出中噪声的影响 C h o n g等人提出了一种时空结构的视频异常检测模型,该模型由一个空间特征提取器和一个时间编码解码器共同学习输入帧的时空信息但由于使用的深度神经网络容量很高,对于异常样本不一定会出现较大的重构误差,很容易造成漏检还有一种视频异常检测的方式是基于预测的该方法认为正常行为是可根据已有事件进行预测,而异常行为是不可预测的,利用连续的
6、t帧信息去预测下一帧,然后通过预测帧和真实帧之间的预测误差来识别异常 L i u等人首次引入U N e t作为未来帧基本预测网络,为生成更真实的未来帧,在训练过程中引入了对抗训练损失、光流损失和图像梯度差损失但该模型直接将输入帧连接起来作为GAN的输入会导致模型不能直接提取视频中的时间信息尽管其使用了光流特征来捕获一些时间信息,但光流信息仅在训练期间使 用,测试时不使用,因此模型没有充分利用视频的时间信息为此,L u等人提出了一种基于未来帧预测的视频异常检测序列生成模型该模型通过前面几个连续的帧来预测未来帧当视频中出现异常时,预测出的未来帧往往是扭曲和模糊的通过将预测的未来帧与实际的未来帧进行
7、比较,可检测到异常但该模型使用了功能强大的自回归编码器,训练时易产生K L(K u l l b a c k L e i b l e r)散度消失的问题,导致无法学习到一个有意义的潜在变量针对上述问题,本文在变分递归神经网络(V R NN)的基础上引入了K L退火(K Lc o s ta n n e a l i n g),提出一种基于K L退火的变分递归神经网络(A n n e a l i n g V R NN)进行视频异常预测由于V R NN模型在训练过程中存在K L散度消失的问题,因此,本文通过给损失函数中的K L项添加从的可变权重,缓解了该问题,使模型可学习到一个更有意义的潜在变量,提高了
8、预测帧的准确性 相关工作及其原理 长短时记忆网络循环神经网络(R NN)是一种特殊的前馈神经网络,该网络的输出不仅受当前输入的影响,还受之前输入信息的影响从理论上讲,R NN可以对任意长度的序列数据进行建模,但由于梯度消失和爆炸的问题,在实际过程中,网络的输出只受前几步输入信息的影响为解决上述问题,H o c h r e i t e r等人提出了一种特殊的R NN结构 长短时记忆网络(L S TM),来学习序列的长期依赖信息 L S TM由输入门、遗忘门和输出门组成,这三个门通过s i g m o i d层和一个点乘操作有选择性地保留重要信息遗忘次要信息,从而避免了R NN中出现的梯度消失或梯
9、度爆炸的问题另外,多个L S TM可以堆叠起来形成更复杂的结构以捕获更高阶的信息L S TM在处理时间相关性方面被证明是强大的,但存在空间数据冗余的问题,为此,S h i 提出了卷积长短时记忆网络(C o n v L S TM),将L S TM中输入到隐藏状态,隐藏状态到隐藏状态的全连接操作用卷积操作代替,该方法既降低了参数量,又可通过局部连接提取视频的局部信息C o n v L S TM单元的公式可表示为:HtfC o n v L S TM(Xt,Ht,Ct)()其中,Xt表示t时刻的输入数据;Ht表示上一时刻的输出;Ct表示上一时刻的细胞状态t时刻输入C o n v L S TM后可得到输
10、入门的输出信息it、遗忘门的输出信息ft、输出门的输出信息ot、更新细胞状态Ct以及最终输出值Ht的具体步骤是:it(Wx iXtWh iHt Wc iCt bi)()ft(Wx fXtWh fHt Wc fCt bf)()ot(Wx oXtWh oHt Wc oCt bo)()CtftCt it t a n h(Wx cWx fWh cHt bc)()Htot t a n h(Ct)()其中:表示卷积运算;表示H a d a m a r d积 变分自编码器变分自编码器(VA E)是一种基于变分贝叶斯推断的深度生成模型,它融合了深度学习和贝叶斯方法的优势,具有坚实的数学理论基础,被视为无监督学
11、习中最具有研究价值的方法之一它的后验概率通过神经网络逼近,形成一种类似于传统自编码器(A E)的结构,如图所示:令X表示输入数据,Z表示潜在变量,映射f:ZX表示因变量变换到输入的映射,并由参数确定,在给定先验分布p(Z)的条件下,变分自编码器通过优化网络参数最大化概率分布P(X)P(X)可以依据下式得到:P(X)f(Z;)p(Z)dZp(X|Z)p(Z)dZ()对于任意复杂的数据分布而言,概率分布P(X)很难计算为解决这一难题,引入一个新的函数q(Z|X),即近似后验,来代替真正的后验分布p(Z|X)在模型优化的过程中,为使q(Z|X)与p(Z|X)尽可能接第期王雅鑫,等:基于K L退火的V
12、 R NN视频异常预测算法研究?图变分自编码器近,用K L散度进行优化,即:DK Lq(Z|X)|p(Z|X)Eq(Z|X)l o gq(Z|X)p(Z|X)Eq(Z|X)l o gq(Z|X)p(Z,X)l o gp(X)()由于DK Lq(Z|X)|p(Z|X),则l o gp(X)Eq(Z|X)l o gq(Z|X)p(Z,X)Eq(Z|X)l o gp(X|Z)DK L(q(Z|X)|p(Z):Lr e c o n sLK LL()因此,最大化概率分布p(X)转换为最大化它的变分下界L其中,第一项是模型的重构项Lr e c o n s,可借助重参数技巧完成采样;第二项称为K L散度项L
13、K L,是模型的正则化项,它是VA E与A E的显式差别 基于K L退火的V R N N视频异常预测VA E是一种生成模型,它不能直接对时间序列数据进行建模,因此,C h u n g等人提出了变分递归神经网络(V R NN),它将VA E与R NN结合,对时间步长内序列数据的潜在随机变量之间的依赖关系进行建模,更好地捕获视频中的时间信息,增强了模型的泛化能力?UBUOUCU4-UFUUDU?-UEU(IUIUIUIUIUIUIUIUIUIU图循环递归神经网络的模型 变分递归神经网络V R NN的每个时间步长内都包含着一个VA E,VA E的先验信息由L S TM在t时刻的隐藏状态ht所决定,而
14、ht是由Xt和Zt共同决定的,这样使得在V A E的先验中加入了序列数据的时间信息,如图 模型的具体步骤如下:与标准的VA E不同,潜在随机变量的先验p(Zt|Xt,Zt)不再是标准的高斯分布,而是遵循:ZtN(,t,d i a g(,t)()其中,t,t是由L S TM的隐藏状态ht经卷积神经网络提取特征h(ht),再经全连接层拟合生成的均值和方差,即:p r i o r(h(ht),t,t模型的近似后验值不仅由Xt决定,还受到ht的影响,即:Zt|XtN(z,t,d i a g(z,t)()其中,t,t是由Xt经卷积神经网络提取主要特征x(Xt),然后将特征x(Xt)和h(ht)沿通道尺寸
15、连接输入全连接层拟合生成的均值和方差,即:e n c(x(Xt),h(ht)z,t,z,t因此,模型的编码部分,即近似太 原 师 范 学 院 学 报(自然科学版)第 卷后验值可以表示为:q(ZT|XT)Ttq(Zt|Xt,Zt)()同理,模型的解码部分p(Xt|ZT,Xt)由Zt和ht共同决定,即:Xt|ZtN(x,t,d i a g(x,t)()其中,x,t和x,t是由z(Zt),h(ht)连接输入卷积神经网络进行拟合生成的均值和方差,即d e c(z(Zt),h(ht)x,t,x,t可以看到,模型的编码部分和解码部分通过L S TM的隐藏状态ht紧密的联系在一起,它的解码可表示为:p(XT
16、|ZT)Ttp(Xt|ZT,Xt)p(Zt|Xt,Zt)()沿着通道维度将x(Xt)与z(Zt)连接起来,作为C o n v L S TM的输入来更新ht,根据式()可写为:htfC o n v L S TM(x(Xt),z(Zt),ht,ct)()因此,根据VA E的目标函数(),V R NN的目标函数可写为:Lr e c o n sEq(ZT|XT)l o gp(XT|ZT)()LK LDK L(q(Zt|Xt,Zt)|p(Zt|Xt,Zt)()m i nLTt(Lr e c o n sLK L)()K L退火当L S TM网络与VA E结合时,由于L S TM十分强大,再加上VA E的重
17、参数化操作会引入噪声,在模型训练过程中,方差会逐渐下降,导致后验提供的信号太弱或噪声太强因此,模型的解码部分可能会忽略潜在变量Z,仅依赖X的自回归特性,使得X和Z相互独立,导致K L散度消失 这种情况下,潜在变量Z的生成摆脱了模型编码部分的影响,导致模型编码部分的输出为常数向量,从而无法从输入数据中提取信息来更新模型针对上述问题,本文引入了K L退火,即模型训练时向目标函数中的K L项添加可变权重首先,在开始训练时将初始权重设置为,以便模型在编码时学习尽可能多的信息然后,随着训练的进行逐渐增加优化的权重,让Z慢慢地向先验逼近,直到权重变为这个可变权重是一个超参数,可写为:t a n h(iab
18、)()其中i表示训练时的迭代次数,a和b是常数本文设置a ,b 目标函数的设计模型将提取出的潜在变量ZT和h(ht)作为解码器的输入,生成T时刻的预测帧X T,然后与实际未来帧XT计算误差通常使用L损失作为其预测误差,但会产生预测帧模糊的问题,而采用L损失,这种情况会缓解,但不会消失本文提出采用三种损失即L损失、多尺度结构相似性(M S S S I M损失)和图像梯度差(G D L损失)的加权和来缓解预测图像模糊的问题模型的预测损失可表示为:Lp r e d i c t i o nL(XT,X T)Lm s s s i m(XT,X T)Lg d l(XT,X T)()其中,、和为常数根据等式
19、()、()和(),模型的目标函数可表示为:m i nLTt(Lr e c o n sLK L)Lp r e d i c t i o n()视频异常检测模型对于基于预测的视频异常检测来说,输入一系列视频帧X,XT,将预测T时的视频帧X T通过最小化预测帧X T和实际未来帧XT之间的差异来训练模型,如果差异太大,则认为帧XT是异常的因此,模型需要学习几个连续帧之间的信息来预测下一帧,然后通过预测帧和真实帧之间的差异来进行异常检测 L uY W采用预测损失Lp r e d i c t i o n即等式()来进行异常检测的判定,但M a t h i e u 表明峰值信噪比(P S N R)是一种更好的
20、图像质量评估方法,因此采用P S N R评估预测帧和真实帧之间的差异,公式如下:第期王雅鑫,等:基于K L退火的V R NN视频异常预测算法研究P S N R(XT,X T)l gm a xX T NNi(XT X T)()若P S N R的值高,表明该帧可能是正常的,在计算每个测试视频每一帧的P S N R后,将测试视频中所有帧的P S N R标准化为,计算每一帧的预测得分S(t),根据得分S(t),可设定阈值来区分正常帧和异常帧S(t)P S N Rtm i n P S N Rm a x P S N Rm i n P S N R()本文对二者进行了实验对比,实验结果表明,采用P S N R
21、比Lp r e d i c t i o n评估预测帧和真实帧之间的差异来进行异常检测效果更好 实验与结果分析 数据集本文在U S C D的两个公共数据集U C S DP e d 和U C S DP e d 上进行了实验来验证模型的效果该数据集是从加州大学圣地亚哥分校两个地点的人行道固定位置的视频监控中收集而来 U C S DP e d 数据集是由 个训练视频数据和 个测试视频数据组成,每个样本包含 帧,共 帧,每帧分辨率为 像素 U C S DP e d 数据集也是一个广泛使用的数据集,包含 个训练视频数据和 个测试视频数据,其视频帧的分辨率为 像素,总共包含 帧它们的训练视频数据都仅包含正常
22、事件,而测试视频数据既有正常事件,也有异常事件由于U C S DP e d 数据集的视频帧具有数量较少和清晰度更高的优点,因此它们相比于P e d 更加常用 评价指标在视频异常检测中,常对异常分数或概率取不同阈值所绘制的特征曲线(R O C)定性的评估算法的性能,用识别精确度(A C C)或R O C与坐标轴围成的面积(A U C)和等错误率(E E R)定量评价算法的性能为了使不同方法之间存在可比性,可通过帧级别的AU C值进行算法的评估,AU C值越大,算法性能就越好 结果分析在模型训练时,设置T,即模型将个连续帧作为输入,并预测第时刻的帧,然后与实际帧计算预测误差,以确定该帧是否为异常表
23、显示了本文的算法的AU C值与其他优秀异常检测算法的比较,可以看出,本文算法在U C S D p e d、U C S D p e d 数据集上有较好的检测效果,能够更好地实现异常检测表在p e d、p e d 数据集上不同方法的AU C值U C S D p e d U C S D p e d M a Q i n m i n N/AN g u y e n e t a lN/A C h o n ge t a l L i ue t a l C o n v V R NN 本文 图分别展示了在U C S Dp e d 和U C S Dp e d 这两个数据集上的R O C曲线图为了进一步证明该算法的可行
24、性,图中可视化了在U C S Dp e d 和U C S Dp e d 数据集上的正常得分其中横轴代表视频的帧数,纵轴代表正常的分数,理论上,正常样本拥有较高的得分,异常样本具有较低的得分 结论本文在V R NN的基础上引入了K L退火,提出了一种基于K L退火的变分递归神经网络(A n n e a l i n g V R NN)算法,用于实现监控视频场景下的异常检测,缓解了K L散度消失的问题,同时采用P S N R对预测帧太 原 师 范 学 院 学 报(自然科学版)第 卷QFEQFE5 SVF1PTJUJWF3BUF5 SVF1PTJUJWF3BUFBMTF1PTJUJWF3BUFBMTF
25、1PTJUJWF3BUF30$DVSWF(BSFB)30$DVSWF(BSFB)图p e d、p e d 数据集的R O C曲线QFEQFETD PSFTGSBNFTTD PSFTGSBNFTBCOPSNBMBCOPSNBMOPSNBMOPSNBM图p e d、p e d 数据集的正常得分和真实帧之间的差异进行评估 在U C S Dp e d 和U C S Dp e d 这两个数据集上进行了大量的实验,其AU C值分别为 和 ,表明该算法在视频异常检测方面取得了较好的效果但对U C S D测试数据集的一些样本包,模型依然存在漏检的现象,如何提高模型的准确率是下一步研究的重点参考文献:彭嘉丽,赵
26、英亮,王黎明基于深度学习的视频异常行为检测研究J激光与光电子学进展,():MA Q M A b n o r m a le v e n td e t e c t i o ni nv i d e o sb a s e do nd e e pn e u r a ln e t w o r k sJ S c i e n t i f i cP r o g r a mm i n g,:F ANYX,WE NGJ,L IDR,e t a l V i d e o a n o m a l yd e t e c t i o na n d l o c a l i z a t i o nv i aG a u s s i
27、 a nM i x t u r eF u l l yC o n v o l u t i o n a lV a r i a t i o n a lA u t o e n c o d e rJ C o m p u t e rV i s i o na n dI m a g eU n d e r s t a n d i n g,:N GUY E N T N,ME UN I E RJ A n o m a l yd e t e c t i o ni nv i d e os e q u e n c ew i t hA p p e a r a n c e M o t i o nc o r r e s p o
28、n d e n c eC I E E E/C V FI n t e r n a t i o n a lC o n f e r e n c eo nC o m p u t e rV i s i o n(I C C V)S e o u l:I E E E,:C HON GYS,TAYY H A b n o r m a le v e n td e t e c t i o ni nv i d e o su s i n gs p a t i o t e m p o r a la u t o e n c o d e rCA d v a n c e s i nN e u r a lN e t w o r k
29、 s I S NN C h a m:S p r i n g e r,:L I U W,L UO W X,L I ANDZ,e ta l F u t u r ef r a m ep r e d i c t i o nf o ra n o m a l yd e t e c t i o n an e wb a s e l i n eC I E E E/C V FC o n f e r e n c eo nC o m p u t e rV i s i o na n dP a t t e r nR e c o g n i t i o n S a l tL a k eC i t y:I E E E,:L
30、UY W,K UMA RK M,N A B A V ISS,e t a l F u t u r e f r a m ep r e d i c t i o nu s i n gc o n v o l u t i o n a lV R N Nf o r a n o m a l yd e t e c t i o nC t hI E E EI n t e r n a t i o n a lC o n f e r e n c eo nA d v a n c e dV i d e oa n dS i g n a lB a s e dS u r v e i l l a n c e(AV S S)T a i
31、p e i:I E E E,:G R AV E SA G e n e r a t i n gs e q u e n c e sw i t hr e c u r r e n tn e u r a ln e t w o r k sE B/O L()h t t p s:a r x i v o r g/a b s/v HO C HR E I T E RS,S C HM I DHU B E RJ L o n gs h o r t t e r m m e m o r yJ N e u r a lC o m p u t a t i o n,():S H IXJ,C HE NZR,WAN GH,e t a l
32、 C o n v o l u t i o n a lL S TMn e t w o r k:am a c h i n e l e a r n i n ga p p r o a c h f o rp r e c i p i t a t i o nn o w c a s t i n gE B/O L()h t t p s:a r x i v o r g/a b s/K I NGMA D P,WE L L I N G M A u t o e n c o d i n gv a r i a t i o n a lB a y e sE B/O L()h t t p s:a r x i v o r g/a
33、b s/第期王雅鑫,等:基于K L退火的V R NN视频异常预测算法研究 v C HUN GJ,KA S T N E RK,D I NHL,e ta l Ar e c u r r e n t l a t e n tv a r i a b l em o d e l f o rs e q u e n t i a ld a t aE B/O L()h t t p s:a r x i v o r g/a b s/v P O L L A R D D A s y m p t o t i c s f o r l e a s t a b s o l u t ed e v i a t i o nr e g r
34、e s s i o ne s t i m a t o r sJ E c o n o m e t r i cT h e o r y,():WAN GZ,S I MON C E L L IEP,B OV I KAC M u l t i s c a l es t r u c t u r a l s i m i l a r i t yf o r i m a g eq u a l i t ya s s e s s m e n tCT h eT h r i t y S e v e n t hA s i l o m a rC o n f e r e n c eo nS i g n a l s,S y s t
35、 e m s&C o m p u t e r s,P a c i f i cG r o v e:I E E E,:MA TH I E U M,C OU P R I EC,L E C UNY D e e pm u l t i s c a l ev i d e op r e d i c t i o nb e y o n dm e a ns q u a r ee r r o rE B/O L()h t t p s:a r x i v o r g/a b s/B OWMAN SR,V I L N I SL,V I NYA L SO,e t a l G e n e r a t i n g s e n t
36、 e n c e s f r o ma c o n t i n u o u s s p a c eE B/O L()h t t p s:a r x i v o r g/a b s/v S E T I A D IDRIM P S N R v sS S I M:i m p e r c e p t i b i l i t yq u a l i t ya s s e s s m e n t f o r i m a g es t e g a n o g r a p h yJ M u l t i m e d i aT o o l sa n dA p p l i c a t i o n s,():MAHA
37、D E VANV,L IW X,B HA L O D I AV,e t a l A n o m a l yd e t e c t i o n i nc r o w d e ds c e n e sC I E E EC o m p u t e rS o c i e t yC o n f e r e n c eo nC o m p u t e rV i s i o na n dP a t t e r nR e c o g n i t i o n S a nF r a n c i s c o:I E E E,:赵月爱,秦佳宁基于T e n s o r F l o w的L S TM神经网络智能电气火灾
38、预测研究J太原师范学院学报(自然科学版),():U s i n gV R N Nb a s e do nK LC o s tA n n e a l i n gf o rV i d e oA n o m a l yP r e d i c t i o nA l g o r i t h mWA N GY a x i n,Z H A OY u e a i(T a i y u a nN o r m a lU n i v e r s i t y,S c h o o l o fM a t h e m a t i c sa n dS t a t i s t i c s,J i n z h o n g ,C h
39、 i n a)A b s t r a c t I nr e s p o n s e t o t h ep r o b l e mo f t h ed i s a p p e a r a n c eo fK Ld i v e r g e n c eo nv a r i a t i o n a lr e c u r r e n tn e u r a ln e t w o r k s(V R NN),w ei n t r o d u c eK Lc o s ta n n e a l i n ga n dp r o p o s eas e m i s u p e r v i s e dv i d e
40、oa n o m a l yp r e d i c t i o na l g o r i t h mb a s e do na n n e a l e dv a r i a t i o n a l r e c u r r e n tn e u r a ln e t w o r k(A n n e a l i n g V R NN)A t t h es a m et i m e,al a r g en u m b e ro fe x p e r i m e n t sw e r ec a r r i e do u to nC S D p e d a n dU C S D p e d,a n d
41、t h e e x p e r i m e n t s s h o w e d t h a t t h e a l g o r i t h mw a s c o n d u c i v e t o t h em o d e l t op r e d i c t a b n o r m a l e v e n t sm o r ea c c u r a t e l y,a n dt h eAU Cv a l u e s r e a c h e d a n d ,r e s p e c t i v e l y K e yw o r d sv i d e oa n o m a l yd e t e c t i o n;v a r i a t i o n a l r e c u r r e n tn e u r a ln e t w o r k;K Lc o s ta n n e a l i n g;l o n gs h o r t t e r m m e m o r y太 原 师 范 学 院 学 报(自然科学版)第 卷