收藏 分销(赏)

基于深度学习的红外视频显著性目标检测.pdf

上传人:自信****多点 文档编号:639267 上传时间:2024-01-22 格式:PDF 页数:8 大小:2.63MB
下载 相关 举报
基于深度学习的红外视频显著性目标检测.pdf_第1页
第1页 / 共8页
基于深度学习的红外视频显著性目标检测.pdf_第2页
第2页 / 共8页
基于深度学习的红外视频显著性目标检测.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、h t t p:/ww wj s j k x c o mD O I:/j s j k x 到稿日期:返修日期:基金项目:中央高校基本科研业务费专项基金(D UT G F )T h i sw o r kw a ss u p p o r t e db yt h eF u n d a m e n t a lR e s e a r c hF u n d s f o r t h eC e n t r a lU n i v e r s i t i e so fM i n i s t r yo fE d u c a t i o no fC h i n a(D UT G F )通信作者:郝应光(y g h a

2、 o d l u t e d u c n)基于深度学习的红外视频显著性目标检测朱叶郝应光王洪玉大连理工大学信息与通信工程学院辽宁 大连 (z h u y e c o m)摘要面对背景越来越复杂的海量红外视频图像,传统方法的显著性目标检测性能不断下降.为了提升红外图像的显著性目标检测性能,提出了一种基于深度学习的红外视频显著性目标检测模型.该模型主要由空间特征提取模块、时间特征提取模块、残差连接块以及像素级分类器个模块组成.首先利用空间特征提取模块获得空间特征,然后利用时间特征提取模块获得时间特征并实现时空一致性,最后将时空特征信息和由残差连接块连接空间模块获得的空间低层特征信息一同送入像素级分

3、类器,生成最终的显著性目标检测结果.训练网络时,使用B C E l o s s和D I C E l o s s两个损失函数结合的方式,以提高模型训练的稳定性.在红外视频数据集O T C B V S以及背景复杂的红外视频序列上进行测试,结果表明所提模型都能够获得准确的显著性目标检测结果,并且具有鲁棒性及较好的泛化能力.关键词:红外视频;显著性目标检测;深度学习;卷积神经网络;损失函数中图法分类号T P D e e pL e a r n i n gB a s e dS a l i e n tO b j e c tD e t e c t i o n i nI n f r a r e dV i d e

4、 oZ HUY e,HAOY i n g g u a n ga n dWANG H o n g y uS c h o o l o f I n f o r m a t i o na n dC o mm u n i c a t i o nE n g i n e e r i n g,D a l i a nU n i v e r s i t yo fT e c h n o l o g y,D a l i a n,L i a o n i n g ,C h i n aA b s t r a c t I nt h e f a c eo fm a s s i v ei n f r a r e dv i d e

5、 oi m a g e sw i t hm o r ea n dm o r ec o m p l e xb a c k g r o u n d,t h ep e r f o r m a n c eo f t h et r a d i t i o n a lm e t h o d s f o r s a l i e n to b j e c td e t e c t i o nd e c r e a s e ss i g n i f i c a n t l y I no r d e r t o i m p r o v e t h ep e r f o r m a n c eo f s a l i

6、 e n to b j e c td e t e c t i o ni n i n f r a r e d i m a g e s,t h i sp a p e rp r o p o s e sad e e pl e a r n i n g b a s e ds a l i e n to b j e c td e t e c t i o nm o d e l f o r i n f r a r e dv i d e o,w h i c hm a i n l yc o n s i s t so fas p a t i a l f e a t u r ee x t r a c t i o nm o

7、 d u l e,at e m p o r a l f e a t u r ee x t r a c t i o nm o d u l e,ar e s i d u a l s k i pc o n n e c t i o nm o d u l ea n dap i x e l w i s ec l a s s i f i e r F i r s t,t h es p a t i a l f e a t u r e e x t r a c t i o nm o d u l e i su s e d t oe x t r a c t s p a t i a l s a l i e n c y f

8、 e a t u r e s f r o mr a wi n p u t v i d e o f r a m e s S e c o n d l y,t h e t e m p o r a l f e a t u r ee x t r a c t i o nm o d u l e i su s e dt oo b t a i nt e m p o r a l s a l i e n c yf e a t u r e sa n ds p a t i o t e m p o r a l c o h e r e n c em o d e l i n g F i n a l l y,t h es p

9、a t i a l t e m p o r a l f e a t u r e i n f o r m a t i o na n dt h es p a t i a l l o w l e v e l f e a t u r e i n f o r m a t i o no b t a i n e db yc o n n e c t i n gt h es p a t i a lm o d u l ew i t ht h er e s i d u a l s k i pc o n n e c t i o n l a y e r a r e s e n t i n t o t h ep i x

10、e l w i s e c l a s s i f i e r t og e n e r a t e t h e f i n a l s a l i e n t o b j e c t d e t e c t i o nr e s u l t s T o i m p r o v e t h es t a b i l i t yo f t h em o d e l,B C E l o s sa n dD I C E l o s sa r ec o m b i n e dt ot r a i nt h en e t w o r k T h et e s t i sc a r r i e do u

11、to n i n f r a r e dv i d e od a t a s e tO T C B V Sa n d i n f r a r e dv i d e os e q u e n c e sw i t hc o m p l e xb a c k g r o u n d T h ep r o p o s e dm o d e l c a no b t a i na c c u r a t es a l i e n to b j e c td e t e c t i o nr e s u l t s,a n dh a sr o b u s t n e s sa n dg o o dg e

12、 n e r a l i z a t i o na b i l i t y K e y w o r d s I n f r a r e dv i d e o,S a l i e n to b j e c td e t e c t i o n,D e e pl e a r n i n g,C o n v o l u t i o n a l n e u r a ln e t w o r k,L o s s f u n c t i o n引言目前,红外成像技术不断发展,其因环境适应能力强、穿透力高,在许多军用、民用领域中得到广泛应用.红外成像技术是红外搜索与跟踪、红外预警、精确制导等应用的关键技术,

13、红外目标检测任务已经成为红外图像处理领域的研究热点.在目标先验情况未知的条件下,目标检测任务利用目标在场景中的某种特性来实现:一种是检测场景中的运动目标,根据检测背景的不同 将 其划 分为 基于 静 态背 景的 运动目标检测和基于动态背景的运动目标检测;另一种是检测场景中的显著性目标,显著性目标即图像或者视频中最吸引人注意力的部分.显著性目标检测技术的处理流程包含两个部分,首先从图像或者视频中检测出最显著的目标,然后从图像或者视频中准确地将目标分割出来.显著性目标检测可以作为很多图像处理任务的预处理过程,如目标分割、动作识别和目标追踪等.本文主要针对红外视频的显著性目标检测,开展基于深度学习的

14、红外视频显著性目标检测方法研究.传统的显著性检测算法一般都是利用图像的颜色、梯度、纹理等较低层次的空间信息提取显著性目标.之后提出了基于任务驱动的检测算法,这一方法依赖于目标的先验知识、图片本身的结构等,所以通常需要大量的数据.常见的算法包括H o u等和A c h a n t a等分别基于频谱残差和频率调谐提出的对应的显著性检测算法、C h e n g等和R a h t u等利用图像的对比度分别提出的基于图像全局对比度和半局部区域的显著性检测算法、H a n等 提出的一种改进后的基于图片局部对比度的显著性检测算法.这些传统的显著性检测算法在简单的显著性任务上能够获得不错的检测效果,但是在面对

15、背景越来越复杂的海量红外图像分析时不再适用.为了克服传统显著性检测方法带来的问题,一些新的理论研究和方法逐渐被提出.深度学习的发展,带动了视频显著性目标检测领域的研究.相较于传统方法,基于深度学习的显著性检测方法不再依赖人为设计特征,可以自动学习有助于显著性检测的特征.一些经典的基于神经网络的算法被提出,例如,W a n g等 提出了一个由静态和动态网络两部分组成的全卷积网络,利用静态网络得到静态显著性检测图,然后将静态显著图与视频帧对相结合,经过动态网络生成最终的显著性图,但是这种类型的网络只考虑了相邻视频帧的信息;S i m o n y a等 提出了一个用于实现视频动作识别的网络,利用双流

16、网络提取视频中的时间和空间特征,这一研究启发了人们融合提取到的空间特征和时间特征信息用于生成显著性图.由此,L i等 提出了一个双分支预测网络,这两个分支分别利用视频帧信息和视频帧的光流图进行显著性预测,并通过注意力模块将运动信息补充到显著性分支,获得了较为准确的显著性结果.考虑到对时间信息和空间信息分开建模可能会导致两个信息不一致,针对同时建模时间和空间信息的研究随之展开.F a n等 提出了一个由金字塔扩张卷积模块和显著性转移感知C o n v L S TM模块组成的模型,先利用金字塔扩张卷积模块提取空间特征信息,再利用显著性转移感知C o n v L S TM模块捕获时间信息并进行显著性

17、预测.L i等 提出了一个光流引导的递归神经编码器框架,利用光流网络来提取运动信息,并利用C o n v L S TM来实现视频特征的时间一致性,从而提升视频显著性目标检测的性能.但是目前提出的基于神经网络的显著性检测网络的应用场景大多都是基于可见光条件的,关于红外场景下的应用研究却很少,考虑到红外图像和可见光图像之间差异较大,不能将提出的基于可见光的显著性目标检测网络直接应用于红外视频.针对上述问题,提出了一种基于深度学习的红外视频显著性目标检测模型.本文的创新点在于:)提出了一种基于深度学习的红外视频显著性目标检测模型,该模型在红外视频数据集O T C B V S以及背景复杂的真实红外视频

18、序列上都能够获得准确的显著性目标检测结果,且具有鲁棒性和较好的泛化能力.)考虑到红外视频对比度低等特点,可能会导致空间特征模块将无关的杂乱背景也当成目标特征提取,因此在空间特征模块中添加注意力模块C B AM,利用该模块可以使网络更准确地聚焦于目标对象,抑制无关背景带来的影响.)训练网络模型时,使用B C E l o s s和D I C E l o s s两种损失函数相结合的方式,提高模型的稳定性,也在一定程度上提升了模型的性能.本文方法本文提出了一个基于深度学习的红外视频显著性目标检测模型,整体模型由空间特征提取模块(S p a t i a lF e a t u r eE x t r a c

19、 t o rM o d u l e)、时间特征提取模块(T e m p o r a lF e a t u r eE x t r a c t i o nM o d u l e)、残 差 连 接 模 块(R e s i d u a lS k i pC o n n e c t i o nL a y e r)以及像素级分类器(P i x e l w i s eC l a s s i f i e r)个部分组成.具体来讲,网络输入红外视频帧后,首先利用空间特征提取模块获得红外视频帧的空间特征,该模块包括R e s N e t ,C B AM,A S P P这个部分;然后利用时间特征提取模块提取时间特征并

20、实现时空一致性,包括D B C o n v G RU和N o n l o c a lb l o c k两部分;最后将时空特征信息和由残差连接块连接R e s N e t 获得的空间低层特征信息一同送入像素级分类器,生成最终的显著性目标检测结果,整体网络框架如图所示.图整体网络框图F i g O v e r a l ln e t w o r kd i a g r a m 空间特征提取模块空间特征提取模块由R e s N e t ,C B AM,A S P P 这个模块组成,使用R e s N e t 的前个组层提取特征信息,这个组层可表示为s t a r t i n gs t a g e,s t

21、 a g e,s t a g e,s t a g e 和s t a g e.为了减少空间特征的损失,s t a g e 层不再进行下采样操作.为了使网络更准确地聚焦于目标对象,抑制杂乱背景带来的影响,在R e s N e t 的每一个s t a g e中加入C B AM注意力模块.为了在网络中获得更高级的图像特征,将一个空洞卷积空间金字塔池模块(A S P P)附加到R e s N e t 网络的最后一层,A S P P模块可以增强感受野,使网络更好地获取多尺度的上下文信息.其中C B AM模块是一种轻量级的卷积神经网络注意力模块,它结合了通道注意力机制及空间注意力机制,通过引入注意力机制可以

22、使网络更准确地聚焦于目标对象,抑制无关背景的干扰,进而提升模型的性能.为了能够使用I m a g e N e t预先训练过的R e s N e t ,本文将C B AM模块插入到R e s N e t 的每一个b l o c k之后,图展示了将C B AM模块插入到R e s N e t 中的具体位置.C o m p u t e rS c i e n c e计算机科学V o l ,N o ,S e p 图R e s N e t _C B AM框图F i g R e s N e t _C B AMd i a g r a m 时间特征提取模块为了充分利用红外视频帧所包含的时间特征信息,本文设计 了

23、 时 间 特 征 提 取 模 块,该 模 块 由 深 层 双 向C o n v G RU(D B C o n v G RU)模 块 和N o n l o c a lb l o c k模 块 两 个部分组成,利用时间模块提取时间特征信息并增强时空一致性.C o n v G RU 是在G RU 的基础上改进的,循环神经网络(G R U)是L S TM 的一种变形,它摒弃了L S TM中的记忆单元并将输入门和遗忘门结合为更新门,相比L S TM,能够在提升训练速度的同时保持精度基本不变.L S TM和G R U通常用来处理时序数据,它们无法处理包含丰富空间信息或者与周围的点有着较强相关性的图像,这也

24、意味着L S TM和G R U可能会丢失较多的空间特征信息.为了利用G RU和L S TM构建时空序列的预测模型,将L S TM和G R U的全连接改为卷积,称为C o n v L S TM和C o n v G R U.C o n v G RU的计算公式如下:Zt(Wx zXtWh zHt)()Rt(Wx rXtWh rHt)()H t t a n h(Wx hXtRt(Wh hHt)()Ht(Zt)H tZtHt()其中表示卷积运算符,表示哈达玛积,()表示激活函数,W表示可学习的权重矩阵,为便于注释,省略了偏差项.S o n g等 利用P D B C o n v L S TM模型捕获互补的

25、时空特征,本文将两个C o n v G RU模块按照向前和向后两个方向堆叠起来构成深层双向C o n v G R U模块,用于加强两个方向之间的时空信息交换.图为深层双向C o n v G R U模块,该模块可以获取过去和未来的序列特征信息.具体实现公式如下:HftC o n v G R U(Hft,Xt)()HbtC o n v G R U(Hbt,Hft)()Ht t a n h(Wh fHftWh bHbt)()图深层双向C o n v G RU模块F i g D B C o n v G RU m o d u l eN o n l o c a l b l o c k模块从传统非局部均值方

26、法 中获得灵感,该模块将某个位置的响应计算为输入特征映射的所有位置的加权和,在捕获时间(一维时序信号)、空间(图片)和时空(视频序列)的长范围依赖的同时保证输入尺度和输出尺度不变,可以利用该模块在输入的红外视频帧的特征之间建立时空连接.因此,本文将N o n l o c a lb l o c k模块添加到深层双向C o n v G RU模块后,以增 强时 间 特征 提 取 模 块 的 时 空 一致性.残差连接块及像素级分类器本文中像素级分类器的输入包含两部分,分别是时间特征模块提取到的特征信息和残差连接块连接R e s N e t 获得的空间低层特征信息.像素级分类器将输入的特征信息解码生成最

27、终的显著性目标检测结果,具体连接方式如图所示.图具体连接图F i g C o n c r e t ec o n n e c t i o nd i a g r a m朱叶,等:基于深度学习的红外视频显著性目标检测其中像素级分类器由R,R,R 这个细化块级联组成,每一个细化块通过残差连接块连接R e s N e t 中的一个层,主要目的是减少细化块的下采样导致的空间特征细节信息的丢失.残差连接块是一种被称为残差跳跃连接层的残差瓶颈体系结构,它可以将更多的空间信息带到细化块中,更好地实现像素级显著推理.损失函数在一般的显著性目标检测中,通过计算真值和预测显著图的交叉熵损失函数(B C E l o s

28、 s)计算损失,具体计算公式为:LB(Yx,yl n(Sx,y)(Yx,y)l n(Sx,y)()由于卷积神经网络中的尺度变化引起的等级不平衡问题会削弱二值交叉熵的影响,预测的空间不一致,因此考虑引入D I C E l o s s.该损失函数适用于图像的二值分割,且一定程度上能缓解正负样本在数量上不平衡的问题.该损失函数的计算公式为:D i c eNiyiyiNiyiNiyi()其中,yi与yi分别是像素i的标签和预测值,N为像素点的点数.为了强调前景背景的差异并保持类内一致性,选择使用B C E l o s s和D I C E l o s s两个损失函数结合的方式,使模型一致地推动整个显著区

29、域,并更好地处理因各种物体比例不同而出现的前后区域之间的像素不平衡的问题,而无需任何后处理或者额外的参数.最后使用的损失函数为:LLB C E L(p,g)LC E L(p,g)()其中,p为图像的预测值,g为图像的真值.实验结果及分析 实验配置 数据集由于红外数据集在军事、国防等领域有特殊用途,目前尚无适用的可用于训练的公开红外数据集,因此本文算法利用公开数据集D AV I S 和VO S 中 的 训 练 集 进 行 训练,利 用VO S数 据 集 中 的 验 证 集 进 行 验 证.其 中DA V I S 是视频物体 分 割 的 数 据 集,包 含 个 高 质 量 视频序列,有 张 密 集

30、 标 注 的 像 素 级 别 的 帧;VO S数 据集是一个由 个 视频 组 成的 基于 视频 的 显著 性目 标检测数据集.在验证模型性能时,利用红外数据集进行测试,目前公开的红外数据集有KA I S T行人检测数据集、F L I R红外目标识别数据集,以及O T C B V S红外数据集.KA I S T数据集共有 个可见光红外图像对,分为种类型,总共有 个标注、个人,主要用于行人检测任务;F L I R红外目标识别数据集包含 张可见光红外图像对,包含种类型,其中训练集有 张、测试集 张;O T C B V S红外数据集用于计算机视觉算法的研究,共有 个子数据集,包含超过 张图像.其中KA

31、 I S T行人 检 测 数 据 集 适 用 于 目 标 检 测 任 务,不适用于红外视频 的 显著 性 目 标 检 测;F L I R红 外 目 标 识别数据集没有对准,使用 前需 要 自行 校正,处理 过程 较为复杂且容易 影 响 测 试 结 果.因 此 本 文 测 试 时 选 择 使 用O T C B V S数据集.O C T B V S数据集包含行人数据库、T e r r a v i c面部红外数据库等不同类 型 的 个小 型数 据集,选择D a t a s e t D a t a s e t O S U T h e r m a lP e d e s t r i a nD a t a

32、b a s e(行人红外数据库)和D a t a s e t T e r r a v i cM o t i o nI RD a t a b a s e(运动红外数据库)作为本次测试的数据集,表列出了这两个小型数据集的具体信息.表红外数据测试集T a b l e I n f r a r e dd a t a t e s t s e t红外数据集子序列序列个数简要介绍D a t a s e t :O S UT h e r m a lP e d e s t r i a nD a t a b a s e 主要用于红外行人检测任务,共有 个相似的序列D a t a s e t :T e r r a v

33、i cM o t i o nI RD a t a b a s e 主要用于红外图像的检测和跟踪任务,共有 个序列,包含室外目标(/个行人)跟踪,室内室外监控视频、飞机运动和跟踪、水下和水面运动、背景运动(由于强风云和树木的运动)考虑到D a t a s e t :O S U T h e r m a lP e d e s t r i a nD a t a b a s e中有 个相似序列,在验证模型性能时,选择其中的一个序列进行测试,该序列共有 帧图像.为了对检测结果进行定量分析,使用L a b e l M e软件为该红外序列标注显著性真值.选择D a t a s e t T e r r a v

34、i cM o t i o nI RD a t a b a s e数据集中的i r w 和i r w 两个红外视频序列进行测试,相比i r w 的背景,i r w 的背景更为杂乱.训练环境及训练参数本次实验基于P y t o r c h 的框架实现,在U b u n t u中用p y t h o n进行实验,训练时初始学习率为,b a t c hs i z e默认为,训练 个e p o c h,将B C E l o s s和D I C E l o s s两个损失函数结合起来,作为本次训练的损失函数,在这种设置下使用G e F o r c eG T X T iG P U完成加速训练.性能指标)平均

35、绝对误差MA E MA E通过计算显著性预测图与真实图之间的平均绝对误差获得,表示显著性预测图与真实图之间的差别,MA E越小说明该算法性能越好.其中显著预测图和真实图都需要归一化,具体计算公式如下:MA EWHwxHyS(x,y)G(x,y)()M a xF m e a s u r e综合评价指标(F M e a s u r e)用来计算准确率和召回率的加权调和平均值.但是准确率和召回率指标有时会出现互相矛盾的情况,这时就需要综合考虑.最常用的方法就是计算F M e a s u r e的值,具体公式如下:F()P r e c i s i o nR e c a l lP r e c i s i

36、 o nR e c a l l()其中,参数一般取值为,即增加了P r e c i s i o n的权重值,因为通常认为准确率(P r e c i s i o n)更重要.本次 研究 中 选择 最大 的F m e a s u r e作为 评 估 指 标,即M a xF m e a s u r e,该指标越大代表模型性能越好.)M a xE m e a s u r eE m e a s u r e 用来计算图像和局部像素匹配的全局平均值,具体计算公式如下:QSWHwiHj s(i,j)()C o m p u t e rS c i e n c e计算机科学V o l ,N o ,S e p 其中,

37、s是增强的对齐矩阵,分别反映了显著性预测图和真实值减去全局平均值之后的相关性.M a xE m e a s u r e即计算的所有E m e a s u r e中的最大值,因此该指标值越大,代表模型的性能越好.)S m e a s u r e S m e a s u r e用来评估真实值显著性映射与真实值之间的结构相似性,其中So与Sr分别指对象感知和区域感知结构的相似性,具体计算公式如下:SxSo()xSr()其中,一般设置为.)检测准确率D i c e系数是一种集合相似度度量函数,用于计算两个样本之间的相似度,本质上是衡量两个样本之间的重叠部分,取值为,当取值为时代表两个样本完全一致.选择

38、合适的D i c e值,视频帧大于该值即检测到目标,D i c e系数用于计算显著性目标检测准确率,具体计算公式为:D I C E|XY|X|Y|()检测准确率检测到目标的帧数视频总帧数()模型测试结果及分析)D a t a s e t O S U T h e r m a lP e d e s t r i a n D a t a b a s e测 试结果为了验证本文模型的有效性,将其与目前已有的针对可见光图像的显著性目标检测算法的测试结果进行对比.如图依次给出了红外数据序列的原始视频帧、真值以及不同模型的测试结果的第 帧,表列出了不同模型测试结果的定量指标对比.(a)原图(b)真值(c)C P

39、 D(d)MGA(e)D s N e t(f)R c r N e t(g)本研究图D a t a s e t 测试结果F i g D a t a s e t t e s t r e s u l t s表不同算法的评估指标T a b l eE v a l u a t i o n i n d i c a t o r so fd i f f e r e n t a l g o r i t h m s模型MA EM a xF m e a s u r eM a xE m e a s u r eS m e a s u r e检测准确率/C P D MGA D s N e t R c r N e t o u

40、 r s 对不同模型的测试结果进行分析,由于C P D 模型只利用了红外视频帧的空间特征,忽略了时间信息,因此只能检测出少数视频帧中的显著性目标,在后续红外视频帧中虽然检测到了显著性目标,但是却不能将无关的路灯背景过滤掉.MG A和D s N e t两个模型都通过光流获取运动信息,两个模型都会出现检测不到目标以及背景抑制效果不好的情况.R c r N e t 模型利用了空间和时间特征,能够检测出显著性目标,但也无法滤除无关的路灯背景.本文提出的模型不仅可以将显著性目标准确检测出来(对比不同模型的检测准确率,该模型的检测准确率最高),还可以将无关的背景抑制掉,且实现 了 最 低 的MA E、最

41、高 的M a xF m e a s u r e,M a xE m e a s u r e和S m e a s u r e,验证了本文提出的模型的性能最优.)D a t a s e t T e r r a v i cM o t i o nI RD a t a b a s e测试结果对比两组红外视频序列可知,i r w 相较于i r w 背景更为杂乱,利用本组实验验证本文模型适用于背景复杂的红外视频序列.为了验证本文模型的有效性,与目前已有的针对可见光图像的显著性目标检测算法的测试结果进行对比,图、图为红外视频序列原图以及不同模型的测试结果,分别给出 了i r w 的 第 帧 以及i r w 的第

42、 帧对比图像.(a)原图(b)C P D(c)MGA(d)D s N e t(e)R c r N e t(f)本研究图 i r w 测试结果F i g i r w t e s t r e s u l t s朱叶,等:基于深度学习的红外视频显著性目标检测(a)原图(b)C P D(c)MGA(d)D s N e t(e)R c r N e t(f)本研究图 i r w 测试结果F i g i r w t e s t r e s u l t s由测试结果可以看出,在背景越来越复杂的红外数据集上,C P D模型很难将目标检测出来;MG A和D s N e t模型在背景复杂的i r w 红外视频序列上

43、表现欠佳;R c r N e t模型能够将部分显著性目标检测出来,但检测出的目标不完整;本文模型检测效果最好,能够完整地将显著性目标检测出来,且抑制掉了无关背景.这组实验也证明了本文模型适用于复杂背景的红外视频显著性目标检测.真实红外视频序列为了验证本文提 出 的 模 型 在 复 杂 背 景 下 也 能 达 到 较好的显著性 检 测 结 果,除 了 在 公 开 的 红 外 数 据 集 上 进 行测试,还在一组背景复杂且目标不明显的真实红外视频数据序列上进行了测试,该红外视频序列共有 帧.由于该红外视频序列 质量 较差,因此 需要 进 行一 定的 预处 理.首先将视频帧进 行图 像增 强,利 用

44、G a mm a变换 提 高 图 像的对比度,由于原视 频 摄像 机跟 随目 标 一起 移动,因此 运动不明显,为了更好 地 利用 视频 的运 动 信息,对 视 频进 行了稳像处理.图为原图、预处理后的图片、真值以及不同模型的测试结果.取测试结果中的第 帧进行对比,表列出了不同模型测试结果的评估指标对比.(a)原图(b)预处理(c)真值(d)C P D(e)MGA(f)D s N e t(g)R c r N e t(h)本研究图真实红外视频序列测试结果F i g R e a l i n f r a r e dv i d e os e q u e n c e t e s t r e s u l

45、t s表不同算法的评估指标T a b l eE v a l u a t i o n i n d i c a t o r so fd i f f e r e n t a l g o r i t h m s模型MA EM a xF m e a s u r eM a xE m e a s u r eS m e a s u r e检测准确率/C P D MGA D s N e t R c r N e t o u r s 对比不同的模型测试结果,C P D和R c r N e t模型在测试时都会出现某些帧中未检测出目标的情况,MG A和D s N e t模型检测到的目标不完整,而本文提出的模型能够准确地

46、检测出到显著性目标.由表可知,本文模型的检测准确率也是最高的,且还可以将杂乱背景抑制掉.对比不同模型测试结果得到的评估指标发现,R c r N e t模型中的M a xF m e a s u r e指标优于本文模型,这是因为M a xF m e a s u r e这一指标与准确率和召回率有关,但这一指标更偏重于准确率(目标是否找对)而忽略了检测到的目标是否找得全,因此仅有一个指标最高并不能证明该模型性能优于其他模型.从整体来看,本文模型整体评估指标是最优的,证明其性能最好,本组实验也证明了本文模型具有鲁棒性和较好的泛化能力.消融实验为了验证空间模块中引入的注意力模块C B AM和时间模块中N

47、o n l o c a l b l o c k的有效性,本文分别在红外视频序列O C TV S d a t a s e t 以及自己构建的真实红外视频序列上做了两组消融实验,分别表示为消融实验和消融实验,具体结果如表、表所列.表列出了在红外数据集的视频序列上进行消融实验的结果.在本次消融实验中,除了本文提出的模块组合不同,其他一切设置都相同,其中空间模块包含R e s N e t 和A S P P模块,时间模块为D B C o n v G R U模块,空间模块中引入了注意力机制C B AM模块后,MA E下降了 ,M a xF m e a s u r e提升了,M a xE m e a s u

48、 r e提 升 了 ,S m e a s u r e提升了 ,由此证明了模型中 引入 的 注意 力模 块C B AM的有 效性.在时 间 模块 中 引 入N o n l o c a lb l o c k后,MA E下降 了 ,M a xF m e a s u r e提 升 了 ,M a xE m e a s u r e下降了 ,S m e a s u r e提 升 了 .整 体对比来看,引入了N o n l o c a l b l o c k模块后的评估指标更好,C o m p u t e rS c i e n c e计算机科学V o l ,N o ,S e p 证明了引入该模块的有效性.本文

49、提出的模型整体评估指标是最好的,这也证明了本文提出的空间特征提取模块和时间特征提取模块的有效性.表消融实验T a b l eA b l a t i o ne x p e r i m e n t 模块MA EM a xF m e a s u r eM a xE m e a s u r eS m e a s u r e空间模块 空间模块C B AM 时间模块 时间模块加N o nl o c a lb l o c k 本文模型 表消融实验T a b l eA b l a t i o ne x p e r i m e n t 模块MA EM a xF m e a s u r eM a xE m e a

50、 s u r eS m e a s u r e空间模块 空间模块C B AM 时间模块 时间模块加N o nl o c a lb l o c k 本文模型 表列出了在真实构建的红外视频序列上进行消融实验的结果.该红外视频序列目标运动不明显且背景较为复杂,由表可知,空间模块中引入了注意力机制C B AM模块之后,MA E下降了 ,M a xF m e a s u r e提升了,M a xE m e a s u r e提升了 ,S m e a s u r e提升了 ,由此证明了模型中引入的注意力模块C B AM的有效性.在时间模块中引入N o n l o c a lb l o c k后,MA E反

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服