收藏 分销(赏)

基于交叉细化和循环注意力的RGB-D显著性目标检测.pdf

上传人:自信****多点 文档编号:2287092 上传时间:2024-05-25 格式:PDF 页数:17 大小:3.71MB
下载 相关 举报
基于交叉细化和循环注意力的RGB-D显著性目标检测.pdf_第1页
第1页 / 共17页
基于交叉细化和循环注意力的RGB-D显著性目标检测.pdf_第2页
第2页 / 共17页
亲,该文档总共17页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、系统仿真学报系统仿真学报Journal of System Simulation第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023基于交叉细化和循环注意力的基于交叉细化和循环注意力的RGB-D显著性目标检测显著性目标检测董庆庆,吴昊*,钱文华,孔凤玲(云南大学 信息学院,云南 昆明 650504)摘要摘要:针对显著性目标检测区域边界模糊以及检测区域不精确不完整的问题,提出了基于交叉细化和循环注意力的RGB-D显著性目标检测方法。在利用编码器提取特征的阶段设计了交叉细化模块,用于补充对方的特征信息,改善了融合前的特征质量,抑制了质量较差的深度图带来的消极影响,解决了

2、显著性目标边缘模糊的问题。针对融合后的特征,提出联合注意力机制与卷积长短期记忆网络单元的循环模块以模拟大脑的内部生成机制,通过检索过往的记忆帮助推断当前的决策,从而获得需要长期记忆的语义场景,可以全面学习融合特征的内部语义关系,生成检测区域更完整,更准确的显著性图。在6个公开数据集上进行的实验表明,所提的方法可以得到边缘清晰且准确度更高的显著图。关键词关键词:RGB-D;显著性目标检测;交叉细化;注意力机制;卷积长短期记忆网络;循环模块中图分类号:TP391.9;TP391.4 文献标志码:A 文章编号:1004-731X(2023)09-1931-17DOI:10.16182/j.issn1

3、004731x.joss.22-1372引用格式引用格式:董庆庆,吴昊,钱文华,等.基于交叉细化和循环注意力的RGB-D显著性目标检测J.系统仿真学报,2023,35(9):1931-1947.Reference format:Dong Qingqing,Wu Hao,Qian Wenhua,et al.RGB-D Saliency Object Detection Based on Cross-refinement and Circular AttentionJ.Journal of System Simulation,2023,35(9):1931-1947.RGB-D Saliency

4、Object Detection Based on Cross-refinement and Circular AttentionDong Qingqing,Wu Hao*,Qian Wenhua,Kong Fengling(Yunnan University School of Information Science and Engineering,Kuming 650504,China)Abstract:In order to solve the problems that the boundary of the saliency object detection area is vagu

5、e,and the detection area is incomplete or inaccurate,an RGB-D saliency object detection method based on cross-refinement and circular attention is proposed.A cross-refinement module is designed at the stage of extracting features using encoders,which is used to supplement feature information of each

6、 other and improve the feature quality before fusion.It also suppresses the negative impact of poor-quality depth maps and addresses the issue that the edges of the saliency object are blurred.For the features after fusion,the circular module is proposed,which combines the attention mechanism with c

7、onvolutional long short-term memory(LSTM)network unit to simulate the internal generation mechanism of the brain and help infer the current decision by retrieving past memories,so as to obtain semantic scenes that require long-term memory.The module can comprehensively learn the internal semantic re

8、lationships of fusion features to generate a more complete and accurate saliency map for the detection area.Experiments conducted on six public datasets show that the proposed method can obtain a saliency map with clear edges and high accuracy.收稿日期:2022-11-17 修回日期:2023-02-03基金项目:国家自然科学基金(62061049,62

9、162065);云南省基础研究项目(2018FB100)第一作者:董庆庆(1993-),女,硕士生,研究方向为计算机视觉和图像处理。E-mail:通讯作者:吴昊(1982-),男,讲师,博士生,研究方向为计算机视觉和图像处理。E-mail:第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023系统仿真学报Journal of System Simulationhttp:/www.china-Keywords:RGB-D;saliency object detection;cross-refinement;attention mechanism;convolutiona

10、l long short-term memory network;circular module0引言引言显 著 性 目 标 检 测(saliency object detection,SOD)旨在检测并分割图像或视频中在视觉上最能吸引人的对象,已广泛应用于许多计算机视觉任务,例如场景分类1、语义分割2、真实前景评估3、视觉跟踪4等。虽然SOD在深度学习中取得了一定的进展,但基于 RGB(red green blue)的SOD方法在显著对象与背景具有相似的外观或不同对象之间的对比度较低的情况下,以及包含多个具有复杂形状物体的场景中检测效果不佳,仅使用RGB图像提供信息,不足以有效地预测显著性图

11、。随 着 硬 件 设 备 如 Microsoft Kinect、Intel RealSense 和一些现代智能手机的发展,深度图开始出现,其获取过程不受光照和纹理变化的影响,越来越多的SOD研究开始转向RGB-D图像。基于RGB-D的SOD算法既利用RGB图像中大量的细节和纹理信息,为网络提供丰富的上下文信息,又利用深度图像中的3D布局和空间线索,大大提高了SOD的性能。尽管基于RGB-D的显著性检测技术有效提高了检测准确性,但仍存在其他问题限制了其发展:大多数基于深度学习的RGB-D显著性目标检测算法将深度图像视为辅助信息,只是在深层或者浅层阶段对RGB特征和深度特征进行拼接或求和以获得融合

12、特征,缺少对融合前特征质量的关注,使得质量较差的深度图像对融合过程产生了消极的影响,导致得到边界不清晰的显著性对象。在复杂场景中,基于深度学习的RGB-D显著性目标检测与人类感知视觉信息并识别显著目标的过程相比,人类捕捉到的显著性目标不是视觉输入的直接翻译,而是大脑一系列主动推理的结果,以前的方法通常将融合特征直接用于预测,忽略了对融合特征内部语义关系的进一步研究和推理,导致检测结果不全面、不精确。为解决上述问题,本文提出一种基于多模态交叉细化模块和循环注意力的网络模型。首先,在并行的RGB编码网络分支和深度编码网络分支之间设计了一个多模态交叉细化模块(multimodal cross-ref

13、inement module,MCR),旨在进行特征融合前通过双向的信息传递改进了两个分支的多级特征,不仅利用深度信息增加RGB特征中的空间结构,也通过RGB信息改善深度特征中纹理模糊的缺陷。其次,本文提出一种新的联合混合注意力与卷积长短期记忆网络单元的循环注意力模块(recurrent CBAM-ConvLSTM module,RCL),通过模 拟 人 脑 内 部 生 成 机 制(internal generation mechanism,IGM)5的推理过程,全面学习融合特征的内部语义关系,以粗到细的方式迭代生成更准确的显著性图。在6个传统基准数据集上进行大量的实验表明,与先进的11种模型

14、相比,本文的模型在8种检测指标以及大多数具有挑战性场景的预测中表现出最佳的性能。1相关工作相关工作近年来,虽然基于RGB的SOD算法经过了深入研究,但大多数算法对在杂乱的背景、低强度环境或者变化的光照等复杂场景下产生的RGB图像的检测效果不够理想。深度图像作为RGB图像的补充,提供了RGB图像缺少的3D布局线索和空间结构,这种将其作为辅助图像来协助SOD的方法越来越流行。1.1 传统的传统的RGB-D显著性目标检测算法显著性目标检测算法最早的传统RGB-D显著性目标检测算法,主要通过计算颜色、边缘、纹理和区域对比度来测量局部区域的显著性。例如,文献6通过从深度 1932第 35 卷第 9 期2

15、023 年 9 月Vol.35 No.9Sep.2023董庆庆,等:基于交叉细化和循环注意力的RGB-D显著性目标检测http:/www.china-图像中恢复的三维结构和形状特征如颜色对比度和表面法线等来计算显著性。文献7使用深度对比度、颜色对比度和空间偏差线索进行像素聚类并测量每个聚类的显著性置信度,通过组合上述线索生成最终的显著性预测。随后,文献8提出一种两阶段的RGB-D显著目标检测框架,将区域对比度与背景、深度和方向先验相结合,融合了模糊区域的显著性恢复算法,对模糊区域进行显著性恢复。文献9通过引入特征装袋方法随机生成多个聚类结果和聚类级弱共同显著图整合到每个图像的最终共同显著图中。

16、文献10通过新定义的颜色和深度线索的紧凑性来计算紧凑性显著图,然后基于前景种子选择机制和多线索对比计算前景显著图,最后通过加权求和得到最终的显著图。文献11通过颜色显著图和深度显著图生成初始显著图,然后基于中心显著先验和暗通道先验生成中心-暗通道图,通过融合两种图得到最终显著图。1.2 基于深度学习的基于深度学习的RGB-D显著性目标检显著性目标检测算法测算法随着深度学习的不断发展,大量基于深度学习的RGB-D显著性目标检测算法被提出,打破了传统算法的瓶颈,在性能上取得较大的突破。2017年,文献12使用深度学习的方法进行显著性目标检测,将不同等级显著性特征融合到层次特征中,只采用了一个浅层的

17、网络结构来提取图像中的显著区域,超越了基于手工特征的显著性目标检测算法。文献13提出一种RGB-D融合网络,消除了跨模态和跨层融合过程的歧义。文献14将深度图像视为RGB图像的第四通道,作为单流网络的输入,最终获得显著性图。文献15提出流体金字塔集成模块和对比度增强网络,通过对比先验以提高深度图像的质量,提高检测的性能。文献16提出了一种新颖的联合学习与密集协作融合框架,采用跨模态迁移的思想,将深度图像看作RGB图像的一种特例,联合学习提供了鲁棒的显著性特征学习,密集协作融合用于挖掘互补性特征。文献17提出了一种深度净化单元,用于评估深度图像的质量,以完成低质量深度图像的过滤和跨模态特征学习,

18、避免了低质量深度图像对检测性能的影响。文献18设计了一种双流深度交错网络,以获得用于显著性检测的多层连续多模态特征,并提出跨模态相互引导模块和残差多尺度聚合模块来实现显著性区域的全局引导和局部细化。目前,大多数的显著性目标检测方法主要采用编码器-解码器的卷积架构,编码器将输入图像编码为多级特征,解码器整合提取到的特征来预测最终的显著图,图1展示了基于这种简单架构的主流RGB-D显著性检测模型,在此基础上衍生出了各种变种检测模型,并取得了优秀的研究成果。图1 采用不同融合方式的主流RGB-D显著性检测模型Fig.1 Mainstream RGB-D saliency detection mode

19、ls with different fusion mechanisms 1933第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023系统仿真学报Journal of System Simulationhttp:/www.china-基于RGB-D的显著性目标检测方法在发展中逐步优化了检测结果,但仍存在显著检测对象边缘不清晰或显著区域检测不完整的问题,针对此问题,文献19在跨模态融合阶段通过区域注意将两种模态联系起来,并通过补充丰富的边界信息最终获得边缘清晰且检测准确度更高的预测结果。文献20添加了边缘预测作为辅助任务,创新性的提出用边缘增强模块来生成更清晰的轮廓。文

20、献21通过设计混合增强损失函数来进一步优化检测结果以得到更锐利的边缘和一致的显著区域。与上述方法不同,本文从新的角度:改善RGB图像和深度图像编码特征质量;对融合特征更进一步的推理探讨了这些问题,采用三流网络框架,不再只是将深度图像当作辅助信息,而是将RGB图像和深度图像作为同等作用的并行分支。首先在RGB编码网络和深度编码网络之间设计了一个多模态交叉细化模块,通过两种特征的交互操作,不仅利用了多级深度信息补充RGB分支特征使其拥有丰富的空间线索更有利于显著性区域的定位,同时利用多级RGB信息细化深度分支特征使其模糊的边界得到改善。其次,针对从融合网络分支解码器输出的融合特征,本文不再直接将其

21、作为结果图,而是设计了RCL模块以模拟大脑的推理过程,在推断和决策当前结果时循环利用之前的记忆,通过面向记忆的场景逐步优化局部细节,生成检测对象更完整,检测区域更精确的显著性预测图。2本文方法本文方法2.1 概述概述首先,RGB网络分支和深度网络分支的编码网络皆是基于预训练的ResNet5022,本文提出的多模态交叉细化模块嵌入两者之间,RGB图像和深度图像分别作为两个分支网络的输入并在经过多模态交叉细化模块以及通道为32的11的卷积后得到增强的多级RGB特征Fir(i=12345)和多级深度特征Fid(i=12345)。在融合网络分支中,采用CIM23对上述两种输出特征进行跨模态融合,得到两

22、者的共享表示fsi(i=12345),CIM的具体结构如图2所示。其次,在3个网络分支中,本文采用U-Net24结构构建解码器。具体而言,对于RGB网络分支和深度网络分支,编码器的最后一层特征F5j(j=rd)作为解码器的输入,自顶向下的每一层输出特征依次通过RFB23增大感受野,进一步提取全局信息,将包含局部和全局信息的特征经过上采样以及在通道维度上连接对应层的编码特征以得到多级解码特征,并在最后一层取消跳跃连接,经过11的卷积和上采样操作得到各个分支的预测结果,其中RFB的具体结构如图3所示。图2 CIM的具体结构Fig.2 Specific structure of CIM 1934第

23、35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023董庆庆,等:基于交叉细化和循环注意力的RGB-D显著性目标检测http:/www.china-与RGB网络分支和深度网络分支不同的是,融合网络分支在RFB和跳跃连接之间增加了MFA模块23用于聚合融合分支、RGB分支和深度分支对应的解码特征,并只在最后一层取消跳跃连接和MFA,经过1*1的卷积和上采样操作得到融合网络分支最终的融合特征,MFA的具体结构如图4所示。最后,将上述得到的融合特征通过循环注意力模块RCL得到融合分支的预测结果,上采样至原始图像大小即本文最终的显著性预测图。本文方法的整体架构如图5所示。图3 R

24、FB的具体结构Fig.3 Specific structure of RFB图5 本文方法的整体架构Fig.5 Overall architecture of proposed method图4 MFA的具体结构Fig.4 Specific structure of MFA 1935第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023系统仿真学报Journal of System Simulationhttp:/www.china-2.2 多模态交叉细化模块多模态交叉细化模块针对显著区域边缘检测不清晰的问题,本文利用RGB图像包含丰富的颜色和纹理信息以及深度图像包含

25、丰富的空间布局信息且数据特征简单的特性,提出了多模态交叉细化模块,具体结构如图2中的MCR所示。多模态交叉细化模块利用两种模态特征之间的优势互补关系,将RGB图像和深度图像视作同等作用的有效信息。采用ResNet5022从输入图像中提取多级特征时,随着网络结构的深入,特征中的背景干扰因素逐渐被抑制,低层特征包含更多的纹理与细节信息,而高层特征为用于定位显著区域的语义信息,因此在多模态交叉细化模块中依靠选择机制优化一个分支的一层特征时,忽略另一个分支的低层特征,只选择其同级及更高级的特征。通过两种特征的交互操作,多级深度特征补充RGB特征使其包含辅助的3D布局线索,更有利于显著性区域的定位,且多

26、级RGB特征同时增强深度特征,使其更有利于保持纹理细节信息,改善其边界不清晰的缺陷。对于上述提出的两个分支的交互操作,其过程为Fir=Fir+f(FirFidF5d)(1)Fid=Fid+g(FidFirF5r)(2)其中f(FirFidF5d)=Conv(Cat(FirFidF5d)(3)g(FidFirF5r)=Conv(FidFirF5r)(4)式中:Cat为在通道方向上的拼接操作,用于集成深度特征信息来增强 RGB 网络分支中的输出特征;为元素级相乘以近似布尔或运算,用于改善深度分支中模糊的边界纹理信息;Conv表示一个3*3的卷积层,具有32个输出通道,即在应用函数f和g后各个特征的

27、通道仍保持为32。由式(1)和式(2),通过i=12345的取值即可得到 RGB网络分支和深度网络分支的多级细化特征,经过Conv操作恢复原来的通道后,与残差学习相结合,生成2个分支的多级增强特征。2.3 循环注意力模块循环注意力模块卷积注意力模块(convolutional block attention module,CBAM)25是一种结合了空间注意力和通道注意力的混合注意力机制,其依次沿着独立的通道维度和空间维度推断注意力图,以进行自适应特 征 优 化。卷 积 长 短 记 忆 网 络(convolutional LSTM,ConvLSTM)26不仅能够建立时序关系,而且拥有空间特征提取

28、能力,能够准确地捕捉时空相关性,记住需长时间记忆的信息的同时忘记不重要的信息。人类视觉系统可以通过内部生成机制(IGM)5对大脑中存储的记忆反复推导然后预测显著性结果,同时将不重要的不确定信息丢弃。受此启发,本文通过结合混合注意力机制与ConvLSTM网络单元提出了循环注意力模块RCL来模拟此过程,该模块借鉴了IGM的核心思想,可以全面性学习融合特征的内部语义关系。如图2所示,循环注意力模块RCL联合了混合注意力和卷积长短记忆网络的优势,通过检索过往的记忆帮助推断当前的决策,迭代的学习不同语义的时空依赖关系,由此获得需要长期记忆的语义场景,并逐步优化当前决策的细节信息。本文在CBAM25的基础

29、上用卷积操作替代池化操作,具体结构如图6所示,其中黑线部分表示通道注意力过程,灰线部分表示空间注意力过程,hi表示用于场景理解的先前记忆,下标i表示ConvLSTM26步长的次序,改进后的混合注意力模块计算公式为Attc(higs5)=(AvgPooling(Convc1(hi)+Convc2(gs5)gs5(5)Atts(Attc(higs5)=(Convs(Attc(higs5)(Attc(higs5)(6)经过(5),(6)两步得到循环模块中自适应优化后的各级融合特征gis(i=01t-1),其中表示元素级相乘,gs5为融合网络分支输出的最底层融合特征,Convc1和Convc2是输入和

30、输出通道为32的 3*3 卷积,AvgPooling为平均池化操作,为 1936第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023董庆庆,等:基于交叉细化和循环注意力的RGB-D显著性目标检测http:/www.china-Softmax激活函数,Convs表示输入通道为32,输出通道为1的1*1卷积。图7所示为ConvLSTM的详细结构,将经过混合注意力机制得到的每一步融合特征gjs(j=01t-1)输入ConvLSTM,由记忆场景进一步学习不同语义特征之间的时空依赖关系,从j步到j+1步的ConvLSTM计算公式为ij+1=(Wgi*gjs+Whi*hj+Wc

31、icj+bi)(7)fj+1=(Wgf*gjs+Whf*hj+Wcfcj+bf)(8)oj+1=(Wgo*gjs+Who*hj+Wcocj+bo)(9)cj+1=fj+1cj+ij+1tanh(Wgc*gjs+Whc*hj+bc)(10)hj+1=oj+1tanh(cj+1)(11)式中:表示hadamard积;为sigmoid函数;cj表示存储的较早的信息;i*、f*和o*分别代表ConvLSTM的输入门,遗忘门和输出门;W*和b*为模型在该阶段需要学习的参数。本文中步长设置为3即t=3,h0和c0的初始化均为0,ht为循环注意力模块的最终输出特征。将ht经过1*1的卷积和上采样后作为融合分

32、支最终的显著预测结果,这一过程如式(12)所示:Sg=Upsample(Conv(ht)(12)式中:Conv表示输入通道为3,输出通道为1的1*1的卷积操作;Upsample为将预测图大小恢复至352352的上采样操作。2.4 损失函数损失函数在图5所示的整体网络架构中,从RGB网络分支,深度网络分支和融合网络分支中共得到3个显著性预测结果,分别用真实图像作监督,得到的整体损失函数由Lsr,Lsd和Lsg组成,其分别用于上述3个网络分支:Ltotal=Lsr(SrG)+Lsd(SdG)+Lsg(SgG)(13)式中:Lsr,Lsd和Lsg为像素位置感知损失27;Sr和Sd分别为RGB网络分支

33、和深度网络分支的显著性预测结果;Sg为融合网络分支的显著性预测图即本文最终的结果图;G为真实图像。3实验实验3.1 数据集和指标数据集和指标3.1.1 数据集数据集为了充分验证所提方法的有效性,本文在基于 RGB-D 的 SOD 的 6 个 公 共 数 据 集(DES7,LFSD28,NJU2K29,NLPR30,SIP17和STERE31)上进行测试评估。DES也称为RGBD135,由Microsoft Kinect拍摄的135张包含7个室内场景的图像。LFSD是一个小型数据集,由Lytro相机拍摄的包括60张室内场景和40张室外场景图像。NJU2K中的1 985组图像是从互联网、3D电影和

34、富士W3立体相机拍摄的照片中收集的,其中训练集1 400张,验证集100 张,测 试 集 485 张。NLPR 称 也 称 为RGBD1000,它包含由 Microsoft Kinect 在不同光照条件下捕获的11个场景(包括学校、商场、展览馆、街道等)的1 000个自然图像,其中训练集650图6 改进的CBAM的具体结构Fig.6 Specific structure of improved CBAM图7 ConvLSTM的具体结构Fig.7 Specific structure of ConvLSTM 1937第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023

35、系统仿真学报Journal of System Simulationhttp:/www.china-张,验证集50张,测试集300张。SIP是一个高质量数据集,共有1 000张图像,其中包含来自各种户外场景的许多具有挑战性的情况(包含有单目标和多目标),由智能手机(Huawei Mate10)拍摄而得。STERE 也称为 SSB,包含从 Internet 下载的1 000张图像。本文采用的训练集遵循以下设置23:训练集共2 185个图像,分别选自NJU2K中的1 485个图像与 NLPR 中的 700 个图像。而来自 NJU2K 和NLPR的剩余图像(分别为500张和300张)以及整个 DES

36、(135 张)、LFSD(100 张)、SIP(929 张)和STERE(1 000张)用于测试。3.1.2 指标指标本文采用8种广泛被用于评估SOD模型的指标:Prcesion-Recall(PR)曲 线30,MAE32,E-measure(E)33,F-measure 曲 线34,maximun F-measure(Fmax)34,mean F-measure(Favg)34,weighted F-measure(F)34和 S-measure(S)3进行评估。(1)PR曲线Prcesion=|PG|PRecall=|PG|G(14)Prcesion和Recall分别为精确率和召回率,G为

37、真实图,本文通过预设得到二值化的显著性预测结果图P,通过式(14)计算取值为0255阈值下的256对(Prcesion,Recall),组合后形成精度-召回曲线,用于描述模型在不同情况下的性能。(2)MAEMAE(平均绝对误差)是一种像素级的评估指标,用来估计预测图和真实图之间的近似程度,其值会归一化为0,1,提供了对预测图和真实图之间一致性的直接估计,MAE值越小表示模型的性能越好。具体计算公式为MAE=1mni=1mj=1m|pij-yij|(15)式中:m和n分别为被评估图像的宽和高;pij为显著性概率结果;yij为真值。(3)E-measure(E)E是从二进制评估领域提出的增强对齐测

38、量,其基于认知视觉研究,将局部像素值与图像级平均值结合在一个度量中,共同捕获图像级统计信息和局部像素匹配信息,E值越大表示模型的性能越好。其计算公式为E=1WHi=1Wj=1HFM(ij)(16)(4)F-measureF-measure本质上是一种基于区域的相似性度量,其计算公式为F=(1+2)PrecsionRecall)2Precsion+Recall(17)以0255的阈值为横坐标,每个阈值下的F为纵坐标形成F-measure曲线,Fmax和Favg分别为0255的阈值下F的最大值和平均值。F利用加权的Precsion和Recall来构建评估方法,具体公式为F=(1+2)Precsio

39、nwRecallw)2Precsionw+Recallw(18)式(17)和(18)的2取值为 0.3。Fmax、Favg和F的值都是越大表示模型的性能越好。(5)S-measure(S)结构度量S结合了区域感知Sr和对象感知S0的结构相似性作为最终的结构度量,S值越大表示模型的性能越好,其具体公式为S=S0+(1-)Sr(19)式中:S0为物体结构相似性;Sr为区域结构相似性;为平衡参数,本文中取值为0.5。3.2 实验设置细节实验设置细节本文使用深度学习框架Pytorch实现了所提的整体模型,并在配置2.90 GHz CPU、16 GB RAM和NVIDIA RTX 3060 GPU的PC

40、上进行了训练和测试。在训练阶段,RGB网路分支和深度网络分支 1938第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023董庆庆,等:基于交叉细化和循环注意力的RGB-D显著性目标检测http:/www.china-的编码器为已在 ImageNet35上进行了预训练的ResNet50,两个网络的输入图像分别为3通道的RGB图像和1通道的深度图像,因此深度网络分支的编码器的输入通道改为1。本文采用Adam算法对提出的模型进行优化,初始学习率设置为0.000 1,并在每60个epoch后除以10。RGB图像和深度图像的输入分辨率调整为352352,训练图像使用随机翻转、

41、旋转和边界裁剪等策略进行数据增强,批量大小设置为 4,共训练 200 个epoch。训练网络模型大小为674.967 MB,训练时长为24 h,相较于baseline多了4 h。在测试阶段,将RGB图像和深度图像调整为352352的大小,输入已训练好的模型获取预测结果并进行评估,得到在6个数据集上的平均推理时间为0.19 s/张,相较于baseline在6个数据集上的平均推理时间延长了0.07 s/张。3.3 性能对比性能对比近两年来,基于RGB-D的显著性目标检测得到了广泛的研究。2021年,文献36将深度图像视为彩色图像的特殊情况,采用孪生编码器提取多模态特征,通过联合学习和密集合作得到显

42、著检测结果。文献37提出分层交互模块应用于多级特征尺度的编码推理架构,逐步执行调制反馈机制以提高检测性能。文献38设计了两阶段的跨模态融合方案,低层特征用于预测边界,高层特征用于预测初始显著图。文献39提出一个深度敏感的注意力模块用于消除背景干扰,同时利用深度先验知识增强RGB特征,并通过引入神经结构搜索实现网络结构设计过程的自动化。文献40解决了基于弱监督RGB-D的显著性目标检测问题,通过设计两个内部模块生成伪标签,在无监督和有监督的场景中都获得了良好的性能。文献41提出只在训练阶段应用的隐式深度恢复方法用于矫正深度,然后在解码阶段设计一个紧凑的金字塔细化策略以获得有效的多级特征聚合。20

43、22年,文献42设计了深度特征的表示方法,在测试阶段只使用 RGB 图像作为输入,解决了基于无监督RGB-D的显著性目标检测问题。文献43首先设计特征增强模块从深度图像种挖掘有效信息以增强RGB特征,然后在融合阶段提出特征细化模块以促进两种模态特征信息互补,最后提出级联特征交互解码器迭代生成多级特征并最终得到性能更好的结果。文献44提出一个跨模态远程上下文信息收集模块,可以利用相关融合来捕获远程上下文信息,再通过基于关系的特征细化模块提供鸟瞰图来定位显着对象。文献45提出一致性差异聚合模块将单个特征融合拆分为多路径融合以提高融合效率。文献46提出一个动态过滤器模块用于处理特定模态内部特征和一个

44、场景感知动态融合模块用于处理多模态之间的特征融合,利用垂直和水平两种模式的特征交互提高检测性能。为了公平地比较,本文与上述11种模型在6个数据集上的测试结果进行比较和评估,默认下使用已发布的代码训练并测试得到显著图,对于无公开代码的模型,直接使用作者提供的显著性结果图进行比较。3.3.1 定性分析定性分析图8为本文方法与11种模型预测结果的可视化对比,可以看出,本文方法可以应用于各种具有挑战性的场景。如第一行展示了分割多个显著对 象 的 性 能,与 JL-DCF,CDNet,DSA2F,JSM,MobileSal和CFIDNet相比,本文方法不仅正确分割了飞机,同时准确检测到右侧尺度较小的房子

45、。第2、3、8行展示了对于低质量深度图像的鲁棒性,本文方法通过RGB图像优化深度图像的边缘和细节以避免低质量深度图像对检测结果造成消极影响,与进行深度增强或矫正的模型CDNet,DSA2F,DSU,SSL相比,本文的方法检测结果更优。第4、5行则展示了具有复杂背景的示例,在包含与显著对象相似的物体背景中,本文方法可以生成更高质量的显著图。第6、7行是低对比度场景的结果,对应的深度图像质量较 1939第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023系统仿真学报Journal of System Simulationhttp:/www.china-差,本文方法与其他

46、模型相比可以得到更准确的检测结果。第9行检测图像为LFSD数据集的一例,其中检测对象与背景的纹理完全相同且检测对象内部边界纹理较多,导致本文模型无法正确识别边缘位置以及准确的检测区域,与检测效果最好的模型CDNet相比存在明显差距,表明本文方法在更复杂的场景中检测能力的不稳定性。但整体而言,本文方法在6个数据集上的可视化结果仍具有较好的竞争能力。3.3.2 定量分析定量分析图910分别为本文方法与11种模型在6个数据集上的 PR 曲线和 F-measure 曲线的对比结果。可以看出,在数据集DES,LFSD,NJU2K,SIP和STERE上,本文模型明显优于其他方法,表现了出了最好的性能。在较

47、为复杂的数据集LFSD上,本文方法的PR曲线依然比JSM,DSU和SSL效果更佳,而 F-measure 曲线的结果则是比 JL-DCF,HAINet,CDNet,JSM,MobileSal,DSU,DCMF和SSL更好。整体而言,在6个数据集上,本文方法的PR曲线和F-measure曲线相较于其他方法都有很大提升。为了提供更全面的评估,表1展示了所有模型在6个评估指标MAE,E,Fmax,Favg,F和s上的量化结果,表中表示越大越好,表示越小越好。由表1中的数据可以看出:本文方法在3个数据集DES,NJU2K 和NLPR上的6个指标结果皆表现为最优。本文方法在SIP和STERE的6个指标结

48、果依然是最优或次优。即使在复杂数据集LFSD上也保证了4个指标结果的次优性,另外的指标MAE和Fmax分别达到了0.070和0.826,与LFSD各项指标都表现最好的DSA2F模型相比分别差了21%和25%。表1结果表明,在LFSD数据集上本模型与其他11种模型相比,只处于中等偏上的优势。这可能是因为LFSD包含了很多复杂的室内外场景,图像中的背景不仅与显著性检测对象相似,并且两者都包含非常丰富的颜色与纹理,给检测过程带来一定的难度,使得本文模型在判断图像像素为显著对象还是背景时出现误差。图8 本文方法与11种模型的可视化比较Fig.8 Visualization comparison bet

49、ween proposed method and 11 models 1940第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023董庆庆,等:基于交叉细化和循环注意力的RGB-D显著性目标检测http:/www.china-图9 本文方法与11种模型的PR曲线Fig.9 Precision-recall curves of proposed method and 11 models,where P stands for precision,and R stands for recall图10 本文方法与11种模型的F-measure曲线Fig.10 F-measur

50、e curves of proposed method and 11 models 1941第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023系统仿真学报Journal of System Simulationhttp:/www.china-表1本文方法与11种模型在6种指标下的定量比较Table 1Quantitative comparison of proposed method with 11 models in terms of six indicators数据集DESLFSDNJU2KSIPNLPRSTERE指标MAEFmaxFavgFsEMAEFmax

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服