ImageVerifierCode 换一换
格式:PDF , 页数:14 ,大小:955.99KB ,
资源ID:652158      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/652158.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     索取发票    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(联合序列和空间注意力机制的光场显著性检测算法.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

联合序列和空间注意力机制的光场显著性检测算法.pdf

1、第4 6卷 第9期2 0 2 3年9月计 算 机 学 报CH I N E S E J OUR NA L O F C OMP UT E R SV o l.4 6 N o.9S e p.2 0 2 3 收稿日期:2 0 2 2-0 9-0 9;在线出版日期:2 0 2 3-0 3-0 9.本课题得到科技创新2 0 3 0-“新一代人工智能”重大项目课题(N o.2 0 1 8 AAA 0 1 0 0 6 0 1)、国家自然科学基金项目(N o.6 2 1 3 2 0 0 6,N o.6 2 1 6 1 0 1 3,N o.6 2 1 6 2 0 2 9,N o.6 2 2 7 1 2 3 7)、江

2、西省自然科学基金项目(N o.2 0 2 2 3 A E I 9 1 0 0 2,N o.2 0 2 2 4 B A B 2 1 2 0 1 0)、江西省重点研发计划项目(N o.2 0 2 0 3 B B E 5 3 0 3 3)、江西省教育厅科技项目(N o.G J J 2 2 0 0 5 2 2)资助。姜文晖,博士,讲师,中国计算机学会(C C F)会员(E 1 5 5 3 M),主要研究方向为图像内容理解、跨媒体分析.E-m a i l:j i a n g 1 s t b u p t.c n.程一波,硕士研究生,主要研究方向为图像内容理解.方玉明(通信作者),博士,教授,中国计算机学会

3、(C C F)会员(5 2 1 0 3 D),主要研究领域为计算机视觉、多媒体信号处理和视觉质量评估.E-m a i l:l e o.f a n g y u m i n g f o x m a i l.c o m.朱旻炜,硕士研究生,主要研究方向为计算机视觉.左一帆,博士,副教授,中国计算机学会(C C F)会员(E 1 5 4 7 M),主要研究领域为图像处理和多媒体信号处理.联合序列和空间注意力机制的光场显著性检测算法姜文晖 程一波 方玉明 朱旻炜 左一帆(江西财经大学信息管理学院 南昌 3 3 0 0 1 3)摘 要 光场图像包含丰富的空间视差信息和精确的深度信息,利用光场图像的丰富视觉

4、信息实现准确的显著目标检测是重要的研究课题.然而,由于光场图像包含焦堆栈图像序列、全聚焦图像等多幅不同特性的图像数据,面向二维图像的特征提取方法不能有效地融合光场图像中不同序列不同空间的互补信息.针对这一问题,本文提出一种联合序列和空间注意力机制的光场显著性检测模型.针对焦堆栈图像序列,利用R F B模块和特征金字塔结构提取全局信息丰富且细节信息充分的语义特征.同时,提出一种联合序列和空间的自注意力机制,利用多头自注意力操作对焦堆栈图像特征从序列和空间维度联合建模,从而实现对焦堆栈图像序列特征的增强与融合.该机制能够同时建模图像的长距离、空间相关性和特征的内部关联性,从而在不同空间位置反映不同

5、焦堆栈图像的重要性,有利于检测更完整的显著目标.最后,将焦堆栈图像信息和全聚焦图像信息有效融合,以预测最终的显著目标.本文在D UT-L F S D、H F UT-L F S D和L F S D数据集上展开实验,并与2 8种代表性工作进行对比.结果表明,本文设计的模型效果显著,在多个评价指标上一致地提高了显著目标检测的准确性.定性分析也表明本文提出的方法能够更准确地定位显著目标.关键词 光场;显著性检测;特征金字塔;注意力机制;特征融合中图法分类号T P 3 9 1 D O I号1 0.1 1 8 9 7/S P.J.1 0 1 6.2 0 2 3.0 1 9 7 7L i g h t F i

6、 e l d S a l i e n c y D e t e c t i o n B a s e d o n J o i n t S e q u e n c e a n d S p a t i a l A t t e n t i o n M e c h a n i s mJ I ANG W e n-H u i CHE NG Y i-B o F ANG Y u-M i n g Z HU M i n-W e i Z UO Y i-F a n(S c h o o l o f I n f o r m a t i o n M a n a g e m e n t,J i a n g x i U n i v

7、 e r s i t y o f F i n a n c e a n d E c o n o m i c s,N a n c h a n g 3 3 0 0 1 3)A b s t r a c t L i g h t f i e l d c a p t u r e s r i c h s p a t i a l a n d 3 D l a y o u t i n f o r m a t i o n o f t h e s c e n e s.T h e r e f o r e,l i g h t f i e l d s a l i e n t o b j e c t d e t e c t i

8、 o n h a s a t t r a c t e d e x t e n s i v e r e s e a r c h a t t e n t i o n s r e c e n t l y.A s l i g h t f i e l d c o n t a i n s m u l t i p l e i m a g e s w i t h d i f f e r e n t c h a r a c t e r i s t i c s i n c l u d i n g f o c a l s l i c e s a n d a l l-f o c u s i m-a g e s,c o

9、 n v e n t i o n a l s a l i e n c y d e t e c t i o n m e t h o d s b a s e d o n R G B i m a g e s f a i l t o e x p l o r e a n d i n t e g r a t e s e m a n t i c i n f o r m a t i o n f r o m f o c a l s l i c e s,l e a d i n g t o s u b o p t i m a l r e s u l t s b e c a u s e t h e r e l a t

10、 i v e c o n t r i-b u t i o n o f d i f f e r e n t r e g i o n s i n f o c a l s l i c e s e q u e n c e s i s i g n o r e d.I n t h i s p a p e r,w e p r o p o s e a n o v e l l i g h t f i e l d s a l i e n c y d e t e c t i o n m e t h o d b a s e d o n j o i n t s e q u e n c e a n d s p a t i

11、 a l a t t e n t i o n m e c h a n i s m.F i r s t l y,w e e x t r a c t s e m a n t i c f e a t u r e s f r o m f o c a l s l i c e s e q u e n c e w i t h R F B m o d u l e a n d f e a t u r e p y r-a m i d s t r u c t u r e.T h e e x t r a c t e d f e a t u r e s n o t o n l y c a p t u r e g l o

12、 b a l c o n t e x t,b u t a l s o r e t a i n r i c h s c e n e d e t a i l s.S e c o n d l y,t o i n t e g r a t e t h e s a l i e n t f e a t u r e s o f f o c a l s l i c e s c o m p r e h e n s i v e l y,w e p r o p o s e a j o i n t s e q u e n c e a n d s p a t i a l s e l f-a t t e n t i o n

13、 m e c h a n i s m.S p e c i f i c a l l y,w e i n t r o d u c e s e l f-a t t e n t i o n o n s e m a n t i c f e a t u r e s f r o m f o c a l s l i c e s w i t h i n c e r t a i n s p a t i a l c o n t e x t,w h i c h b u i l d s b o t h s p a t i a l r e l a-t i o n s w i t h l o n g-r a n g e d

14、 e p e n d e n c i e s a n d i n t e r-s e q u e n c e c o r r e l a t i o n s s i m u l t a n e o u s l y.S u c h m e c h a-n i s m d y n a m i c a l l y i n t e g r a t e s s e m a n t i c i n f o r m a t i o n w i t h d i f f e r e n t i m p o r t a n c e o n d i f f e r e n t f e a t u r e,w h i

15、 c h i s b e n e f i c i a l t o p r e d i c t c o m p l e t e s a l i e n t o b j e c t.F i n a l l y,w e p r o p o s e l i n e a r f u s i o n t o e f f e c-t i v e l y a g g r e g a t e i n f o r m a t i o n f r o m b o t h f o c a l s l i c e s a n d a l l-f o c u s i m a g e t o g e n e r a t e

16、 a c c u r a t e s a l i-e n c y m a p s.O u r p r o p o s e d m e t h o d i s s i m p l e t o i m p l e m e n t.W e c o n d u c t c o m p r e h e n s i v e e x p e r i-m e n t s o n DUT-L F S D,H F UT-L F S D a n d L F S D,w h i c h a r e t h e m o s t w i d e l y u s e d b e n c h m a r k f o r l

17、i g h t f i e l d s a l i e n c y d e t e c t i o n.W e c o m p a r e t h e p e r f o r m a n c e o f o u r m o d e l w i t h 2 8 s t a t e-o f-t h e-a r t m e t h o d s.T h e q u a n t i t a t i v e e v a l u a t i o n m e t r i c s i n c l u d e E-m e a s u r e,S-m e a s u r e,F-m e a s u r e a n

18、d MA E(m e a n a b s o l u t e e r r o r).T h e e x p e r i m e n t a l r e s u l t s d e m o n s t r a t e t h e s u p e r i o r p e r f o r m a n c e o f t h e p r o p o s e d m o d e l i n t e r m s o f a l l e v a l u a t i o n m e t r i c s.I n a d d i t i o n,w e a l s o p r o v i d e v i s u

19、a l i z a t i o n c o m p a r i s o n s o f o u r m e t h o d a n d r e p r e s e n t a t i v e c o m p e t i t o r s.T h e v i s u a l i z a t i o n a n a l y s i s a l s o v e r i-f i e s t h a t o u r m e t h o d e f f e c t i v e l y i m p r o v e s t h e d e t e c t i o n p r e c i s i o n o f

20、i m a g e s w i t h t i n y o b j e c t s a n d c o m p l i c a t e d b a c k g r o u n d s.K e y w o r d s l i g h t f i e l d;s a l i e n c y d e t e c t i o n;f e a t u r e p y r a m i d;a t t e n t i o n m e c h a n i s m;f e a t u r e a g g r e-g a t i o n1 引 言显著性检测旨在通过计算机模拟人类视觉注意力机制,以自动预测和定位场景

21、的显著视觉信息.该任务既有助于研究人类视觉感知机理,又能服务于 其 它 计 算 机 视 觉 的 高 层 任 务,如 目 标 识别1、图像分割2、目标跟踪3等,因而具有重要的研究价值.根据输入图像类型的不同,显著性检测任务可以分为2 D(R G B图像)、3 D(R G B-D图像)、4 D(光场图像)三类图像的显著性检测.其中,2 D图像在显著性检测领域研究最多,但是在图像的弱纹理区域、遮挡区域、背景杂乱等场景的检测效果并不理想4-6.3 D图像在2 D图像的基础上引入了深度图(D e p t h M a p)7-1 1.深度图记录了场景到相机拍摄平面的距离,能够区分不同深度层的物体,从而减少

22、背景的干扰,提高图像在弱纹理区域和遮挡区域的检测效果.然而,深度数据通常质量较低,难以为显著目标检测提供有效信息.光场图像拥有比深度图像更丰富的信息.通过数字重聚焦技术1 2,可将光场数据合成为聚焦在不同焦平面的图像序列(即焦堆栈图像),更有利于分离显著目标.融合焦堆栈图像的聚焦区域可以合成一幅全聚焦图像,相比标准的R G B图像,其色彩、纹理更为清晰1 3-1 4.鉴于以上优点,基于光场图像的显著性检测吸引了大量研究人员的关注1 5-2 1.如何有效融合焦堆栈图像序列提供的互补信息,以分离位于不同焦平面的前景与背景,是光场显著性检测的核心问题.主流的研究方法使用卷积神经网络(C o n v

23、o l u t i o n N e u r a l N e t w o r k s,C NN)提取各焦堆栈图像的语义特征,并将特征按预设顺序输入卷积递归网络(C o n v L S TM)2 2以预测不同焦堆栈图像的全局权重,最后采用注意力机制融合不同焦堆栈图像的特征1,1 5-1 6.该方案取得了较好的检测效果,但仍存在以下不足.第一,卷积运算的感受野有限,难以建模较大范围的上下文信息,不利于检测小目标和复杂环境下的显著物体.第二,C o n v L-S TM网络对输入序列的顺序敏感,而现有光场数据集中焦堆栈图像序列长度不一且排列无序,降低了特征融合的效果.此外,由于递归网络的记忆能力有限,

24、C o n v L S TM容易遗忘最先输入网络的焦堆栈图像,从而弱化该图像对最终结果的影响.第三,现有的全局融合方式忽略了空间位置对显著性预测结果的影响,导致难以完整地检测覆盖较大深度范围的物体.因此,如何有效聚合焦堆栈图像序列的特征信息,在复杂场景下分离位于不同焦平面的目标和背景仍是挑战问题.针对以上问题,本文提出一种联合序列和空间注意力机制的光场显著性检测模型.受T r a n s-f o r m e r模型的启发,本文对焦堆栈图像序列提取的高层语义特征图,利用多头自注意力机制对焦堆栈图像特征从序列和空间维度联合建模.该模型具有以下优点.首先,在空间维度上,自注意力8791计 算 机 学

25、 报2 0 2 3年机制能够挖掘图像长距离的空间相关性,从而检测更完整的显著目标.其次,在序列维度上,自注意力机制能够更好地构建特征的内部相关性,并且不依赖于输入序列的长度和顺序.最后,本文对焦堆栈图像的序列和空间联合建模,使序列特征融合过程中考虑更大范围的空间上下文信息,增加了空间位置敏感性,从而在不同空间位置反映不同焦堆栈图像的重要性,进而提高了特征融合的有效性.本 文 在L S F D1 3、H F UT-L F S D1 4和DUT-L F S D1 5三个公开数据集上进行实验,并与2 8种先进的显著性检测模型进行比较.结果表明,本文设计的显著性检测模型在MA E2 3(M e a n

26、 A b s o l u t e E r-r o r)、E-m e a s u r e2 4(E n h a n c e d-a l i g n m e n t m e a s-u r e)、S-m e a s u r e2 5(S t r u c t u r e m e a s u r e)、F-m e a s-u r e2 6多个评价指标上一致地优于其它对比方法.可视化分析表明,本文提出的方法可以有效提高较小目标和复杂背景下的显著性检测精度.2 相关工作2.1 二维图像的显著性检测 早期的研究方法主要基于显著目标与背景对比度高、背景简单、光源单一等假设,设计具有颜色和纹理对比度的人工特征2

27、 7-3 2,或引入空间位置先验等信息度量图像的显著性3 3-3 4.近年来,大量学者开始研究基于深度神经网络的显著性检测方法.V i g等人4 较早地使用深度神经网络提取多层特征并输入线性分类器实现显著性检测.随后,大量学者挖掘和利用卷积神经网络不同特征图的性质以提高显著性检测的准确性.例如,Wu等人5对特征在显著性检测任务上的效率进行分析,发现中间层的特征既保留了人眼可识别的底层信息,又具有高层语义信息,并提出了一种级联解码器(C P D)框架,只融合较深层的特征预测相对精确的显著图,放弃底层特征以加快网络预测效率.W a n g等人3 5提出了渐进式特征抛光网络(P F P N),通过对

28、多层级特征渐进式优化,提升特征的质量,以预测高质量的显著图.为进一步融合不同尺度的特征图,Z h a n g等人3 6提出一种注意力机制引导的上下文特征融合网络(A C F F N e t)以调整不同通道的重要性,实现更鲁棒的显著性检测特征表达.为进一步优化特征,W e i等人 3 7 提出了级联反馈解码器(F3N e t),级联多个相同的解码单元;每级解码器都生成一幅显著图;生成上一级显著图的特征反馈至下一级解码器的输入,以实现特征的逐级精化.另一方面,H u等人3 8提出了基于空间衰减上下文的显著性检测算法,通过在特征图中自适应地传播和聚合可变衰减的图像上下文特征用于预测显著图.为进一步抑

29、制背景噪声对显著图预测的影响,L u等人3 3在神经网络模型中嵌入中心先验知识.J i a n等学者3 9利用视频帧的空间位置信息过滤背景的干扰,从而实现视频序列的显著性检测.针对显著目标边缘检测不准确的问题,部分研究者利用目标的边缘作为辅助信息,提高显著目标边界检测的准确性.例如,Z h a o等人 4 0提出边缘指导模型(E GN e t)建模显著目标的准确边界,协助多层级显著性检测得到最后的显著图.相似地,Q i n等人 4 1提出边界感知模型(B A S N e t),利用残差优化模块和混合损失函数对边界部分训练,得到的显著图具有更精确边界.近期,F a n g等人4 2提出基于不确定

30、性感知的显著目标检测模型,该模型通过构建外轮廓和内轮廓像素处理子模块,针对性地处理目标边缘像素,有效提升了轮廓预测的准确性.尽管二维图像的显著性检测技术取得了重要进步,但由于二维图像在纹理相似、背景暗光、场景复杂等情况下,前景和背景难以区分,导致显著目标检测仍不够准确.2.2 光场图像的显著性检测 光场图像提供更丰富的深度信息,有利于分离复杂场景下的显著物体.因此,基于光场图像的显著目标检测是当前的研究热点.L i等人1 3提出首个由室内和室外场景组成的光场显著性数据库L F S D.为了聚合各类光场数据,通过前背景线索将不同焦堆栈图像特征加权融合以预测图像的显著性.随后,Z h a n g等

31、人1 4提出加权稀疏编码显著性方法,对多种不同的特征进行加权稀疏编码预测图像的显著性,再将多组结果融合预测最终的显著图.P i a o等人4 3基于超像素的深度、位置、颜色等光场数据特征构建图模型预测显著目标,既融合了不同特征的互补性,又强调了显著图的空间一致性,从而较大程度地提高了光场显著性检测的效果.此后,更多研究者构建深度神经网络实现光场显著性检测.例如,L i等人4 4提出联合聚焦的方法,在前-背景相似或杂乱背景的场景中均匀地突出显著区域,同时更好地抑制背景区域,但该方法未建模97919期姜文晖等:联合序列和空间注意力机制的光场显著性检测算法焦堆栈图像特征之间的联系.为解决该问题,Z

32、h a n g等人2 1首次利用3 D卷积网络提取焦堆栈图像的序列特征.W a n g等人1先通过卷积神经网络提取各焦堆栈图像的语义特征,再利用C o n v L S TM和注意力机制自适应地融合提取的特征序列,从而实现更有效的焦堆栈图像特征表达.然而,该方法仅对焦堆栈图像序列的最高层语义特征进行融合.作为改进,Z h a n g等人1 5则利用C o n v L S TM对焦堆栈图像序列提取的多尺度语义特征逐一融合,以全面建模焦堆栈图像之间的内在关联.P i a o等人1 6使用不同的注意权重融合不同堆栈图像的特征,这些注意权 值由C o n v L S TM通过多 个 时 间 步 计算.作

33、者还采用知识蒸馏来提高不同焦堆栈图像分支的特征表示能力.另一方面,Z h a n g等人2 1则对光场数据中 的子孔径 图像间的空 间 关 联 性 建模,有效提高了光场显著性检测的准确性.针对光场显著性检测数据标注困难的问题,F e n g等人4 5提出利用注意力模型预测的噪声标签指导光场显著性检测模型的学习.值得注意的是,该工作也采用C o n v L S TM对焦堆栈图像的特征进行融合.综上所述,C o n v L S TM在光场数据特征融合中起到举足轻重的作用.但是,C o n v L S TM在光场显著性检测中具有以下局限.第一,卷积操作的感受野较小,难以对图像较大距离的上下文进行建模

34、;第二,L S TM结构难以记忆最先输入的焦堆栈图像,从而容易忽略其对显著性检测结果的影响;第三,全局融合方式缺乏空间敏感性,致使网络难以检测覆盖较大深度范围的物体.本文提出使用联合序列和空间的自注意力机制对焦堆栈图像的特征进行融合和增强,该模块不依赖于输入序列的长度和顺序,且融合过程中能考虑更大范围的空间上下文信息,同时对空间位置敏感.3 模型设计本文模型的整体结构如图1所示.模型由三部分组成,分别是焦堆栈图像预测模块、全聚焦图像预测模块和融合模块.其中,全聚焦图像预测模块针对全聚焦图像,建模不同空间区域的颜色对比度、纹理、形状等信息预测图像的显著目标;焦堆栈图像预测模块挖掘不同焦堆栈图像之

35、间的深度差异性,实现显著目标与复杂背景的分离.焦堆栈图像预测模块为本模型的核心.为更好地建模焦堆栈图像序列中不同焦平面成像之间的序列关联,本文提出一种联合序列和空间的自注意力机制实现不同焦堆栈图像特征的融合与增强.最后,融合模块利用深度与颜色的互补性,将以上两个模块的预测结果有效融合,形成最终的显著图.图1 模型整体结构图3.1 焦堆栈图像预测模块 焦堆栈图像由一组焦距不同的图像堆叠组成.显著目标通常处于近邻的深度面.通过比较不同焦堆栈图像的聚焦区域,可以更有效地挖掘背景信息,从而完整地定位图像中的显著目标.为充分利用焦堆栈图像的聚焦度信息,首先通0891计 算 机 学 报2 0 2 3年过特

36、征提取模块,分别提取每幅焦堆栈图像的高分辨率语义特征图.随后,通过序列特征融合模块,以融合焦堆栈图像序列特征的互补信息,获得更精确的显著区域特征,提高光场图像显著性检测的准确性.3.1.1 特征提取模块本文 面 向 显 著 性 检 测 任 务,基 于VG G 1 9网络4 6提取焦堆栈图像的高分辨语义特征.特征提取模块 如 图2所 示.对 于 每 张 焦 堆 栈 图 像,通 过VG G 1 9网络提取图像的多尺度特征图.其中,高分辨率的特征图包含更多图像细节,而低分辨率的特征图提取了丰富的高层语义.为进一步利用多尺度特征 图 的 丰 富 信 息,本 文 使 用 特 征 金 字 塔 结 构(F

37、P N)4 7融合多尺度特征图,使模块在得到高级语义信息的同时保留更多细节.同时,引 入R F B模块5扩大网络的感受野,以建模更丰富的上下文信息.具 体 地,以 第i幅 焦 堆 栈 图 像 为 例,先 将V G G 1 9最后三层特征图分别输入R F B模块,输出结果按尺度由小到大分别记为V3、V4、V5.随后从V3层起逐级经过上采样和卷积操作与大尺度特征相加,最后将三层特征增强后的输出在通道维度拼接得 到 第i幅 焦 堆 栈 图 像 的 特 征 图Fi.FiRCWH,其中C表示特征维度,W和H分别表示特征图的宽和高.图2 特征提取模块结构图3.1.2 序列特征融合模块为充分融合焦堆栈特征,

38、本文提出一种联合序列和空间的自注意力机制融合焦堆栈图像的特征.该融合方式不依赖于输入序列的长度和顺序,且融合过程中 能考虑更 大范围的空 间 上 下 文 信息.如图1所示,在序列特征融合模块,将窗口划分特征图计算注意力(W i n d o w A t t e n t i o n,WA)和滑动窗 口 划 分 特 征 图 计 算 注 意 力(S h i f t W i n d o w A t t e n t i o n,S WA)作为一个注意力基本单元.本文重复多次基本运算单元实现焦堆栈图像特征的融合与增强.窗口划分特征图计算注意力(WA)的过程如下.首先,为建立焦堆栈图像序列特征图F=F1,F2

39、,FN的上下文信息,以mm为大小将特征图Fi划分为M个子图 Bi,1,Bi,2,Bi,M,其中Bi,jRCmm是大小为mm的特征子图,i表示堆栈的序列,j表示子图序号.其次,引入多头自注意力机制对图像序列处于相同空位置子图的视觉特征进行自注意计算.如图3所示,将特征子图扁平化排列(f l a t t e n)后,得到子图的视觉特征编码Xi,j=x1,x2,xmm.焦堆栈图像序列第j个子图的特征编码为Xj=X1,j,X2,j,XN,j,将Xj分别通过线性映射形成查询矩阵、键矩阵和值矩阵,即图3 联合序列和空间的自注意力机制流程图18919期姜文晖等:联合序列和空间注意力机制的光场显著性检测算法Q

40、j=WqXjKj=WkXjVj=WvXj(1)其 中,QjR(Nmm)C为 查 询 矩 阵,KjR(Nmm)C为键矩阵,VjR(Nmm)C为值矩阵,Wq、Wk和Wv代表查询矩阵、键矩阵和值矩阵的映射矩阵.随后,通过计算查询矩阵与键矩阵之间的相似性预测注意力权重矩阵.较大的权重表示对应的值向量与查询的相关性更大.结合权重矩阵和值矩阵,对不同的值向量加权融合,得到增强后的向量表示:Yj=s o f t m a xQj(Kj)Ts q r t(C)Vj(2)其中,YjR(Nmm)C.当所有子图完成自注意力计算后,得到增强后的焦堆栈图像特征表示Y=Y1,Y2,YM.最后,如图3所示,将Y按元素在原始特

41、征序列的位置还原为特征图F=F1,F2,FN,其中FiRCWH.由于窗口划分导致不同窗口之间的特征缺乏信息交互,限制了特征的表达能力.本文引入了滑动窗口操作,通过重新划分窗口以实现跨窗口信息交互.如图4所示,滑动窗口操作将窗口划分的边界向右下方向移动m/2步长.对位于特征图边缘的子图,本文参考s w i n t r a n s f o r m e r4 8的做法,将一侧不完整的子图平移至另一侧对不完整的子图补全.其中相同色块代表同一窗口.图4 注意力模块窗口滑动划分示意图3.1.3 显著性预测模块如图5所示,将特征增强后的堆栈图像序列的特征图在通道维度上拼接.图5 显著性预测模块结构图(其中C

42、 o n v L S TM结构(虚线部分)仅在焦堆栈图像预测模块中使用)Z=c o n c a t F1,F2,FN (3)将拼接后的特征Z输入C o n v L S TM模块1,进一步融合堆栈序列的全局信息,得到显著性预测特征Z.随后,使用11的卷积网络将Z的特征通道降为2,并使用反卷积网络2 1进行上采样,得到与输入图像相同分辨率的显著性检测结果S1pR2 WH.其中S1p中两个通道分别表示将图像预测为显著目标和背景的置信度.3.2 全聚焦图像预测模块 全聚焦图像每个像素都是清晰的,因此本文利用全聚焦图像建模图像区域之间的对比度信息.如图1所示,与焦堆栈图像预测模块相似,全聚焦图像预测模块

43、主要由特征提取模块和特征融合模块组成.其中,特征提取模块与焦堆栈图像特征提取模块相同,通过特征金字塔实现高分辨率的特征编码以保留输出显著图的细节信息,同时使用R F B模块加强特征的全局性.随后,通过特征融合模块提取图像特征区域之间的对比度信息,用于预测最终的2891计 算 机 学 报2 0 2 3年显著图.特征融合模块基于空间注意力机制实现,可以视为联合序列和空间的自注意力机制在处理N为1的序列时的特例.与焦堆栈图像的预测不同,全聚焦图像预测模块不需要使用C o n v L S TM模块(图5虚线部分),而是直接将注意力模块增强后的特征送入11的卷积网络将通道降为2,再用反卷积网络上采样得到

44、显著性检测结果S2p.3.3 融合模块 本文将焦堆栈图像预测模块与全聚焦图像预测模块预测的结果融合,以充分利用两类图像数据的互补信息.记焦堆栈图像预测模块与全聚焦图像预测模块输出的显著性检测结果分别为S1p与S2p,本文将两个模块的预测结果线性融合:Sp=S1p+(1-)S2p(4)其中0,1.最 后,对Sp在 通 道 维 度 使 用s o f t m a x概率化,得到融合后的显著图.3.4 损失函数 在训练焦堆栈图像预测模块时,首先,将焦堆栈图像预测模块和全聚焦图像预测模块的输出S1p和S2p在通道维度上使用s o f t m a x函数概率化,得到显著图S1和S2.随后,使用交叉熵损失函

45、数和I o U损失函数分别指导S1和S2的训练.具体地,本文对焦堆栈图像预测模块和全聚焦图像预测损失函数为:L o s s=2k=1LC E(Sk|Y)+LI o U(Sk|Y)(5)其中:LC E(S|Y)=-1nni=1yil o g(Si)(6)LI o U(S|Y)=1-ni=1yi*Sini=1(yi+Si-yi*Si)(7)其中S1i和S2i分别是S1和S2第i个像素的显著值,Y=yini=1是真实显著图,n为显著图的像素总数.4 实验结果与分析4.1 数据集和评估指标 本文利用L F S D1 3、H F UT-L F S D1 4和DUT-L F S D1 5三个广泛使用的光场

46、数据集对显著目标检测的性能进行评价.其中L F S D数据集1 3是最早提出的光场显著性检测数据集,包含1 0 0组光场图像.H F UT-L F S D数据集1 4则包含2 5 5组光场图像,其中1 0 0组为训练数据.DUT-L F S D数据集1 5是光场显著性领域最大的数据集,包含了 1 4 6 2 组光场图像(其中1 0 0 0组为训练数据,4 6 2组为测试数据),场景较为丰富.其中,1组光场图像由1张真实显著图、1张全聚焦图像和多张焦堆栈图像组成.参照光场显著性检测的一般设置1 6,2 1,4 9-5 0,本文使用 DUT-L F S D训练集和H F UT-L F S D训练集

47、进行模型训练,并分别在 DUT-L F S D的测试集和L S F D全集测试.为评估显著性检测的质量,我们使用E-m e a s u r e2 4、S-m e a s u r e2 5、F-m e a s u r e2 6和 MA E2 3等标准的评估指标验证模型的预测效果.4.2 实施细节 对焦堆栈图像预测模块,本文使用 S G D 优化算法进行训练1 6,权值衰减系数为0.0 0 0 5,动量为 0.9 9,初 始 学 习 率 为1 0 e-8,迭 代 次 数 设 置 为 5 0 0 0 0 0,批处理大小(b a t c h s i z e)为 1.对于全聚焦图像预测模块,本文参照显著

48、性检测工作的常用方法1 6,2 8,3 5,采用A d a m优化器进行训练.初始学习率设为 0.0 0 0 1,训练周期(e p o c h)设为 4 5.学习率在第1 5个训练周期之后开始衰减,每完成 1 个训练周期学习率衰减为当前的 0.9 9,批处理大小为1 0.考虑到公开数据集的规模相对较小,本文在训练中采用光场显著性模型常用的数据增强方式5 1,即对图像随机裁剪、旋转和镜像翻转.另外,本文参照常用的数据增强方法对图像进行色度和对比度变化以进行数据增强.4.3 消融实验与分析4.3.1 联合序列和空间的自注意力机制的有效性为验证联合序列和空间的自注意力机制的有效性,针对焦堆栈数据设计

49、了4种不同的特征融合结构与本文提出的方法进行对比.第一种结构对每组堆栈特征仅在堆栈维度采用自注意力机制进行特征融合,不引入空间上下文信息.该结构等价于将联合序列和空间的自注意力机制的空间窗口m设为1.第二种结构对每张焦堆栈图像的特征独立地采用空间自注意力机制进行特征增强,不进行序列维度的特征融合.第三种结构先采用序列注意力机制融合堆栈序列特征,再采用空间注意力机制融合空间上下文信息.第四种结构先采用空间注意力机制融合空间上下文信息,再采用序列注意力机制融合堆栈序列特征.不同结构性能对比结果如表1所示.其中基准模型不采用任何额外的注意力融合策略.38919期姜文晖等:联合序列和空间注意力机制的光

50、场显著性检测算法表1 D U T-L F S D数据集上不同的焦堆栈序列融合方式对显著性检测性能的影响方法DUT-L F S DL F S DMA EF-m e a s u r e E-m e a s u r e S-m e a s u r e MA EF-m e a s u r e E-m e a s u r e S-m e a s u r e 基准0.0 3 6 20.9 1 6 10.9 4 3 20.9 1 1 90.0 8 1 00.8 6 2 70.8 7 2 10.8 2 9 3序列注意力0.0 3 5 40.9 1 6 90.9 4 4 50.9 1 3 70.0 7 9 70

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服