收藏 分销(赏)

联合组间对抗数据混合与变换器学习的协同显著性检测.pdf

上传人:自信****多点 文档编号:652417 上传时间:2024-01-23 格式:PDF 页数:17 大小:1.62MB
下载 相关 举报
联合组间对抗数据混合与变换器学习的协同显著性检测.pdf_第1页
第1页 / 共17页
联合组间对抗数据混合与变换器学习的协同显著性检测.pdf_第2页
第2页 / 共17页
联合组间对抗数据混合与变换器学习的协同显著性检测.pdf_第3页
第3页 / 共17页
亲,该文档总共17页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第4 6卷 第9期2 0 2 3年9月计 算 机 学 报CH I N E S E J OUR NA L O F C OMP UT E R SV o l.4 6 N o.9S e p.2 0 2 3 收稿日期:2 0 2 2-0 6-1 5;在线发布日期:2 0 2 3-0 1-1 0.本课题得到科技创新2 0 3 0-“新一代人工智能”重大项目(N o.2 0 1 8 AAA 0 1 0 0 4 0 0)、国家自然科学基金项目(N o.6 1 8 7 6 0 8 8,6 1 8 7 2 1 8 9,6 2 2 7 6 1 4 1,U 2 0 B 2 0 6 5,6 1 5 3 2 0 0 9)

2、、江苏省3 3 3工程人才项目(N o.B R A 2 0 2 0 2 9 1)、视觉合成图形图像技术国家级重点实验室开放研究项目(N o.2 0 2 1 S C UV S 0 0 1)资助.吴 泱,硕士研究生,主要研究领域为协同显著性检测.E-m a i l:w u y 9 8 4 1 91 6 3.c o m.宋慧慧(通信作者),博士,教授,主要研究领域为视频目标分割、图像超分.E-m a i l:s o n g h u i h u i n u i s t.e d u.c n.张开华,博士,教授,中国计算机学会(C C F)会员(4 2 0 8 9 M),主要研究领域为协同显著性检测、视觉

3、跟踪.陈 虎,博士,副教授,主要研究领域为计算机视觉、医学成像及医学图像处理.刘青山,博士,教授,中国计算机学会(C C F)高级会员,主要研究领域为视频内容分析与理解.联合组间对抗数据混合与变换器学习的协同显著性检测吴 泱1)宋慧慧1)张开华2)陈 虎3)刘青山2)1)(南京信息工程大学自动化学院 南京 2 1 0 0 4 4)2)(南京信息工程大学计算机与软件学院数字取证教育部工程研究中心 南京 2 1 0 0 4 4)3)(四川大学视觉合成图形图像技术国家级重点实验室 成都 6 1 0 0 4 1)摘 要 协同显著性检测旨在发现并分割出一组图像中相同语义类别的前景显著目标.当前基于深度学

4、习的协同显著性检测方法主要存在两方面局限:(1)训练数据中仅含有单一显著目标,无法为模型训练提供对抗样本,导致其泛化性受限,难以有效应对未知类别目标、干扰显著目标、嘈杂背景等挑战;(2)现有方法通常利用卷积神经网络提取特征,其感受野受限,无法建模长程依赖关系,限制了所学特征的表征力.为此,本文提出了一种新颖的基于组间对抗数据混合的协同显著性检测变换器,旨在通过纯视觉变换器构建序列到序列的协同显著性检测网络,并使用组间混合后的数据进行对抗训练,以提升模型的泛化性.所设计的网络结构包含数据混合子网络和协同显著性检测变换器两部分.具体而言,在数据混合子网络中,本文设计了目标细化模块,输入类激活图,引

5、导网络以无监督的方式从一组图像中分割出边缘平滑的显著目标作为对抗对象,并通过设计调距模块将对抗对象以最小化重叠的方式混合至另一组图像之中,生成混合训练数据;在协同显著性检测变换器中,本文从序列建模的角度,设计了任务注入器,将组信息图符与显著性信息图符注入序列特征之中,并利用自注意力机制充分捕获特征之间的全局上下文信息.最后,将获得的组特征和显著性特征通过自注意力机制进行充分混合交互,以进一步增强特征的表征力,生成精确的协同显著性检测结果.本文在包含C o s a l 2 0 1 5、C o C A和C o S O D 3 k等三个基准数据集上做了充分的实验评估,与多个领先方法的对比结果充分证明

6、了本方法的优越性能.关键词 数据混合;变换器;协同显著性检测;大数据中图法分类号T P 3 9 1 D O I号1 0.1 1 8 9 7/S P.J.1 0 1 6.2 0 2 3.0 1 8 3 8I n t e r-G r o u p A d v e r s a r i a l M i x u p a n d T r a n s f o r m e r L e a r n i n g f o r C o-S a l i e n c y D e t e c t i o nWU Y a n g1)S ONG H u i-H u i1)Z HANG K a i-H u a2)CHE N H u

7、3)L I U Q i n g-S h a n2)1)(S c h o o l o f A u t o m a t i o n,N a n j i n g U n i v e r s i t y o f I n f o r m a t i o n S c i e n c e a n d T e c h n o l o g y,N a n j i n g 2 1 0 0 4 4)2)(S c h o o l o f C o m p u t e r a n d S o f t w a r e,E n g i n e e r i n g R e s e a r c h C e n t e r o f

8、 D i g i t a l F o r e n s i c s,M i n i s t r y o f E d u c a t i o n,N a n j i n g U n i v e r s i t y o f I n f o r m a t i o n S c i e n c e a n d T e c h n o l o g y,N a n j i n g 2 1 0 0 4 4)3)(K e y L a b o r a t o r y o f F u n d a m e n t a l S c i e n c e f o r N a t i o n a l D e f e n s

9、e o n V i s i o n S y n t h e t i z a t i o n a n d G r a p h i c I m a g e,S i c h u a n U n i v e r s i t y,C h e n g d u 6 1 0 0 4 1)A b s t r a c t C o-s a l i e n c y d e t e c t i o n t a r g e t s a t s e g m e n t i n g t h e c o mm o n s a l i e n t o b j e c t s i n a g r o u p o f r e l e

10、 v a n t i m a g e s.T h e c u r r e n t c o-s a l i e n t o b j e c t d e t e c t i o n m e t h o d s b a s e d o n d e e p l e a r n i n g h a v e t w o l i m i t a t i o n s:(1)T h e r e i s o n l y a s i n g l e t a r g e t i n t r a i n i n g i m a g e s,w h i c h c a n n o t p r o v i d e a d

11、v e r s a r i-a l s a m p l e s f o r t h e m o d e l,m a k i n g t h e m o d e l h a v e p o o r g e n e r a l i z a t i o n p e r f o r m a n c e.Wh e n f a c i n g t h e i n t e r f e r e n c e o f u n k n o w n c l a s s t a r g e t s,s i m i l a r s a l i e n t o b j e c t s,n o i s y b a c k g

12、 r o u n d e n v i r o n m e n t s a n d s o o n,t h e m o d e l i s g r e a t l y l i m i t e d;(2)T h e e x i s t i n g m e t h o d s u s u a l l y u s e c o n v o l u t i o n n e u r a l n e t w o r k s(C NN s)t o e x t r a c t f e a t u r e s.H o w e v e r,t h e C NN s c a n n o t o b t a i n a

13、l a r g e r e c e p t i v e f i e l d w h i c h m a k e s t h e m o d e l u n a b l e t o f u l l y m o d e l t h e l o n g-r a n g e d e p e n d e n c i e s,r e s u l t i n g i n p o o r d i s-c r i m i n a t i v e c a p a b i l i t y o f t h e m o d e l.T o t h i s e n d,w e p r o p o s e a c o-s

14、a l i e n c y d e t e c t i o n t r a n s f o r m e r g u i d e d b y i n t r a-g r o u p a d v e r s a r i a l m i x u p.A i m i n g a t b u i l d i n g t h e c o-s a l i e n c y d e t e c t i o n n e t w o r k f r o m a p e r s p e c t i v e o f s e q u e n c e-t o-s e q u e n c e a n d t r a i n

15、i n g t h e m o d e l o n m i x u p a d v e r s a r i a l d a t a,m a k i n g t h e m o d e l m o r e g e n e r i c.O u r n e t w o r k m a i n l y c o n t a i n s t w o p a r t s,a m i x u p s u b n e t w o r k a n d a c o-s a l i e n c y d e t e c t i o n t r a n s f o r m e r.S p e c i f i c a l

16、l y,i n t h e m i x u p s u b-n e t w o r k,w e p r o p o s e a n o b j e c t r e f i n e m e n t m o d u l e:w e s e t i n p u t c l a s s a c t i v a t i o n m a p s(C AM s)a s g u i d a n c e t o s e g m e n t s a-l i e n t o b j e c t s w i t h s m o o t h e d g e s a s t h e a d v e r s a r i a

17、 l o b j e c t s i n a n u n s u p e r v i s e d w a y;a d i s t a n c e a d-j u s t i n g m o d u l e:t h e a d v e r s a r i a l o b j e c t s a r e m i x e d i n t o a n o t h e r g r o u p o f i m a g e s w i t h t h e m i n i m u m o v e r l a p,c o n s t r u c t i n g t h e m i x e d t r a i n

18、 i n g d a t a.I n t h e c o-s a l i e n c y d e t e c t i o n t r a n s f o r m e r,w e c o n-s t r u c t t h e m o d e l f r o m s e q u e n c e-t o-s e q u e n c e.I n t h i s p a r t,w e d e s i g n a t a s k i n j e c t o r,w h i c h c a n i n j e c t g r o u p i n f o r m a t i o n a n d s a l

19、 i e n c y i n f o r m a t i o n i n t o t h e f e a t u r e s e q u e n c e,a n d w e a d o p t s e l f-a t-t e n t i o n t o f u l l y c a p t u r e g l o b a l i n f o r m a t i o n b e t w e e n f e a t u r e s.F i n a l l y,w e m i x t h e g r o u p i n f o r m a-t i o n a n d s a l i e n c y i

20、 n f o r m a t i o n b y s e l f-a t t e n t i o n,f u r t h e r e n h a n c i n g t h e d i s c r i m i n a t i v e c a p a b i l i t y o f t h e f e a t u r e a n d g e n e r a t i n g t h e P r e c i s e r e s u l t s o f c o-s a l i e n c y d e t e c t i o n.E x t e n s i v e e x p e r i m e n t

21、 s a r e c a r r i e d o u t o n t h r e e b e n c h m a r k d a t a s e t s i n c l u d i n g C o s a l 2 0 1 5,C o C A,a n d C o S O D 3 k,d e m o n s t r a-t i n g s u p e r i o r i t y o f o u r m e t h o d t o s t a t e-o f-t h e-a r t m e t h o d s.K e y w o r d s m i x u p;t r a n s f o r m e

22、 r;c o-s a l i e n t o b j e c t d e t e c t i o n;b i g-d a t a1 引 言协同显著性检测(C o-s a l i e n c y D e t e c t i o n)旨在发现并分割出一组图片中语义类别相同的前景显著目标1.相较于只关注于分割单个目标的显著目标检测任务2,协同显著性检测更具挑战性,因为它需要在存在其他分散注意力物体的干扰下,区分出多幅图像中同时出现的显著物体.尽管如此,随着深度学习的发展,这项任务的研究已取得了长足进步,并被成功应用于一系列计算机视觉任务,如目标分割3、图像检索4、视频显著性检测5等领域.随着卷积神经

23、网络(C NN s,C o n v o l u t i o n N e u r a l N e t w o r k s)6研究的快速发展,涌现出大量相关工作并不断刷新最佳性能7-1 0.这类方法通过一系列创新性 设 计,如 组 信 息 融 合 机 制7、梯 度 引 导 机制9、图像匹配技术1 0等,来学习更加鲁棒的特征表达,以应对传统方法难以提取高级语义特征,导致模型不能有效处理复杂场景中协同显著目标的大尺度表观变化挑战.尽管取得了不错的效果,但是这类基于卷积神经网络的工作存在两方面局限:(1)现有主流方法都是基于经验风险最小化原则1 1,利用神经网络强大的数据拟合能力在训练过程中追求对训练数

24、据的平均误差最小化.这意味着神经网络可轻易过拟合训练数据,但在面对未知类别目标、相似显著目标、嘈杂背景环境等挑战时,泛化性较差,从而导致严重误检(如图1所示,实际场景中存在训练过程中类别未出现的目标,即未知类别目标(骰子组中,骰子为未知类别目标)、干扰显著目标(礼物盒组中,花朵、人物、圣诞树和人为干扰显著目标)、嘈杂背景(怀表组中怀表所处环境背景嘈杂)等挑战,基于卷积神经网络的方法难以有效处理这些挑战).文献1 4 亦指出:即使增加训练数据与模型参数,或者采用强正则化等措施,在经验风险最小化原则下,模型仍更倾向于记忆训练数据而非提升泛化性.这些都极大降低了模型的实际应用价值;(2)现有主流方法

25、通常利用卷积神经网络提取特征,其感受野位于局部滑动窗口之中,导致所提取的特征存在固有局限性,难以捕获关键的全局线索1 5.尽管最近提出了一些措施来弥补这方面缺93819 期吴 泱等:联合组间对抗数据混合与变换器学习的协同显著性检测点,比如采用全连接层1 6、全局池化层1 7、非局部模块1 8等策略融入全局信息.但是,这些操作只局限于某些层中,而整体的卷积神经网络架构不变,导致模型的判别力仍受限.图1 相比于先进方法D C FM1 2和C A D C1 3,本文方法在一系列挑战场景中的表现 为了突破第一类局限,文献1 4 提出了数据混合(M i x u p)增强策略,以提升网络的泛化性.该数据混

26、合策略通过线性加权给定的一对输入图像,生成一幅新的混合图像作为模型输入.在此基础上,文献1 9-2 0 对该数据混合策略进行了改进,在隐藏特征空间中混合输入图像或者以基于局部统计的方式进行数据混合.尽管这类数据增强策略在相关任务上取得了不错的效果,但是,这类简单的数据加权方法并未专门考虑图像中的显著目标区域,导致不能充分提取图像中的显著信息,从而在一定程度上影响了数据混合的有效性.为此,文献2 1 提出了一种基于显著性和局部统计的数据融合方法,以充分利用显著信息来提升数据混合的有效性.文献2 2 提出了一种新的优化策略,在最大化混合示例显著性度量的同时,增大数据之间的差异,以混合更多输入数据.

27、然而,以上两种方法仍存在显著目标遮挡、背景噪声引入过多的问题,难以保证在混合显著目标的同时,最大程度保留图像中的主体背景信息.为此,本文针对协同显著性检测中训练数据存在的问题,即显著目标单一,缺少对抗样本而导致模型泛化性弱,设计了一种新的数据混合策略,以增强模型的泛化性.为了突破第二类局限,最近大热的视觉变换器(V i T,V i s i o n T r a n s f o r m e r)2 3作为一种新的模型范式,致力于解决卷积神经网络框架存在的固有缺陷.V i T2 3具有强大的捕获全局长程依赖关系的能力,便于建模不同区域之间的结构依赖关系,而这种能力对于本任务中建模组内或组间协同显著目

28、标之间的关系至关重要.在此基础上,为了建模局部依赖关系,文献2 4 通过分层递归相邻图符(t o k e n s)建模相邻图符表征的局部结构.文献2 5 采用滑动窗口的方式来兼顾局部信息.然而,这类变换器方法主要用于目标识别任务,其通过学习高级语义特征来预测目标类别标签.高级语义特征的分辨率较低,对大尺度目标表观变化的自适应性较好,适用于对类别标签的估计.与之不同,本任务为像素密集型预测任务,需要高分辨率的浅层特征来恢复空间细节信息.最近,文献1 5 提出了一种基于纯视觉变换器的显著性检测方法,通过融合浅层特征与高级语义特征并改进了T 2 T上采样方式2 4来应对这个挑战.受此启发,本文通过设

29、计一种新颖的任务注入器来将组信息图符和显著性图符融入特征序列,并通过跳跃连接将浅层特征与高级特征进一步融合,从而利用它们之间的互补特性,更精确地预测协同显著目标的掩模.为此,本文提出了一种基于组间对抗数据混合的协同显著性检测变换器.其结构包含数据混合子网络和协同显著性检测变换器两部分.在数据混合子网络中,本文设计了目标细化模块:以类激活图(C AM s,C l a s s A c t i v a t i o n M a p s)2 6为引导,通过无监督学习的方式从一组图中分割出显著目标作为对抗对象,并设计了一个调距模块将对抗对象以最小化重叠的方式混合至另一组图中,生成混合训练数据作为变换器的输

30、入;接着,在变换器中,设计了一个任务注入器,将组信息图符与显著性信息图符注入序列特征之中,并利用自注意力机制充分捕获特征之间的全局上下文信息;最后,将获得的组特征和显著性特征通过注意力机制进行充分混合交互,生成精确的协同显著性目标掩模.在包含C o s a l 2 0 1 52 7、C o C A9、C o S O D 3 k2 8等三个基准数据集上的大量实验结果验证了本方法的有效性.本文的主要贡献总结如下:(1)据我们所知,本文首次提出了一种基于纯视觉变换器的协同显著性检测方法,在使用现有通用数据增强策略的情况下,即能在C o s a l 2 0 1 5、C o C A、C o S O D

31、3 k等三个标准数据集上达到当前领先水平.(2)本文提出了一种类激活图引导的数据混合方法.该方法能够以无监督的方式精细地分割出两组图像中的显著目标来作为对抗对象,并在每组图0481计 算 机 学 报2 0 2 3年像中通过替换对应背景区域混入对抗对象,以生成新的含对抗对象的训练数据.(3)本文在纯视觉变换器中设计了一种新颖的任务注入器:通过学习组信息图符和显著性信息图符,将组信息与显著性信息通过注意力机制进行混合,引导变换器更好地关注于分割协同显著目标.2 相关工作2.1 协同显著性检测 早期的协同显著性检测方法2 9提取图像的低级特征,如G a b o r3 0或S I F T3 1,然后利

32、用图像间这些特征的一致性信息来进行协同显著性检测.其方案主要包括通过流行排序来生成显著性图来捕获图像内的约束2 9,或者使用聚类方法3 2与平移对齐方法3 3来生成全局关联信息.随后,一些工作3 4使用中级特征来处理本任务.所采用的中级特征包括显著性检测或者图像分割的结果.以上方法采用的都是手工提取的特征,难以有效处理真实场景下目标表观的大尺度变化.随着深度学习的兴起,大量相关工作7,9,2 9,3 5-3 9以端到端的方式直接从图像中学习出协同显著区域.其中,文献7 为协同显著性检测设计了一种组协作学习框架,以组的方式探索一组图像特征的联合信息与单个图像特征的信息.文献3 5 提出了一种分层

33、设计的协同显著性检测框架,由卷积神经网络生成的协同显著性图经由标签平滑再处理.文献9 提出了一种梯度引导的协同显著性检测模型,利用图像梯度信息使协同显著特征得到更多关注.文献3 6 提出了一种图卷积框架来处理此任务.文献3 7 提出了一种组与组之间协作学习的策略,以通过探索组与组之间的关系进行特征学习,这些工作都取得了不错的结果.2.2 数据混合 为了防止深度神经网络对训练数据的过拟合,数据增强4 0被提出,并被广泛应用于网络模型的训练.传统方法4 1大都依赖于数据或任务的转换来生成新数据,缺乏对不同图像间关系的建模,限制了模型泛化力的提升.为此,文献1 4 提出了数据混合策略,可独立应用于各

34、种数据类型与任务,极大提升了模型的泛化力与鲁棒性.文献1 4 在两个输入数据之间进行线性插值,并利用具有相应软标签的混合数据来训练模型.在此基础上,文献1 9 和文献2 0分别在隐藏的特征流型空间中应用数据混合,以及通过剪切和拼接图像进行数据混合.文献2 1 提出了一种基于显著性和局部信息统计的数据混合方法,能较好地保留显著目标区域.文献2 2 提出了一种基于离散优化的数据增强方法,在所有输入数据中找到显著区域集合的最佳组合.2.3 视觉变换器 文献4 2 首次在机器翻译领域提出了基于变换器的编码和解码结构.最近,越来越多的工作将变换器引入计算机视觉任务并取得了优异的效果.文献4 3 结合了卷

35、积神经网络和变换器来处理目标检测任务.文献4 4 也采用这种结构来处理全景分割任务.它们都采用卷积神经网络提取特征,再使用变换器捕获特征的长程依赖关系.V i T2 3首次在计算机视觉领域设计纯变换器结构,将输入图片裁剪为若干图符,从序列的角度处理图像分类任务.文献4 5提出了一种金字塔结构,将V i T调整为适应密集预测任务的结构.然而,变换器对局部信息的建模能力较差,为此,文献2 4 使用一种T 2 T模块对局部特征结构进行建模,从而生成多尺度标记特征.文献2 5 采用滑动窗口的方式来兼顾局部信息,以便更好地融合全局与局部特征信息.3 本文方法如图2所示,本文模型主要包含数据混合子网络和变

36、换器两部分.在训练阶段,输入两组图像o1=Io1,n 3 HWNn=1和o2=Io2,n 3 HWNn=1其中,每组包含N张有相同前景显著目标的相关图像.本文的目标是学习一个前馈网络f,来预测出两组图像中的协同显著目标掩膜 =On0,11 HW2Nn=1:=f(o1,o2)(1)首先,本文设计了一个数据混合子网络fm i x u p,o1和o2同时输入该网络,生成混合图像组m1=Im1,n 3 HWNn=1,m2=Im2,n 3 HWNn=1:m1,m2=fm i x u p(o1,o2)(2)具体如图3所示,fm i x u p由分类网络fc l s、目标细化模块fr e f和调距模块fa

37、d j等三部分组成.首先,o1和o2同时输入文献4 6 预训练过的D e n s e n e t-1 6 9网络,本文抛弃其最后的全连接层作为分类网络fc l s,经由fc l s得到对应的两组类激活图c a m1=Ic a m1,n(0,1)1 HWNn=1以及c a m2=Ic a m2,n(0,1)1 HWNn=1:c a m1,c a m2=fc l s(o1,o2)(3)然后,c a m1,c a m2通过11卷积得到对应类别向量 y1 1 7 8和 y2 1 7 8.同时,将两组类14819 期吴 泱等:联合组间对抗数据混合与变换器学习的协同显著性检测图2 所提协同显著性检测变换器

38、的网络结构图图3 数据混合子网络图激活图与原图一同送入目标细化模块fr e f,生成待分割目标边界清晰的掩膜,再经由调距模块fa d j生成混合后的数据m1和m2:m1,m2=fa d j(fr e f(o1,o2,c a m1,c a m2)(4)随后,m1,m2 被送入协同显著性检测变换器ft r a n s以进行后续处理:第一步,通过编码器将输入数据m1,m2裁剪为图片块,输入预训练过的变换器骨干网络2 4,获取特征序列11,12.第二步,通过任务注入器中的组信息图符G和显著性信息图符G,分别学习输入图片组中的组共性特征与显著性特征,经自注意力层和显著注意力层捕获全局信息并进行特征融合.

39、第三步,在解码器阶段,特征序列经过上采样得到91,92.最后,将91,92 按通道维度叠加,再依次通过自注意力层和显著注意力层交互信息,预测出协同显著图.在测试阶段,输入一组图像=IonNn=1,不需要经过数据混合,直接经过训练好的ft r a n s,得到对应的一组协同显著性图:=OnNn=1=ft r a n s()(5)本文的创新点在于所设计的类激活图引导无监督学习的数据混合和针对协同显著性检测的纯视觉变换器,在接下来的章节中将详细介绍这两部分.3.1 类激活图引导无监督学习的数据混合子网络 当前协同显著性检测的训练图像存在协同显著目标单一、对抗目标数量少的特点.模型在这种图象上训练很容

40、易过拟合,导致泛化性差.鉴于此,本文设计了一种能生成组间对抗样本的数据混合子网络.如图3所示,本文将不同类别的两组图片输入分类网络,生成对应的类激活图.尽管类激活图具有丰富的位置信息和精确的语义信息,但是分割结果粗糙,难以恢复出显著目标的精细边缘.受文献4 7 的启发,本文从像素分类的角度,以无监督学习的方式分割显著目标,将拥有相同外观属性的像素归于同一类别.根据协同显著性检测的任务特性,仅需将像素归为前景与背景两类.在文献4 7 和像素自适应卷积(P A C)4 8的基础上,本文设计了目标细化模块,运用像素级相似性核(P i x e l-l e v e l a f f i n i t y k

41、 e r n e l)迭代更新每一个像素,以细化类激活图.同时,本文也设计了调距模块来调整一组图中待混合显著目标的位置,以尽可能地避免图中显著目标之间互相遮挡.2481计 算 机 学 报2 0 2 3年3.1.1 目标细化模块为了更加精确地分割边缘,本文利用像素自适应卷积.根据其中的双边滤波思想,不仅考虑空间域中的像素点位置,亦考虑像素域内的像素值差异,并将像素点投影到高维空间,在高维空间中减轻滤波后边缘模糊的影响.如图4所示,本文将图像I对应的类激活图Ic a m定义为其初始显著性掩膜M0(0,1)1 hw,滤波器定义为k.在第t个迭代周期,M在位置(i,j)处像素的更新公式为图4 数据混合

42、具体步骤Mti,j=(l,n)(i,j)i,j,l,nMt-1l,n(6)其中,(i,j)表示位置(i,j)的邻域,(l,n)表示邻域内各点.滤波器k定义为k(Ii,j,Il,n)=-|Ii,j-Il,n|2i,j(7)其中,Ii,j表示I在位置(i,j)处的像素值,i,j为原图像素值的标准差.在此基础上,用归一化指数函数(s o f t m a x)得到(i,j)与其邻域内各点(l,n)的最终亲和值i,j,l,n:i,j,l,n=ek(Ii,j,Il,n)(l,n)(i,j)ek(Ii,j,Il,n)(8)其中,k为图像在R G B三个通道上的平均亲和值.经过迭代细化的显著性掩膜已具有较为清

43、晰的边缘信息,但其值分布于0 1.为了将其二值化以更好地分割原图像,本文设计了一个二值化门控激活器.当原掩膜满足一定条件时,将其像素置为1,否则,置为0,公式为Bi,j=1,Mi,ji=h,j=wi=1,j=1Mi,jhw0,o t h e r w i s e (9)其中,超参数用来调节二值化门控激活器对像素的激活程度.根据表7中的实验效果,本文将设置为1.1,将迭代周期t设置为8.图5展示了目标细化模块中各阶段的可视化效果.不难发现,类激活图具备丰富的位置信息.但是,边缘信息较差.本文通过迭代细化较好地恢复出掩膜的边缘.但是,其存在目标内部响应值过低的问题,不利于分割原图中的显著目标.而掩膜

44、进一步通过二值化门控激活器后,能在激活目标内部响应的同时,进一步滤除部分噪声,更好地二值化掩膜,以精确分割出显著目标.图5 目标细化模块各阶段可视化效果图3.1.2 调距模块在模型得到二值掩膜B后,将其与原图逐通道按对应元素相乘,即可分割出显著目标.为尽可能地避免一对图中的显著目标互相遮挡,本文以目标框的形式定位显著目标,对二值化掩膜B分别进行从上至下和从左至右的遍历,得到上下左右四个方向上最边缘的像素位置,并将其分别往上下左右四个方向外扩2个像素单位定位其上下左右四条边线,即可得到显著目标的定位框,定义目标框尺寸分别为h1w1,h2w2,定义为两个目标框中心的距离,当0.8(h1+h2)2+

45、(w1+w2)22时予以拼接.对两组图片成对数据混合,最终得到混合完成数据组m1和m2,并将其输入协同显著性检测变换器ft r a n s,进行进一步的操作.在数据混合子网络中,本文采用分类损失函数c l s监督学习类别向量y1和y2,以更新其网络参数,34819 期吴 泱等:联合组间对抗数据混合与变换器学习的协同显著性检测引导模型适应本任务的数据特性.c l s由交叉熵损失c e组成:c l s=c e(y1,yg t)+c e(y2,yg t)(1 0)其中,yg t 1 7 8为类别标签,交叉熵损失c e定义为c e(yn,yg t)=-Nn=1yg tl o g(yn)(1 1)3.2

46、 协同显著性检测变换器 图2中展示的本文变换器的整体结构主要包括四个阶段:数据混合基础上的数据读取器、编码器、任务注入器、解码器.接下来将具体介绍后面三个结构.3.2.1 编码器为了节约训练开销,本文采用预训练好的T 2 T-V i T2 4模 型 作 为 主 干 网 络.输 入 一 个 图 符 序 列,T 2 T-V i T迭代应用T 2 T模块对序列编码.如图6所示,T 2 T模块由重构和展开两部分组成,以充分交互输入数据0的局部信息.首先,输入数据0经过多头注意力(MHA,M u l t i-h e a d A t t e n t i o n)和多层感知机(ML P,M u l t i-

47、l a y e r P e r c e p t r o n)层4 2,得到序列0.然后,将0以s个重叠区、p个0填充(p a d d i n g)的形式重构成kk个特征图符02d以交互局部信息.随后,将02d展开成序列的形式0u n,再经过MHA和ML P层,形成新的序列1.图6 T 2 T模块T 2 T-V i T中的重构和展开操作对相邻特征图符之间的局部关系进行建模,克服了V i T忽视充分利用局部信息的缺陷,并充分利用了空间先验信息来提升分辨率.T 2 T模块可迭代多次,每次都将先前的图符序列转换为新的序列,从而充分建模所有图符中的长程依赖关系.本文参考了文献1 5 的设计:将输入图片以

48、块状形式输入T 2 T模块,并迭代两次.将三次裁剪的尺寸设置为k=7,3,3,重叠区个数设置为s=3,1,1,填充尺寸设置为p=2,1,1.由此,可获得多尺寸序列0 bNl0c,1 bNl1c,2 bNl2c.其中,b为组的数量,N为每个图片组包含的图片的数量,l0=H4W4,l1=H8W8,l2=H1 6W1 6,c为特征通道数,序列的长度不断缩短.此外,本文参照文献4 2 将余弦位置嵌入到多尺寸序列之中,以编码位置信息.3.2.2 任务注入器本文针对协同显著性检测任务的特性设计了组信息 图 符G bN 1 d和 显 著 性 图 符SbN 1 d,其中d为特征通道数,设置为3 8 4.本任务

49、需要发现并分割出一组图片中语义类别相同的前景显著目标,因此,如图2所示,本文首先将组信息图符G bN 1 d嵌入2,并利用自注意力层融合带有全局信息的组信息图符.在此基础上,本文将G输入ML P层,以进一步交互组信息,并将交互完成的G嵌入回图符序列4以避免模型在早期阶段就丢失了对同组信息的关注.S也经过相同的步骤处理并得到6,以引导模型在关注组信息的前提下,进一步将显著性信息融入图符序列.图7所示为显著注意力层的结构图.不同于自注意力层4 2,输入的特征序列i n将被按通道维度拆分为i n_s和i n_f,i n_s=i n(:,0),i n_f即为i n余下部分.显著性注意力层将经过全连接层

50、处理后的i n_s作为查询(q u e r y),i n_f经全连接层处理后作为键(k e y)和值(v a l u e),以增强对显著性信息的建模.图7 显著注意力层图8为展示任务注入器有效性的示例.在“手风琴组”中可以观察到,未注入显著性图符时,由于没有显著性信息的引导,模型对目标边缘的分割并不精确,会部分地将显著目标周围的无关区域分割出来.未注入组信息图符时,“闹钟组”和“手风琴组”均受到了显著但非协同的对抗目标的干扰,错误地定位了协同目标,分割效果较差.当组信息图符和显著性图符均未注入时,模型的表现最差,出现了协同目标定位错误、边缘分割模糊的问题,这表明在协同显著目标外观变化巨大、背景

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服