基于Transformer的图像抠图模型研究.pdf

资源描述

1、第3 8卷第3期青岛大学学报(工程技术版)V o l.3 8 N o.3 2 0 2 3年 9 月J O U R N A L O F Q I N G D A O U N I V E R S I T Y(E&T)S e p.2 0 2 3文章编号:1 0 0 6 9 7 9 8(2 0 2 3)0 3 0 0 0 9 0 7;D O I:1 0.1 3 3 0 6/j.1 0 0 6 9 7 9 8.2 0 2 3.0 3.0 0 2基于T r a n s f o r m e r的图像抠图模型研究曾碧凝,王国栋(青岛大学计算机科学技术学院,山东青岛 2 6 6 0 7

2、1)摘要:针对图像抠图模型存在的体积大以及生成结果精度低的问题,本文基于T r a n s f o r m e r对图像抠图模型进行研究。以简单的非参数运算及高效的傅里叶变换为特征混合器,消除T r a n s f o r m-e r的体积弊端。此外,为处理因维度变换而频繁使用的重塑操作对速度的减缓,将编码器设计为由高效抠图(e f f i c i e n t m a t t i n g,EM)块和补丁嵌入块堆叠而成的局部尺寸一致结构。同时,为证明本方法的高效性,将本方法与最先进的模型在C o m p o s i t i o n-1 k数据集上,进行对比分析。分析结果表明,与提出C o m p

3、 o s i t i o n-1 k数据集的D e e p I m a g e M a t t i n g模型相比,本模型的均方误差(m e a n s q u a r e e r r o r,M S E)降低了9.01 0-3,绝对误差和(s u m o f a b s o l u t e d i f f e r e n c e,S A D)降低了2 3.1。与基线模型MG M a t t i n g模型相比,本模型的参数量和浮点运算次数(f l o a t i n g-p o i n t o p-e r a t i o n s p e r s e c o n d,F L O P s)成倍下

4、降,证明本方法性能较高,有效解决了图像抠图问题。该研究具有广阔的应用前景。关键词:图像抠图;T r a n s f o r m e r;傅里叶变换;局部维度一致中图分类号:T P 3 9 1.4 1 文献标识码:A 收稿日期:2 0 2 3 0 2 0 9;修回日期:2 0 2 3 0 4 0 8基金项目:山东省自然科学基金资助项目(Z R 2 0 1 9 MF 0 5 0)作者简介:曾碧凝(1 9 9 8),女,硕士研究生,主要研究方向为计算机视觉。通信作者:王国栋(1 9 8 0),男,博士,教授,主要研究方向为人工智能和计算机视觉等。E m a i l:d o c t o r w g d

5、 g m a i l.c o m 图像抠图是一项通过给定图像生成精细的前景蒙版图(a l p h a m a t t e),以此分离主要部分所在区域的任务。它是图像编辑和视频处理中必不可少的技术,该技术应用于线上课程或线上会议的虚拟背景中,也应用于电影场景特效制作以及工业精密仪器零件制作等各大领域。传统方法中,主要通过基于采样的方法得知未知像素附近的已知前景和背景值,以此得到相应的a l p h a m a t t e1 2。但由于局部采样算法存在样本丢失的问题,后期工作采用全局采样的方法以扩大采样范围,此后,基于传播的方法不再直接估计前景和背景颜色,而是在图像空间上进行某些假设,同时基于这些

6、假设建立模型并求解,如使用非局部原理,通过k个最近的相邻像素匹配非局部区域3。由于传统的方法过于依赖颜色特征,从而导致语义信息的缺失,因此许多研究将卷积神经网络(c o n v o l u t i o n a l n e u r a l n e t w o r k,C NN)应用到图像抠图中。T ANG J W等人4将采样法与深度学习相结合,通过深度神经网络评估图层颜色;XU N等人5提出两层级的神经网络结构,发布了图像抠图数据集C o m p o s i t i o n-1 k;YU Q H等人6提出了渐进细化模块(p r o g r e s s i v e r e f i n e m o

7、d u l e,P RM),在上采样过程中对未知区域逐步进行细化。T r a n s f o r m e r7在自然语言处理领域取得了突出成果,越来越多的研究将目光投向下游工作视觉任务。随着视觉转换器8的出现,人们更加意识到它在计算机视觉领域中的潜力,甚至有取代C NN之势。目前,基于T r a n s f o r m e r的架构已应用于视觉领域的各个分支,而将其应用于图像抠图也必将效果显著。由于T r a n s f o r m e r使用的全局自注意力方法计算量较大,且其性能依赖于大规模的训练数据,导致其与轻量级C NN相比,在模型尺寸上仍处于劣势。目前,已有许多不同的方法尝试构建更轻量

8、更高效的架构,B.G R AHAM等人9采用卷积层提取初步特征,快速减小图像尺寸;R AO Y M等人1 0引入稀疏注意力,降低了计算成本;CHE N Y P等人1 1结合轻量级M o b i l e N e t块和多头自注意力青岛大学学报(工程技术版)第 3 8 卷(m u l t i-h e a d s e l f-a t t e n t i o n,MH S A)块,显著减少了参数数量。但还未出现将体积轻且效率高的T r a n s f o r m-e r应用到图像抠图领域中的算法。因此,本文提出了一种基于T r a n s f o r m e r的图像抠图模型,编码器

9、部分由EM块和补丁嵌入块组成,为了加快因维度变换所减缓的速度,模型呈现局部维度一致的结构。其始于一个四维功能块,将简单的池化作为特征混合器,有效提取低级特征。当通道数通过唯一一次重塑操作降至三维后,特征混合器将变换为基于傅里叶变换的自适应傅里叶神经算子(a d a p t i v e f o u r i e r n e u r a l o p e r a t o r,A F-NO)1 2,使其在频域内更彻底、更全面地融合特征信息,有效提高了精度和速度,解码器部分使用MG M a t-t i n g6中的简单卷积结构。本文在常用的图像抠图数据集C o m p o s i t i o n-1 k上

10、进行评估,证明本方法已达到较低的误差性能。该研究在图像抠图领域具有重要意义。1 基于T r a n s f o r m e r的图像抠图模型1.1 网络结构基于将T r a n s f o r m e r应用于图像抠图方向的考虑,本文提出了E f f i c i e n t M a t t i n g的设计。E f f i c i e n t M a t-t i n g的整体架构如图1所示。图中,Ci表示每个阶段的宽度,Ni表示每个阶段的块数。图1 E f f i c i e n t M a t t i n g的整体架构 E f f i c i e n t M a t t i n g是具有快捷

11、连接层的典型编码器-解码器结构。编码器由EM块和补丁嵌入块堆叠而成的局部维度一致结构,4 D块的特征混合器为池化,3 D块的特征混合器为A F NO,有效地降低参数量和计算量,从而适配更多服务器,保持较高性能。而编码器层的中间特征,通过快捷连接层直接传递到相应的解码器层,在解码器中使用非常简单的结构6,带有卷积层和上采样层,最终得到理想的效果。图2 A F N O计算过程1.2 编码器1)高效的特征混合器。在构建基于T r a n s f o r m e r的模型时,特征混合器至关重要。目前,很多资源受限的机器不支持复杂的特征混合器,如S w i n T r a n s f o r m e r

12、1 3中的移动窗口算法。此外,无论是MH S A还是多层感知器,都会随着图像尺寸的增加带来复杂性的二次增长,基于工作模型,通常考虑中间特征相对较小的分辨率,所以这种设计会限制下游密集任务的应用,如分割、检测等。因此本网络选择池化及基于傅里叶变换的A F NO1 4,选择池化是因为它的简单性和效率,而基于傅里叶变换的A F NO是为了更好的性能。A F NO计算过程如图2所示。图中h,w,d,k,X,W分别表示高度、宽度、通道数、块数、输入特征、复数权重。首先做2 D离散傅里叶变换,将输入的特征从空间域转化到频域,让很多原来难以捕捉的特01 第3期曾碧凝,等:基于T r a n s f o r

13、 m e r的图像抠图模型研究征无处隐藏。其次是通道混合,计算时在权重上施加一个块对角结构,将其分为k个大小为d/kd/k的权重块,这样既可解释,又增加了计算并行性。此外,为解决由静态权重导致的无法灵活适应输入分辨率变换的问题,A F NO采用两层感知器,使特征之间相互作用,决定是否通过某些低频或高频模式,从而具有较强的自适应性。A F NO还使用了软阈值算法,使特征尽量稀疏化,即S(x)=s i g n(x)m a xx-,0(1)式中,是控制稀疏度的调节参数。提升后的稀疏度还可以正则化网络,提高鲁棒性。最后通过2 D逆傅里叶变换,将特征从频域转化回空间域,在大幅降低了参数量和计算量的同时,

14、精度也得到了明显提升。2)局部维度一致的结构。为了减少频繁重塑操作带来的延迟,本文提出了一种局部维度一致的设计方案。该设计将网络分割为四维分区和三维分区2部分,其中池化操作在四维张量上执行,线性投影和A F-NO在三维张量上执行,如图1所示。首先对输入图像进行2个33卷积处理(步长为2)作为补丁嵌入,其次网络从四维分区开始,使用简单的池化作为特征混合器来提取低级特征。而三维分区应用于最后阶段,在处理完所有四维块后,只执行一次性重塑操作,以转换维度大小,并进入三维分区,三维块遵循A F NO算法。本模型只在最后阶段使用三维块的原因:一是由于A F NO的计算量比池化高许多,因此早期集成将导致计算

15、成本大大增加;二是将全局性的傅里叶变换应用于最后阶段符合直觉,即网络的早期阶段捕获低级特征,而后期阶段则学习长期依赖关系。1.3 解码器在解码器中,使用P RM6从粗到细的方式生成最终高精度的a l p h a m a t t e。首先解码器会在不同层分别输出分辨率为输入分辨率的1/8,1/4,1/1的3个a l p h a m a t t e,再将其全部调整至与输入分辨率相同。然后通过P RM有选择性地融合来自前一个层级l-1和当前层级l的输出结果,并逐步细化不确定区域。具体地说,首先对前一层级的输出l-1进行上采样,以匹配当前层级l的原始输出 l的大小,然后通过对其进行a l p h a映

16、射,为当前层级l生成自导掩膜gl,将其预测为确定区域的像素(前景或背景),定义为0,不确定区域定义为1,即gl(x,y)=1 i f 0l-1(x,y)10 o t h e r w i s e(2)最后l-1的置信区域不做任何改变,根据gl,将l-1的非置信区域替换为当前层级l原始输出的像素,以获得当前层级最终更新的l,即l=lgl+l-1(1-gl)(3)这样,既可以保留先前层级的置信区域,也可以确保当前层级只需专注于细化不确定区域。1.4 损失计算将损失函数定义为3种损失函数的加权总和,这3种损失函数分别为L1损失、合成损失7和拉普拉斯损失1 9。损失计算为Lt o t a l=L1+Lc

17、 o m p+Ll a p(4)式中,L1是真实a l p h a m a t t e和预测a l p h a m a t t e之间的绝对差;Lc o m p是根据真实前景、背景和预测的a l p h a m a t t e,计算得出的真实图像和合成图像之间的绝对差;Ll a p为通过捕获局部和全局差异,测量a l p h a m a t t e拉普拉斯金字塔表示的差异。2 实验结果及分析2.1 数据集C o m p o s i t i o n-1 k数据集为训练集提供了4 3 1张前景对象图像以及对应的真实a l p h a m a t t e,M S C O-C O1 4作为背景图像与前

18、景图像进行合成,其中N=1 0 0(代表1张前景与1 0 0张不同背景合成为不同的图像);而测试集中有5 0个前景图像以及其真实的a l p h a m a t t e,与训练集不同的是背景图像在P A S C A L VO C 2 0 1 21 5中是预先定义的,其中N=2 0,即共有1 0 0 0个测试样本。在实验中,使用官方提供的评价代11青岛大学学报(工程技术版)第 3 8 卷码7评估2个主定量指标,以检验本模型的S A D和M S E。2.2 实验环境与参数设置本实验开发环境为W i n d o w s 1 0操作系统,G P U型号为NV I D I A G e

19、F o r c e R T X 3 0 9 0。实验在P y C h a r m平台下,使用深度学习框架p y t o r c h 1.7.0-g p u版本进行,C UD A版本为1 1.0。本模型以端到端的方式在图像抠图数据集C o m p o s i t i o n-1 k上进行训练。采用三分图(t r i m a p)和R G B图像作为网络输入,即输入通道的数量为6,将编码器中间特性通过由带有归一化层的33卷积而成的快捷连接层传递给解码器层,对于解码器,遵循基于C NN的简单结构6,具有33卷积层和上采样层。另外,值得注意的是,快捷连接层和解码器层都是随机初始化,训练时,在1个g p

20、 u上将网络输入图片尺寸设置为5 1 25 1 2,而测试时,实验是在未确定统一大小的测试集上执行。将批量大小设置为1 0,学习率初始化为41 0-4。采用1=0.5和2=0.9 9 9的A d a m优化器。此外,本模型不需要加载任何预训练模型,设置了4 0 0 0 0 0个e p o c h,每5 0 0 0个e p o c h,则验证1次在测试集中的效果,记录S A D和M S E的值,并根据M S E的数值进行比较,一旦后面的结果优于先前保存的模型,则更新此模型为最佳模型。2.3 实验结果与对比分析1)M S E和S A D。将本模型在C o m p o s i t i o n-1 k

21、数据集上与最先进的模型进行比较,不同模型在C o m-p o s i t i o n-1 k测试集的结果对比如表1所示。表1 不同模型C o m p o s i t i o n-1 k测试集的结果对比模型名称C o m p o s i t i o n-1 k均方误差绝对误差和模型名称C o m p o s i t i o n-1 k均方误差绝对误差和文献1 6C l o s e d-F o r m M a t t i n g9 11 0-31 6 8.1文献2 4A 2 U8.21 0-33 2.2文献1 7L e a r n i n g B a s e d M a t t i n g4 81

22、 0-31 1 3.9文献2 5HDM a t t7.31 0-33 3.5文献3KNN M a t t i n g1 0 31 0-31 7 5.4文献6MG M a t t i n g6.81 0-33 1.5文献5D e e p I m a g e M a t t i n g1 41 0-35 0.4MG M a t t i n g-t r i m a p*5.71 0-32 8.9文献1 8I n d e x N e t1 31 0-34 5.8MG M a t t i n g-t r i m a p,r e s 5 0*5.41 0-32 8.4文献1 9A d a M a t t

23、i n g1 01 0-34 1.7文献2 6T I M I N e t6.01 0-32 9.1文献4S a m p l e N e t9.91 0-34 0.4文献2 7S I M5.81 0-32 8.0文献2 0C o n t e x t-Aw a r e M a t t i n g8.21 0-33 5.8文献2 8D I I M1 0.01 0-33 9.2文献2 1HA t t M a t t i n g7.01 0-34 4.0文献2 9P I I AM a t t i n g9.01 0-33 6.4文献2 2G C A M a t t i n g9.11 0-33 5.3本

24、文(E f f i c i e n t M a t t i n g)5.01 0-32 7.3文献2 3F i n e-G r a i n e d M a t t i n g9.01 0-33 7.6 由表1可以看出,与提出C o m p o s i t i o n-1 k数据集的D e e p I m a g e M a t t i n g5模型相比,本模型M S E降低了9.01 0-3,S A D降低了2 3.1。不仅如此,与其他先进方法相比,本模型的评估分数都有不同程度的提升,代表本文方法实现了最佳性能。由于本研究的许多实验细节都遵循于MG M a t t t i n g6,所以将其作

25、为比较的基准。但MG M a t t t i n g6并没有使用t r i m a p作为额外输入,而是选择了二进制自导掩膜。因此,为了进行公平的比较,使用t r i m a p重新训练了与MG M a t t t i n g6相同的模型以及更大的模型(R e s N e t-5 02 7主干),并将它们设为基线进行对比(在表1中标记为*)。不将语义图像抠图2 7作为基线的原因是它使用了消光模式(m a t t i n g p a t t e r n)类作为附加语义信息。2)参数量和浮点运算次数。参数和浮点运算次数如表2所示,将本模型的参数量和浮点运算次数与本文的基线模型进行比较,以证明本文方

26、法的高效性。表2 参数和浮点运算次数模型名称参数量浮点运算次数均方误差绝对误差和MGm a t t i n g(t r i m a p s*)2 9.71 064 5.71 095.71 0-32 8.9MGm a t t i n g(t r i m a p s,r e s 5 0*)5 2.71 065 8.91 095.41 0-32 8.4本文(E f f i c i e n t M a t t i n g)2 6.81 063 1.51 095.01 0-32 7.321 第3期曾碧凝,等:基于T r a n s f o r m e r的图像抠图模型研究假设图像输入大小为5 1 2

27、计算F L O P s,并在C o m p o s i t i o n-1 k测试集上计算S A D和M S E进行比较。实验结果表明,本模型比MG M a t t i n g(t r i m a p*)和MG M a t t i n g(t r i m a p,r e s 5 0*)模型的参数和计算量更少,却表现出更好的性能。尤其是本模型在参数和F L O P s成倍下降的同时,在评估分数方面仍能优于MG M a t-t i n g(t r i m a p,r e s 5 0*)。这说明基于T r a n s f o r m e r的体系结构可以有效地解决图像抠图问题,也证明本设计表3 消融

28、实验池化(四维)MH S A(三维)A F NO(三维)均方误差绝对误差和1 5.71 0-34 9.81 0.41 0-33 8.65.01 0-32 7.3有效地降低了参数量,且提升了精度。3)消融实验。在选择T r a n s f o r m e r的特征混合器时,许多先进的图像抠图模型、语义分割模型等都使用了 MH S A。MH S A更有可能捕获长距离相互依赖的特征,并提高计算的并行性。但是,消融实验的结果证明MH-S A阻碍了本文方法的性能。消融实验如表3所示,用MH S A替换本模型中的A F NO评估在C o m p o s i t i o n-1 k 测试集上的性能。由表3可

29、以看出,使用MH S A模型的误差明显高于使用A F NO的模型。因此,与其他方法不同,本文方法在模型中使用基于傅里叶变换的A F NO。此外,将全局特征混合器整体替换为三维输入的A F NO进行同样的实验,数据显示效果仍不理想。这证明是本模型早期阶段捕获低级特征,后期学习长期依赖关系的整体架构改善了最终结果精度,并不是A F NO的单边效应。4)可视化比较。不同方法在C o m p o s i t i o n-1 k测试集上的可视化比较结果如图3所示。由图3可以看出,与现存的先进方法和本模型的基线模型相比,本文方法对于抠图细节的处理更加精准,如人类细碎的头发、动物的茸毛、植物的根茎甚至是玻璃

30、杯上的细小痕迹等都呈现出了更加平滑的效果。这是在a l p h a m a t t e可能有噪声的复杂现实世界场景中所需要的,进一步证明了本文方法的有效性。图3 不同方法在C o m p o s i t i o n-1 k测试集可视化比较结果31青岛大学学报(工程技术版)第 3 8 卷3 结束语本文通过采用简单的非参数运算和高效的自适应傅里叶变换作为特征混合器,消除了T r a n s f o r m e r的体积弊端。此外,以局部维度一致的结构设计提升了推理速度,最终高效地解决了自然图像抠图问题。为了证明本模型的有效性,在图像抠图公共数据集C o m p o s i t i

31、 o n-1 k上进行了验证。实验结果表明,与现存的深度图像抠图、基于渐进式细化网络的掩模引导抠图等方法相比,本算法在有效降低了参数量和计算量的同时,提升了精度,达到了先进的性能,适配于更多资源受限的服务器。下一步研究将对算法作优化处理,使抠图速度能够达到实时的效果。参考文献:1 S HAHR I AN E,R A J AN D,P R I C E B,e t a l.I m p r o v i n g i m a g e m a t t i n g u s i n g c o m p r e h e n s i v e s a m p l i n g s e t sC I E E E C o

32、 n f e r e n c e o n C o m p u t e r V i s i o n a n d P a t t e r n R e c o g n i t i o n.U S A:I E E E,2 0 1 3:6 3 6 6 4 3.2 HE K M,RHEMANN C,R O THE R C,e t a l.A g l o b a l s a m p l i n g m e t h o d f o r a l p h a m a t t i n gC I E E E C o n f e r e n c e o n C o m p u t e r V i s i o n a n

33、 d P a t t e r n R e c o g n i t i o n.U S A:I E E E,2 0 1 1:2 0 4 9 2 0 5 6.3 CHE N Q F,L I D Z Y,TANG C K.K n n m a t t i n gJ.I E E E T r a n s a c t i o n s o n P a t t e r n A n a l y s i s a n d M a c h i n e I n t e l l i g e n c e,2 0 1 3,3 5(9):2 1 7 5 2 1 8 8.4 T AN G J W,AK S OY Y,O Z T I

34、 R E L I C,e t a l.L e a r n i n g-b a s e d s a m p l i n g f o r n a t u r a l i m a g e m a t t i n gC I E E E/C V F C o n-f e r e n c e o n C o m p u t e r V i s i o n a n d P a t t e r n R e c o g n i t i o n.U S A:I E E E,2 0 1 9:3 0 5 5 3 0 6 3.5 X U N,P R I C E B,C OHE N S,e t a l.D e e p i

35、m a g e m a t t i n gC I E E E C o n f e r e n c e o n C o m p u t e r V i s i o n a n d P a t t e r n R e c o g-n i t i o n.U S A:I E E E,2 0 1 7:2 9 7 0 2 9 7 9.6 YU Q H,Z HAN G J M,Z HAN G H,e t a l.M a s k g u i d e d m a t t i n g v i a p r o g r e s s i v e r e f i n e m e n t n e t w o r kC I

36、 E E E/C V F C o n f e r e n c e o n C o m p u t e r V i s i o n a n d P a t t e r n R e c o g n i t i o n.U S A:I E E E,2 0 2 1:1 1 5 4 1 1 6 3.7 VA S WAN I A,S HA Z E E R N,P A RMA R N,e t a l.A t t e n t i o n i s a l l y o u n e e dJ.A d v a n c e s i n N e u r a l I n f o r m a t i o n P r o-c

37、e s s i n g S y s t e m s,2 0 1 7,3 0:5 9 9 8 6 0 0 8.8 D O S OV I T S K I Y A,B E Y E R L,KO L E S N I KOV A,e t a l.A n i m a g e i s w o r t h 1 61 6 w o r d s:T r a n s f o r m e r s f o r i m a g e r e c o g n i t i o n a t s c a l eC I n t e r n a t i o n a l C o n f e r e n c e o n L e a r n

38、i n g R e p r e s e n t a t i o n s.V i r t u a l:O p e n R e v i e w.n e t,2 0 2 1:1 9 0 91 9 3 0.9 G R AHAM B,E L-NOU B Y A,T OUV R ON H,e t a l.L e v i t:A v i s i o n t r a n s f o r m e r i n c o n v e n t s c l o t h i n g f o r f a s t e r i n f e r-e n c eC I E E E/C V F I n t e r n a t i o

39、n a l C o n f e r e n c e o n C o m p u t e r V i s i o n.V i r t u a l:I E E E,2 0 2 1:1 2 2 5 9 1 2 2 6 9.1 0 R AO Y M,Z HAO W L,L I U B L,e t a l.D y n a m i c V i t:E f f i c i e n t v i s i o n t r a n s f o r m e r s w i t h d y n a m i c t o k e n s p a r s i f i c a t i o nJ.A d v a n c e s

40、i n N e u r a l I n f o r m a t i o n P r o c e s s i n g S y s t e m s,3 4:1 3 9 3 7 1 3 9 4 9.1 1 CHE N Y P,D A I X Y,CHE N D D,e t a l.M o b i l e-f o r m e r:b r i d g i n g m o b i l e n e t a n d t r a n s f o r m e rC I E E E/C V F C o n f e r-e n c e o n C o m p u t e r V i s i o n a n d P a

41、 t t e r n R e c o g n i t i o n.U S A:I E E E,2 0 2 2:5 2 7 0 5 2 7 9.1 2 GU I B A S J,MA R D AN I M,L I Z Y,e t a l.A d a p t i v e f o u r i e r n e u r a l o p e r a t o r s:e f f i c i e n t t o k e n m i x e r s f o r t r a n s f o r m e r sC I n t e r n a t i o n a l C o n f e r e n c e o n L

42、 e a r n i n g R e p r e s e n t a t i o n s.V i r t u a l:O p e n R e v i e w.n e t,2 0 2 2:4 0 4 7 4 0 6 1.1 3 L I U Z,L I N Y T,C AO Y,e t a l.S w i n t r a n s f o r m e r:H i e r a r c h i c a l v i s i o n t r a n s f o r m e r u s i n g s h i f t e d w i n d o w sC I E E E/C V F C o n f e r e

43、 n c e o n C o m p u t e r V i s i o n a n d P a t t e r n R e c o g n i t i o n.U S A:I E E E,2 0 2 1:1 0 0 1 2 1 0 0 2 2.1 4 L I N T Y,MA I R E M,B E L ON G I E S,e t a l.M i c r o s o f t c o c o:c o mm o n o b j e c t s i n c o n t e x tC E u r o p e a n C o n f e r e n c e o n C o m p u t e r V

44、 i s i o n.M u n i c h:S p r i n g e r,2 0 1 4:7 4 0 7 5 5.1 5 E V E R I N GHAM M,G OO L L,W I L L I AM S C,e t a l.T h e p a s c a l v i s u a l o b j e c t c l a s s e s(v o c)c h a l l e n g eJ.I n t e r n a t i o n a l j o u r n a l o f c o m p u t e r v i s i o n,2 0 1 0,8 8(2):3 0 3 3 3 8.1 6

45、L E V I N A,L I S CH I N S K I D,WE I S S Y.A c l o s e d-f o r m s o l u t i o n t o n a t u r a l i m a g e m a t t i n gJ.I E E E T r a n s a c t i o n s o n P a t t e r n A n a l y s i s a n d M a c h i n e I n t e l l i g e n c e,2 0 0 8,3 0(2):2 2 8 2 4 2.1 7 Z HE NG Y J,KAMB HAME T TU C.L e a

46、 r n i n g b a s e d d i g i t a l m a t t i n gC I E E E/C V F I n t e r n a t i o n a l C o n f e r e n c e o n C o m-p u t e r V i s i o n.J a p a n:I E E E,2 0 0 9:8 8 9 8 9 6.1 8 L U H,D A I Y T,S HE N C H,e t a l.I n d i c e s m a t t e r:L e a r n i n g t o i n d e x f o r d e e p i m a g e m

47、 a t t i n gC I E E E/C V F I n t e r-41 第3期曾碧凝,等:基于T r a n s f o r m e r的图像抠图模型研究n a t i o n a l C o n f e r e n c e o n C o m p u t e r V i s i o n.K o r e a:I E E E,2 0 1 9:3 2 6 6 3 2 7 5.1 9 C A I S F,Z HANG X S,F AN H Q,e t a l.D i s e n t a n g l e d i m a g e m a t t i n gC I E E E/C V F I

48、n t e r n a t i o n a l C o n f e r e n c e o n C o m p u t e r V i s i o n.K o r e a:I E E E,2 0 1 9:8 8 1 9 8 8 2 8.2 0 HOU Q Q,L I U F.C o n t e x t-a w a r e i m a g e m a t t i n g f o r s i m u l t a n e o u s f o r e g r o u n d a n d a l p h a e s t i m a t i o nC I E E E/C V F I n-t e r n a

49、 t i o n a l C o n f e r e n c e o n C o m p u t e r V i s i o n.K o r e a:I E E E,2 0 1 9:4 1 3 0 4 1 3 9.2 1 Q I AO Y,L I U Y H,YAN G X,e t a l.A t t e n t i o n-g u i d e d h i e r a r c h i c a l s t r u c t u r e a g g r e g a t i o n f o r i m a g e m a t t i n gC I E E E/C V F C o n f e r e n

50、 c e o n C o m p u t e r V i s i o n a n d P a t t e r n R e c o g n i t i o n.U S A:I E E E,2 0 2 0:1 3 6 7 6 1 3 6 8 5.2 2 L I Y Y,L U H T.N a t u r a l i m a g e m a t t i n g v i a g u i d e d c o n t e x t u a l a t t e n t i o nCAAA I C o n f e r e n c e o n A r t i f i c i a l I n t e l l i-g

展开阅读全文