收藏 分销(赏)

结合坐标注意力与生成式对抗网络的图像超分辨率重建.pdf

上传人:自信****多点 文档编号:3075639 上传时间:2024-06-15 格式:PDF 页数:10 大小:1.71MB
下载 相关 举报
结合坐标注意力与生成式对抗网络的图像超分辨率重建.pdf_第1页
第1页 / 共10页
结合坐标注意力与生成式对抗网络的图像超分辨率重建.pdf_第2页
第2页 / 共10页
结合坐标注意力与生成式对抗网络的图像超分辨率重建.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 结合坐标注意力与生成式对抗网络的图像超分辨率重建*彭晏飞,孟 欣,李泳欣,刘蓝兮(辽宁工程技术大学电子与信息工程学院,辽宁 葫芦岛 1 2 5 1 0 0)摘 要:针对现有生成式对抗网络GAN的图像超分辨率重建模型中存在着特征信息利用不充分、VG G式判别器对局部细节的判断能力较弱以及训练不稳定的问题,提出了一种结合坐标注意力与生成式对抗网络的图像超分辨率重建模型。首先,以嵌有坐标注意力的残差块构建生成器,沿通道和空间2个维度聚合特征,更充分地提取特征。然后,调整D r o p o u t加入网络的方式使其作用于生成器中,提高模型的泛化能力。接着,以U-N e t结构构造判别器,输出详细的逐

2、像素反馈,以获取真假图像间的局部差异。最后,在判别器中引入谱归一化正则化,稳定GAN的训练。实验结果表明,当放大因子为4时,在基准测试集S e t 5和S e t 1 4上取得的峰值信噪比平均提高了1.7 5 d B,结构相似性平均提高了0.0 3 8,能够重建出更加清晰且真实的图像,重建图像具有良好的视觉效果。关键词:超分辨率重建;生成式对抗网络;坐标注意力;U-N e t式判别器中图分类号:T P 3 9 1.4文献标志码:Ad o i:1 0.3 9 6 9/j.i s s n.1 0 0 7-1 3 0 X.2 0 2 4.0 1.0 1 3C o m b i n i n g c o

3、o r d i n a t e a t t e n t i o n a n d g e n e r a t i v e a d v e r s a r i a l n e t w o r k f o r i m a g e s u p e r-r e s o l u t i o n r e c o n s t r u c t i o nP E NG Y a n-f e i,ME NG X i n,L I Y o n g-x i n,L I U L a n-x i(S c h o o l o f E l e c t r o n i c s a n d I n f o r m a t i o n

4、E n g i n e e r i n g,L i a o n i n g T e c h n i c a l U n i v e r s i t y,H u l u d a o 1 2 5 1 0 0,C h i n a)A b s t r a c t:A n i m a g e s u p e r-r e s o l u t i o n r e c o n s t r u c t i o n m o d e l c o m b i n i n g c o o r d i n a t e a t t e n t i o n a n d g e n e r-a t i v e a d v e

5、r s a r i a l n e t w o r k s i s p r o p o s e d t o a d d r e s s t h e p r o b l e m s o f i n a d e q u a t e u t i l i z a t i o n o f f e a t u r e i n f o r-m a t i o n,w e a k j u d g m e n t o f l o c a l d e t a i l s b y VG G d i s c r i m i n a t o r s,a n d u n s t a b l e t r a i n i n

6、 g i n t h e e x i s t i n g i m-a g e s u p e r-r e s o l u t i o n r e c o n s t r u c t i o n m o d e l o f g e n e r a t i v e a d v e r s a r i a l n e t w o r k s.F i r s t l y,a g e n e r a t o r i s c o n s t r u c t e d w i t h r e s i d u a l b l o c k s e m b e d d e d w i t h c o o r d i

7、 n a t e a t t e n t i o n t o a g g r e g a t e f e a t u r e s a l o n g b o t h c h a n n e l a n d s p a t i a l d i m e n s i o n s t o e x t r a c t f e a t u r e s m o r e a d e q u a t e l y.T h e D r o p o u t i s a l s o a d j u s t e d t o j o i n t h e n e t w o r k i n s u c h a w a y t

8、 h a t i t a c t s i n t h e g e n e r a t o r t o i m p r o v e t h e g e n e r a l i z a t i o n a b i l i t y o f t h e m o d e l.S e c o n d l y,t h e d i s c r i m i n a t o r i s c o n s t r u c t e d w i t h U-N e t s t r u c t u r e t o o u t p u t d e t a i l e d p i x e l-b y-p i x e l f e

9、 e d-b a c k t o o b t a i n t h e l o c a l d i f f e r e n c e b e t w e e n t h e t r u e a n d f a l s e i m a g e s.F i n a l l y,s p e c t r a l n o r m a l i z a t i o n r e g u l a r i z a t i o n i s i n t r o d u c e d i n t o t h e d i s c r i m i n a t o r t o s t a b i l i z e t h e t r

10、 a i n i n g o f GAN.T h e e x p e r i m e n t a l r e-s u l t s s h o w t h a t w h e n t h e a m p l i f i c a t i o n f a c t o r i s 4,t h e p e a k s i g n a l-t o-n o i s e r a t i o o b t a i n e d o n t h e b e n c h-m a r k t e s t s e t s S e t 5 a n d S e t 1 4 i s i n c r e a s e d b y 1

11、.7 5 d B o n a v e r a g e,a n d t h e s t r u c t u r a l s i m i l a r i t y i s i n-c r e a s e d b y 0.0 3 8 o n a v e r a g e,w h i c h c a n r e c o n s t r u c t c l e a r e r a n d m o r e r e a l i s t i c i m a g e s w i t h g o o d v i s u a l e f f e c t s.K e y w o r d s:s u p e r-r e s

12、 o l u t i o n r e c o n s t r u c t i o n;g e n e r a t i v e a d v e r s a r i a l n e t w o r k;c o o r d i n a t e a t t e n t i o n;U-N e t d i s c r i m i n a t o r*收稿日期:2 0 2 3-0 3-0 6;修回日期:2 0 2 3-0 5-1 6基金项目:国家自然科学基金(6 1 7 7 2 2 4 9);辽宁省高等学校基本科研项目(L J K Z 0 3 5 8,L J KQ Z 2 0 2 1 1 5 2)通信作者

13、:孟欣(8 4 4 4 9 1 2 4 4q q.c o m)通信地址:1 2 5 1 0 0 辽宁省葫芦岛市辽宁工程技术大学电子与信息工程学院A d d r e s s:S c h o o l o f E l e c t r o n i c s a n d I n f o r m a t i o n E n g i n e e r i n g,L i a o n i n g T e c h n i c a l U n i v e r s i t y,H u l u d a o 1 2 5 1 0 0,L i a o n i n g,P.R.C h i n a C N 4 3-1 2 5 8/

14、T PI S S N 1 0 0 7-1 3 0 X 计算机工程与科学C o m p u t e r E n g i n e e r i n g&S c i e n c e第4 6卷第1期2 0 2 4年1月 V o l.4 6,N o.1,J a n.2 0 2 4 文章编号:1 0 0 7-1 3 0 X(2 0 2 4)0 1-0 1 2 2-1 01 引言图像超分辨率S R(S u p e r-R e s o l u t i o n)重建技术旨在将给定的低分辨率L R(L o w-R e s o l u t i o n)图像经过一系列过程恢复出其对应的高分辨率HR(H i g h-R

15、e s o l u t i o n)图像,是一种底层的计算机视觉任务,被广泛应用于卫星遥感1、人脸识别2和医学成像3等领域。早期,图像S R重建分为基于插值4的方法、基于重建5的方法和基于学习6的方法,主要依赖约束项的构造以及图像之间配准的精确度实现重建效果,因此难以恢复出HR图像原本的细节信息。随着深度学习的迅速发展,传统S R重建方法中的瓶颈问题迎刃而解。目前,基于卷积神 经 网 络C NN(C o n v o l u t i o n a l N e u r a l N e t-w o r k)的方法已经成为主流。D o n g等人7最先将C NN应用于图像S R重建问题中,提出了具有里程

16、碑式意义的S R C NN(S u p e r-R e s o l u t i o n C o n v o-l u t i o n a l N e u r a l N e t w o r k),仅使用3个卷积层就实现了从L R图像到HR图像的重建过程。受这一开创性工作的启发,K i m等人8提出了具有深层网络的V D S R(S u p e r_R e s o l u t i o n u s i n g V e r y D e e p c o n v o l u t i o n a l n e t w o r k),首次将残差学习9应用于图像S R重建问题中,实验结果表明该网络取得了更好的重建

17、效果。同年,K i m等人1 0在V D S R的基础上进行改进,提出了D R C N(D e e p l y R e c u r-s i v e C o n v o l u t i o n a l N e t w o r k),该网络使用1 6个递归层,通过递归监督和跳跃连接的方法提高了模型的性能。由于将经过插值的L R图像作为输入增加了计算复杂度,因此S h i等人1 1提出了E S P C N(E f f i c i e n t S u b-P i x e l C o n v o l u t i o n a l N e u r a l n e t-w o r k),直接将L R图像作为输

18、入,采用亚像素卷积层代替反卷积层实现上采样过程,大大缩短了模型的运行时间。近年来,注意力机制被广泛应用于图像S R重建模型中,Z h a n g等人1 2将通道注意力集成到残差块中,提出了R C AN(R e s i d u a l C h a n n e l A t t e n t i o n N e t w o r k),注重特征通道之间的相互依赖性,提高了网络的表达能力。通道注意力机制只是在通道层面选择感兴趣的特征,忽略了空间中的位置信息,而位置信息是视觉任务中捕获目标结构的关键,因此造成了位置特征利用不充分的问题。上述 方 法 都 是 采 用 最 小 化 均 方 误 差MS E(M e

19、 a n S q u a r e E r r o r)的优化思想,虽然在峰值信噪比P S NR(P e a k S i g n a l-t o-N o i s e R a t i o)上取得了较优的结果,但是生成的图像往往过于平滑和模糊。G o o d f e l l o w等人1 3提出的生成式对抗网络GAN(G e n e r a t i v e A d v e r s a r i a l N e t w o r k),将S R重建技术推向了一个新的高度,有效缓解了重建图像的平 滑 和 模 糊 问 题。L e d i g等 人1 4提 出 了S R-GAN(S u p e r-R e s

20、o l u t i o n G e n e r a t i v e A d v e r s a r i a l N e t w o r k),首次将GAN应用于S R任务,通过生成器和判别器的相互迭代训练实现图像的重建。随后,W a n g等人1 5对S R GAN进行改进,提出了E S R GAN(E n h a n c e d S u p e r-R e s o l u t i o n G e n e r a t i v e A d v e r s a r i a l N e t w o r k),将残差块中的批量归一化B N(B a t c h N o r m a l i z a t i

21、 o n)层去掉,使用残差中嵌入残差的结构构建生成器,使得重建图像具有丰富的纹理细节。L i等人1 6提出了用于高质量图像S R重建的B e b y-GAN,采用区域感知的对抗学习策略,使重建图像具有更丰富和更合理的纹理。以上网络均使用了经典的VG G(V i s u a l G e o m e t r y G r o u p)式判别器,其输出是对图像整体结构进行真假判断,没有对局部纹理进行细致的判断,因此重建图像的纹理细节不够逼真。Y a n等人1 7提出了F A S R GAN,使 用 了 类U-N e t(U-s h a p e N e t-w o r k)判别器,并将判别器的其中一个输

22、出作为细粒度注意力反馈给生成器,提升了重建图像的纹理逼真程度。由于U-N e t判别器对复杂的训练输出具有更强的鉴别能力,W a n g等人1 8将其应用于盲S R任务中,重建出了清晰且真实的图像。但是,GAN模型仍然面临着因不易收敛和梯度消失而导致的训练不稳定问题。针对S R重建的现有问题,本文提出了结合坐标注意力和生成式对抗网络的图像超分辨率重建模 型。将 坐 标 注 意 力C A(C o o r d i n a t e A t t e n-t i o n)1 9嵌入到残差块中作为构建生成器的基本单元,可以将通道注意力分解为2个一维特征编码过程,分别沿通道和空间产生注意力特征图,增强模型对

23、特征信息的利用率。引入高级视觉任务中的随机失活层(D r o p o u t)正则化,调节其加入网络的方式,并应用于S R重建任务中,防止过拟合并提高模型的泛化能力。将GAN模型中经典的VG G式判别器改为U-N e t式判别器,对局部纹理产生精确的梯度反馈,以生成清晰且逼真的S R图像。并在相匹配的分辨率之间加入跳跃连接,弥补连续下采样和上采样造成的细节损失。最后在判别器中加入谱归一化S N(S p e c t r a l N o r m a l i z a t i o n)操作,以稳定GAN的训练。通过以上方法充分挖掘特征信息,使重建图像的局部纹理细节更加逼真,进一步提升图像的视觉效果。3

24、21彭晏飞等:结合坐标注意力与生成式对抗网络的图像超分辨率重建2 工作基础2.1 坐标注意力机制通道注意力广泛应用于S R重建任务中,对重要通道即高频特征赋予更大的权重,对图像质量提升幅度较小的通道赋予低权重,从而提升模型的性能。但是,通道注意力忽略了对生成空间选择性注意映射很重要的位置信息,使得特征图中局部空间层面上的信息没有被合理利用。而C A机制将位置信息嵌入到通道注意力中,可以捕获方向感知、位置感知和跨通道的信息。C A机制的实现包括2个部分。第1部分是坐标信息的嵌入,对输入X(设其高度为H,宽度为W,通道数为C)使用池化核的2个空间范围(H,1)和(1,W)分别沿水平和垂直方向对每个

25、通道进行编码,池化后的特征图的高度为h(0hH),宽度为w(0wW),因此,第c(0cC)个通道在高度为h时的输出可表示为式(1),同样地,第c个通道在宽度为w时的输出可表示为式(2):zhch =1W0iWxch,i (1)zwcw =1H0jHxcj,w (2)其中,xc(h,i)表示输入特征图中通道为c,坐标为(h,i)的分量;xc(j,w)表示输入特征图中通道为c,坐标为(j,w)的分量。以上编码过程分别沿着2个空间方向聚合特征,得到一对方向感知特征图。第2部分是坐标注意力的生成,将聚合的特征映射进行级联,并将其送入共享的11卷积变换函数F1()中,得到编码水平和垂直2个方向空间信息的

26、中间特征f:f=F1zh,zw (3)其中,zh表示沿X轴方向平均池化后的输出,zw表示沿Y轴方向平均池化后的输出,()表示h-s w i s h激活函数。接着沿空间维度将f分成2个单独的张量fh和fw,再利用2个11卷积Fh()和Fw()分别将其通道数转换成与输入X相同的通道数,经过S i g m o i d函数激活之后分别得到特征图在高度和宽度方向的注意力权重gh和gw。该过程可以表示如式(4)和式(5)所示:gh=Fhfh (4)gw=Fwfw (5)最后在原始特征图上通过乘法加权计算,最终得到在宽度和高度方向上带有注意力权重的特征图。由于本文设计的残差块去除了B N层,因此也将C A中

27、的B N层去掉,修改后的C A机制结构如图1所示,图中r表示通道的缩减因子。首先对输入特征图分别沿X轴和Y轴方向进行平均池化;然后将2个方向的特征图拼接在一起,并输入卷积模块进行降维(C o n c a t+C o n v 2 d);再经过非线性层(N o n l i n e a r)编码2个方向的空间信息;接着进行分离(S p l i t),通过卷积(C o n 2 d)调整2个方向特征向量 的通道数;最 后与原输入 加权计算(R e-w e i g h t),得到注意力权重。将C A嵌入到每个残差块中,使得模型可以捕获输入特征图沿一个空间方向的长程依赖关系,更加精准地识别图像中感兴趣的部分

28、。F i g u r e 1 S t r u c t u r e o f c o o r d i n a t e a t t e n t i o n图1 坐标注意力结构2.2 D r o p o u t正则化在高级计算机视觉任务中,D r o p o u t可以有效降低模型过拟合的风险,但在S R重建这种底层视觉任务中会造成输出图像的部分像素缺失。不过,K o n g等人2 0通过研究证明了只要将D r o p o u t加入网络的方式进行调整,便可以应用于S R重建任务中,并且有益于提升模型的性能。D r o p o u t的影响主要取决于其在网络中的位置、维度和概率。(1)D r o p

29、o u t在网络中的位置。H i n t o n等人2 1将D r o p o u t应用于分类任务输出之前的完全连接层,类似地,在回归任务中可以应用于输出前的卷积层,因此本文将其应用于生成器网络输出前的卷积层。(2)D r o p o u t的维度。在卷积层中可以应用在元素或通道2个维度上,D r o p o u t元素维度是指在所有的特征图上随机丢弃元素,这会造成生成图像的像素缺失问题。D r o p o u t通道维度是指随机丢421C o m p u t e r E n g i n e e r i n g&S c i e n c e 计算机工程与科学 2 0 2 4,4 6(1)弃一个

30、通道,使得P S NR值不再依赖于特定的通道,可提高通道的表达能力。因此,本文选择在通道维度应用D r o p o u t。(3)D r o p o u t的概率决定了元素或通道被丢弃的概率。在分类网络中可以选择高达5 0%的失活概率,由于S R网络抵抗信息干扰的鲁棒性要差于分类网络的,所以过高的概率可能会丢失部分像素,降低S R网络的性能。K o n g等人2 0还指出,当D r o p o u t的概率为1 0%,2 0%和3 0%时,更有利于S R网络性能的提升,本文通过实验最终选择使用2 0%的D r o p o u t概率。2.3 U-N e t式判别器GAN面临的挑战之一是判别器难

31、以生成同时具有全局形状和局部纹理的真实图像。S R重建中常用的VG G式判别器如图2所示,其中,IS R表示生成器重建出的图像,IHR表示真实的高分辨率图像。该判别器的输出是基于图像全局形状的二分类结果,通过一个单一的数值来区分真假图像,因此只是以粗略的方式向生成器提供反馈。而U-N e t模型是一个编码-解码的结构。S c h n f e l d等人2 2提出了U-N e t GAN,其中编码器对图像整体结构进行判断,解码器对图像进行像素级决策,同时输出图像的全局和局部判定,如图3所示。这一结构的判别器具有更强的鉴别能力,使得设计欺骗判别器的生成器任务更具挑战性,从而提高生成图像的质量。受该

32、文献启发,本文使用U-N e t式判别器,不再是对图像的全局样式进行二分类判断,而是输出一幅特征图,即对每个像素进行分类,每个像素均输出一个真实数值,可以向生成器提供一种细粒度的反馈,以此来更新生成器。这样,判别器可以对局部纹理产生精确的梯度反馈,更好地保留局部细节,使生成的S R图像尽可能地接近HR图像。F i g u r e 2 S t r u c t u r e o f V G G d i s c r i m i n a t o r 图2 V G G式判别器结构图2.4 谱归一化基于GAN的S R重建模型增强了生成图像的真实感,但是GAN也面临着训练不稳定的问题。这是由于当判别器非常准确

33、时,生成数据和真实数据分布很难有所重叠,导致生成模型的损失函数几F i g u r e 3 S t r u c t u r e o f U-N e t G AN 图3 U-N e t GAN结构乎没有梯度,即二者难以同时达到收敛,造成了GAN训练不稳定的结果。A r j o v s k y等人2 3提出了WGAN(W a s s e r s t e i n G e n e r a t i v e A d v e r s a r i a l N e t w o r k),用W a s s e r s t e i n距 离 代 替J S(J e n s e n-S h a n n o n)散度,平

34、衡了生成器和判别器的训练程度,有效提高了GAN训练的稳定性。WGAN虽然性能优越,但是留下了难以解决的1-L i p s c h i t z问题。针 对 这 一 问 题,M i y a t o等 人2 4提 出 了S NGAN(S p e c t r a l N o r m a l i z a t i o n f o r G e n e r a t i v e A d v e r s a r i a l N e t w o r k),对判别器中的参数进行归一化处理,将每层的参数矩阵除以自身的最大奇异值,最大限度地保存了判别器权值矩阵的信息,使得映射函数满足了L i p s c h i t z约

35、束。S N使判别器满足L i p s c h i t z连续性,限制了函数变化的剧烈程度,同时可以防止训练过程中出现模式坍塌现象,从而使模型更稳定。因此,本文引入S N操作,在判别器的卷积层中使用S N层代替传统的B N层,增强GAN在训练过程中的稳定性。3 本文模型本文模型以生成式对抗网络为框架,结构如图4所示。生成器(其输入为低分辨率图像IL R)是以残差块为基本单元构建的,同时在残差块中加入C A机制,充分聚合通道和空间2个方向的特征。并且在上采样操作后引入了D r o p o u t,以增强模型的泛化能力。判别器以U-N e t结构进行构造,增强对局部纹理的判断能力。同时在判别器中加入

36、谱归一化,以稳定GAN的训练。在损失函数方面,利用VG G 1 9网络激活前的多层特征加权求和计算感知损失,使用C h a r b o n n i e r损失函数2 5作为内容损失,并加入GAN特有的对抗损失,三者共同构成生成损失,使得重建图像具有精确的纹理细节。521彭晏飞等:结合坐标注意力与生成式对抗网络的图像超分辨率重建F i g u r e 4 S t r u c t u r e o f t h e p r o p o s e d m o d e l图4 本文模型结构3.1 生成器由于B N层容易引起伪影,并且增加了计算复杂度,所以本文在残差块的设计中未使用B N层。本文提出的坐标注意

37、力残差块如图5所示,具体来说,该模块包含了3个卷积层和1个注意力层,卷积核的大小均为33,通道数分别为1 2 8,2 5 6和6 4,在第3个卷积层后设计C A,确保网络提取更精细的特征信息。F i g u r e 5 S t r u c t u r e o f c o o r d i n a t e a t t e n t i o n r e s i d u a l b l o c k 图5 坐标注意力残差块结构F i g u r e 6 S t r u c t u r e o f g e n e r a t o r 图6 生成器结构生成器的网络结构如图6所示。首先使用一个卷积层提取输入图像

38、的边缘特征,然后将其输入到坐标注意力残差模块中,同时关注通道信息和位置信息,更全面地提取特征。生成器的上采样模块,由2个亚像素卷积层构成,完成图像像素的扩充。在最后一个卷积层前加入D r o p o u t正则化,并将经过双线性插值法处理的输入图像与最后一个卷积层的输出相加,得到最终的输出。生成器的激活函数均使用L e a k y R e L U函数。该激活函数通过引入小的斜率避免神经元的“死亡”,同时解决了梯度方向的锯齿问题,使得模型能够更快地收敛。3.2 判别器U-N e t式判别器是一个下采样-上采样的结构,如图7所示。其中,n表示通道数,kk表示卷积核的尺寸,s表示步长。首先,第1个卷

39、积层采用6 4个3 3的卷积核对输入图像进行特征提取,然后下采样部分(D o w n s a m p l i n g)分别使用1 2 8,2 5 6和5 1 2个步长为2,尺寸为4 4的卷积核,实现通道数量的增加以及特征图空间的减小,从而提高网络的表达能力。判别器的上采样部分使用双线性插值法进行渐进式上采样,逐渐扩展特征图的空间大小。为弥补连续下采样和上采样造成的细节损失,下采样部分的各层级特征图与经过上采样获得的特征图通过跳跃连接的方式进行特征融合,并在卷积层后加入S N层,稳定训练过程。网络的末端包括3个卷积层,最后一个卷积层的通道数为1,以得到一幅与输入图像大小相同的灰度图,图中每个像素

40、均输出一个真实数值,以对局部纹理产生精确的梯度反馈。特征图中颜色较亮部分意味着输入图像的相应像素更接近于HR图像的,对应于像素的鉴别置信度为真,而较暗部分的鉴别置信度为假。3.3 损失函数损失函数的选取对模型的训练影响很大,选621C o m p u t e r E n g i n e e r i n g&S c i e n c e 计算机工程与科学 2 0 2 4,4 6(1)F i g u r e 7 S t r u c t u r e o f U-N e t d i s c r i m i n a t o r 图7 U-N e t式判别器结构择合适的损失函数可以使模型正确且快速地收敛。本

41、文采用多种损失函数相结合的策略,在预训练和训练时分别使用不同的损失函数,使模型朝着正确的方向收敛,以获得具有丰富纹理的重建图像。3.3.1 内容损失传统的图像S R重建方法大多是基于L2损失函数计算损失,虽然获得了较高的P S NR值,但重建图像过于平滑,缺乏纹理细节。而L1损失函数能加快模型的收敛速度,使重建的图像具有相对清晰的边缘。所以,本文模型在预训练时,采用L1损失函数和L2损失函数相结合的策略,在保证获取较高P S NR值的同时减轻平滑现象。L1损失函数和L2损失函数定义分别如式(6)和式(7)所示:L1=1WHWi=1Hj=1G IL R i,j -IHRi,j (6)L2=1WH

42、Wi=1Hj=1G IL R i,j -IHRi,j 2(7)其中,G IL R 表示生成器重建的图像,IHR表示真实的HR图像。在训练过程中使用C h a r b o n n i e r损失函数作为内容损失,可以规避异常点,有效抑制伪影现象,具有更好的鲁棒性。C h a r b o n n i e r损失函数定义如式(8)所示:LC=IHR-G IL R (8)其中,x =x2+2表示C h a r b o n n i e r惩罚函数,表示超参数。3.3.2 感知损失本文使用预训练的VG G网络提取特征,使用R e L U激活层之前的特征作为计算感知损失的依据。提取VG G 1 9网络c o

43、 n v 1-2、c o n v 2-2、c o n v 3-4、c o n v 4-4和c o n v 5-4层特征进行计算,使得重建图像具有更多的细节信息。对浅层特征赋予低权重,深层特征赋予高权重,加权求和作为最终的感知损失。感知损失定义如式(9)所示:Lp e r c e p=G IL R -IHR 1(9)其中,()表示预训练好的VG G 1 9网络。3.3.3 对抗损失本文在损失函数的计算中加入了GAN特有的对抗损失,基于U-N e t GAN的思想,判别器的损失定义为所有像素的平均决策,像素级别的损失计算可以使重构图像的纹理细节更加精确。判别器损失函数定义如式(1 0)所示:LD=

44、-Ei,jl gD IHR i,j -Ei,jl g 1-D G IL R i,j (1 0)其中,D IHR i,j和D G IL R i,j表示判别器在像素(i,j)处的决策。相应地,生成器的优化目标如式(1 1)所示:LG=-i,jl gD G IL R i,j (1 1)3.3.4 预训练损失与训练损失本文的预训练损失和训练损失是根据上述损失函数构建的。预训练部分只针对生成器进行训练,其损失定义如式(1 2)所示:Lp r e=L1+L2(1 2)训练部分包括生成器和判别器2个部分,判别器的损失函数计算如式(1 0)所示,生成器的总损失定义如式(1 3)所示:L=1LC+Lp e r

45、c e p+2LG(1 3)其中,1=0.0 1,2=0.0 0 5,LC、Lp e r c e p和LG分别表示上文提到的C h a r b o n n i e r损失、感知损失和生成器损失。721彭晏飞等:结合坐标注意力与生成式对抗网络的图像超分辨率重建4 实验与结果分析4.1 实验设置本文实验在NV I D I A G e F o r c e R T X 2 0 8 0 G P U,内存为4 3 G B的主机上进行,使用W i n d o w s 1 0操作系统,以P y T o r c h作为深度学习框架,编程语言为 P y t h o n。实验使用D I V 2 K(D I V e

46、r s e 2 K r e s o l u t i o n i m a g e d a t a s e t)2 6中8 0 0幅HR图像和对应的经过双三次插值处理的L R图像作为训练数据集,该数据集中图像纹理丰富,适合作为训练数据集。测试集为2个广泛使用的标准数据集S e t 5和S e t 1 4。实验 使用P S NR和结构相 似性S S I M(S t r u c t u r e S I M i l a r i t y)作 为 评 价 指 标。P S NR用于衡量2幅图像间的差异,其值越大,表示2幅图像越接近。S S I M用于衡量2幅图像相似性,可以较好地反映人眼的主观感受,其值越大,

47、表示2幅图像越相似。训练过程中每个批次处理1 6个大小为1 2 81 2 8的图像块,训练分为2个阶段:首先使 用式(1 2)定义的损失函数训练一个面向P S NR的模型,预训练共迭代2.51 05次,初始学习率为21 0-4,每51 04次 学 习 率 衰 减 为 原 先 的 一 半;然后将经过预训练的模型作为初始生成器,根据式(1 3)定义的损失函数来训练生成器,生成器的初始学习率为1 0-4,判别器采用和生成器不同的学习率,初始值设为41 0-4,共迭代31 05次,每51 04次学习率减半。训练时生成器损失函数的参数设置为1=0.0 1,2=0.0 0 5。实验过程均使用A d a m

48、优化器,设置参数为1=0.9,2=0.9 9,=1 0-7。4.2 坐标注意力残差块的影响生成器是基于坐标注意力残差块实现的,为了验证其作用,本节在预训练模型中进行实验,比较P S NR值的变化。由表1可以看出,坐标注意力残差块数量由8增至1 6时,P S NR值在S e t 5测试集和S e t 1 4测试集上分别提高了0.1 3 d B和0.1 2 d B;由1 6增至2 4时,P S NR值在S e t 5测试集上没有增加,在S e t 1 4测试集上提升了0.0 2 d B,但此时参数量过于庞大。因此,本文最终使用1 6个坐标注意力残差块来构建生成器,在保证获得较高P S NR值的同时

49、网络参数量不会过于庞大。4.3 D r o p o u t正则化的影响为了验证D r o p o u t可以提高S R网络的性能,T a b l e 1 V a r i a t i o n o f P S N R w i t h t h e n u m b e r o f c o o r d i n a t e a t t e n t i o n r e s i d u a l b l o c k s表1 P S N R值随坐标注意力残差块数量的变化情况注意力残差块数量S e t 5测试集上P S NR/(d B)S e t 1 4测试集上P S NR/(d B)83 2.1 22 8.5 1

50、1 63 2.2 52 8.6 32 43 2.2 52 8.6 5本节在预训练模型中,分别对不使用D r o p o u t和使用较小D r o p o u t丢弃概率的情况进行实验,所得结果如表2所示。在S e t 5测试集上,P S NR值随D r o p o u t丢弃概率的增加而增加。在S e t 1 4测试集上,当D r o p o u t丢 弃 概 率 为1 0%和2 0%时,P S NR值均比未使用D r o p o u t结构的模型提高了0.0 1 d B;当丢弃概率增加为3 0%时,P S NR值较未使用D r o p o u t结构的模型降低了0.0 2 d B。可以看出

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服