结合语义先验和深度注意力残差的图像修复.pdf

资源描述

1、计算机科学与探索Journal of Frontiers of Computer Science and Technology1673-9418/2023/17(10)-2450-12doi:10.3778/j.issn.1673-9418.2208014结合语义先验和深度注意力残差的图像修复陈晓雷+，杨佳，梁其铎兰州理工大学电气工程与信息工程学院，兰州 730000+通信作者 E-mail:摘要：针对现有图像修复方法修复结果缺乏真实性、未灵活处理缺失区域和未缺失区域信息以及未有效处理不同阶段的图像特征信息等问题，提出结合语义先验和深度注意力残差组的图像修复方法。该图像修复方法主要由语义先验

2、网络、深度注意力残差组与全尺度跳跃连接组成。语义先验网络学习缺失区域视觉元素的完整语义先验信息，利用学习到的语义信息对缺失区域进行补全。深度注意力残差组使生成器不仅能更加关注图像的缺失区域，而且能自适应地学习各个通道的特征。全尺度跳跃连接则可以将包含图像边界的低层次特征图与包含图像纹理与细节的高层次特征图结合起来对图像缺失区域进行修复。在CelebA-HQ数据集与Paris Street View数据集上进行了充分对比实验，实验结果表明，该方法优于当前代表性先进图像修复方法。关键词：图像修复；编码解码；语义先验；注意力机制；跳跃连接文献标志码：A中图分类号：TP391Image Inpaint

3、ing Combining Semantic Priors and Deep Attention ResidualsCHEN Xiaolei+,YANG Jia,LIANG QiduoCollege of Electrical and Information Engineering,Lanzhou University of Technology,Lanzhou 730000,ChinaAbstract:To overcome the shortcomings of existing image inpainting methods,such as the lack of authentici

4、ty inthe inpainting results,the lack of effective processing of missing region and non-missing region information,and thelack of effective processing of image feature information in different stages,an image inpainting method combiningsemantic priors and deep attention residual group is proposed.The

5、 image inpainting network is mainly composed ofsemantic priors network,deep attention residual group and full-scale skip connection.The semantic priors networklearns the complete semantic priors information of visual elements in the missing region,and uses the learnedsemantic information to complete

6、 the missing region.The deep attention residual group enables the generator notonly to pay more attention to the missing area of the image,but also to learn the features of each channel adaptively.The full-scale skip connection can combine the low-level feature map containing the image boundary with

7、 the high-level feature map containing the image texture and detail to inpaint the missing area of the image.In this paper,afull comparison experiment is conducted on CelebA-HQ dataset and Paris Street View dataset,and the experimentalresults show that the proposed method is superior to the current

8、representative advanced image inpainting methods.Key words:image inpainting;encoder and decoder;semantic priors;attention mechanism;skip connection基金项目：国家自然科学基金（61967012）。This work was supported by the National Natural Science Foundation of China(61967012).收稿日期：2022-08-04修回日期：2022-10-10开放科学(OSID)图像修

9、复指基于图像背景信息对破损区域进行重建的技术。生成对抗网络（generative adversarialnetworks，GAN）1利用生成模型与判别方法的相互博弈，并考虑全局信息，对样本进行特征提取和图像生陈晓雷等：结合语义先验和深度注意力残差的图像修复成，具有生成目标时间短、速度快的特点，能有效地解决图像修复问题。基于GAN的双阶段图像修复网络也是该方向的代表性方法，第一阶段重建缺失结构，第二阶段利用第一阶段预测得到的结构信息指导纹理的生成。例如 Nazeri等人2提出的边缘连接网络（EdgeConnect），首先利用边缘生成器生成缺失图像的边缘，再利用边缘作为先验来补全图像的缺失区域。

10、Xiong等人3将模型分为两部分，首先预测前景轮廓，然后根据预测到的前景轮廓进行区域修复。李海燕等人4在第一阶段用一种基于可视化几何组网络模型的轻量型双向级联边缘检测网络（bi-directional cascade network，BDCN）提取图像边缘，然后基于 U-Net5架构来还原缺失边缘。胡凯等人6采用边缘结构生成器对输入图像的边缘和色彩平滑信息进行特征学习，生成缺失区域的结构内容，以引导精细网络重构高质量的语义图像。然而两阶段修复方法的性能在很大程度上依赖于第一阶段的重建结构，导致边缘或轮廓的不可靠性增加，不利于第二阶段的图像生成。针对这一缺陷，Li等人7提出了单阶段视觉结构渐进重

11、建（progr-essive reconstruction of visual structure，PRVS）网络，在编码器-解码器中分别部署两个视觉结构重建层，以生成不同尺度的结构信息，通过将结构信息逐步融合到特征中，基于 GAN 输出合理的结构。但是PRVS 倾向于生成棋盘状纹理，修复结果纹理不真实。Song等人8提出利用语义分割信息对图像缺失区域进行补绘的分割预测和指导修复网络（segmen-tation prediction and guidance network，SPG-Net），该算法首先提取并重建图像分割图，再利用图像分割图对图像进行引导。由于分割图中包含了有用的语义信息，SP

12、G-Net相比那些没有语义分割图的方法能够有效地提高嵌入性能。但是，不同语义的先验分布不同，不同语义区域对缺失区域像素的贡献也不同，因此以SPG-Net为代表的基于上下文的方法将不同语义统一进行映射往往会导致语义内容不真实。为了解决这一问题，本文引入多尺度语义先验，首先利用编码器和语义先验网络分别提取多尺度的底层图像特征和学习高级语义先验，得到全局上下文表示，然后将学习到的语义先验空间注入到图像特征中，从而利用语义先验指导图像缺失区域生成。除此之外，引入多尺度交叉熵损失来约束所有尺度上像素的预测类分布与目标类分布之间的距离，帮助图像补全。现有的图像修复网络很多都设计了复杂的网络结构来提高图像修

13、复性能，如 Liu等人9设计了两阶段的 U-Net作为主干网络并提出了一个连贯语义注意层来建立缺失部分特征之间的关联模型以对图像缺失部分进行预测；Liu等人10提出的DeFLOCNet通过一个深度编码器-解码器在空白区域上生成结构和纹理；Zhang等人11-12提出了一种残差通道注意力网络和残差非局部注意力网络用于高质量的图像恢复。本文在这些工作基础上，为了能加深网络并且使网络更加关注于图像缺失区域，提出利用残差注意力和残差块构建双重残差，继而构成深度注意力残差组，不仅可以构造更深的网络，还可以利用注意力对通道信息进行自适应提取。图像修复任务中经典的编码器-解码器结构在编码压缩过程中会丢失大量

14、细节信息。为了获取更多信息，Mao等人13在一组对称的编码器-解码器组中引入了密集的跳跃连接，以最大化语义提取。杨文霞等人14则提出基于密集连接块的 U-Net结构的端到端图像修复模型，以实现对任意模板的语义人脸图像的修复。这些方法通过增加跳跃连接的方式将编码器的每一层特征与解码器的相应层特征连接起来，但是跳跃连接结构缺乏从全尺度探索足够信息的能力。因此本文提出全尺度跳跃连接，该连接结合了来自全尺度特征的低级语义信息与高级语义信息，从而有效地将低层次特征图与高层次特征图结合起来对缺失图像进行补全。本文的主要贡献如下：（1）提出了语义先验网络，一种在多尺度上既能考虑局部纹理一致性又能考虑全局语义

15、一致性的上下文图像修复模型，通过语义先验指导图像特征，并利用交叉熵损失约束像素的预测类分布与目标类分布之间的距离，从而提升图像恢复性能。（2）提出深度注意力残差组使网络能自适应地学习较深网络中不同通道中的特征，不仅具有跨通道的学习能力，而且能够适应更深层的网络结构。（3）采用全尺度跳跃连接将不同尺度特征图的低级细节与高级语义结合起来，从而提供多层次多尺度的语义信息。1本文方法1.1网络总体结构及工作原理本文提出的结合语义先验和深度注意力残差的图像修复网络总体结构如图1所示，由生成器与判别2451Journal of Frontiers of Computer Science and Techn

16、ology计算机科学与探索2023,17(10)器组成，其中生成器由编码器（encoder）、语义先验网络（semantic priors network，SPN）、深度注意力残差组（deep attention residual group，DARG）、解码器（decoder）和全尺度跳跃连接（full-scale skip connection，FSSC）五个模块组成。本文的图像修复网络工作流程如下：首先输入缺失图像，编码器提取多尺度图像特征，同时语义先验网络提取多尺度图像语义先验，多尺度图像特征和多尺度语义先验融合得到合成语义信息下的图像特征；然后将得到的图像特征送入深度注意力残差组

17、进一步增强缺失区域及各个通道的特征；接着将增强后的图像特征送入解码器进行图像生成；最后将生成的图像送入谱归一化15马尔科夫鉴别器16用于生成器对抗训练，以确定输入鉴别器的是真实样本还是生成器生成的假样本。本文重点研究了影响生成器总体性能的语义先验网络、深度注意力残差组、全尺度跳跃连接和约束语义先验网络的多尺度交叉熵损失，这四个模块的构成及工作原理详述如下。1.2语义先验网络图像修复任务的目标在于对缺失区域的补全，为了使网络的修复结果更具有真实性并且充分地利用未缺失区域的信息内容，本文提出语义先验网络，该网络可以在预先训练的深层神经网络的监督下，学习缺失区域视觉元素的完整语义先验信息，更好地提取

18、到图像特征，并从图像的未缺失区域中学习语义信息，利用学习到的语义信息对缺失区域进行补全。由于不同语义的先验分布不同，不同语义区域对缺失区域像素的贡献也不同，采用多尺度的语义先验来获得不同语义的先验分布和不同语义区域对缺失区域像素的贡献。首先，通过语义先验网络得到多尺度语义先验，通过编码器得到多尺度图像特征；然后，将得到的多尺度语义先验和多尺度图像特征对应相同尺度下的语义先验和图像特征进行融合；最后，将各个尺度下融合到的特征进行相融后送入深度注意力残差组进行图像恢复。编码器的输入为带有缺失区域的图像Im，其作用为学习图像未缺失区域的图像特征Fm。在语义先验网络阶段，为了保留更多的局部结构，先对带

19、有缺失区域的图像Im和缺失图像相应的掩码M进行上采样得到Ime和Me，将Ime和Me通道合并后的图像特征Fim作为语义先验网络的输入，语义先验网络学习输入特征Fim的语义先验Fs。因此通过编码器可以学习到多尺度图像特征Fms、Fml，通过语义先验网络可以学习到多尺度语义先验Fss、Fsl。具体计算方法如下：在语义先验网络阶段，为了保留更多的局部结构，先对带有缺失区域的图像Im和缺失图像相应的掩码M进行上采样，将上采样后图像和掩码的通道合并后的图像特征Fim作为语义先验网络的输入，语义先验网络学习输入特征Fim的语义先验Fs。图1本文提出的图像修复网络Fig.1Image inpainting

20、network presented in this paper2452陈晓雷等：结合语义先验和深度注意力残差的图像修复Fms,Fml=E(Im)（1）Fss,Fsl=S(Concat(Ups(Im,M)（2）其中，ImR3HW，M R1HW，Ups代表上采样，Concat代表通道合并，ImeR32H2W，MeR12H2W，FimR42H2W，E()代表网络编码阶段，S()代表网络语义先验阶段，则Fms,Fss R2c H/4 W/4，Fml,Fsl Rc H W。统称学习到的语义先验为Fs，图像特征为Fm。理论上利用学习到的语义先验Fs可以帮助图像特征Fm进行图像恢复，但是经过编码阶段得到的

21、图像特征Fm和经过语义先验阶段学习得到的语义先验Fs关注到的是图像内容的不同方面，直接对图像特征Fm和语义先验Fs进行特征融合会影响编码器的学习过程并且干扰未缺失区域的局部纹理。空间自适应归一化模块（spatially-adaptive normalization，Spade）17可以根据输入图像和语义图指导合成语义信息下的图像，因此，本文采用空间自适应归一化模块 Spade根据学习到的语义先验来指导图像特征Fm合成语义信息下的图像，对图像缺失区域进行生成，从而帮助恢复全局和局部的内容。具体来说，Spade首先用非参数实例归一化IN18对输入图像特征Fm进行归一化，然后从语义先验Fs中学习两组

22、不同的参数，对图像特征Fm执行空间像素仿射变换，计算方法如下：,=Spade(Fs)（3）Fm=IN(Fm)+（4）其中，Spade为空间自适应归一化模块，和为从语义先验Fs中学习到的两组参数，IN代表实例归一化。将多尺度图像特征Fms、Fml和多尺度语义先验Fss、Fsl通过式（3）和式（4）融合后可得多尺度语义信息下的图像特征Fms、Fml。Fm=Fms+Conv(Fml)（5）其中，Fms R2c H/4 W/4，Fml Rc H W，通过Conv对特征图的通道、高和宽进行改变，从而可以将Fms和Fml在相同尺度下进行相加。最终将多个尺度下融合到的信息Fm输入到深度注意力残差组进行图像生

23、成。为了对多尺度语义先验阶段所有尺度上像素的预测类分布与目标类分布之间的距离进行约束，引入多尺度交叉熵损失，并通过各个损失项不同的加权得到网络的总损失，具体细节见1.5节。语义先验网络工作流程如下所示：输入：缺失图像Im与掩码M。输出：语义先验与编码器的融合特征Fm。1.Im与M上采样：Ime(2,3,512,512),Me(2,1,512,512)resize(Im,(512,512),resize(M,(512,512),Im(2,3,256,256),M(2,1,256,256)；2.Ime和Me通道合并：Fim(2,4,512,512)concat(Ime,Me)；3.编码阶段Im提取

24、特征得到Fml：Fml(2,128,256,256)conv(relu(bn(conv(Im),Im(2,3,256,256)；4.编码阶段Fml提取特征得到Fms：Fms(2,256,64,64)relu(bn(conv(relu(bn(conv(Fml),Fml(2,64,256,256)；5.语义先验阶段Fim提取特征得到Fsl：Fsl(2,128,256,256)lrelu(conv(lrelu(conv(Fim),Fim(2,4,512,512)；6.语义先验阶段Fsl提取特征得到Fss：Fss(2,256,64,64)lrelu(conv(lrelu(conv(Fsl),Fsl(2

25、,128,256,256)；7.改变Fml通道数：Fml(2,128,256,256)conv(Fml),Fml(2,64,256,256)；8.根据式（3）、式（4）得到Fms和Fml：Fms(2,256,64,64),Fml(2,128,256,256)Spade(Fsl,Fml),Spade(Fss,Fms)；9.改变Fml通道数：Fml(2,256,64,64)conv(Fml),Fml(2,128,256,256)；10.得到语义信息下的图像特征Fm(2,256,64,64)Fms+Fml；11.returnFm1.3深度注意力残差组对于图像修复网络来说，深层残差网络能更好地利

26、用通道特征，灵活地处理缺失区域与未缺失区域的信息。注意力机制可以告诉模型需要更关注哪些内容和哪些位置，从而加强模型的性能，其中通道注意力可以通过考虑通道之间的相互依赖性来自适应地重新调整特征。协调注意力（coordinate attention）19作为一种新型通道注意力不仅能捕获通道间的信息，还能捕获方向感知和位置感知的信息，帮助模型更加精准地定位和识别感兴趣的目标。因此本文引入深度注意力残差组，使生成器网络不仅能更加关注到图像的缺失区域，而且能自适应地学习各个通道的特征，专注于更有用的通道特征并构建更深层的网络。本文提出的深度注意力残差组如图 2所示。图中Fm是来自语义先验网络与编码器多尺

27、度融合后的输出，先经过由 Conv、ReLU、Conv 和输入组成的残差块（residual block，RB）加深网络后得到Xm，然2453Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(10)后将Xm输入到膨胀卷积残差块（DilaConv Resnetblock，DCRB）中，接着经过协调注意力得到Ym，最后将得到的Ym再通过残差块RB进行输出，构成注意力残差块（CoorAttention residual block，CARB）。深度注意力残差组（deep attention residual

28、group，DARG）则由输入Fm、8个CARB和1个卷积组成。HCARB=RB(HCA(HDCRB(RB(Fm)（6）HDARG=HConv(8HCARB)+Fm（7）其中，RB为残差块，HDCRB为膨胀卷积残差块，HCA为协调注意力块，HCARB为注意力残差块，HConv为33卷积，HDARG为深度注意力残差组。实验发现在深度注意力残差组中引入太多的残差块会导致网络训练不稳定，因此本文在残差块相加前引入一个卷积来使网络训练更加稳定。利用注意力残差块和深度注意力残差组构成残差中的残差，能够使网络适应更深层的结构。深度注意力残差组内部的长连接和注意力残差块内部的短连接都可以将丰富的信息通过恒等

29、映射向后传播，保证了网络中信息的流动。1.4全尺度跳跃连接为了使网络可以更好地利用网络空间不同阶段的图像特征信息，减少编码部分下采样过程中所造成的部分信息丢失，并结合未缺失区域进一步提取缺失部分的信息，本文在编码器-解码器部分增加了全尺度跳跃连接，该连接结合了来自全尺度特征的低级语义信息与高级语义信息，从而将低层次特征图（包含图像的边界）与高层次特征图（包含图像的纹理与细节）结合起来对图像缺失区域进行修复。全尺度指解码器的每一层都融合了来自编码器的较小和相同尺度的特征图以及来自解码器的较大尺度的特征图。将编码器各个尺度卷积后的图像特征分别设为Fel、Fem和Fes，解码器各个尺度的图像特征分别

30、设为Fdl、Fdm和Fds，则经过全尺度连接后解码器各个尺度的图像特征Fdl、Fdm和Fds可利用以下公式计算得到。Fds=Fds+Fes+Conv1(Fem)+Conv2(Fel)（8）Fdm=Fdm+Fem+Conv3(Fel)（9）Fdl=Fdl+Fel+Deconv(Fds)（10）其中，Fds，Fds，FesR2cH/4W/4，Fdm、Fdm、FemRcH/2W/2，Fdl、Fdl、Fel Rc/2 H W；Conv1是输入通道为 128，输出通道为 256，卷积核为 1，步长为 2 的 2 维卷积；Conv2是输入通道为64，输出通道为256，卷积核为1，步长为4的2维卷积；Con

31、v3是输入通道为64，输出通道为 128，卷积核为 1，步长为 2 的 2 维卷积；Deconv是输入通道为 256，输出通道为 64，卷积核为 4，步长为4的2维反卷积。引入全尺度跳跃连接后网络能捕获全尺度下的细粒度细节和粗粒度语义，从而能获取更多的上下文信息对图像的缺失区域进行修复。1.5损失函数损失函数包括用于图像缺失区域修复和语义先验的损失项。本文利用重建和对抗性损失来训练整个网络模型，利用多尺度交叉熵损失来约束语义先验。输入缺失图像经过修复网络模型修复后的图像为Imer：Imer=IpreM+Igt(1-M)（11）其中，Ipre为经过生成器得到的预测图像，Igt为真实图像，M为二值

32、掩码，代表Hadamard乘积。Imer为将经过修复网络的预测图像与真实图像相结合生成的图像。（1）重建损失。对于重建损失Limg，本文对重建图像使用L1损失，以更关注缺失区域的内容：Limg=|Igt-Imer|11nijMij（12）其中，n、i、j均为256。（2）对抗性损失。利用对抗性损失Ladv来训练网络以生成更可信的局部细节：Ladv=EIgtlnD(Igt)+EIpreln(1-D(Ipre)（13）其中，D代表判别器。（3）多尺度交叉熵损失。对于语义先验，采用多尺度交叉熵损失来约束所有尺度上像素的预测类分图2深度注意力残差组Fig.2Deep attention residua

33、l group2454陈晓雷等：结合语义先验和深度注意力残差的图像修复布与目标类分布之间的距离，用来惩罚每个尺度上的像素每个位置的偏差：Lss(Ss,Sss)=-i SsSiln(Ups(Sss)（14）Lsl(Sl,Ssl)=-i SlSiln(Ups(Ssl)（15）其中，Lss(Ss,Sss)为在Sss,Ss R2c H/4 W/4下经过上采样得到的交叉熵损失，Lsl(Sl,Ssl)为在Ssl，Sl Rc H/2 W/2下经过上采样得到的交叉熵损失，Ups代表上采样，i表示语义先验图Ss、Sl中的每个像素。（4）总损失。语义先验的总损失为交叉熵损失在多个尺度上的加权和：Ls(S,Ss)

34、=1Lss(Ss,Sss)+2Lsl(Sl,Ssl)（16）其中，1和2均为0.5。（5）网络总损失。网络的总损失被定义为上述多尺度重建损失、对抗性损失和多尺度交叉熵损失的加权和：Ltotal=1Limg+2Ladv+3Ls（17）其中，1、2和3分别为重建损失、对抗性损失和多尺度交叉熵损失的权重，通过实验确定1=1.0，2=0.1，3=0.1。2实验结果及分析2.1模型实现本文使用 Pytorch来实现所提出的网络结构，对训练集总数的 1/2 采用水平翻转来增强数据。使用10个epoch训练网络，batchsize等于2，并使用动量参数为 0.9和初始学习率为 0.001的 Adam 优化器

35、。本文实验是在一台装载 AMD R5 CPU 和 RTX 3060Laptop GPU的计算机上完成的。2.2训练与测试本文采用 CelebA-HQ数据集与 Paris Street View数据集来评估本文模型，数据集信息如下：CelebA-HQ数据集20：CelebA-HQ总共包含30 000张图像，每张图像都包括了脸部特征点（landmark）、人脸属性（attribute）等信息，每张图像的分辨率都是1 0241 024，本文使用27 000张用于网络训练，3 000张用于网络测试。Paris Street View数据集21：巴黎街景数据集包含了足够的结构信息，比如窗户、门和一些巴黎

36、风格的建筑，图像分辨率为 936537。巴黎街景数据集由15 000 张图像组成，本文使用 14 900 张进行网络训练，100张图像进行测试。对于来自 CelebA-HQ数据集和 Paris Street View数据集的图像，本文将其分辨率统一调整为256256。掩码部分采用的像素规格为中心区域为 128128的白色掩码和掩码比率为10%20%、20%30%和30%40%的白色随机掩码。为了验证本文算法的有效性，本文对Paris StreetView 数据集采用中心掩码，对 CelebA-HQ 数据集采用中心掩码和随机掩码，选用峰值信噪比（peaksignal-to-noise ratio

37、，PSNR）、结构相似性（structuralsimilarity，SSIM）和L1Loss作为评价指标进行定量比较。PSNR是基于对应像素点间的误差，即基于误差敏感的图像质量评价；SSIM是一种全参考的图像质量评价指标，它分别从亮度、对比度、结构三方面度量图像相似性；L1 Loss是为了确保像素级的重建精度，可以保留颜色和亮度。PSNR和SSIM值越高，表示网络性能越好，L1 Loss值越低，则表示网络性能越好。2.3实验结果与对比分析本文方法对CelebA-HQ数据集与Paris StreetView数据集在中心掩码上对PSNR、SSIM和L1 Loss值进行了比较。对CelebA-HQ数

38、据集在不同比例掩码上对PSNR、SSIM和L1 Loss值进行了比较。本文将提出的方法与图像修复领域先进的 PRVS（progressivereconstruction of visual structure）、DSNet（dynamicselection network）22、RFR（recurrent feature reasoning）23和 RN（region normalization）24算法进行了客观指标比较与主观修复结果比较，其中 PRVS、DSNet和 RN均为基于GAN的修复方法，RFR为基于CNN的修复方法。不同修复方法在 CelebA-HQ 和 Paris Street

39、View数据集的客观指标实验结果见表1和表2，不同方法在CelebA-HQ和Paris Street View数据集的主观修复结果见图3图5。2.3.1客观实验结果及对比分析从表1结果可见，在CelebA-HQ数据集上，PRVS、DSNet、RFR 和 RN 四种方法中 PRVS 的 PSNR 和SSIM最高，L1 Loss最低。本文方法相较于 PRVS在CelebA-HQ 数据集上 PSNR 和 SSIM 分别提高 0.493和 1.2%，L1 Loss减少 0.09%。在 Paris Street View 数据集上，PRVS、DSNet、RFR和 RN四种方法中 RN的PSNR

40、和 SSIM 最高，L1 Loss 最低，本文方法相较于RN在 Paris Street View数据集上 PSNR和 SSIM 分别提高0.545和0.8%，L1 Loss减少0.1%。表 2 中 10%20%、20%30%、30%40%分别代表随机掩码比率。如表 2所示，在掩码比率为 10%2455Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(10)20%时，不同方法的实验结果相差较大，随着掩码比率的增大，不同方法的实验结果差距逐渐缩小。在随机掩码修复实验中 PRVS、DSNet、RFR和 RN

41、四种方法中 RN 的 PSNR和 SSIM 最高，L1 Loss最低。本文方法相较于 RN 在 CelebA-HQ 数据集上在随机掩码为 10%20%时 PSNR 和 SSIM 分别提高 0.889 和0.8%，L1 Loss 减少 0.07%；在随机掩码为 20%30%时 PSNR 和 SSIM 分别提高 0.742和 1.0%，L1 Loss减少0.1%；在随机掩码为30%40%时PSNR和SSIM分别提高0.797和1.6%，L1 Loss减少0.18%。2.3.2主观实验结果及对比分析不同方法的修复结果在CelebA-HQ数据集上采用中心掩码的主观视觉比较如图3所示。其中（a）gt为真

42、实图像，（b）input 为缺失图像，（c）PRVS、（d）DSNet、（e）RFR 和（f）RN 分别代表不同方法的修复结果，（g）Ours 为本文方法的修复结果。可以看到表1不同数据集上中心掩码修复结果对比Table 1Comparison of center mask inpainting results on different datasetsNetworkPRVS7DSNet22RFR23RN24OursCelebA-HQPSNR/dB26.51326.34726.07726.25127.006SSIM0.8920.8860.8820.8910.904L1 Loss0.015 90

43、.016 10.017 30.016 50.015 0Paris Street ViewPSNR/dB25.01424.82924.71225.31225.857SSIM0.8510.8450.8400.8610.869L1 Loss0.021 00.021 30.021 50.020 40.019 4表2不同数据集上随机掩码修复结果对比Table 2Comparison of random mask inpainting results on different datasetsNetworkPRVS7DSNet22RFR23RN24Ours10%20%PSNR/dB31.17331.739

44、31.42532.30333.192SSIM0.9390.9460.9410.9550.963L1 Loss0.007 10.006 40.006 80.006 00.005 320%30%PSNR/dB28.12528.45728.30429.15729.899SSIM0.8950.9020.8990.9210.931L1 Loss0.012 40.011 90.015 10.010 80.009 830%40%PSNR/dB26.27926.32126.29626.71227.509SSIM0.8620.8610.8610.8770.893L1 Loss0.017 60.017 70.01

45、7 60.016 80.015 0图3CelebA-HQ数据集上中心掩码修复结果Fig.3Inpainting results of center mask on CelebA-HQ dataset图4Paris Street View数据集上中心掩码修复结果Fig.4Inpainting results of center mask on Paris Street View dataset2456陈晓雷等：结合语义先验和深度注意力残差的图像修复PRVS、RFR 及 RN 的修复结果都有不同程度上的模糊，本文方法相比这些方法更加清晰。DSNet与本文方法的修复结果视觉差异较小，将在图6进行局

46、部放大后再进行深入对比和分析。不同方法的修复结果在Paris Street View数据集上采用中心掩码的主观视觉比较如图 4所示。可以看出，本文算法的修复结果在被遮挡的窗户部分相比其他算法可以明显看到窗户的轮廓，其他方法的修复结果窗户的轮廓相对不清晰。不同方法的修复结果在CelebA-HQ数据集上采用随机掩码的主观视觉比较如图5所示，从上到下的三行掩码比率分别为 10%20%、20%30%和 30%40%。在掩码比率为 10%20%时，所有方法都可以对缺失区域进行较好的补全。在掩码比率为 20%30%时，其他方法对人物脸部的右下方区域的补全都有若干的缺失与模糊，本文方法能对人物脸部的右下方区

47、域进行较完整的补全。在掩码比率为 30%40%时，PRVS、RFR和RN能明显地看到未补全区域，本文方法与DSNet修复结果相比无明显的差异。2.3.3主观实验结果局部对比分析从图 3图 5主观实验结果及对比分析中可以看到，本文方法相比PRVS、RFR及RN的主观修复结果有较明显的改善与提升，但是与DSNet的修复结果视觉差异较小，因此本文将DSNet与本文方法的实验结果进行了局部放大对比，如图6所示。图6中（a）gt、（b）gt(local)、（c）DSNet（local）和（d）Ours（local）分别为整体真实图像、局部真实图像、局部真实图像的 DSNet 修改结果和本文方法修复结果。

48、其中绿色框部分表示真实图像的缺失部分，蓝色框表示真实图像与 DSNet和本文方法修复结果的差异部分。第一行实验结果，本文方法的修复结果整体上比较模糊，DSNet整体上比较清晰，但是和原图5CelebA-HQ数据集上随机掩码修复结果Fig.5Inpainting results of random mask on CelebA-HQ dataset图6DSNet与本文方法局部修复结果比较Fig.6Comparison of local inpainting results betweenDSNet and proposed method2457Journal of Frontiers of Co

49、mputer Science and Technology计算机科学与探索2023,17(10)始图像相比，本文方法在关键细节的修复上更加接近原图，比如对人物鼻梁、鼻孔和右侧咬肌的修复。第二行实验结果，DSNet修复结果整体上依然比本文方法清晰，但是 DSNet出现了原图没有的线条和纹理，且没有修复出字母 A。第三行实验结果，两种方法的修复结果主观视觉无明显差异。第四行实验结果，人物右侧脸颊上的纹理，本文修复结果好于DSNet，其余区域两种方法的修复结果主观视觉无明显差异。第五行实验结果，两种方法的修复结果主观视觉无明显差异。总体而言，本文方法修复结果好于DSNet修复结果。2.4模型训练2.

50、4.1训练过程损失曲线训练过程中 G_L1_Loss和 G_Loss曲线如图 7与图 8 所示。其中 Paris-center、CelebA-HQ-3040、CelebA-HQ-2030、CelebA-HQ-1020和CelebA-HQ-center分别代表 Paris Street View 数据集使用中心掩码训练网络、CelebA-HQ数据集使用30%40%、20%30%、10%20%的随机掩码比率和中心掩码训练网络。本文对网络训练了 10个 epoch，取每个 epoch的平均损失作为当前 epoch的损失值，由图 7和图 8可以看到，随着网络训练的 epoch 数

展开阅读全文