1、现代电子技术Modern Electronics Technique2023年10月1日第46卷第19期Oct.2023Vol.46 No.190 引 言文物中的古壁画是中国古代文明深厚悠久的重要体现1。绝大部分现有的新疆壁画都被不同程度的破坏,针对它们的修复迫在眉睫。手工修复方式面临着专业人员紧缺、耗时较久和二次创作等问题。非接触式的数字化图像修复技术可以弥补这些缺陷,按照实现原理可以大致分为以偏微分方程为基础、以样本块匹配为基础和以深度学习为基础的修复方法。以偏微分方程为基础的修复方法中比较成熟的有BSCB2模型、全变分3(Total Variation,TV)模型以及在全变分模型基础上添
2、加曲率控制信息扩散强度进行改进后提出的曲率驱动扩散4(CurvatureDriven Diffusion,CDD)模型。基于偏微分方程的图像修复方法在修复小面积破损时,能够降低图像噪声和锐化边缘信息,但是对于图像缺失面积较大的情况,修复效果比较模糊,图基于深度学习的新疆壁画修复方法张子愿,鲍淑梅,张晓坤,霍博岩(新疆大学 软件学院,新疆 乌鲁木齐 830091)摘 要:新疆壁画具有极高的美学和学术研究价值,但是在自然环境的侵蚀下,多数壁画存在一定程度的破损急需修复。随着深度学习的发展,采用深度学习的修复方法进行文物修复成为目前文物保护的一种趋势,但是传统的深度学习修复方法不能有效地修复壁画图像
3、的不规则破损和大面积破损,针对这些问题,文中提出一种基于门控卷积和Transformer的壁画修复方法。门控卷积能自动从壁画图像中学习并更新掩膜,解决不规则破损修复效果不佳的问题。Transformer能够与门控卷积互补,建模壁画图像所有像素之间的联系,实现全局操作解决大面积破损修复效果不佳的问题。针对 Transformer进行优化可进一步提升修复效果。在对新疆壁画图像进行修复时,该方法相较于现有先进的方法能够在 SSIM、PSNR 和LPIPS指标上显著提升。关键词:新疆壁画;深度学习;文物保护;门控卷积;Transformer;不规则破损;大面积破损;图像修复中图分类号:TN911.73
4、34;TP391 文献标识码:A 文章编号:1004373X(2023)19005506Xinjiang mural inpainting based on deep learningZHANG Ziyuan,BAO Shumei,ZHANG Xiaokun,HUO Boyan(School of Software,Xinjiang University,Urumqi 830091,China)Abstract:Xinjiang murals have high aesthetic and academic value.However,due to the erosion of the nat
5、ural environment,most of them are damaged to a certain extent and need to be repaired.With the development of deep learning,it has become a trend to use deep learning method for cultural relics protection.However,for the irregular and large area damage of mural images,the traditional inpainting meth
6、od based on deep learning fails to repair them effectively.In view of this,a mural inpainting method based on gated convolution and transformer is proposed.The method of gated convolution can automatically learn from the mural image and update the mask,so as to improve the inpainting of irregular da
7、mage.Transformer can complement the gated convolution,model the relationship among all pixels of the mural image and realize global operation,so as to improve the inpainting of largearea damage.Transformer is optimized to further improve the inpainting effect of this method.In comparison with the ex
8、isting advanced methods,the proposed method has significant improvement on the indexes of SSIM(structural similarity index measure),PSNR(peak signal to noise ratio)and LPIPS(learned perceptual image patch similarity)in the inpainting of Xinjiang murals.Keywords:Xinjiang mural;deep learning;cultural
9、relics protection;gated convolution;transformer;irregular damage;largearea damage;image inpaintingDOI:10.16652/j.issn.1004373x.2023.19.011引用格式:张子愿,鲍淑梅,张晓坤,等.基于深度学习的新疆壁画修复方法J.现代电子技术,2023,46(19):5560.收稿日期:20230316 修回日期:202304075555现代电子技术2023年第46卷像边缘特征较差5。以样本块匹配为基础的修复方法中比较知名的是由文献6提出的 Criminisi算法。以样本块匹配
10、为基础的修复方法无法充分获取壁画图像全局结构和语义信息,不能有效分辨部分纹理和边缘,降低了修复效果。在深度学习的图像修复方面,文献7提出直接使用卷积神经网络(Convolutional Neural Network)进行修复,文献8首次提出了部分卷积(Partial Convolution)的概念,Partial Conv模型在修复图像的不规则破损区域时可以仅考虑有效像素,能够对各种形状破损进行修复,但掩膜更新方式僵硬,限制了图像的修复效果。文献9使用门控卷积(Gated Convolution)来解决部分卷积的缺陷并提出了Deepfill V2修复方法,但在修复大面积破损时效果不佳。文献10
11、提出了基于博弈论的生成对抗网络(Generative Adversarial Networks,GANs)。文献11提出了一种基于生成对抗网络的图像修复模型 Edge Connect,由边缘生成网络生成破损部分的推测边缘图,然后图像修复网络依照边缘图进行破损部分的修复。文献12在计算机视觉领域引入 Transformer 实现全局操作,建模所有像素之间的关系与卷积进行互补。文献13使用Transformer来提升大面积破损的修复效果。为了提升不规则破损和大面积破损的修复效果,本文提出了一种基于门控卷积和 Transformer的新疆壁画修复方法,通过门控卷积自动从壁画中获取掩膜解决不规则破损的
12、问题,使用Transformer来弥补门控卷积因获取远距离像素信息过少而导致大面积破损修复效果不佳的缺陷,最终实现针对新疆壁画图像破损的修复。1 方法介绍本文提出的壁画修复方法在 Deepfill V2的基础上添加Transformer提升修复效果,共分为粗糙修复和细致修复两个阶段。掩膜和原始壁画图像输入到粗糙修复阶段的生成网络,生成一个粗糙修复结果。粗糙修复结果输入到含有Transformer的细致修复阶段,生成网络进行细节优化,得到最终的修复结果。1.1 门控卷积门控卷积能够自动从壁画图像中学习并更新掩膜,其计算方式如下:Gatingx,y=Wg I(1)Featurex,y=Wf I(2
13、)Ox,y=(Featurex,y)(Gatingx,y)(3)式中:Gating 代表门控;Feature 代表特征提取;Wg和Wf分别代表用于门控和用于特征提取的两个不同卷积核;代表任意一个激活函数;代表 sigmoid 激活函数;“”代表点乘运算。这样的掩膜更新方式能够实现网络对于壁画图像的每个通道以及每个位置学习一种动态的特征筛选机制,如图1所示。图1 门控卷积的原理1.2 粗糙修复阶段生成网络该生成网络共有 17 个卷积层,原始壁画图像及其掩膜是该生成网络的输入。首先通过对壁画图像进行两次下采样来降低图像的分辨率,便于提取图像的特征增加输出接收场。首次下采样能够获取较低级别的图像特征
14、,而网络层次的加深使得第二次下采样能够提取到更高级别比较抽象的图像特征。然后在模型的中间添加4个空洞门控卷积层,他们使用的卷积核大小均为33,步长为 1,空洞率分别为 2、4、8和 16。利用 4个空洞门控卷积层来扩大图像的感受野,获取多尺度的上下文信息。最后上采样操作将图像的分辨率渐渐地还原到原始大小,得到粗糙的修复结果。该生成网络结构如图2所示。图2 粗糙修复阶段生成网络结构1.3 细致修复阶段生成网络将壁画粗糙修复结果作为细致修复阶段生成网络的输入。细致修复阶段生成网络采取双分支结构缩短训练时间,分别为包含空洞门控卷积层的一支和包含Transformer的一支。在包含空洞门控卷积层的分支
15、中,通过两次下采样提取到更高级别的抽象图像特征,然后加入5个和粗糙修复阶段相同的空洞门控卷积层来扩大壁画粗糙修复结果的感受野。在 另 一 个 分 支 中,两 次 下 采 样 之 后 经 过 5 个Transformer阶段实现全局操作,建模所有像素之间的关系,与门控卷积进行互补。弥补门控卷积因获取远距离56第19期像素信息过少而导致大面积破损修复效果不佳的缺陷。将两个分支的输出进行融合连接,然后通过两次上采样操作把隐空间内映射的壁画图像特征解码出来,渐渐地将壁画图像还原到其原有的分辨率,得到细致的壁画图像修复结果。该生成网络结构如图3所示。图3 细致修复阶段生成网络结构一个Transforme
16、r阶段包含4个Transformer块和1个卷积层,结构如图4所示。图4 一个Transformer阶段的结构为了提升修复效果,针对Transformer块进行一定的优化。传统的 Transformer 块包含多头注意力(Multihead SelfAttention,MSA)模块和多层感知机(Multilayer Perceptron,MLP)模块。在每个模块之前进行的层标准化和在每个模块之后进行的残差连接将会导致传统的Transformer块在处理面积比较大的破损时,因为其中囊括了大量的无效 token,所以可能会出现梯度爆炸的问题。层标准化会放大这一现象进而导致训练不稳定。因为是针对大面
17、积的破损进行修复,所以大部分 token都是无效的,这导致残差学习很难使得模型从壁画图像中去学习到高频细节,最终使得优化变得困难。为了解决这一问题,本文采取特征联合的融合学习来替代原有的残差学习并且去除了原有的层标准化。传统Transformer不能充分利用局部上下文信息,限制了图像修复的效果14。本文在 MLP中使用深度卷积来解决这一问题。使用全连接层增加每个token的特征维度,然后将 token转化为特征图,并利用 33的深度卷积来获得局部信息,将特征图转化为token,通过全连接层转化为输入通道的维度。全连接层和卷积层均使用GELU激活函数。调整后的MLP结构如图5所示。图5 调整后的
18、MLP结构将注意力机制的输入和输出联合,然后使用一个全连接层。其计算方式如下:Xk,l=FC()MSA()Xk,l-1,Xk,l-1(4)Xk,l=MLP()Xk,l(5)式 中:Xk,l代 表 第k个 Transformer 阶 段 的 第l个Transformer 块的 MLP 模块输出。在 4 个 Transformer 块之后使用一个全局残差连接卷积层。文献1516的研究表明,33的卷积已经完全足够为 Transformer提供位置 信 息,因 此 为 了 提 升 训 练 速 度,将 位 置 嵌 入 从Transformer块中剔除。这种像素信息的流动完全取决于特征相似性,这就增强了距
19、离较远像素信息之间的交流互动。一个调整后的 Transformer 块中有效的 token 记为,无效的记为 T。蓝色箭头代表 attention的输出是由有效的 token 进行加权求和并且忽略无效 token 计算而来,其结构如图6所示。图6 调整后的Transformer块结构本文的注意力机制采用滑动窗口和动态掩膜的机制来使得一些有效的token进行非本地的交互,从而能够处理存在大面积破损壁画图像的大量token。该注意力机制的输出由有效token加权累加所得,计算方式如下:Att(Q,K,V)=Softmax()QKT+MdkV(6)式中:Q、K和V分别代表 query、key和 va
20、lue;1dk代表比例因子。将有效的 token值记为 0,无效的 token值记为-100,以此来计算掩膜M的值,并且为了实现跨窗口之间像素信息的连接,每次将ww大小的窗口移动张子愿,等:基于深度学习的新疆壁画修复方法57现代电子技术2023年第46卷()w 2,w 2像素。1.4 破损修复模型判别网络本文采用光谱标准化马尔科夫判别网络(SpectralNormalized Markovian Discriminator,SNPatchGAN),共包含 6 个卷积层,卷积核大小都是 55,步长为 2。前2 个卷积层的卷积核数目为 64和 128,其余卷积层均为256。通过堆叠这些卷积层来获取
21、马尔科夫块特征的统计信息,并且使用这些信息在维持特征图分辨率不变的条件下求取输入判别网络的壁画图像在不同位置、语义通道中的特征。对特征图中所有的特征元素使用生成对抗网络损失,使用次数为壁画图像高、宽和通道数的乘积。判别网络结构如图7所示。图7 破损修复模型判别网络结构1.5 损失函数为了使训练过程更加稳定,本文模型采用合页损失来判别输入判别网络图像的真伪,其中生成网络损失LG和光谱标准化马尔科夫判别网络损失LD的计算方式为:LG=-EzPz(z)D(G(z)(7)LD=ExPdata()xReLU()1-D(x)+EzPz(z)ReLU()1+D()G(z)(8)式中:z代表原始破损壁画图像;
22、G(z)代表生成网络针对破损壁画图像进行修复所得结果;D代表光谱标准化马尔科夫判别网络。因为已经针对相似图像块的信息进行了编码,所以只使用L1损失函数而弃用感知损失。最终损失函数由像素级L1损失和光谱标准化马尔科夫判别网络损失LD按1 1的比例相加。2 实验数据针对新疆壁画图像现存数量较少,目前没有直接可用的新疆壁画图像数据集的问题。通过网络、文献和实地拍摄等方式收集并汇总。对汇总的图像进行筛选,剔除其中的低分辨率图像,共获取 5 000余张新疆壁画图像。通过图像处理技术使得其分辨率大小均为 512512。利用数据增广技术扩充到20 000余张图像形成新疆壁画图像数据集。选取其中的100张作为
23、测试数据,其余图像作为训练数据。具体操作过程如图8所示。3 实验设计为了证明本文修复方法的优越性,选择与现有的先进图像修复方法 Deepfill V2 模型、Edge Connect 模型、Partial Conv 模型和 Criminisi模型进行对比实验。在壁画图像测试数据上人为添加轻微破损(破损区域占比为20%以下)、普通破损(破损区域占比为20%40%)和严重破损(破损区域占比为 40%以上)三种不同破损进行修复,并将修复结果的SSIM、PSNR和LPIPS进行对比。图8 新疆壁画图像数据集的创建为了证明本文针对 Transformer块进行优化的有效性,进行消融实验,在壁画图像测试数
24、据上人为添加三种不同破损后进行修复,并将优化之后的方法和原始方法的修复结果在SSIM、PSNR和LPIPS方面进行对比。4 对比实验针对壁画图像人为添加轻微破损时,各个修复方法的修复结果如图9所示。图9 壁画图像轻微破损修复结果在壁画图像测试数据人为添加轻微破损时,各方法修复结果评价如表1所示。表1 壁画图像轻微破损修复结果评价修复方法CriminisiPartial ConvEdge ConnectDeepfill V2本文修复方法PSNR22.007 326.059 825.981 928.866 029.464 1SSIM0.789 80.856 20.897 80.940 20.946
25、 7LPIPS0.1470.0520.0570.0410.02658第19期针对壁画图像进行轻微破损的修复时,Criminisi方法因为容易误识某些纹理和边缘,所以针对轻微破损的修复效果不佳,其他方法因为破损面积较小,所以均取得了不错的修复效果。本文修复方法因为能够获取充足的局部信息,所以取得了最优结果。针对壁画图像人为添加普通破损时,各个修复方法的修复结果如图10所示。图10 壁画图像普通破损修复结果在壁画图像测试数据人为添加普通破损时,各方法修复结果评价如表2所示。表2 壁画图像普通破损修复结果评价修复方法CriminisiPartial ConvEdge ConnectDeepfill
26、V2本文修复方法PSNR18.592 223.860 522.352 325.124 525.552 6SSIM0.651 80.782 60.764 30.863 90.878 6LPIPS0.2890.0890.1260.0820.060针对壁画图像进行普通破损的修复时,Criminisi方法因为僵硬地将图像完好无损部分最优匹配图像块填充到破损区域,导致其修复效果不佳,其他修复方法相较于各自轻微破损的修复效果均有一定程度的下降,但仍表现良好。本文修复方法因为能更好地获取图像各个像素之间的联系,所以取得了最优结果。针对壁画图像人为添加严重破损时,各个修复方法的修复结果如图11所示。在壁画图像
27、测试数据人为添加严重破损时,各方法修复结果评价如表3所示。针对壁画图像进行严重破损的修复时,因为破损面积较大,所以导致Criminisi方法所需要的图像完好无损部分减少,填充到破损部分的图像块与完好无损部分的图像块更接近,从而提升修复效果。Partial Conv方法因为其僵硬的掩膜更新方式导致修复结果出现了黑暗模糊、突兀与不协调的现象。其他修复方法相较于各自普通破损的修复效果均出现一定程度下降。本文修复方法因为能够弥补门控卷积获取远距离像素信息不足的缺陷,所以取得了最优结果。图11 壁画图像严重破损修复结果表3 壁画图像严重破损修复结果评价修复方法CriminisiPartial ConvE
28、dge ConnectDeepfill V2本文修复方法PSNR18.437 817.946 120.386 119.929 020.558 7SSIM0.688 30.720 70.791 90.801 00.802 3LPIPS0.1950.1820.1410.1450.1295 消融实验在壁画图像测试数据人为添加轻微破损时,本文的原始方法和优化之后方法的修复结果如表4所示。表4 壁画图像轻微破损的消融实验修复方法原始方法优化后的方法PSNR29.464 129.706 6SSIM0.946 70.950 5LPIPS0.0250.025在壁画图像测试数据人为添加普通破损时,本文的原始方法
29、和优化之后方法的修复结果如表5所示。表5 壁画图像普通破损的消融实验修复方法原始方法优化后的方法PSNR25.552 625.646 4SSIM0.878 60.881 6LPIPS0.0600.059在壁画图像测试数据人为添加严重破损时,本文的原始方法和优化之后方法的修复结果如表6所示。优化后的方法能够更好地学习壁画图像的高频细张子愿,等:基于深度学习的新疆壁画修复方法59现代电子技术2023年第46卷节,并且充分利用局部上下文信息,从而提升修复效果。在测试数据上人为添加三种不同破损,本文提出的优化方法相比于原始方法绝大部分情况下均取得了最优结果。表6 壁画图像严重破损的消融实验修复方法原始
30、方法优化后的方法PSNR20.558 720.644 2SSIM0.802 30.803 0LPIPS0.1290.1286 结 语本文针对新疆现存的古壁画修复进行了研究,提出了一种基于门控卷积和优化之后 Transformer的壁画修复方法。该修复方法能够充分利用壁画图像的语义信息,合理地填充破损区域,具有较高的可用性。针对不规则和大面积的破损依然能够取得良好的修复效果。与现有的先进修复方法相比,在同等条件下,本文模型的修复结果更加合理,更接近原始壁画的风格和语义,并且在 SSIM、PSNR、LPIPS上均显著提升。本文提出的壁画修复方法可以丰富现有的新疆壁画修复方式。注:本文通讯作者为鲍淑
31、梅。参考文献1 王丽梅.古壁画数字化修复方法研究J.东方收藏,2021(23):6768.2 BERTALMIO M,SAPIRO G,CASELLES V,et al.Image inpainting C/Proceedings of the 27th Annual Conference on Computer Graphics and Interactive Techniques.S.l.:s.n.,2000:417424.3 SHEN J,CHAN T F.Mathematical models for local nontexture inpaintings J.SIAM journa
32、l on applied mathematics,2002,62(3):10191043.4 CHAN T F,SHEN J.Nontexture inpainting by curvaturedriven diffusions J.Journal of visual communication and image representation,2001,12(4):436449.5 陈永,陶美风.敦煌壁画数字化修复方法综述J.软件导刊,2021,20(5):237242.6 CRIMINISI A,PEREZ P,TOYAMA K,et al.Image region filling by
33、exemplarbased inpainting:US20030453404 P.20040826.7 KOHLER R,SCHULER C J,SCHOLKOPF B,et al.Maskspecific inpainting with deep neural networks C/Pattern Recognition:36th German Conference,GCPR 2014.Heidelberg,Germany:Springer,2014:523534.8 LIU G,REDA F A,SHIH K J,et al.Image inpainting for irregular h
34、oles using partial convolutions C/Proceedings of the European Conference on Computer Vision(ECCV).Heidelberg,Germany:Springer,2018:89105.9 YU J,LIN Z,YANG J,et al.Freeform image inpainting with gated convolution C/Proceedings of the IEEE/CVF International Conference on Computer Vision.New York:IEEE,
35、2019:44714480.10 GOODFELLOW I,POUGET ABADIE J,MIRZA M,et al.Generative adversarial nets C/Neural Information Processing Systems.Cambridge,Massachusetts,USA:MIT Press,2014:26722680.11 NAZERI K,NG E,JOSEPH T,et al.EdgeConnect:Generative image inpainting with adversarial edge learning EB/OL.20190111.ht
36、tps:/arxiv.org/abs/1901.00212.12 DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al.An image is worth 1616 words:Transformers for image recognition at scale EB/OL.20210603.https:/arxiv.org/abs/2010.11929v1.13 LI W,LIN Z,ZHOU K,et al.Mat:Maskaware transformer for large hole image inpainting C/Proceedings of th
37、e IEEE/CVF Conference on Computer Vision and Pattern Recognition.New York:IEEE,2022:1075810768.14 WANG Z,CUN X,BAO J,et al.Uformer:A general Ushaped transformer for image restoration C/Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.New York:IEEE,2022:1768317693.15
38、WU H,XIAO B,CODELLA N,et al.CvT:Introducing convolutions to vision transformers C/Proceedings of the IEEE/CVF International Conference on Computer Vision.New York:IEEE,2021:2231.16 XIE E,WANG W,YU Z,et al.SegFormer:Simple and efficient design for semantic segmentation with transformers J.Advances in neural information processing systems,2021,34:1207712090.作者简介:张子愿(1998),男,硕士研究生,研究方向为数字化图像处理。鲍淑梅(1981),女,硕士研究生,高级工程师,主要从事计算机网络、通信系统、机器学习和大数据分析理论及其应用研究。60