基于生成对抗网络的图像风格迁移.pdf

资源描述

1、D0I:10.13878/ki.jnuist.20221012003刘航李明李莉付登豪徐昌莉基于生成对抗网络的图像风格迁移摘要生成对抗网络（GenerativeAdversarial Network,GAN）可以生成和真实图像较接近的生成图像.作为深度学习中较新的一种图像生成模型，GAN在图像风格迁移中发挥着重要作用.针对当前生成对抗网络模型中存在的生成图像质量较低、模型较难训练等问题，提出了新的风格迁移方法,有效改进了Bicy-cleGAN模型实现图像风格迁移.为了解决GAN在训练中容易出现的退化现象，将残差模块引入GAN的生成器，并引入自注意力机制，获得更多的图像特征，提高生成器的生成质量

2、.为了解决GAN在训练过程中的梯度爆炸现象，在判别器每一个卷积层后面加入谱归一化.为了解决训练不够稳定、生成图像质量低的现象，引入感知损失.在Facades和AerialPhoto&Map数据集上的实验结果表明，该方法的生成图像的PSNR值和SSIM值高于同类比较方法.关键词生成对抗网络；风格迁移；自注意力机制；谱归一化；感知损失中图分类号TP391.4文献标志码A收稿日期2 0 2 2-10-12资助项目国家自然科学基金（6 18 7 7 0 51,6 1170192）；重庆市科委重点项目（cstc2017zdcy-zdyf0366）；重庆市教委项目（113143）；重庆市研究生教改重点项目

3、（yjg182022）作者简介刘航,女，硕士生，研究方向为深度学习、计算机视觉.40 6 36 917 7 李明（通信作者）,男,博士，教授,研究方向为机器学习、计算机视觉.2 0 1310 52 1重庆师范大学计算机与信息科学学院，重庆,40 13312西南大学计算机与信息科学学院，重庆，4007153电子科技大学经济与管理学院，成都,6 117 310引言图像风格迁移是目前计算机视觉领域的研究热点.风格迁移的目的是将一幅图像转换成另一幅或多幅具有特定目标的图像，例如：输人一张纯色马的图片，输出的是斑马的图片；输人一张油画的图片，输出的是中国画的图片；等等.图像风格迁移不仅可以显著降低获取相

4、关数据集的成本,而且还可以创建源数据以外的新图像，所以利用生成模型扩大研究数据集可有效提高深度学习网络模型的训练质量.Goodfellow等!提出一种生成对抗网络模型,该模型由生成网络和判别网络组成，这两个网络在互相博奔的过程中优化彼此.随着判别网络的辨伪能力不断增强，生成网络产生的数据将更接近真实数据,生成对抗网络与其他网络相比具有更好的数据生成能力,因此生成对抗网络在图像生成和风格迁移领域得到了广泛应用.Isola 等2 提出的Pix2Pix模型作为有监督图像风格迁移的代表作，它通过有监督训练成对图像，得到的是一对一的风格迁移图像.虽然Pix2Pix模型得到的生成图像接近真实图像，但是该模

5、型的训练需要大量的成对图像数据，而现实中收集成对数据集较困难，限制了其推广应用.Zhu等3 提出的CycleGAN不需要训练成对的数据集，它是无监督风格迁移任务的经典模型，并且仅使用生成器和判别器完成图像域的风格迁移，首次实现了不成对图像之间的变换，在风格迁移领域得到了广泛的应用,但该模型并不能生成多样的结果.针对CycleGAN生成结果单一的问题,Zhu等4 提出的BicycleGAN是一种基于条件遗传算法的混合模型,结合了cVAE-GAN5和cLR-GAN6的优点，学习两个图像域之间的多模态映射,有助于产生更多样化的结果.Park 等7 提出的CUT将对比学习应用到图像风格迁移,实现了一种

6、轻量级的图像风格转换模型.尽管已有方法将一幅图像转换成另一幅或多幅图像时表现良好，但是由于输入生成器的生成图像与真实图像存在域差异，因此在模型收敛后得到的生成图像往往伴随着噪声和细节信息的丢失，使得图像风格迁移的质量仍有提升空间.在网络训练过程中数据之间的整体差异较小，存在较多极端值干扰的情况下，往往会导致模型训练变得不稳定.本文针对上述问题,提出了以下几个方面的改进：1)将残差模块引入BicycleGAN的生成器,解决GAN再训练中容易出现的退化现象；南京信息工经大学学报（自然科学版),2 0 2 3,15(5):514-52 3Journal of Nanjing University o

7、f Information Science&Technology(Natural Science Edition),2023,15(5):514-5232)将注意力机制引人BicycleGAN的生成器,在提取图像局部特征的同时，又注意全局特征，获得更多的图像特征,并使得图像风格转换过后的图像与真实图像保持特征一致性；3)判别器每层卷积后面加入谱归一化,使得判别器和生成器在对抗训练中趋于稳定；4)引人感知损失，能够稳定训练，提升生成图像的质量.1相关工作1.1BicycleGAN生成对抗网络的思想是利用博奔不断优化生成器和判别器从而使得生成的图像更加逼近真实样本，在图像风格迁移领域已经证明了生成

8、对抗网络在图像合成中的巨大潜力.传统的图像风格迁移模型都是输人一张图片只能产生一种风格，缺乏多样性.为了避免输出的单一性,由Zhu等3 提出的Bicy-cleGAN网络模型,首次尝试输人图像可以得到多种对应样式的输出图像,强制生成器不得忽略噪声，使用噪声来获得样化的图片.BicycleGAN可以找到潜在编码Z与目标图像B之间的关系,因此生成器可以在给定不同的潜在编码乙时学会生成不同的风格图像B.BicycleGAN通过组合cVAE-GAN和cLR-GAN这两种模型来提高性能,在大量的图像风格迁移问题中产生多样化和视觉上吸引人的图像结果.BicycleGAN的模型结构如图1所示.由于直接用随机噪

9、声来产生多样性结果，会存在模式崩溃、训练不稳定问题，本文对其模型进行优化并得到了更好效果.1.2残差块在深度学习中,网络的层数越多,意味着能够提BBE口a.TrainningcVAE-GANInput ImageDeepnetwork515取到的特征越丰富，并且越深的网络提取的特征越抽象、越具有语义信息8 ，但如果简单地增加深度，会导致退化问题.随着网络层数增加，在训练集上的准确率趋于饱和甚至下降.为了解决这种退化现象，ResNet被He等8 提出，其结构如图2 所示.残差网络的思想就是将网络学习的映射从X到Y转为学习从X到Y-X的差，然后把学习到的残差信息加到原来的输出上即可.即便在某些极端

10、情况下，这个残差为0,那么网络就是一个X到Y的恒等映射.残差块一个通用的表示方式是：yi=h(x)+F(x,W)，x i+1=f(y t)，(1)其中，x,和x1+1分别是第1层的输人和输出,F是一个残差函数,h（）是恒等映射f（）是激活函数.残差网络跳过了一些网络层直接与后面某一层的输出结果进行连接.随着深度的增加，可以获取更高的精度，因为其学习的残差越准确.本文通过在生成器中引入残差模块，使得网络训练过程更加简单，有效缓解了网络退化的问题.XWeight layerReLUF(M)Weight layerF(M)+XReLU图2 残差网络结构Fig.2Residual network st

11、ructure1.3注意力机制人的眼睛可以有选择性地看自已关注的事物，L+DAQ(2/B)N(2)XidentityAGN(2)KLb.TrainningcLR-GANTarget Latent distributionNetwork outputGround truthLoss图1BicycleGAN模型结构Fig.1 BicycleGAN model structureGBBED刘航，等.基于生成对抗网络的图像风格迁移.516LIU Hang,et al.Image style transfer based on generative adversarial network.从而忽略一部分

12、不感兴趣的信号，重点聚焦自已感制每一层的频谱范数来约束判别器的Lipschitz常兴趣的事物，这就是注意力机制.注意力机制能够使数,从而提高生成对抗网络的稳定性.谱归一化与其得模型在生成图片过程中可以自己关注不同特征区他归一化方法相比计算成本较小，不需要额外的超域.如图3所示，输数据通过卷积初始化，使用数参数调整.它通过约束判别器D中每层f的权重矩阵量为C/K（k=8）且大小为11的卷积核来对输入的L2矩阵范数来控制Lipschitz常数.对于线性层数据执行卷积运算,以获得特征图f(x）和g（x）,使f(x）=W x，给出了它的Lipschitz 范数如式(6)所示.用一个数量为C且大小为11

13、的卷积核对输人数根据定义,其中（W）代表矩阵W的L2矩阵标准，据执行卷积运算以获得特征图h(x).经过局部自我它也等于W的最大奇异值.注意特征图计算，重新调整特征图尺寸：然后计算Ilf ll Lip=sup(Vf(x)=supo(W),f(x）与g（x）转置相乘,通过 softmax归一化后得到AttentionMap.再让AttentionMap与h（x）每个像素点相乘,得到自注意力 feature maps.其数学表达式如下：exp(s,),s;=f(x,)Tg(x,).在局部信息的基础上增加全局信息得到：N0,=Z,h(x,).i=1注意力层的最终输出为J;=o;+Xi.前一个隐藏层的图

14、像特征向量xRCN,转化为3个特征空间f(x）g（x）和h(x）,j；表示合成第j个区域时模型关注第i个区域的程度，然后输出注意力层是0=(0 i,02,03,0j,0）=R c x N,再乘以一个初始化为0 的可学习权重,并且添加特征向量x，通过反向传播不断更新.本文在生成器网络中引人自注意力机制，使其能够充分发现图像内部表征的整体性和长期依赖性,有效地降低了训练的计算量，使得训练更加稳定.1.4 谱归一化谱归一化（Spectral Normalization,SN）通过限(5)g(W)=maxmax,l W l (6)x0 xI2Ix 21如果为每层选择的激活函数a的Lipschitz 范

15、数为1,根据范数相容性,可以获得判别器 D中的 Lips-(2)chitz 范数的边界,如不等式（7）,其中L是D的层数.L+1II up x-um=Io(W).(7)因此,需要一种频谱归一化方法来确保(W)(3)始终等于1,谱归一化如等式（8）所示：W(W)(WW(4)式(8)用于归一化每层的权重矩阵W,从而得到（W s s（W）=1使得D可以满足1-Lipschitz约束.判别器的训练不稳定性问题转化为获取最大奇异值（W）的问题,（W ）可通过应用幂迭代法确定.2基于生成对抗网络的风格迁移模型2.1生成器模型本文改进和优化了原始GAN的生成器部分，引入残差块和自注意力机制，使得在图像风格迁

16、移过程中生成图像的真实性有较大提高，改善了生成图像的质量.所设计的生成器由编码器、转换器、解码x)Attention mapConvolution1x1 convfeature mapsg(x)X1x1 convh(x)1x1 conv图3自注意力机制结构Fig.3 Self-attention mechanism structureL+1T1softmaxSelfe-attentionfeature maps(8)南京信息工统大学学报（自然科学版),2 0 2 3,15(5):514-52 3Journal of Nanjing University of Information Scien

17、ce&Technology(Natural Science Edition),2023,15(5):514-523器三部分组成，编码器由卷积神经网络组成、转换器由自注意力机制网络层与残差网络块结构组成、解码器由反卷积神经网络组成，生成器网络如图4所示.整个生成器的网络结构参数配置如表1所示，编码器和转换器使用实例归一化（Instance Normali-zation,IN）【10 和ReLU激活函数,解码器最后一层使用Tanh激活函数.自注意力机制有助于在图像的相邻区域之间建立长期的、多层次的依赖关系.本文通过在生成器中引人自注意力机制，更好地在局部依赖基础上增加全局依赖，这有助于生成器合成更

18、逼真的风格迁移图像.为了避免因网络层数的增加而导致梯度消失的问题,本文在生成器中引入残差块，模型的训练速度得到提升，残差网络层与层之间的跳跃连接可以保留原图一部分没有进行风格迁移的完整信息，从而提高了图像风格迁移后的视觉效果.在生成器中对真实图像B进行编码，以提供潜在矢量的真实样本并从中进行采样.首先使用生成器从随机噪声中生成伪图像B,然后对B进行编码，最后计算其与输人随机噪声的差异.向前计算步骤为首先随机产生一些噪声,然后串联图A以生成伪图像B,将真实图像B编码为多元高斯分布的潜在编码，然后从它们中采样以创建噪声输入，再用同样的编码器将伪图像B编码为潜矢量.最后,从编码的517潜矢量中采样,

19、并用输人噪声乙计算损失.损失函数为式(10)和式(11).L(G,E)=EA-P(A),P(2)Il 2-E(G(A,z)II 1,G*,E*=arg min maxLicAn(G,D)+,L;(G,E),G是生成器,D是判别器,E是编码器,入为设置的超参数，嵌入乙的潜在编码被生成器网络用来保持接近实际测试时间分布p（z）,L损失可以体现重构后的图像轮廓，GAN能更好地锐化图像的清晰度.2.2判别器模型本文判别器网络采用Wang等1 提出的Patch-GAN作为模型的判别器,用来对输入的生成图像与真实图像进行真伪判别.判别器网络如图5所示.PatchGAN将输人的图像划分为7 0 7 0 的多

20、个小块，小块代表输人图像的感受野，然后对每个图像块进行真伪判断,其输出二维矩阵中每一个元素的值表示每个图像块是真实样本的概率，每个图像块真实概率的平均值作为最终整体图像的判定结果该判别器可以很大程度上保持图像的高分辨率和细节.为了缓解梯度消失从而增加模型的稳定性，本文在判别器每层卷积后面加入谱归一化.判别器的网络结构如表2 所示.(10)G,ED(11)自注意力模块卷积层1编码器卷积层2卷积层3残差块1转换器图4生成器网络Fig.4Generator network残差块9反卷积层1解码器反卷积层2卷积层3表1生成器网络结构参数配置Table 1 Parameter configuration

21、 for generator network structure模块编码器编码器编码器转换器转换器解码器解码器解码器序号01234567层类型ConvolutionConvolutionConvolutionSelf-AttentionResidual BlockDeconvlutionDeconvlutionConvolution数量11119111核尺寸7744444x44x44477步长1221221深度64128256256128643归一化ININININININ激活函数ReLUReLUReLUReLUReLUReLUTanh判别刘航，等.基于生成对抗网络的图像风格迁移.518LIU

22、 Hang,et al.Image style transfer based on generative adversarial network.真实图像输出矩阵卷积层卷积层1234输出图像图5判别器网络Fig.5Discriminator network表2 判别器结构参数配置Table 2 Parameter configuration of discriminator structure序号012342.3感知损失Johnson等12 利用感知损失增强图像细节.为了生成图像的真实视觉效果，本文使用感知损失来优化生成网络.感知损失依赖训练的VGG16模型提取图像高级特征.先提取生成图像和原

23、始图像的特征，然后计算它们之间的差异.为了最大限度地减少细节的丢失，应用感知损失来提高细节保护能力，如等式(12)所示:La=duh1$(G(x,c)-(x)Il 2,其中，x是输人数据,c是输人目标属性标签,G(x,c)是生成的数据,是特征提取函数,d、w 和h分别表示深度、宽度和高度.损失函数将通过真实图像卷积获得的特征与通过生成图像卷积获得的特征进行比较,以使内容信息和全局结构信息接近.3实验与结果分析3.1实实验平台与数据集本文实验环境如表3所示.本文使用Facades数据集和AerialPhoto&Map数据集作为实验数据集.Facades数据集包含不同领域风格的建筑物图像，Aeri

24、alPhoto&Map数据集包含GoogleMaps网站上获取的纽约市及其附近的卫星航拍图与导航路网图匹配图像.本研究工作分别取Facades数据集中的40 0 幅图像和AerialPhoto&Map层类型ConvolutionConvolutionConvolutionConvolutionConvolution核尺寸44444x44444步长22221实验环境操作系统CPUIntel(R)Xeon(R)CPU E5-2650 v4 2.20 GHzGPUPytorchCUDA(12)中的10 96 幅图像作为实验数据集.Facades数据集中32 0 幅图像用作训练集，8 0 幅图像用做测

25、试集，AerialPhoto&Map数据集中6 0 0 幅图像用做训练集，496幅图像用作测试集.3.2实验结果在Facades和AerialPhoto&Map数据集上分别进行了图像风格迁移实验.为了验证本文方法的有效性,将本文方法的实验结果与 Pix2Pix、Cy c l e g a n、CUT、Bi c y c le G A N进行了对比.3.2.1在Facades数据上实验结果Facades数据集上的实验结果如图6 所示，目的是将输人语义图还原为真实建筑图像.图6 中第1列是输入的建筑语义图像,第2、第3、第4和第5列分别为Pix2Pix模型、Cyclegan模型、CUT模型和Bicy-

26、cleGAN模型的图像风格迁移实验结果,第6 列为本文方法的实验结果.从图6 中可以看出：深度641282565121Table 3Experimental environmentUbuntu 16.04 LTSGTX 1080 Ti*11.4.011.3归一化SNSNSNSNSN表3实验环境版本激活函数LeakyReLULeakyReLULeakyReLULeakyReLU南京信息工统大学学报（自然科学版）,2 0 2 3,15(5)：514-52 3Journal of Nanjing University of Information Science&Technology(Natural

27、 Science Edition),2023,15(5):514-523519输人1)第1行,Pix2Pix没有完整转换出语义图像的建筑屋顶信息，风格迁移的建筑图像屋顶有缺失；Cyclegan的颜色不一致,建筑上方颜色偏淡,无法显示均匀一致的外墙颜色,处理的色彩不够真实；CUT风格迁移的建筑图像发生了大量缺失，建筑的墙体四周残缺，不能很好地填充完整的建筑图像；Bicy-cleGAN对广告牌的转换能力欠佳，建筑下方的广告牌出现了黑影；本文方法能够完整提取语义图像信息,补全建筑整体外观,显示均匀一致的建筑外墙颜色，下方广告牌的转换没有严重形变和黑影出现，优于前4种风格迁移模型.2)第2 行,前4种

28、模型风格迁移的建筑图像均出现了下方大门的形变,线条扭曲,外墙砖的显色模Pix2PixFig.6 Experimental results on Facades datasetCyclegan图6 Facades数据集实验结果糊，本文方法风格迁移的细节比较前4种模型更好，大门的线条没有扭曲，外墙砖的纹理能够清晰显示.3)第3行,CycleGAN风格迁移的建筑图像中护栏和窗户兼容能力较差，有护栏的窗户均出现了形变;BicycleGAN风格迁移的建筑图像下方出现了大量阴影，色彩偏暗；本文方法可以更好地显示建筑图像中窗户下方的护栏，色彩明亮，更接近真实建筑的颜色.3.2.2AerialPhoto&Ma

29、p数据集实验结果AerialPhoto&Map数据集上的实验结果如图7所示，目的是将输人语义图还原为真实航拍卫星图像.图7 中第1列是输人的地图语义图像,第2、第3、第4和第5列分别为Pix2Pix模型、Cyclegan模型、CUTBicycleGAN本文方法输人Pix2PixFig.7Experimental results on AerialPhoto&Map datasetCyclegan图7 AerialPhoto&Map数据集实验结果CUTBicycleGAN本文方法刘航，等.基于生成对抗网络的图像风格迁移.520LIU Hang,et al.Image style transfer

30、 based on generative adversarial network.CUT模型和BicycleGAN模型的航拍卫星图像风格其中，H和W分别代表图像的宽度和高度，（i,i）代迁移实验结果,第6 列为本文方法的实验结果，表每个像素点,n代表像素的位数,X和Y分别代表从实验结果可以看出，前4种模型对水系的语两幅图像.由于PSNR指数也有其局限性，不能完全义无法有效提取，本文方法对水系的提取能力较好.反映图像质量和人的视觉效果的一致性，所以采用第1行:Pix2Pix风格迁移的航拍卫星图像中将水系SSIM指数做进一步的比较.SSIM是一种度量两个图生成草坪,道路图像也失真，纹理不清晰；Cy

31、cleGAN像相似性的标准.通过将模型绘制的图像与原始彩对复杂建筑的航拍卫星图像转换效果较差，出现了色图像进行比较,可以验证该算法的有效性和准确移位和交错的模糊图像；本文方法更接近真实效果，性.计算公式如下：道路图像纹理清晰.第2 行：CUT对林地和道路的色(2uy+ci)(2gxy+c2)SSIM=调信息提取较差,林地的颜色偏暗，风格迁移的质量(uuj+ci)(oio+c2)不能满足人眼主观认知;BicycleGAN风格迁移的航其中，和，分别表示真实图像和生成图像的平均拍卫星图中右下方道路被草坪遮挡,道路提取效果值，和，分别表示真实图像和生成图像的方差，较差；本文方法可以更好地展示边界位置，

32、草坪没有表示真实图像和生成图像的协方差,ci=（k i,L)遮挡道路.第3行：前4种模型方法风格迁移的航拍和c=（k,L)是保持稳定的常数,L是像素值的动卫星图中建筑屋顶未能清晰显示，本文方法可以有态范围,ki=0.01,k=0.03.在Facades数据集和效显示建筑屋顶，很好地提取了边界位置的道路.AerialPhoto&Map数据集上的实验数据PSNR分数如3.3评价指标表4所示，SSIM分数如表5所示.为了客观地反映不同模型的生成图像的效果，由表4和表5可以看出，本文方法的PSNR分采用峰值信噪比(PSNR)和结构相似性（SSIM)指标数和SSIM分数均高于前4种方法，说明本文方法能来

33、评价生成图像.这两个指标常用作图像处理的评够生成更丰富、更生动的图像内容.在Facades数据价指标.两幅图像之间较高的PSNR值表示生成图像集上，本文方法的PSNR值比第二高的BicycleGAN和原始图像之间失真较小，即生成图像质量较高模型高2.10 39dB,SSIM分数比第二高的CUT模型SSIM反映了生成图像在亮度、对比度和结构方面与提高了0.0 317.在AerialPhoto&Map数据集上，本文真实图像的相似性.SSIM越接近1，两幅图像之间的方法的PSNR值比第二高的CUT模型高2.1351相似性越高，表明生成的图像更符合公众的视觉感dB,SSIM分数比第二高的CUT模型提高

34、了0.10 2 8.知效果.CUT模型通过引人对比学习能够专注于两个域之间PSNR是评价彩色图像质量的客观标准.计算公共性的部分，但忽略两个域之间的差异性部分，使得式如下：图像轮廓不清晰，本文方法引入自注意力机制增强(2-1)2了远距离像素之间的连接，能够使得风格迁移的图PSNR=10log10(13)MSEH1ZX(ij)-Y(ij),(14)MSE=HWi=1数据集FacadesAerialPhoto&Map数据集FacadesAerialPhoto&Map(15)像获得更清晰的边缘.BicycleGAN在多目标任务中表现良好，但模型捕捉局部和整体之间的内部映射关系的能力较弱，本文通过引人

35、感知损失，使得细节表4PSNR分数对比Table 4PSNR score comparisonPix2PixCyclegan12.135 612.196 713.560 813.683.0表 5SSIM 分数对比Table 5SSSIM score comparisonPix2PixCyclegan0.209 50.236 40.232.70.240 7dBCUTBicycleGAN13.135 613.659 814.943 414.6821CUTBicycleGAN0.307 20.225 90.332 20.269 7本文方法15.763 717.078 5本文方法0.338 90.43

36、5 0南京信息工统大学学报（自然科学版）,2 0 2 3,15(5):514-52 3Journal of Nanjing University of Information Science&Technology(Natural Science Edition),2023,15(5):514-523方面的表现优于其他模型.从PSNR来看，本文方法生成的图像质量更高，和原始图像之间失真较小.从SSIM来看，本文方法生成的图像在亮度、对比度和结构方面与真实图像更相似。3.4消融实验为了验证自注意力机制、谱归一化和感受损失在风格迁移效果上的有效性,本文设计了一组消融实验.本文方法是在原Bicycle

37、GAN的基础上加人了自注意力机制、谱归一化和感知损失改进而来.实验采用控制变量法进行,将自注意力机制、谱归一化和感知损失3种改进方案分别命名为A、B、C,设计了4组实验进行对比.实验所生成的风格迁移图像如图8所示.521从图8 可以看出，自注意力机制可以优化全局细节，无论是建筑图像的窗户线条还是航拍卫星图像的道路线条都能完整显示，提升图像质量.谱归一化和感知损失能够使得图像风格迁移更稳定的同时提升图像信息提取能力，原图像在航拍卫星图像的建筑屋顶出现了被草地覆盖使得显示不够清晰，改进方案使得图像的建筑屋顶与草地分明，细节处理更优.实验结果的PSNR分数对比客观指标如表6 所示，SSIM分数对比如

38、表7 所示.由表6 和表7 客观指标可以看出,在 Facades 和AerialPhoto&Map数据集上，自注意力机制、谱归一化和感知损失的改进均有助于提升PSNR和SSIM分数，图像风格迁移效果有明显提升.说明添加的模输人数据集FacadesAerialPhoto&Map数据集FacadesAerialPhoto&MapBicycleGANFig.8 Results of ablation experiment表6 消融实验PSNR分数对比Table 6 Comparison of PSNR scores in ablation experimentBicycleGAN13.659 814

39、.682 1Table 7Comparison of SSIM scores in ablation experimentBicycleGAN0.225 90.269 7BicycleGAN+A图8 消融实验结果BicycleGAN+A15.281 016.784 1表7 消融SSIM分数对比BicycleGAN+A0.310 40.349 0BicycleGAN+BBicycleGAN+B14.964 516.910 3BicycleGAN+B0.298 60.362.7BicycleGAN+CBicycleGAN+C14.297 016.304 2BicycleGAN+C0.305 80.

40、387 2dB刘航，等.基于生成对抗网络的图像风格迁移.522LIU Hang,et al.Image style transfer based on generative adversarial network.块在提高图像风格迁移的质量和保真度方面是有效learning for image recognition C /2 0 16 IEEEConference on Computer Vision and Pattern Recognition的，采用本文方法生成的图像更加真实，且风格迁移(CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,的图像细节

41、更加丰富.2016:770-7789Miyato T,Kataoka T,Koyama M,et al.Spectral normaliza-4结论tion for generative adversarial networks J .a r Xi ve-print,2018,arXiv:1802.05957传统的BicycleGAN网络模型在图像风格迁移10Ulyanov D,Vedaldi A,Lempitsky V.Instance normaliza-过程中图像细节不清晰，训练不稳定，有时会出现梯tion:the missing ingredient for fast stylizat

42、ion J .arXiv度爆炸的现象.本文对BicycleGAN进行了改进,在生e-print,2016,arXiv:1607.0802211 Wang T C,Liu M Y,Zhu J Y,et al.High-resolution image成器中引入残差块，改善模型训练的退化现象，利用synthesis and semantic manipulation with conditional自注意力机制获得更多的图像特征，使得生成图像GANs C/2018 IEEE/CVF Conference on ComputerVision and Pattern Recognition.June

43、18-23,2018,Salt更接近真实图像.在判别器中引人谱归一化，提高训Lake City,UT,USA.IEEE,2018:8798-8807练稳定性，提升判别能力.同时引人感知损失，提升12 JJohnson J,Alahi A,Li F F.Perceptual losses for real-time了图像生成质量.实验结果表明，本文方法与传统的style transfer and super-resolution M /Computer Vi-风格迁移模型Pix2Pix、Cy c l e g a n、CU T、Bi c y c l e G A NsionECCV 2016.Cha

44、m:Springer International Publish-ing,2016:694-711相比,图像生成质量和视觉效果有较大提高,PSNR13 Wang T,Wu L,Sun C Y.A coarse-to-fine approach for分数和SSIM分数有较大提升.dynamic-to-static image translation J.Pattern Recogni-tion,2022,123:108373参考文献14 Yang X,Zhao J Y,Wei Z Y,et al.SAR-to-optical imagetranslation based on improved

45、 CGAN J.Patern Recog-Referencesnition,2022,121:108208 1 Goodfellow I,Pouget-Abadie J,Mirza M,et al.Generative15 黄菲，高飞，朱静洁，等.基于生成对抗网络的异质人adversarial networks J.Communications of the ACM,脸图像合成：进展与挑战J.南京信息工程大学学报2020,63(11):139-144（自然科学版）,2 0 19,11(6):6 6 0-6 8 12 Isola P,Zhu J Y,Zhou T H,et al.Image-to

46、-image transla-tion with conditional adversarial networks C J/2017IEEE Conference on Computer Vision and Pattern Recog-nition(CVPR).July 21-26,2017,Honolulu,HI.IEEE,2017:1125-11343Zhu J Y,Park T,Isola P,et al.Unpaired image-to-imagetranslation using cycle-consistent adversarial networksC/2017 IEEE I

47、nternational Conference on ComputerVision（I C C V).O c t o b e r 2 2-2 9,2 0 17,V e n ic e.I EEE,2017:2223-22324Zhu J Y,Zhang R,Pathak D,et al.Toward multimodalimage-to-image translation C /Proceedings of the 31stInternationalConferenceonNeural InformationProcessing Systems.December 4-9,2017,Long Be

48、ach,California,USA.New York:ACM,2017:465-4765Larsen A B L,Sonderby S K,Winther O.Autoencodingbeyond pixels using a learned similarity metric J.arXive-print,2015,arXiv:1512.093006Dumoulin V,Belghazi I,Poole B,et al.AdversariallylearnedinferenceJ.a r Xi v e-p r i n t，2 0 16,arXiv:1606.007047 Park T,Ef

49、ros A A,Zhang R,et al.Contrastive learning forunpaired image-to-image translation M J/Computer Vi-sionECCV 2020.Cham:Springer International Publish-ing,2020:319-345 8 He K M,Zhang X Y,Ren S Q,et al.Deep residualHUANG Fei,GAO Fei,ZHU Jingjie,et al.Heterogeneousface synthesis via generative adversaria

50、l networks:pro-gresses and challenges JJ.Journal of Nanjing Universityof Information Science&Technology（Na t u r a l Sc i e n c eEdition),2019,11(6):660-68116 Llull P,Yuan X,Carin L,et al.Image translation forsingle-shot focal tomography J.Optica,2015,2(9):822-82517 Armanious K,Jiang C M,Fischer M,e

展开阅读全文