收藏 分销(赏)

内容结构保持的图像风格迁移方法_王小明.pdf

上传人:自信****多点 文档编号:371769 上传时间:2023-09-08 格式:PDF 页数:9 大小:2.42MB
下载 相关 举报
内容结构保持的图像风格迁移方法_王小明.pdf_第1页
第1页 / 共9页
内容结构保持的图像风格迁移方法_王小明.pdf_第2页
第2页 / 共9页
内容结构保持的图像风格迁移方法_王小明.pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、Computer Engineering and Applications计算机工程与应用2023,59(6)随着计算机图形学的发展与计算机建模能力的提升,计算机可以仿照现实世界场景,建立与之对应的虚拟仿真模型。考虑到计算机建模系统中虚拟场景可编辑、图像标签能够自动生成等特点,这一技术的广泛应用一方面极大地扩充了可用数据量,另一方面减少了数据标注工作对人力资源的大量需求。然而,现阶段计算机对真实场景的仿真能力仍然受到种种因素的限制,其所生成的虚拟数据与真实数据相比往往有比较大的风格差异。为了使用大量的虚拟数据辅助算法模型训练,在实际应用中,需要首先将虚拟数据的图像风格转换为真实数据风格。这一图

2、像风格迁移任务的目的是将属于源域的图内容结构保持的图像风格迁移方法王小明1,毛语实2,徐斌1,王子磊21.国网安徽省电力有限公司 电力科学研究院,合肥 2306012.中国科学技术大学 先进技术研究院,合肥 230000摘要:现有的风格迁移算法大多是实现艺术作品到真实场景,如照片等的转换任务。在这种任务设定下,图像内容的边界等结构信息可能会出现一定程度的变化,然而这种变化不利于下游任务的完成,因而不适用于大部分工业场景。为此提出一种新的结构保持的风格迁移方法,该方法分为频域约束的图像生成模块和基于memory bank机制的语义匹配模块。前者用以保证转换前后图像的整体语义结构一致性,而后者保证

3、了图像的语义与风格匹配,从而物体内部结构一致。为了验证该方法在工业场景中的迁移效果,采用光伏板数据集,在虚拟到真实的迁移方向上,所提出的风格迁移算法能在完成风格转换的同时较好地解决图像结构形变问题,进而满足后续任务的需求。关键词:图像风格迁移;生成对抗网络;计算机视觉文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2110-0107Content Structure Preserved Image Style Transfer MethodWANG Xiaoming1,MAO Yushi2,XU Bin1,WANG Zilei21.Electric

4、 Power Research Institute,State Grid Anhui Electric Power Co.,Ltd.,Hefei 230601,China2.Institute of Advanced Technology,University of Science and Technology of China,Hefei 230000,ChinaAbstract:Most existing style transfer algorithms realize the conversion task from art works to real scenes,such as p

5、hotos.Under this experiment setting,the content structure of the image may change to a certain extent.However,this change isnot conducive to the completion of downstream tasks,so it is not available for most industrial scenes.Therefore,a newstructure preserving style transfer method is proposed,whic

6、h contains a frequency domain constrained image generationmodule and a semantic matching module based on memory bank.The former is used to ensure the consistency of the overallsemantic structure of the image before and after transfer,while the latter ensures the semantic and style matching,so thatth

7、e internal structure of the object is consistent.By comparing the frequency domain similarity between the original imageand the migrated image and the similarity between the generated image and the corresponding category in memory bank,the purpose of keeping the image structure unchanged is achieved

8、.In order to verify the effect this method produced inthe industrial scene,the photovoltaic panel dataset is used.The proposed style transfer algorithm can not only completethe style conversion,but also better resolve the problem of image structure deformation,so as to meet the needs of subse-quent

9、tasks.Key words:image style transfer;generative adversarial network;computer vision基金项目:国网安徽省电力有限公司科技项目(B31205200009)。作者简介:王小明(1987),男,高级工程师,研究领域为电力系统及其自动化;毛语实(1997),女,硕士研究生,研究领域为图像风格迁移;徐斌(1980),高级工程师,研究领域电力系统及其自动化;王子磊(1981),通信作者,男,副教授,CCF会员,研究领域为计算机视觉、深度学习,E-mail:。收稿日期:2021-10-10修回日期:2021-12-16文章编号

10、:1002-8331(2023)06-0146-091462023,59(6)像在保持内容信息的前提下转换到目标域,生成具有目标域风格和源域内容的图像1。风格迁移可以广泛应用在计算机视觉及图像处理的诸多领域,如图像分析2、图像分割3、3D姿态估计4和领域自适应5等。深度卷积神经网络诞生后,图像风格迁移方法逐渐开始转向使用参数化的模型,自动地从源域与目标域分别提取输入图像的内容特征与风格特征,再利用这两部分信息解码合成目标输出。其中,根据不同的数据集类型和应用场景,图像风格迁移可以分成有监督学习和无监督学习两类问题设定。有监督学习是指在训练阶段,源域与目标域使用包含配对关系的数据,即对于一张源域

11、图像,都有一张目标域图像与其对应;而无监督学习使用的是未配对的图像对,即任务目标是将目标图像转换成与整个目标域数据集相似的风格。针对无监督图像风格迁移问题,研究人员提出了一系列基于循环一致性的算法。然而,由于基于循环一致性的方法缺乏深层特征的约束,当域间差异较大时,往往出现内容缺失的问题。近年来,随着模式崩溃问题的解决,解耦表示6-7为无监督的风格迁移任务提供了解决方案。这些方案的模型结构大多相似,将图像通过内容编码器和属性编码器解耦到两个空间域特定的风格空间和域不变的内容空间,并通过交叉重建和对抗学习等约束完成生成对抗网络8(generative adversarialnetwork,GAN

12、)的训练。在无监督实验设置下,解耦质量难以充分保证,因此该类方法普遍存在内容泄露问题,导致生成的迁移图像中会存在风格域的内容信息。为了更好地解决跨域图像转换的内容缺失等问题,DSMAP方法9提出了一种域间相似的语义内容的匹配方法,进一步扩充内容空间。在共享的内容特征空间基础上,假设源域和目标域都存在各自域特定的内容特征空间,并试图寻找二者之间的映射关系,确保源图像和生成图像的对应内容匹配。但由于映射只保证了内容特征一致而缺乏边界约束,仍存在物体边界变形和模糊的情况。由此可见,现有方法难以在生成风格逼真的虚拟图像的同时,保持转换后的图像结构不发生明显形变。本文利用无监督学习的设定,充分挖掘大批量

13、训练数据对模型性能的提升潜力。针对无监督图像风格转换任务中内容缺失和形变的问题,与之前利用显著性等约束的方法10-11不同,提出一种新的图像结构保持的风格迁移方法。首先,在图像生成模块中通过约束傅里叶变换后的信号相位一致性,在频域空间中保证图像转换前后的整体语义结构不变;本文提出的语义匹配模块利用源域图像的实例级语义标签建立场景中各类别物体的特征memory bank,进而通过匹配迁移图像与memorybank中的对应类别特征向量,保证即使是视觉上相似的结构也能够分别对应到正确的语义内容。实验结果表明,结合以上两个模块,本文提出的模型能够有效地保持转换前后图像的内容结构不变,从而显著提升生成图

14、像的逼真程度。因此,本文方法能够广泛应用于对图像结构信息要求严格的工业场景之中。1相关工作1.1基于GAN的图像转换生成对抗网络(GAN)8是基于纳什均衡构建的结构化概率模型,在很多领域已经取得了显著的成果。GAN的模型结构包含一个生成器和一个判别器,判别器判断一张图像是来自于生成器的输出还是真实输入,算法的目标是希望经过对抗训练后,生成器生成的虚拟数据无法被判别器所区分,即能够产生与真实数据相近的输出。而为了生成多样化的虚拟数据,生成器需要引入随机噪声向量作为输入,但这也同时为生成结果引入了不稳定性。近年来,很多工作试图提高GAN的训练稳定性。CGAN12将附加的约束信息与噪声向量同时输入模

15、型,通过建模约束信息下的条件概率分布,生成目标图像;在此基础上,WGAN13基于Wasserstein距离提出新的损失函数作为约束,利用该距离可以在概率分布不重叠的情况下度量分布远近的特性,解决生成器与判别器的平衡难题;SNGAN14则提出了谱归一化,通过约束判别器的权重矩阵,保证了生成网络的稳定性。针对无监督图像转换问题,现有的方法大多包含以下步骤:将源域图像编码至低维隐空间、在隐空间中将域相关的图像信息由源域转换到目标域、利用转换后的图像信息重建目标域风格的图像。在此基础上,Zhu等人于2017年首次提出了CycleGAN15算法,该算法采用两对生成器与判别器,要求迁移到目标域的图像能够对

16、应地转换回源域。在此基础上,MUNIT16使用共享的隐空间编码不同域的图像,通过约束不同域中同一类别图像共享相同的隐空间表示,进而保证了图像转换前后的语义稳定性。兰天等人17则使用基于注意力机制的长距离依赖关系,将隐藏层的特征转换到两个特征空间内,再加回输入数据,对结构性强的图像进行更好地建模并保留图像细节。1.2基于解耦方法的图像转换为了改善上述方法中存在的不稳定与迁移性差的问题,研究人员使用解耦方法来完成转换任务。具体地,将源和目标域图像解耦为在转换过程中保持不变的域不变的内容特征和在转换过程中改变的域特定的风格特征,通过保留内容特征并替换风格特征达到转换的目的。文献18将两个域的特征分为

17、三部分:目标域风格特征、共享的内容特征、源域风格特征,将源域的内容特征与目标域的风格特征组合后,使用反卷积等操作由解码器生成目标图像。DRIT+19则在编码器的输出层和译码器的输入层上共享权重,保证编解码过程可逆。王小明,等:内容结构保持的图像风格迁移方法147Computer Engineering and Applications计算机工程与应用2023,59(6)通过组合源域图像的内容表示和目标域图像的风格表示来进行转换。通过为GAN模型引入特征解耦方法,模型有能力处理更具有挑战性的数据。然而大部分算法常常出现内容与风格不对应的情况,破坏了物体内部的结构一致性,因此对于需要语义匹配的数据

18、难以取得令人满意的结果。本文采用特征解耦方法作为风格迁移网络的基本框架,在此基础上加入相位一致性约束和语义匹配模块,提高生成图像的质量。2图像风格迁移方法现有的无监督风格迁移算法由于监督信息不足和网络结构等方面的限制,通常存在内容泄漏问题。同时,基于GAN的迁移算法往往是以随机噪声作为输入,这导致了生成图像出现边缘模糊或扭曲变形等问题。因此,在要求图像完整性以保证下游任务准确度的工业场景中,风格迁移很难得到有效应用。针对上述问题,本文提出一种结构保持的图像风格迁移算法,分别利用频域约束及语义匹配两种方式约束迁移后的图像内容与结构都不发生重大变化。本文模型分为图像生成模块和语义匹配模块,如图1所

19、示,前者使用相位一致性损失对基于特征解耦的图像转换网络进行约束,频域中相同的信号相位对应于空间中相近的语义结构;后者根据语义分割标签对转换前后图像上的位置进行匹配,进而保证生成图像上的物体具有正确的风格信息及内部结构。下面具体介绍这两个模块。2.1问题设定图像风格迁移的目的是将域XA中的图像xA转换到目标域XB,在保留内部源域内容的同时迁移获得外部的目标风格。因此需要训练一个映射模型AB,对于给定的输入图像xAXA,能够生成图像xABXB使其不能与目标域中的图像xBXB区分,即xABXB,xAB=AB()xA。实际上,图像风格迁移任务是在没有联合分布p()xA,xB的情况下,通过学习迁移模型的

20、分布p()xAB|xA,估计条件分布p()xB|xA。为此,应用文献16中的设定:假设域XA和域XB分别拥有域特定的风格空间SA和SB,同时它们共享域不变(domaininvariant)的内容空间CDI。这样,联合分布中一对对应的图像()xA,xB可以由生成器GA()c,sA及GB()c,sB得到,其中c、sA、sB是从先验分布中提取的,GA、GB分别为AB与BA。进一步地,假设存在逆映射EA=()GA-1及EB=()GB-1,在此基础上,神经网络可以拟合底层生成器和编码器,准确地估计条件分布,从而达到图像风格迁移的目的。2.2DSMAP方法回顾Chang等人9指出,在上述假设空间内,CDI

21、中可能包含域相关的信息,因此加入两个域特定的映射函数CCA及CCB来将CDI重映射到域特定(domain-specific)的内容空间,CDSA及CDSB。通过此种方式,内容编码能更好地表示域相关的信息,进而内容特征能够更好地与目标域对齐。图像生成网络包含如下部分:内容编码器EcA,EcB、风格编码器EsA,EsB、生成器GA,GB、判别器DA,DB及映射函数CCA,CCB。对于XAXB方向的迁移,内容图像xAXA首先被编码为域无关的内容特征cACDI,同时风格图像xBXB被编码为域特定的风格特征SB。随后,将cA映射到XB的内容空间中,通过对齐XB中的特征分布得到cAB。最后使用生成器GB合

22、成内容特征cAB和风格特征sB,译码得到输出图像xAB。为了生成高质量的迁移图像,以A域到B域方向的损失为例,使用的损失函数如下:(1)域特定内容损失:模型中生成器与MUNIT16中的结构相同,包含由若干跨步卷积层的EA和包含若干残差模块的Eres,其中后者在域间共享参数。为了找到重定向映射CCA和CCB,要求映射后的每个域的中间内容特征与原特征相似。编码器译码器内容编码风格编码高斯噪声相似度损失相位一致性损失源域图像迁移模块语义匹配模块Real imagesBanktreeBankgrassrealgenerated目标域图像图1结构保持的图像风格迁移模型Fig.1Structure pre

23、served image style transfer model1482023,59(6)LdscA1=ExAE()xAA-CCA()EcA()xA(1)(2)风格重建损失:为了确保样式编码器编码出有意义的样式特征,给定一个从高斯分布随机抽样的样式特征时,该损失保证其能够重构原始样式特征。LsA1=EsA,cBA|EsA()GA()CCA()EcB()xB,sA-sA(2)(3)域不变内容损失:EhcA编码的特定域特征投影到域不变空间与原特征之间的一致性约束损失。LdicA1=ExA,xABEcB()xAB-EcA()xA(3)(4)图像重建损失:确保生成器能够在一个域内重建原始图像。LxA

24、1=ExA|GA()CCA()EcA()xA,EsA()xA-xA(4)(5)对抗损失:最小化真实图像和生成图像的分布差异。LADadv=12ExA()DA()xA-12+12ExBA()DA()xBA2(5)LAGadv=12ExBA()DA()xBA-12(6)(6)循环一致损失:保持图像经过循环转换后,能够被完善地重建。LxAcc=ExAxABA-xA(7)2.3基于频域的约束方法如图2所示,在无监督风格迁移的设置下,由于源域和目标域图像无对应关系,模型虽然能完成风格转换的任务,但是在解耦过程中,一部分内容信息可能会丢失,从而出现内容缺失、物体变形、物体内部和边界结构不完整等问题。因此,

25、本文首先试图利用频域约束信息,保证生成图像与源图像的内容及结构一致,进而为工业场景中的下游任务提供更准确的结构保持的迁移图像。在认知心理学中有一条普遍性的结论:将图像从空间域转换到频域往往可以带来新的分析角度。傅里叶变换将图像的RGB分布映射到频域分布,而频域分布反应了图像变化的剧烈程度。观察发现,改变图像频域表示的信号幅度不会影响其语义解释,而改变相位则会产生不可理解的图像。换言之,图像的语义信息包含在了波谱的相位信息中。因此,在无监督的风格迁移设置下,使用相位约束来保持GAN的生成图像与源图像的内容结构一致。具体地,令F:RHWRHW2为傅里叶变换,对于输入图像x,可以通过最小化下述函数来

26、获取相位一致性:Lph()T;x=-jF()xj,F()T()xjF()xj2F()T()xj2(8)其中,T()x为图像x转换后的图像,,为点积操作,2为L2范数。上式计算原始相位与转换后相位的负余弦相似度,因此该损失函数通过最小化转换前后图像的相位差异,增加语义一致性。本文在输出空间上应用该损失,图像生成模块的最终损失函数为:Ltotal=DSLDS+phLph(9)其中,LDS为 2.1 节中的各损失函数的加权值,DS和ph为超参数,用以控制频域损失在方法中的整体影响。2.4语义匹配模块图像生成模块生成的图像在结构信息上与原图像保持高度一致,然而相似的结构可能对应不同的语义内容。这种情况

27、下,语义信息难以仅仅通过频域约束辨别,语义信息不匹配导致的内容混淆问题时有出现。为解决这一问题,进一步使用丰富的语义标签固定图像在转换前后所包含的语义信息。受Tomei等人20的启发,将图像中不同类别的部分分别处理,以期达到语义信息跟风格信息匹配的目的。该方法的核心思想是:既然源域和目标域数据拥有相同的物体类别,那么可以将同类型的内容匹配,即计算生成图像与目标图像的相似度。为了更有效地存储和匹配相似的语义内容,使用memorybank方法。即将目标域图像按类别存入bank,再将生成图像的相应部分与其比对,提高转换的相似度。具体来说,将每个特定的语义类别c对应的memorybankBc绑定。根据

28、数据集提供目标域图像,预先手动区分物体的类别并从中提取指定大小的图像块,将属于同一类别的图像块置入一个bank。对于源域图像x,Mcx为类别c的标签掩膜,根据Mcx将生成的图像块分配给其所属的类别c。随后,根据c将这个图像块与Bc中相似的真实数据配对,Bc=bcj,生成图像Kc=kci,其中bcj、kci表示集合中的图像块。由此,可以计算二者的cosine距离:(a)原图像(b)生成图像图2现有方法真实数据和生成数据对比示意图Fig.2Comparison of real and synthesized images王小明,等:内容结构保持的图像风格迁移方法149Computer Engine

29、ering and Applications计算机工程与应用2023,59(6)dcij=|1-()kci-cb()bci-cbkci-cb2bci-cb2(10)其中cb=1Ncjbcj,Nc为memory bankBc中图像块的个数。计算n个矩阵,n与图像x中所包含类别数c相等,并对其做归一化得到dcij。随后可以计算成对的相似度矩阵。通过应用与softmax相似的计算方式,对于每一个生成图像中的图像块,其与同一类别中的最相似的及其他相似程度较高的真实图像块都应有较高的相似度数值。具体计算方式如下:Acij=exp()1-dcij/hlexp()1-dcil/h=1,dcijdcillj0

30、,otherwise(11)由此,可以计算上下文损失(contextual loss)来最大化图像块间的相似度:LCX()K,B=c-lg|1NcK|imaxjAcij(12)为了更好地匹配相似的风格信息,减少相似度矩阵的计算成本,采用Faiss方法21来搜索同一类别中最相似的图像块进行对比。Faiss是一个快速搜索相似多媒体文件的算法库,可以在十亿级的数据集上创建最近邻搜索,是迄今为止最快的GPUk近邻算法。其数据流如图3所示。对于给定的向量,Faiss通过预训练及增量操作建立索引文件,并据此进行具体的向量查询。在扩充向量集时则只需要进行增量操作扩充索引文件。Faiss 的核心原理包括 Pr

31、oduct Quantizer(PQ)和 Inverted FileSystem(IVS)。PQ主要体现在 Faiss的预训练阶段,通过对向量库中的向量进行分割和聚类,将其量化编码成聚类簇心对应的id及其与簇心的距离。在查询过程中,计算查询向量与簇心之间距离。由于向量库内部已经进行过预计算,查询时只需要简单查表操作便可得到向量距离。PQ虽然优化了向量距离计算的过程,但当库里面的向量数量较大时,每次查询仍需进行多次计算,因此Faiss使用Inverted File System来减少需要计算距离的目标向量个数。具体地,直接对库里所有向量做K-Means聚类,这样只需计算查询向量与前N个簇中向量的

32、距离。为了进一步优化计算,在计算查询向量和一个簇下向量的距离时,将所有向量转化为与簇心的残差。3实验结果3.1数据集实验采用的数据集为光伏组件数据集。该数据集由两部分构成:由虚拟引擎建模生成的仿照真实光伏电站场景的虚拟图像和在光伏电站现场采集的真实场景图像。具体来说,数据集中一张虚拟图像可能对应多张真实图像。由于成像方式不同,真实图像和虚拟图像是两种不同模态的图像。虽然虚拟和真实图像的主体包含相同纹理的光伏板,但是在周围的环境等位置仍然存在不小的差异。此外,由于真实图像在拍摄过程中的高度有轻微变化,图像还面临着轻微的尺度变化问题。如图4(a)所示,实验使用的数据集共包含445张无人机实际拍摄的

33、真实图像。虚拟图像共有863张,在图像生成时,虚拟引擎同时生成对应的实例分割图,虚拟图像与对应的实例分割图分别如图4(b)、(c)所示。3.2实验设置本文所有实验在Ubuntu16.04+GTX1080Ti+pytorch1.5.0平台上进行训练和测试。首先,对数据进行预处理。具体地,将全部训练数据尺寸resize为512512,在此基础上,从真实数据中选取部分图像建立由不同尺寸的图像块组成的memory bank。由于数据集中没有真实图像的语义信息,手动在真实数据集上标注了检测框,共分为树木、草地、光伏板、道路、建筑、水池六类,并据此制作了相应的memory bank。对于不在这六类中的虚拟

34、类别,将其视为背景,不参与contextual loss的计算。实验采用的图像块尺寸为32像素、16像素、8像素。Faiss索引文件TrainAddAdd原始向量文件Faiss索引文件Faiss索引文件全量构建索引:增量构建索引:图3Faiss算法数据流示意图Fig.3Data stream of Faiss(a)光伏组件真实图像(b)光伏组件虚拟图像(c)虚拟图像实例分割图图4光伏组件数据集Fig.4Photovoltaic dataset1502023,59(6)采用随机梯度下降训练模型,选用Adam优化器,优化器参数1=0.5、2=0.999,batch size设置为1,初始学习率取1

35、E-4,每1 000次迭代衰减一次学习率,衰减率为0.5,模型的最大迭代次数为50 000。3.3实验结果与分析为了将本文的研究成果与目前最新进展进行对比,在上述数据集上训练CycleGAN、MUNIT及DSMAP方法、IEGAN方法22、DCLGAN方法23。其中后三者为基于前者的改进方法。在实验过程中,各参数设置与原作者给出的设置相同。本文使用用户感知和FID分数24评估风格迁移方法的效果,通过对比验证本文方法的有效性。此外,由于本文方法使用了memory bank辅助训练,为了更全面地评估当前方案,同时对比了上述方法的训练时间。3.3.1可视化结果图5给出了光伏组件数据集上的迁移结果,分

36、别列出了虚拟图像、真实图像及迁移图像。可以看出,DSMAP方法的生成图像存在边界不清晰,部分图像内容缺失变形等问题;MUNIT方法及IEGAN方法仅仅在图像色彩对比度方面有较明显的变化,而在纹理等其他风格特征上没有很好的迁移效果;而DCLGAN方法的结果虽然不会出现内容缺失的问题,但在图像纹理风格上的迁移效果有限。显然,对比的方法难以在保持图像内容结构与成功迁移风格信息两个方面同时达到可观的效果,而本文提出的方法很好地保留了原图像的语义和结构信息,得到了与目标域图像相似的风格信息。为了进一步评估本文提出的算法在风格迁移方面的性能表现,证明各个模块的有效性,分别在 baseline模型上添加相位

37、一致性损失(loss1)和语义匹配模块(loss2),并得到对应的可视化结果,如图6、图7所示。从消融实验结果来看,只使用相位一致性损失时,图像在转换前后的整体结构基本不会发生很大的变化,物体消失情况得到了很大的改善。主要存在的问题是,模型在分离内容和风格时,无法针对某一种特定的物体,给出相对应的风格,因此在转换后图像中会出现语义变化,即将原图像的道路转化为光伏板。只使用语义匹配模块时,与基线方法相比,在面对(a)真实图像(b)原图像(c)MUNIT(d)IEGAN(e)DSMAP(f)DCLGAN(g)Ours图5不同方法迁移效果对比图Fig.5Comparison of different

38、 methods(a)DSMAP方法原图像(b)DSMAP生成图像(c)增加loss1原图像(d)增加loss1生成图像图6有无相位一致性约束的对比结果Fig.6Comparison of results w/o phase consistency loss(a)DSMAP方法原图像(b)DSMAP生成图像(c)增加loss2原图像(d)增加loss2生成图像图7有无语义匹配模块的对比结果Fig.7Comparison of results w/o semantic match module王小明,等:内容结构保持的图像风格迁移方法151Computer Engineering and App

39、lications计算机工程与应用2023,59(6)相似场景,如反光时,本文的方法能更好地匹配相应语义的风格信息,产生与真实效果更类似的图像。同时,在各个内容,如草地和光伏板的具体纹理上,本文方法也更为逼真和细致,能够对应源图像的集体纹理特征,如稀疏与否等。综上所述,可视化结果充分证明了本文提出的方法的有效性。3.3.2用户感知结果对于测试集,将源域图像、目标域图像和三张生成结果图像展示给用户,结果图像中,一张为本文方法的生成结果,另外两张为其他对比方法的结果,展示时顺序完全随机。用户根据以下问题从中选择更好的一张图像,问题如下:问题1:哪张图片更好地保留了内容信息(形状、语义等)?问题2:

40、哪张图片在纹理和色彩等方面更好地展示了风格迁移的效果?问题3:哪张图片更像是目标域中的?如图 8所示,对于三个问题,50%以上受访用户都认为本文方法有更好的效果,说明在内容、纹理等方面,本文方法的迁移质量更高。对于问题1,超过一半的用户认为本文方法更好地保留了原图像的内容结构,这与所提方法的动机相同,而DSMAP方法在一些背景比较简单的图像上的迁移效果与本文方法不分伯仲,因此在随机选取的情况下也得到了一些用户的认可,对于DCLGAN 方法,图像中经常出现的模糊问题在一定程度上影响了用户的选择,但对内容的保留情况优于DSMAP方法。对于问题2,三种方法实际上都可以较好地迁移目标域的纹理信息,由于

41、DSMAP存在语义内容不匹配的问题,而DCLGAN的风格迁移效果有限使得对应内容的纹理不能很好的对应,因此本文方法的得分较高。对于问题3,本文方法得分最高,说明结合前两者的分析,该方法具有最好的迁移效果。3.3.3迁移时间由于本文方法使用了memory bank作为语义匹配模块的重要约束内容,模型训练时的计算量和加载时间会在一定程度上增加。为了验证该模块对训练时间的影响,进行了对比实验,将几种经典算法及其改进方法与本文方法的训练时间进行比较,结果如表1所示。由表1可见,由于模型参数量和结构的限制,基于循环一致损失的迁移算法在训练过程中每次迭代的时间远小于基于解耦的迁移算法,然而,当需要达到同样

42、的迁移效果时,前者所需要的迭代次数却显著大于后者,因此二者在训练时间上并无显著差异。同时,与基线方法相比,本文在平均迭代时间上并没有明显的加长,因此添加memory bank对训练时间的影响并不明显。3.3.4FID结果为了定量地衡量本文方法生成图像的质量,使用Frechet距离与现有方法进行比对。该距离可以计算两个高斯分布间的差异,具体地,给定高斯分布G1和G2,二者之间的Frechet距离计算方法如下:d2()G1,G2=m1-m222+tr()C1+C2-2()C1C21/2(13)其中,m1、m2分别为G1、G2的均值,C1、C2分别为G1、G2的协方差。在本文的实验中,两个高斯分布分

43、别对应原图像与生成图像的Inception-v325激活特征。其中,Inception-v3是Google提出的典型的非对称深度卷积网络,能够提取更多样的图像特征,常被用于图像生成结构的比较。FID值越小,说明两组数据的分布越相似。因此,通过计算生成图像与目标域图像的FID得分,可以判断迁移方法的质量。表2给出了本文方法与对比方法的FID值。可以明显看出,在从虚拟到真实的迁移结果上,本文的方法得分远低于其他几种风格迁移算法。实验结果证明,本文提出的方法在光伏板数据集上有较低的FID得分,即该方法具有更好的生成与目标域图像相似图像的能力。3.3.5失败样例分析本文提出的算法并非在光伏电站数据集的

44、所有图片中都有完美的转换效果。从迁移效果较差的图像中抽取两张典型错例进行分析,如图9所示。样例1中出现转换错误的部分为图像右下角的阴影处,模型将道路上的阴影转换成了光伏板的纹理,样例2中则是将光伏板上的反光位置错误地转换为类似草地的内容。可以发现,该模型难以处理图像中较为突兀的光影部分。通过比较真实和虚拟数据集,真实图像问题1问题2问题31009080706050403020100受访用户比例/%50.128.521.435.750.014.37.135.764.3DSMAPDCLGANOurs图8用户感知结果Fig.8Result of user study方法每次迭代时间/sDCLGAN0

45、.3IEGAN1.3MUNIT3.4DSMAP5.6Ours5.4表1不同方法训练时间对比表Table 1Training time of different methods方法FIDCycle-GAN216.38MUNIT256.95IEGAN271.18DSMAP182.71DCLGAN168.3Ours164.47表2不同方法在测试集上的实验结果Table 2Experimental results of different methods1522023,59(6)中基本没有对比度极高的反光和阴影出现,因此模型缺少对光影部分的知识,导致其向不匹配的语义内容转换图像。另一方面,虚拟场景中包

46、含一些真实场景中没有的物体,如样例2中的栏杆,由于没有对应类别的真实图像块进行匹配和计算,这些内容大多也不能成功转换。4结束语对于图像风格迁移问题,现有的方法难以保证迁移前后图像的内容结构不发生变化。针对这一问题,本文提出了一种图像结构保持的图像风格迁移方法。该方法使用傅里叶变换后的相位一致性保证图像的结构一致,在此基础上将两域图像中相应内容匹配,二者结合得到最终结果。实验结果表明,相比于传统图像风格迁移方法,本文所提出的方法能够更好地保持图像结构,同时也更贴近目标域的数据分布。对于其他大规模和更复杂的数据集,由于本文方法不要求检测框的精确度,可以只使用类标签等弱监督标注,应用比较简单快速的弱

47、监督检测或分割模型,得到相应的检测框或分割标签,并进一步制作memory banks。因此,本文方法具有普适性。在后续工作中,可以继续探索更复杂场景下的内容结构一致性保持算法,在类内差异较大的数据集上实现契合的语义匹配工作并保证图像的生成质量,进一步提高生成图像的相似性和结构稳定性。参考文献:1 PANG Y,LIN J,QIN T,et al.Image-to-image translation:methods and applicationsJ.arXiv:2101.08629,2021.2 PARK T,LIU M Y,WANG T C,et al.Semantic image syn-

48、thesis with spatially-adaptive normalizationC/Proceedingsof the IEEE/CVF Conference on Computer Vision and Pat-tern Recognition,Long Beach,Jun 15-21,2019:2337-2346.3 田敏,刘名果,陈立家,等.面向样本扩充的新型风格迁移网络研究J.计算机工程与应用,2023,59(1):228-235.TIAN M,LIU M G,CHEN L J,et al.Research on new styletransfer network for sa

49、mple expansionJ.Computer Engi-neering and Applications,2023,59(1):228-235.4 LI S,GUNEL S,OSTREK M,et al.Deformation-aware unpairedimage translation for pose estimation on laboratory ani-malsC/Proceedings of the IEEE/CVF Conference on Com-puter Vision and Pattern Recognition,Seattle,Jun 16-19,2020:13

50、158-13168.5 MUREZ Z,KOLOURI S,KRIEGMAN D,et al.Image toimage translation for domain adaptationC/Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition,Salt Lake City,June 18-23,2018:4500-4509.6 DENTON E,BIRODKAR V.Unsupervised learning of dis-entangled representations from video

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服