基于空间特征的生成对抗网络数据生成方法.pdf

资源描述

1、基于空间特征的生成对抗网络数据生成方法孙磊杨宇*毛秀青汪小芹李佳欣(战略支援部队信息工程大学郑州 450001)摘要：传统的生成对抗网络(GAN)在特征图较大的情况下，忽略了原始特征的表示和结构信息，并且生成图像的像素之间缺乏远距离相关性，从而导致生成的图像质量较低。为了进一步提高生成图像的质量，该文提出一种基于空间特征的生成对抗网络数据生成方法(SF-GAN)。该方法首先将空间金字塔网络加入生成器和判别器，来更好地捕捉图像的边缘等重要的描述信息；然后将生成器和判别器进行特征加强，来建模像素之间的远距离相关性。使用CelebA,SVHN,CIFAR-10等小规模数据集进行实验，通

2、过定性和盗梦空间得分(IS)、弗雷歇距离(FID)定量评估证明了所提方法相比梯度惩罚生成对抗网络(WGAN-GP)、自注意力生成对抗网络(SAGAN)能使生成的图像具有更高的质量。并且通过实验证明了该方法生成的数据能够进一步提升分类模型的训练效果。关键词：生成对抗网络；空间金字塔网络；特征加强；特征图中图分类号：TP183;TN03文献标识码：A文章编号：1009-5896(2023)06-1959-11DOI:10.11999/JEIT211285Data Generation Based on Generative Adversarial Networkwith Spatial Featu

3、resSUN Lei YANG Yu MAO Xiuqing WANG Xiaoqin LI Jiaxin(PLA Strategic Support Force Information Engineering University,Zhengzhou 450001,China)Abstract:Traditional Generative Adversarial Network(GAN)ignores the representation and structuralinformation of the original feature when the feature map is lar

4、ge,and there is no remote correlation betweenthe pixels of the generated images,resulting image quality is low.To improve the quality of the generatedimages further,a method of data generation based on Generative Adversarial Network with Spatial Features(SF-GAN)is proposed.Firstly,the spatial pyrami

5、d network is added into the generator and discriminator tocapture the important description information better such as the edge of the images.Then the features of thegenerator and discriminator are strengthened to model the remote correlation between pixels.Experiments areperformed with small-scale

6、benchmarks(CelebA,SVHN,and CIFAR-10).Compared with improved training ofWasserstein GANs(WGAN-GP)and Self-Attention Generative Adversarial Networks(SAGAN)by qualitativeand quantitative evaluation of Inception Score(IS)and Frechet Inception Distance(FID),the proposed methodcan generate higher quality

7、images.The experiment proves that the generated images can improve the trainingeffect of the classified model further.Key words:Generative Adversarial Network(GAN);Spatial pyramid network;Feature strengthen;Featuremaps 1 引言随着人工智能技术的不断发展，越来越多的下游任务相继涌现，例如分类1、人脸识别2、目标检测3,4等，而这些任务大都依赖大量的数据，包括图像、语音、文本等数据

8、。但是在现实世界中，对于医疗、安全、航空、脑电等特殊领域数据获取较为困难，成本极高。数据量的匮乏会对模型的训练产生极大的负面影响，因此，需要通过数据生成技术生成较为接近真实数据的虚假数据，从而提升模型的训练效果。在计算机视觉领域，图像生成技术一直以来都是研究的热点问题。传统的生成模型有受限玻尔兹曼机(Restricted BoltzmannMachines,RBM)5、深度信念网络(Deep BeliefNetwork,DBN)6、变分自编码器(Auto-EncodingVariational bayes,AEV)7等，此类方法计算复杂且生成效果有限。2014年Goodfellow等人8提出了

9、基于博弈论的收稿日期：2021-11-17；改回日期：2022-01-10；网络出版：2022-02-03*通信作者：杨宇第45卷第6期电子与信息学报Vol.45No.62023年6月Journal of Electronics&Information TechnologyJun.2023生成模型，即生成对抗网络(Generative AdversarialNetwork,GAN)，它使用生成器和判别器进行对抗训练，通过反向传播更新网络的权值，易于计算且效果显著，极大推动了图像生成领域的发展，但是训练过程极不稳定。卷积神经网络(ConvolutionalNeural Networ

10、k,CNN)9已经广泛应用于深度学习领域，经典的深度卷积生成对抗网络(Deep ConvolutionGenerative Adversarial Networks,DCGAN)10将传统GAN的多层感知机替换为CNN，将CNN引入生成器和判别器，该模型进一步提升了GAN的学习能力，提高了生成图像的质量，但是存在着训练不稳定，易产生模式坍塌的现象。2017年由Arjovsky等人11提出的瓦瑟施泰因生成对抗网络(Wasser-stein Generative Adversarial Network,WGAN)用Wasserstein距离取代詹森-香农(Jensen-Shannondiverge

11、nce,JS)12距离，这样能更好地衡量两个分布之间的散度，在一定程度上缓解了GAN训练不稳定的问题，但是此算法并没有让判别器真的限制在1-利普希茨函数(1-Lipschitz function)13内，并没有严格给出Wasserstein距离的计算方法。由Gulrajani等人14提出的梯度惩罚生成对抗网络(improved training of Wasserstein GANs,WGAN-GP)属于WGAN的增强版，用梯度惩罚实现了对判别器的近似1-利普希茨函数限制，使得GAN训练更加稳定，收敛更快，同时能够生成更高质量的样本，但是它只对于梯度的模大于1的区域的x作出了惩罚，并没有从根本

12、上解决判别器的1-利普希茨函数限制问题。Zhang等人15提出了将注意力机制与GAN融合的自注意力生成对抗网络(Self-Attention GAN,SAGAN)，该改进模型可以很好地处理长范围、多层次的依赖，生成更精细、更协调的图像，但是依然存在建模像素之间远距离相关性能力弱的问题。文献16提出一种空间金字塔注意力网络以探索注意力模块在图像识别中的作用，它通过横向添加空间金字塔模块方式增强基础网络的性能。丁斌等人17提出了一种基于深度生成对抗网络的海杂波数据增强方法，通过改进传统的GAN框架来训练生成器和判别器。曹志义等人18提出了一种改进的GAN模型来进行人脸还原算法，但是缺点是需要基于大

13、量的训练样本。虽然如今已经衍生出了各种GAN的模型，但是依然存在生成的图像不清晰、质量不高等问题。而且一些GAN模型大都需要基于大量的训练样本，而在一些特殊领域，数据集的获取较为保密和艰难，所以如何在小样本的基础上，生成质量更高的图片是本文的研究重点。本文的主要贡献有：(1)提出一种基于空间特征的生成对抗网络数据生成方法，在小样本的基础上进行图像数据的生成，在生成更高质量图像的同时不会引入较大的时间开销。(2)将梯度惩罚损失函数引入对抗训练，使得训练过程更加稳定，更能快速收敛。(3)在CelebA,SVHN以及CIFAR-10数据集上进行大量对比实验，并且使用经典盗梦空间得分(Inceptio

14、n Score,IS)、弗雷歇距离(Frechet Incep-tion Distance,FID)定量评估验证了所提方法的有效性。并且设计了分类实验进一步验证了本文生成的图像数据能够提升已有深度模型的训练效果。2 相关工作 2.1 生成对抗网络GAN由生成器和判别器组成，生成器试图捕捉学习数据集中的真实分布，判别器在与生成器的不断对抗中提升判别图像真伪的能力，两者是一个不断博弈对抗的过程。GAN示意图如图1所示。GDGZDD图1为GAN的基本结构示意图，其中生成器记为，判别器记为，的输入为来自隐空间的随机变量，输出生成的样本，其训练目标是提高生成样本与真实样本的相似度，使其无法被所判别。的输

15、入为真实样本和生成样本，最后输出判别结果为真或假，其训练目标是分辨真实样本与生成样本。原始GAN的目标函数为minGmaxDV(D,G)=Expdata(x)logD(x)+Ezpz(z)log(1 D(G(z)(1)pdata(x)pz(z)D(x)pz(z)pdata(x)DD(x)D(G(z)D(G(z)其中，代表真实样本的分布，代表生成样本的分布，是真实图像的概率，是一个01的实数。训练目标为最小化与之间的距离，最大化判别样本的准确率。由式(1)可知训练判别器的过程中期望最大化目标函数使输出的概率趋近于1，使输出概率值趋近于0；当对生成器进行训练时期望最小化目标函数，即输出概率趋近于

16、1，使生成器生成的图像无法被判别器判别真伪。当对抗训练进行到最后时理图 1 GAN结构示意图1960电子与信息学报第 45 卷想情况下判别器对生成图像以及真实图像的输出概率值都接近于0.5，此时判别器将无法判断生成器所生成图像的真伪，生成器将可以很好地拟合数据集的真实分布，生成以假乱真的图像。2.2 深度卷积生成对抗网络DCGAN将CNN引入生成器和判别器，借助CNN更强的拟合与表达能力，很大程度上提高了生成图像的能力，其思路主要使用了原始GAN模型的基础理论。DCGAN相比于原始的GAN改进包含以下几个方面：(1)取消了所有的池化层，生成器中使用转置卷积19进行上采样；(2)除

17、了生成器的输出层和判别器的输入层之外，在网络其他层上都使用了批量归一化(BatchNormalization,BN)20；(3)生成器中除了最后一层均使用整流型线性单元(Rectified Linear Unit,ReLU)21作为激活函数，最后一层使用双曲正切(hyperbolic Tangent,Tanh)22激活函数；判别器中除了最后一层均使用渗漏整流型线性单元(Leaky ReLU)23作为激活函数，最后一层使用Sigmoid激活函数。DCGAN在图像生成方面被广泛应用，它在很大程度上提升了GAN的训练稳定性和生成结果的质量，但是它只是改进了GAN的结构，并没有从根本上解决GAN训练稳

18、定性的问题，在训练过程中仍然需要平衡生成器和判别器的训练次数。Z如图2所示为DCGAN生成器示意图，生成器接收一个表示为的100 1的噪声矢量，通过一系列转置卷积操作，最终将噪声映射到64 64 3的图像中。3 基于空间特征的生成对抗网络本文提出的SF-GAN使得网络在训练过程中能够迅速定位图像的重点生成区域，抑制噪声对模型训练的干扰，提升网络模型的训练效率，增强网络模型的性能，然后使用梯度惩罚损失函数来稳定训练过程，从而提升生成图像的清晰度和精细度。如图3为SF-GAN的模型框架图。XX RCHWZZ RC3H3W3如图3所示，为初始特征图，为输出特征图，其中P代表空间金字塔的输出特征图，S

19、代表特征加强后的输出特征图，图3中激活函数、归一化层、其他层等均用省略号代替。初始特征图经过一系列卷积、归一化等操作后，通过空间金字塔模块，得到特征图图 2 DCGAN生成器结构示意图图 3 SF-GAN的模型框架第6期孙磊等：基于空间特征的生成对抗网络数据生成方法1961P，将P接着进行一系列卷积等操作，然后进行特征加强，得到特征图S，最后将特征加强后的特征图S继续进行卷积等操作输出最后的结果Z。在生成器和判别器中加入两个模块，从简单的特征依赖开始，逐渐学习到复杂的依赖关系。如图4所示为SF-GAN的网络训练流程图，SM代表空间金字塔模块，FM代表特征加强模块，通过生成器和判别器不断循

20、环交替的训练，反向传播更新参数，生成器生成越来越逼真的图像。3.1 空间金字塔已有的通道注意力网络仅考虑通道方面的依赖性而忽视了结构信息，结构信息中体现的是图像的整体框架，包含图像的边缘等重要的描述信息。为增强CNN的特征表达能力，传统的深度残差网络(deep Residual learning for image recognition,ResNet)24引入了更多的参数和更大的时间开销。将金字塔网络加入到生成器和判别器中，用更少的网络层获得更好的性能。如图5所示为空间金字塔结构示意图。基于注意力的CNN对每个特征图应用全局平均池化。全局平均池化的行为类似于一个结构正则化器，并且能够防止过拟

21、合。然而，将全局平均池化应用于每个特征图过于强调正则化的效果，而忽略了原始特征的表示和结构信息，尤其是在特征图较大的情况下。例如，将一个112112的特征映射聚合到一个平均值会导致特征表示能力的严重损失，从而影响特征学习。空间金字塔结构包括3种不同大小的自适应平均池化，将结构正规化和结构信息整合到注意路径中，多层感知机从空间金字塔结构的输出中学习权重特征图。自适应和平均地将输入特征映射到3个比例尺：44,22和11。44平均池化是为了获取更多的特征表示和结构信息；11平均池化是具有较强结构正则化的传统全局平均池化；22平均池化目标是在结构信息和结构正规化之间进行权衡。将这3个输出reshape

22、为3个1维向量，并通过连接将它们组合在一起生成1维特征向量。空间金字塔结构既能保留特征表示，又能继承全局平均池化的优点。xll 1,LP(,)Ffc()C()()R()xl RCWH假设CNN包含L层，表示第层的输出，表示自适应平均池化，表示全连接层，表示连接操作，表示sigmoid激活函数，表示Resize函数，为中间特征映射，则空间金字塔结构输出公式为S(xl)=C(R(P(xl,4),R(P(xl,2),R(P(xl,1)(2)接着经过一个多层感知机后输出为(xl)=(BN(Ffc(ReLU(BN(Ffc(S(xl)(3)图 4 SF-GAN的网络训练流程图图 5 空间金字塔结构196

23、2电子与信息学报第 45 卷VV从空间金字塔结构中提取的1维注意图是由3个池化层的输出拼接而成的，然而，它不能用于学习通道依赖，其非线性表达影响了注意力机制的有效性。为了解决这个问题，利用激励块对进行非线性建模，并生成1维注意力图，然后使用一个sigmoid激活函数将输出归一化到(0,1)范围。公式为V=Sigmoid(W2ReLU(W1,V)(4)W1 RcrcW2 RccrW1W2其中，,和是两个全连接层的权值矩阵。3.2 特征加强由于卷积核大小的限制，GAN的生成器只能捕捉局部区域的关系。针对原始GAN生成的图像几何特征不明显，局部区域细节不丰富的问题，将特征加强同时应用于

24、生成器和判别器，加强生成图像的整体几何特征，加强领域特征与远距离特征之间的关联度。x RCNf,gCNf(x)g(x)h(x)1 1f(x)Wfxg(x)=WgxWg RCCWfRCCWh RCC将前一个隐含层的图像特征转化为两个特征空间函数，其中是通道的数量，是宽度乘以高度。,都是的卷积，通常一个卷积过程包括一个激活函数，所以在输入不发生尺寸的变化下引入了更多的非线性，增强了神经网络的表达能力。,。,是学习的权重矩阵sij=fT(xi)g(xj)(5)f(xi)g(xj)如式(5)所示，将的输出转置并和的输出相乘，再经softmax归一化得到一个特征图。如式(6)所示j,i=exp(sij

25、)Ni=1exp(sij)(6)j,ih(xi)ojxi其中，表示在合成第j个区域时模型对第i个位置的影响程度，本质上是量化图像中像素j相对于i的重要性。将得到的特征图和逐像素点相乘，得到特征加强的特征图，其中为第i个被提取的图像特征图。如式(7)所示oj=v(Ni=1j,ih(xi)(7)ox另外，进一步将输出乘以比例参数并添加回输入要素图，最终输出由式(8)给出yi=oi+xi(8)为了兼顾领域信息和远距离特征相关性，引入一个过渡参数，初始值为0，使得模型从领域信息学起，逐渐将权重分配到别的远距离特征细节上，从而实现了特征加强。4 实验过程及分析 4.1 实验环境及数据集为了验证本文方

26、法的有效性，在CelebA,SVHN和CIFAR-10数据集上进行实验，运行环境为Py-Torch开源框架，操作系统为Windows10 64位，处理器为Intel(R)Core(TM)i7-10700K CPU3.80 GHz，显卡型号为NVIDIA GeForce RTX 2080SUPER，显存为8 GB。CelebA数据集是由香港中文大学Liu等人25所收集整理并公开的，该数据集包含10 177名公众人员的202 599张人脸图像，每张图片的大小为178218，且人脸图像包含了多个视角及背景，同时该数据集对人脸的性别、表情、发色等特征都做了标记；街景门牌数字(Street ViewHo

27、use Number,SVHN)数据集来源于谷歌的真实世界街景门牌的数字号码，共100 000张3232的彩色图像，包括09 10个类别，其中训练集样本73 257张，训练集样本26 032张；CIFAR-10数据集是由Krizhevsky26收集并整理，该数据集包含汽车、青蛙、马以及船等10个类别的彩色图像，训练集中每个类别由5 000张图像组成，总共50 000张，测试集每个类别有1 000张图像，总共10 000张，图像大小均为32像素32像素。4.2 评价指标IS是由Salimans等人27提出的评价生成图像语义的初始得分算法，其起源于Google的InceptionNets，该图像评

28、价指标能够衡量单张生成图像的清晰度以及生成图像的多样性。Inception Score在评价生成图像清晰度时，将生成的图像样本x输入到Inception Nets中，输出1 000维的y向量，在y向量中每个维度代表输入图像样本x属于某一类别的概率，如果输入图像样本x清晰度很高，那么输入图像样本x属于某一类别的概率很高，属于其他类别的概率则会很低。IS值越高意味着生成对抗网络的生成图像样本清晰度越高、丰富性越好，生成图像样本质量越高。FID28是真实图像与生成图像的特征向量间距离的一种度量。这里的特征向量是由Inception v3Network得到的，网络结构的最后两层为全连接层，以得到1 1

29、 1 000分类向量，FID采用的是倒数第2个全连接层的输出1 1 2 048维图像特征向量用于距离度量。它可以更好地捕捉生成图像与真实图像的相似性，符合人类的区分准则，FID值越低意味着生成的图像有更好的图像质量和多样性。第6期孙磊等：基于空间特征的生成对抗网络数据生成方法19634.3 实验设计12为了验证本文所提方法的有效性，在CelebA,CIFAR-10,SVHN数据集上进行实验对比。对于CelebA数据集，生成的图片的大小为64 64；对于CIFAR-10和SVHNN数据集，生成的图片的大小为32 32，从原始数据集每个类别中随机抽取500张图像，总数为5 000张图像，因为是无

30、监督生成，所以把每个类的500张分别放到模型中进行生成。所有对比模型的数据集的种类和数量都相同，batchsize设置为64，生成器的迭代次数total step都各自设置为200 000次，在训练过程中每迭代100次保存一次生成的样本和预训练的权重。该实验中使用Adam29优化器，其中=0.0,=0.9，学习率衰减设置为0.95，使用双时间尺度的更新规则(TwoTime-scale Update Rule,TTUR)，生成器的学习率设置为0.000 1，判别器的学习率设置为0.000 4，这样一来，使生成器和判别器有不同的学习率，生成器使用更小的更新幅度来欺骗判别器，并且不会选择快速、不精确

31、和不现实的方式来赢得博弈。学习率衰减设置为0.95。对抗训练损失函数使用梯度惩罚函数，此损失函数能够稳定GAN的训练，更容易收敛。训练时采取判别器训练5次，生成器训练一次的方法，其中梯度惩罚系数=10。为了进一步验证本文生成的图像数据能够提升已有深度模型的训练效果，使用分类实验进行验证。在小规模数据集分类实验中，为了排除分类器性能的影响仅考虑生成数据的效果，基于经典的LeNet设计一个分类网络。对于SVHN和CIFAR-10数据集来说，从每个类别中随机抽取500张图像，10个类共5 000张。每个类在扩充前的训练集：测试集=350:150，扩充前总的训练集为3 500张，总的测试集为1 500

32、张。将原始进行分类的每个类的训练集扩充10倍后为3 500张，总的训练集为35 000张，总的测试集依然为1 500张。对比使用真实图片、不同GAN方法生成数据扩充前后在测试集上的准确率，准确率越高说明生成的图像质量越好，能有效提高分类模型的性能。4.4 实验结果分析本文所选的基线模型为DCGAN，为了验证MA-GAN数据增强的有效性，与WGAN-GP和同样使用注意力机制的SAGAN通过定性和定量进行比较，这几个模型的共同特点是都是以DCGAN为基线方法，结构简单，参数量相对较少，仅占用较小的GPU内存，更能验证所提方法的有效性。4.4.1 CelebA实验结果如图6所示为各个模型迭代200次

33、时生成的图片效果，对于CelebA数据集来说，当生成器迭代200次时WGAN-GP,SAGAN和SF-GAN都大致有了人脸的轮廓，但是WGAN-GP,SAGAN中存在的黑色的斑块较多且呈现不规则状态，SF-GAN相比之下伪影存在规则状态。由图7可知，WGAN-GP生成的图像存在人脸模式崩溃的现象(如图7(a)中红色方框所示)，SAGAN生成的人脸图像出现较多的异常结构图像(如图7(b)中红色方框所示)，原因是SAGAN虽然通过自注意力机制捕获了单张特征图上的像素相关性，但无法捕捉各特征通道之间的联系，故未能成功捕获图像的几何特征和结构。SF-GAN相对于SAGAN,WGAN-GP生成的图片更加

34、平滑自然，人脸器官较为协调。表1中指标IS的“”符号表示IS越大模型效果越好，指标FID的“”符号表示FID越小模型效果越好。由表1可知，SF-GAN相对于SAGAN，IS分数提升了10.28%，FID降低了1.18%；相对于WGAN-GP，IS分数提升了12.75%，FID降低了14.93%。表明了所提方法的有效性以及在生成图像上的优良性能。4.4.2 SVHN实验结果如图8所示为不同模型在类“8”上的生成效果，WGAN-GP和SAGAN都存在无法正常生成图图 6 不同模型生成样本对比1964电子与信息学报第 45 卷像样本的情况(如图8(a)和图8(b)中红色方框所示)SF-

35、GAN生成的数字较为清晰、边缘干净、色彩也更为明亮，细节展现较为自然。由表2可知，在数字09这10个类中，SF-GAN生成图像的各个类的IS分数都是最高的。在类“5”中，SF-GAN相对于WGAN-GP,SAGAN模型IS分数分别提升了11.81%,12.43%；其中在类“7”中，SF-GAN相对于WGAN-GP模型IS分数提升了20.35%，相比SAGAN提升了13.95%。由表3可知，在数字09这10个类中，SF-GAN生成图像的各个类的FID分数都是最低的，即代表模型的性能最好。其中在类“8”中，SF-GAN相对于WGAN-GP,SAGAN模型FID分数分别降低了27.63%,27.51

36、1%；在类“9”中，SF-GAN相对于WGAN-GP,SAGAN模型FID分数分别降低了35.55%,23.10%。4.4.3 CIFAR-10实验结果如图9所示为不同模型在CIFAR-10上的生成效果，由图9(a)可知WGAN-GP生成的图像效果较为混乱，物体与背景区分度较低；由图9(b)可知SAGAN表 1 在CelebA数据集上不同模型的对比结果模型ISFIDWGAN-GP2.18955.324SAGAN2.23847.624SF-GAN2.46847.064表 2 在SVHN数据集上不同模型的IS对比结果模型0123456789WGAN-GP2.6532.2232.4842.5072.

37、3282.5072.7092.4232.8102.689SAGAN2.6032.2912.5142.4462.4602.4932.5992.5592.6812.704SF-GAN2.9672.5842.8932.8262.6832.8032.9702.9163.0633.005表 3 在SVHN数据集上不同模型的FID对比结果模型0123456789WGAN-GP106.800101.01789.446100.50296.38796.058101.426124.202111.576129.814SAGAN113.99995.865101.99498.82987.57499.081109.677

38、103.439111.394108.792SF-GAN82.16774.75477.22275.66075.00871.06672.05182.13280.74883.660 图 7 不同模型在CelebA数据集上的生成效果图 8 不同模型在数字8上的生成效果第6期孙磊等：基于空间特征的生成对抗网络数据生成方法1965生成的图像色彩的视觉效果表达上优于WGAN-GP，具有较好的明暗层次，但在物体的特征表现上仍有欠缺；图9(c)为SF-GAN的生成图像，相比其他模型，其生成的图像具有较好的色彩表现力，物体的特征区分度较好，图像主体与背景的过渡更加自然，细节展现较多，进一步说明SF-GAN对于

39、深层特征的提取能力较强，生成的图像质量也较好。由表4可知，在CIFAR-10的10个类中SF-GAN的IS都是最高的。其中在类“飞机中”，SF-GAN相对于WGAN-GP、SAGAN模型IS分数分别提升了9.42%,8.89%；在类“狗”中，SF-GAN相对于WGAN-GP,SAGAN模型IS分数分别提升了24.51%,18.54%。由表5可知，在类“飞机”、“鸟”、“猫”、“鹿”、“狗”、“蛙”、“马”、“轮船”、“卡车”等9个类中SF-GAN相较于其他对比模型FID都是最低的。在类“汽车”中，SF-GAN模型的FID低于SAGAN，高于WGAN-GP。其中在类“鸟”中，SF-GAN相对于W

40、GAN-GP,SAGAN模型FID分数分别降低了21.92%,17.63%；在类“轮船”中，SF-GAN相对于WGAN-GP,SAGAN模型FID分数分别降低了9.33%,23.29%。4.4.4 分类识别性能分析由图10可知，在进行2000次迭代步长时，除了真实图片增强，3种不同GAN方法增强后训练集损失趋近于0。真实图片增强后训练损失没有GAN数据增强方法损失下降快。由图11(a)可知，对于训练集中每个类的分类准确率来说，WGAN-GP增强后每个类的分类准确率波动最大，其次波动较大的是真实图片增强；使用SF-GAN增强的每个类的分类准确率相当。由图11(b)可知对于测试集中每个类的分类准确

41、率来说，使用SF-GAN增强后每个类的分类准确率波动最小并且准确率也较高。由图12可知，SF-GAN增强和MA-GAN增强损失下降最快并且在进行2500次迭代步长时，两种方法增强后的训练损失趋近于0，说明训练过程更加稳定，收敛更快。由图13(a)可知，对于训练集中每个类的分类准确率来说，使用真实图片增强较其他方法增强波动大，使用WGAN-GP增强较其他GAN方法增强波动大，而使用SF-GAN增强后波动最小；由图13(b)可知，对于测试集中每个类的分类准确率来说，使表 4 在CIFAR-10数据集上不同模型的IS对比结果模型飞机汽车鸟猫鹿狗蛙马轮船卡车WGAN-GP3.7383.1563.018

42、2.9902.4913.3542.4963.4263.2062.853SAGAN3.7563.2733.0422.9712.6273.5232.5063.6193.0733.099SF-GAN4.0903.8033.5513.2953.0384.1762.9123.8203.4953.281表 5 在CIFAR-10数据集上不同模型的FID对比结果模型飞机汽车鸟猫鹿狗蛙马轮船卡车WGAN-GP150.220117.988138.229135.831107.385125.356109.235104.255101.760110.521SAGAN144.611164.207131.030162.07

43、1102.087134.925106.684112.162120.274150.129SF-GAN124.756144.981107.929128.80781.551106.69887.42895.5292.263108.855 图 9 不同模型在CIFAR-10上的生成效果图 10 SVHN增强后训练集损失的变化1966电子与信息学报第 45 卷用SF-GAN增强后每个类的分类准确率较高且波动较小。由表6可知，SF-GAN增强后，测试集上的平均准确率最高，相比未增强时的准确率提升了12.16%，相比WGAN-GP方法增强的准确率提升了6.41%。由表7可知，SF-GAN相比真实

44、图片、SAGAN、WGAN-GP增强后，平均准确率都是最高的，相比未增强时的准确率提升了64.53%，相比WGAN-GP方法增强后的准确率提升了12.31%。所提方法一定程度上提高了生成图像的质量和逼真度以及加表 6 不同方法增强后SVHN测试集的分类准确率(%)模型0123456789平均准确率未增强58.3375.0090.0080.00100.0066.6792.8696.8870.0096.6787.65真实图片增强100.0087.5090.0090.00100.0083.33100.0090.6270.0096.6790.51WGAN-GP增强91.6775.00100.0090.

45、0087.50100.0096.4396.8880.0093.3392.39SAGAN增强100.0087.50100.0090.00100.00100.0092.8696.8890.0096.6795.29SF-GAN增强100.00100.00100.00100.00100.0091.67100.00100.0090.00100.0098.31 图 11 SVHN增强后训练集和测试集分类准确率图 12 CIFAR-10增强后训练集损失的变化图 13 CIFAR-10增强后训练集和测试集分类准确率第6期孙磊等：基于空间特征的生成对抗网络数据生成方法1967快了网络收敛速度，在分类器上的

46、准确率优于其他对比方法，证明了本文生成的图像数据能够进一步提升深度模型的性能。5 结束语针对GAN在特征图较大的情况下忽略原始特征的表示和结构信息从而导致生成图像质量低的问题，本文提出一种基于空间特征的生成对抗网络数据生成方法(SF-GAN)。所提方法在CelebA,SVHN,CIFAR-10等数据集上有较好的生成效果，在标准IS,FID度量指标验证了SF-GAN的性能优于WGAN-GP,SAGAN等经典方法，并且通过分类实验进一步验证了本文生成的图像数据能够提升已有深度模型的训练效果，表明本文提出的方法比其他方法能够更全面地获取图像中的特征信息，生成的图像结构分布也与真实分布更为接近。在未来

47、的工作中，将致力于用更少的数据集生成更高分辨率的图像。参考文献TAN Mingxing and LE Q V.EfficientNetV2:Smallermodels and faster trainingC.The 38th InternationalConference on Machine Learning,San Diego,USA,2021:1009610106.1XIAO Zihao,GAO Xianfeng,FU Chilin,et al.Improvingtransferability of adversarial patches on face recognitionw

48、ith generative modelsC.2021 IEEE/CVF Conference onComputer vision and Pattern Recognition,Nashville,USA,2021:1184011849.doi:10.1109/CVPR46437.2021.01167.2CHEN Xiangning,XIE Cihang,TAN Mingxing,et al.Robust and accurate object detection via adversariallearningC.2021 IEEE/CVF Computer vision and Patte

49、rnRecognition,Nashville,USA,2021:1661716626.doi:10.1109/CVPR46437.2021.01635.3CHEN Pinchun,KUNG B H,and CHEN Juncheng.Class-aware robust adversarial training for object detectionC.2021 IEEE/CVF Conference on Computer vision andPattern Recognition,Nashville,USA,2021:1041510424.doi:10.1109/CVPR46437.2

50、021.01028.4张春霞,姬楠楠,王冠伟.受限波尔兹曼机J.工程数学学报,52015,32(2):159173.doi:10.3969/j.issn.1005-3085.2015.02.001.ZHANG Chunxia,JI Nannan,and WANG Guanwei.Restricted Boltzmann machinesJ.Chinese Journal ofEngineering Mathematics,2015,32(2):159173.doi:10.3969/j.issn.1005-3085.2015.02.001.LOPES N and RIBEIRO B.Deep b

展开阅读全文