工业场景下高斯引导的非显著性字符抹除.pdf

资源描述

1、工业场景下高斯引导的非显著性字符抹除姚超,庞雄文(华南师范大学计算机学院,广州510631)通信作者:庞雄文,E-mail:摘要:图像文本信息在日常生活中无处不在,在传递信息的同时,也带来了信息泄露的问题.近年来文本擦除模型很好地解决了这个问题.然而,在工业场景下,图像会出现高光,对比度较大的非字符区域,模型往往很容易其影响发生注意力偏移的现象,从而忽略了字符区域导致不理想的文本抹除效果.为了克服这一局限性,基于注意力提出了一种新的文本擦除网络,即在网络中嵌入了一层额外的特征层用以给生成图中存在字符的区域进行评分.同时,引入了高斯热力图并将其作为基础设计损失函数,采用监督的方式纠正模型的注意力

2、,将模型注意力引导至正确的字符区域.通过在 4 种不同的数据集上进行对比,本文所提方法总体上拥有更好的抹除效果.同时,该方法在图像存在复杂的背景情况下,其在图像抹除任务中仍然具有较高的灵活性.关键词:字符抹除;注意力漂移;高斯引导;区域评分引用格式:姚超,庞雄文.工业场景下高斯引导的非显著性字符抹除.计算机系统应用,2023,32(8):278285.http:/www.c-s- Non-saliency Character Erasure under Industrial ScenariosYAOChao,PANGXiong-Wen(SchoolofComputerScience,South

3、ChinaNormalUniversity,Guangzhou510631,China)Abstract:Imagetextmessagesareubiquitousineverydaylife,andwhileconveyinginformation,theyalsobringtheproblemofinformationleakage.Inrecentyears,texterasuremodelshavesolvedthisproblemverywell.However,inindustrialscenarioswhereimagesarehighlightedandnon-charact

4、erareaswithhighcontrast,themodelsareoftensusceptibletotheirinfluenceofattentionaldrift,thusneglectingthecharacterareasandresultinginunsatisfactorytexterasure.Inordertoovercomethislimitation,thisstudyproposesanewtexterasurenetworkbasedonattention.Specifically,anadditionalfeaturelayerisembeddedinthene

5、tworktoscoretheareaswherecharactersarepresentinthegeneratedimage.Atthesametime,thestudyintroducesaGaussianheatmapandusesitasthebasisfordesigningalossfunctionthatcorrectsthemodelsattentionandguidesittoaccuratecharacterareasinasupervisedmanner.Throughcomparisononfourdifferentdatasets,theproposedmethod

6、hasbettererasureresultsoverall.Inaddition,themethodhasthesamehighflexibilityforthetexterasuretaskinthepresenceofcomplexbackgroundsinimages.Key words:charactererasure;attentionaldrift;Gaussian-guided;regionscore图像文本抹除技术是指在图像中通过用合理的语义内容替换场景中存在的文本并保留纹理细节,起到擦除文本的作用,其广泛应用在隐私保护1、图像编辑2、图像恢复3等领域.近年来,基于生成对抗网

7、络(GAN)4的方法广泛地应用在图像转换的任务中.一些工作5利用其对图像特殊的翻译能力来解决字符抹除的问题,模型通过端到端的方式进行训练,在学习的过程中总结归纳图计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(8):278285doi:10.15888/ki.csa.009111http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041收稿时间:2022-11-12;修改时间:2022-12-23;采用时间:2023-01-06;csa 在线出版时间:2

8、023-06-09CNKI 网络首发时间:2023-06-13278研究开发ResearchandDevelopment像信息与语义信息将语义上合理的内容替换掉文字部分以实现图像文字的抹除.这些工作的一个主流策略是明确地从给定的输入图像和目标图像中分离出内容和表征,采用循环一致性的方式6在二者之间建立高维映射关系从而使得图像之间的转换更为平滑并且效果更好.此后,为了更好地学习到图像中关键的特征与语义信息,在编码和解码的过程中会加入注意力机制7,8,结合高维度映射而创建的可学习参数权重,使得模型在学习过程中会自发地关注一些重要区域,在风格迁移或者图像生成的任务中都有着较好的效果.然而,我们通过实

9、验发现,这些方法着重解决了如何抹除图像中的文本,而忽略了背景对字符的影响.与自然场景不同,在工业场景中,工件表面通常包含高光和高对比度区域,这会误导模型做出错误的字符定位.因此,当使用上述算法进行工业文本抹除时,字符区域很容易被忽略,尤其是在通过弱监督方式获得文本定位的方法上.模型缺乏针对性的引导,在学习过程中往往容易受到显著性非字符区域的影响,使其发生自注意力漂移的情况(attentiondrift),如图 1 所示.(a)原图(b)未经引导的注意力热力图(c)经过引导的注意力热力图图 1注意力热力表示图在本文中,我们提出了一种工业场景下的文本抹除方法,其采用了端到端的形式实现图像文本的抹除

10、.该算法通过高斯编码图来引导模型更多地关注字符区域.具体来说,在模型上采样的过程中我们给生成图额外增添了一层图像特征层,即为关注域层,来对字符区域进行评分,所得到的区域分数表示为给定像素是字符中心的概率.同时,为了使模型学习到字符区域的特征,避免受到背景图像显著性特征的影响,我们利用标准 2D 高斯分布图对图像字符区域进行编码得到高斯热力图911,为模型提供图像文本定位的强引导信息.与离散识别每个像素的二值分布图相比,高斯热力图在处理没有严格约束的字符区域方面具有很高的灵活性.在此基础上,我们将关注域和高斯热力图相结合,设计了一个新的损失函数,来纠正模型注意力的区域,避免使模型产生注意力漂移.

11、此外,为了保留更多的背景信息,实现更好的擦除效果,我们将关注域、生成图和原图进行加权融合.最终使得模型不仅可以更加关注生成的擦除图像的文本区域,还可以保留目标图像的背景区域.本文的主要贡献如下.(1)我们设计了一种新的字符抹除模型,该模型通过得分域为其提供精确的字符指导,以解决由于背景的显著性区域引起的注意力漂移问题,并最终拥有更好的图像擦除效果.(2)我们引入了高斯热力图,通过对字符区域进行高斯编码,并将其作为损失函数的基础来指导模型在抹除字符的过程中更加关注字符区域.(3)我们提出了一个端到端的文本抹除方法,该方法在工业场景的 4 个数据集上都证明了方法的有效性.1相关工作现有的图像文本抹

12、除方法主要分为两类:传统的非学习方法和基于深度学习的机器学习方法.传统方法,例如 Khodadadi 等人12提出的方法通常使用颜色直方图或者阈值去提取图像的文本区域,然后利用匹配修复算法,高效地重构文本区域的图像信息.此外,Wagh 等人13通过对字符特征的信息找到文字区域,然后使用最邻近匹配算法,对文字去除后的区域进行填充,但进行文字区域填充需要反复迭代,因此算法的效率不高.同时,传统方法比较适用于简单的场景,在背景较为单一的情况下,性能良好,但是在复杂的背景环境下则表现不佳,无法满足常规性的任务.随着深度神经网络的发展,采用神经网络的方法在抹除文字的任务上有了重大的突破.Nakamura

13、等人2最先提出了一种基于CNN的滑动窗口方法进行场景文本擦除.但是采用滑动窗口的卷积神经网络,无法使得模型学习到图像整体的语义信息,从而不可避免地破坏了擦除结果的一致性和连续性.随后 Zhang 等人设计了一个端到端的网络模型 EnsNet14,将生成对抗网络和 U-Net 结构相结合,整体地进行擦除训练.这种方法解决了模型学习图像整体语义的问题,但是会经常出现文本定位不准确和文本抹除不彻底的问题.为了克服这个问题,Tursun 等人提出了一种二阶段的抹除方法 MTRNet15,通过引入辅助掩码提供关于文本所在位置的信息,从而使得模型能够更好地关注文本抹除.之后,Tursun 等人对 MTR

14、Net 进行了优化提出了2023年第32卷第8期http:/www.c-s-计算机系统应用ResearchandDevelopment研究开发279一个扩展版本 MTRNet+16,它引入了一个掩模细化分支,将粗糙的区域掩模转化为像素级掩模.用作一个精细修饰分支的输入,以提供额外的文本信息.然而,受限于文字检测模块,如果不能分割出好的掩模,文字的抹除就无法达到理想的效果修复,同时,模型更加臃肿,效率更低.此后,Tang 等人17采用笔画遮罩和背景修复相结合的方式,从裁剪的文本图像中提取文本笔画作为相对较小的孔,以保持更多的背景内容,从而获得更好的修复效果.Bian 等人18,将文本

15、去除问题解耦为文本笔划检测和笔划去除并设计了单独的网络来解决这两个子问题,此外,我们通过实验发现,图像翻译模型 Attention-GAN19,U-GAT-IT20同样可以进行图像字符的抹除,通过引入注意力机制对于图像信息进行高维编码,使得模型在学习过程中自主地关注字符区域实现图像的字符抹除.整体上来说,基于半监督学习方式的注意力有助于解决掩模对于模型学习产生的弊端.但是,如果图片中出现非文字的显著性区域时,模型在学习的过程中会赋予该区域更高的权重,从而忽略了字符区域,最终无法达到满意文字擦除的效果.2方法GstGtsDsDtGsssXsXtx Xs,XtsfcsyyGIRSRSGI字符擦除模

16、型由两个生成器和以及两个鉴别器和组成.其中又由编码器,解码器以及辅助分类器组成.整体架构如图 2 所示,和分别代表原始图片和抹除文字后的图片集合.将作为一组用于训练的源域样本和目标域样本传入到模型中,传入的图像首先通过来获得编码特征图.接着,基于注意机制的辅助分类器会从编码后的特征图中提取高语义信息,得到的高语义信息特征图传入到进行解码并生成的预测图.其中包含两部分,生成图像(generatingimages,),区域得分(regionscore,).与结合可以有效地获得字符擦除的区域,剩余的区域由原始输入图像填充.XsXt输入图片目标图片下采样残差块编码器模块.辅助分类器.高斯引导模块区

17、域得分图高斯编码图上采样适应性残差块编码特征图注意力特征图解码器模块全连接层,输出图片Lregion-scorey图 2字符擦除模型的整体架构 2.1 辅助分类器图 3 为辅助分类器模块的流程示意图,该模块受到 CAM21,22的启发,其核心在于通过全局最大池化(globalmaxpooling)和全局平均池化(globalaveragepooling)23来学习特征层的权重,以无监督学习方式产生注意力.通过使用一个全连接层将维数降低到一维,从而可以确定特征层是源域部分还是目标域的一部分.与此同时,通过映射到更高维数而产生的可学习参数权mafc重以及与编码特征图点积相乘,给每个通道分配一个权重

18、,确定该层通道相应特征的重要性,从而生成注意力特征图.2.2 解码器解码过程如图 4 所示,为了解码注意力特征图中的注意力信息,我们使用参数和加权AdaLin(黄色虚线框)24归一化的结果.AdaLIN 将 AdaIN25和LN26结合选择性地保留或更改内容信息,并在更改图像特征的同时维护原始域的内容结构.计算机系统应用http:/www.c-s-2023年第32卷第8期280研究开发ResearchandDevelopment编码特征图全局最大池化全局平局池化权重全连接全连接权重拼接权重表示为特征图全连接过程中产生的权重值*拼接卷积块注意力特征图*点积相乘Lstcam图 3辅助

19、分类器的流程示意图注意力特征图全连接卷积ReLU适应性残差块适应性残差块.1上采样2AdaLIN适应性残差块Instancenormalization Adaptive instancenormalization*点积相乘相加aI2I+aL2L+图 4解码器的流程示意图I、LI、L图 4 中,和分别表示通道和特征层的均值和标准值,此外,和是由注意力图中的完全连接的层动态计算得到,的值在解码器的残差块中初始化为 1,在解码器的上采样块中初始化为 0.2.3 高斯引导在高斯导引模块中,我们设置了一层额外的特征层,即关注域层(regionscorelayer,RSL),以给出字符区域的得分,该得分

20、表示给定像素是字符中心的概率.同时我们引入高斯热力图对字符区域进行编码.通过计算编码后的高斯热力图与 RSL 之间的最小均方差来纠正模型产生的偏差.这种指向性的纠正措施能够使模型能够不断地聚焦于字符的特征区域从而解决注意漂移的问题.基于高斯热力图的编码形式在与没有明确界定边界的目标区域合作时,它提供了高度的灵活性,已经广泛应用于各个领域,如动作识别工作27,28,具体流程如图 5 所示.由于图像上的字符框通常重叠在一起,造成图形的变形,因此我们将二维各向同性标准高斯映射曲折到字符框选择区域.区域得分在训练过程进行更新,如图 6 所示,在早期阶段,模型对图像中的文本区域中并不熟悉,因此区域得分相

21、对较低.随着训练的进行,模型能够更精确地处理字符区域,并且预测的得分值也逐渐提高.2.4 Mask 加权融合基于注意力机制与关注域的非字符区域内容仍然会发生变化.为了解决这个问题,生成器生成了 RSL 和生成图 GI.RSL 可以作为每个像素的权重,定义了像素的重要性,以确保在生成器生成的最终结果中只有特定区域的内容发生变化,而不影响其他区域的内容.2023年第32卷第8期http:/www.c-s-计算机系统应用ResearchandDevelopment研究开发281高斯热力图生成模块字符标注框高斯热力图标准 2D高斯映射图透视转换标注框解码器上采样字符域得分MSE图 5高斯引

22、导的流程图原图#迭代 1 000#迭代 5 000#迭代 50 000抹除图片图 6训练阶段注意力变化示意图关注域层 RSL 以及内容Ct组成.最终生成的图像通过以下融合公式得到:At,Ct=Gst(x)(1)F(Gst(x)=AtCt+(1At)x(2)这样可以保证在字符区域的内容改变擦除字符时,字符以外的区域不会发生变化.2.5 损失函数对抗损失:对抗性损失用于匹配输入图像的分布与目标图像的分布.Lstlsgan=ExXt(Dt(x)2+ExXs(1Dt(Gst(x)2(3)其中,x、Xt、Xs分别表示输入图片、原图片集合及目标图片集合,Gst、Dt各自表示为生成器、判别器.x XsxXs

23、XtXtXs循环损失:为了学习过程中缓解模式崩溃的问题.即给定图像,在从到以及从到的顺序转换之后,图像应该成功地转换回原始域.Lstcycle=ExXs|xGts(Gst(x)|1(4)其中,x、Gts、Gst分别表示为输入图片、目标图片至原图的生成器及原图至目标图片的生成器x XsGstx一致性损失:为了确保输入图像和输出图像的颜色分布相似,我们对生成器应用了一致性约束.给定图像,在使用对进行平移之后,图像应该不会改变.Lstidentity=ExXt|xGst(x)|1(5)其中,x、Gst、Dt分别表示为生成器、判别器.sGstDtCAM 损失:通过利用来自辅助分类器的信息,和了解在

24、当前状态下需要改进的部分.Lstcam=(ExXslog(s(x)+ExXtlog(1s(x)(6)LDtcam=ExXt(Dt(x)2+ExXs(1Dt(Gst(x)2(7)其中,s、Gst、Dt分别表示为辅助分类器、超参数、生成器、判别器.关注域损失:为了在复杂的背景环境下,采用监督的方式引导模型更加关注字符区域:Lregion-score=ExXs(?GmapGregion-scorest(x)?22)(8)Gregion-scorest其中,x、Gmap、分别表示为输入图片、高斯编码图及关注域得分,总损失:最后,我们联合训练编码器,解码器,鉴别器和辅助分类器,以优化最终目标:L=1Ls

25、tlsgan+2Lstcycle+3Lstidentity+4Lcam+5Lregion-score(9)计算机系统应用http:/www.c-s-2023年第32卷第8期282研究开发ResearchandDevelopment3实验结果与分析 3.1 数据集和评估指标为了真实地评估本文所提出方法的有效性,我们分别在在塑料表面(plasticsurface,PS)、充电器外壳(chargershell,CS)、SIM卡(SIMcard,SC)和SIM卡槽(SIMcardslot,SCS)这 4 类不同的工业数据上进行测试,并采用 FID29、SSIM30、L2loss 等指标来量

26、化地评估最终的结果.3.2 与现有方法比较此外,我们将本文方法与现有主流方法 Attention-GAN19,CycleGAN6,Pix2pix31,U-GAT-IT20等进行比较.为了保证验证的公平性,所有的模型都会使用官方提供的源代码进行训练直至收敛并测试.表 1 展示了各个模型在 4 个数据集上的量化测试结果.从结果可以看出,本文方法的生成结果无论特征相似度还是图像相似度,表现都较为优异.实际效果如图 7 所示,从图中我们可以发现基于注意的 Attention-GAN和U-GAT-IT由于采用半监督学习缺乏一定的指导,在提取特征时,这些显著区域往往占据更大的权重,在学习过程中容易产生注意

27、漂移,最终影响图像的生成.因此,在具有显著特征的场景的 PS和CS数据集中表现不佳.尽管我们的方法同样依赖于注意机制,但当我们引入高斯热力图时,模型的注意力也会随着指引更加关注字符区域并产生更好的擦除结果.表 14 个不同数据集上不同模型的量化对比结果模型PSCSSCSCSFIDSSIML2lossFIDSSIML2lossFIDSSIML2lossFIDSSIML2lossCycleGAN42.990.846236.42160.560.86756.1244.840.965929.9873.360.96916.27Pix2pix110.250.7328115.46259.080.7171224

28、.9427.740.9928.48153.160.920256.15AttentionGAN134.290.53078.41157.230.55636.5721.520.9962.80110.130.914161.80U-GAT-IT103.490.75357.18165.690.79863.0361.220.96689.9970.310.96163.61Ours35.220.95122.2044.950.949118.2722.340.9953.2354.190.97523.01示例 1示例 2示例 3示例 4AttentionGANU-GAT-ITInputimagesOursPix2pi

29、xCycleGANAttentionGANU-GAT-ITInputimagesOursPix2pixCycleGANAttentionGAN(a)PS(b)SC(c)CS(d)SCSU-GAT-ITInputimagesOursPix2pixCycleGANAttentionGANU-GAT-ITInputimagesOursPix2pixCycleGAN示例 1示例 2示例 3示例 4示例 1示例 2示例 3示例 4示例 1示例 2示例 3示例 4图 7在 4 个数据集上的实际对比效果2023年第32卷第8期http:/www.c-s-计算机系统应用ResearchandDev

30、elopment研究开发2834消融实验在这一部分中,我们研究了本方法中每个模块对于整体性能的影响,量化结果如表 2 所示.通过逐渐去除高斯地图(Gaussianmap,GM)、区域得分层(regionscorelayer,RSL)和注意力(attention)等模块,模型的抹除效果逐渐降低,说明去除的模块对模型都有良好的影响.表 2消融实验的量化结果AttentionRSLGMFIDSSIML2loss25.220.95122.2044.910.87932.8469.780.87836.51103.490.75357.18为了评估GM对模型的影响,我们将高斯热图换成了二值分割图,如图 8 所

31、示.具体来说,字符的目标框被选中的区域被设置为白色,其余的被设置为黑色.结果表明,二值分割图可以作为字符擦除的引导,但是这种刚性的区域约束使得模型对于区域特征的擦除效果较差,这可能导致字符停留在局部擦除中.(a)原图(b)二值化图二值化转换图 8二值分割示意图5结论实验表明,显著性非字符区域会影响模型在擦除字符过程中的注意力,从而产生注意力漂移.为了防止此类现象发生,我们提出了一种新的基于高斯引导的字符擦除模型.基于注意机制下的模型,通过强引导的方式成功地将注意力集中在的字符区域上,从而获得了更好的擦除效果.同时,大量的实验表明,该方法在不同场景下都拥有很高的灵活性.参考文献InaiK,Pls

32、sonM,FrinkenV,et al.Selectiveconcealmentofcharacters for privacy protection.Proceedings of the 22nd1InternationalConferenceonPatternRecognition.Stockholm:IEEE,2014.333338.Nakamura T,Zhu AN,Yanai K,et al.Scene text eraser.Proceedingsofthe14thIAPRInternationalConferenceonDocument Analysis and Recognit

33、ion(ICDAR).Kyoto:IEEE,2017.832837.2Suh S,Lee H,Lukowicz P,et al.CEGAN:Classificationenhancementgenerativeadversarialnetworksforunravelingdata imbalance problems.Neural Networks,2021,133:6986.doi:10.1016/j.neunet.2020.10.0043Creswell A,White T,Dumoulin V,et al.Generativeadversarialnetworks:Anoverview

34、.IEEESignalProcessingMagazine,2018,35(1):5365.doi:10.1109/MSP.2017.27652024LiuCY,JinLW,LiuYL,et al.Dontforgetme:Accuratebackground recovery for text removal via modeling local-globalcontext.Proceedingsofthe17thEuropeanConferenceonComputerVision.TelAviv:Springer,2022.409426.5Almahairi A,Rajeswar S,So

35、rdoni A,et al.AugmentedCycleGAN:Learningmany-to-manymappingsfromunpaired data.Proceedings of the 35th InternationalConferenceonMachineLearning.Stockholm:PMLR,2018.195204.6ChenXY,XuC,YangXK,et al.Attention-GANforobjecttransfiguration in wild images.Proceedings of the 15thEuropean Conference on Comput

36、er Vision.Munich:Springer,2018.167184.7VaswaniA,ShazeerN,ParmarN,et al.Attentionisallyouneed.Proceedings of the 31st International Conference onNeuralInformationProcessingSystems.LongBeach:CurranAssociatesInc.,2017.60006010.8Xu YC,Fu MT,Wang QM,et al.Gliding vertex on thehorizontalboundingboxformult

37、i-orientedobjectdetection.IEEE Transactions on Pattern Analysis and MachineIntelligence,2021,43(4):14521459.doi:10.1109/TPAMI.2020.29747459BaekY,LeeB,HanDY,et al.Characterregionawarenessfor text detection.Proceedings of the 2019 IEEE/CVFConference on Computer Vision and Pattern Recognition.LongBeach

38、:IEEE,2019.93579366.10LongSB,HeX,YaoC.Scenetextdetectionandrecognition:The deep learning era.International Journal of ComputerVision,2021,129(1):161184.doi:10.1007/s11263-020-01369-011KhodadadiM,BehradA.Textlocalization,extractionandinpaintingincolorimages.Proceedingsofthe20thIranian12计算机系统应用h

39、ttp:/www.c-s-2023年第32卷第8期284研究开发ResearchandDevelopmentConferenceonElectricalEngineering(ICEE2012).Tehran:IEEE,2012.10351040.WaghPD,PatilDR.Textdetectionandremovalfromimageusing inpainting with smoothing.Proceedings of the 2015International Conference on Pervasive Computing(ICPC).Pune:IEEE,2015.14.13

40、ZhangST,LiuYL,JinLW,et al.EnsNet:Ensconcetextinthe wild.Proceedings of the 33rd AAAI Conference onArtificialIntelligence.Honolulu:AAAI,2019.801808.14TursunO,ZengR,DenmanS,et al.MTRNet:Agenericscene text eraser.Proceedings of the 2019 InternationalConference on Document Analysis and Recognition(ICDAR

41、).Sydney:IEEE,2019.3944.15TursunO,DenmanS,ZengR,et al.MTRNet+:One-stagemask-basedscenetexteraser.ComputerVisionandImageUnderstanding,2020,201:103066.doi:10.1016/j.cviu.2020.10306616TangZM,MiyazakiT,SugayaY,et al.Stroke-basedscenetext erasing using synthetic data for training.IEEETransactionsonImageP

42、rocessing,2021,30:93069320.doi:10.1109/TIP.2021.312526017BianXW,WangCQ,QuanWZ,et al.Scenetextremovalviacascaded text stroke detection and erasing.ComputationalVisualMedia,2022,8(2):273287.doi:10.1007/s41095-021-0242-818TangH,LiuH,XuD,et al.AttentionGAN:Unpairedimage-to-image translation using attent

43、ion-guided generativeadversarialnetworks.IEEETransactionsonNeuralNetworksandLearningSystems,2023,34(4):19721987.doi:10.1109/TNNLS.2021.310572519Kim J,Kim M,Kang H,et al.U-GAT-IT:Unsupervisedgenerativeattentionalnetworkswithadaptivelayer-instancenormalizationforimage-to-imagetranslation.Proceedingsof

44、the8thInternationalConferenceonLearningRepresentations.AddisAbaba:ICLR,2019.20Arrieta AB,Daz-Rodrguez N,Ser JD,et al.Explainableartificialintelligence(XAI):Concepts,taxonomies,opportunities and challenges toward responsible AI.InformationFusion,2020,58:82115.doi:10.1016/j.inffus.212019.12.012Zhou BL

45、,Khosla A,Lapedriza A,et al.Learning deepfeatures for discriminative localization.Proceedings of the2016 IEEE Conference on Computer Vision and PatternRecognition.LasVegas:IEEE,2016.29212929.22Lin M,Chen Q,Yan SC.Network in network.arXiv:1312.4400,2013.23LingJ,XueH,SongL,et al.Region-awareadaptivein

46、stancenormalizationforimageharmonization.Proceedingsofthe2021IEEE/CVFConferenceonComputerVisionandPatternRecognition.Nashville:IEEE,2021.93579366.24Huang X,Belongie S.Arbitrary style transfer in real-timewith adaptive instance normalization.Proceedings of the2017 IEEE International Conference on Com

47、puter Vision.Venice:IEEE,2017.15101519.25Ba JL,Kiros JR,Hinton GE.Layer normalization.arXiv:1607.06450,2016.26CaoZ,SimonT,WeiSE,et al.Realtimemulti-person2Dposeestimationusingpartaffinityfields.Proceedingsofthe2017 IEEE Conference on Computer Vision and PatternRecognition.Honolulu:IEEE,2017.13021310

48、.27DuanHD,ZhaoY,ChenK,et al.Revisitingskeleton-basedaction recognition.Proceedings of the 2022 IEEE/CVFConference on Computer Vision and Pattern Recognition.NewOrleans:IEEE,2022.29692978.28HeuselM,RamsauerH,UnterthinerT,et al.GANstrainedby a two time-scale update rule converge to a local nashequilib

49、rium.Proceedingsofthe31stInternationalConferenceonNeuralInformationProcessingSystems.LongBeach:CurranAssociatesInc.,2017.66296640.29Wang Z,Bovik AC,Sheikh HR,et al.Image qualityassessment:From error visibility to structural similarity.IEEE Transactions on Image Processing,2004,13(4):600612.doi:10.1109/TIP.2003.81986130IsolaP,ZhuJY,ZhouTH,et al.Image-to-imagetranslationwith conditional adversarial networks.Proceedings of the2017 IEEE Conference on Computer Vision and PatternRecognition.Honolulu:IEEE,2017.59675976.31(校对责编:孙君艳)2023年第32卷第8期http:/www.c-s-计算机系统应用ResearchandDevelopment研究开发285

展开阅读全文