1、第 卷 第期 年月金 陵 科 技 学 院 学 报J OUR NA LO FJ I N L I NGI N S T I TUT EO FT E CHNO L O G YV o l ,N o M a r,D O I:/j c n k i /n 基于多尺度引导注意力的人物图像合成方法研究邬成,葛斌,郑海君,杨振文(安徽理工大学计算机科学与工程学院,安徽淮南 )摘要:针对现有生成对抗网络合成的人物图像存在的残缺和模糊问题,提出一种基于多尺度特征提取和姿势引导特征转换的人物图像合成方法.利用深度卷积神经网络对图像和姿势进行多尺度特征提取,有效获取丰富的语义信息;在不同尺度特征的转换过程中注入引导注意力机
2、制,利用姿势信息引导纹理特征进行正确转移和变换;使用马尔可夫判别网络(P a t c h G A N)作为判别器,增强对图像纹理细节的鉴别能力;最后在D e e p F a s h i o n数据集上进行测试.结果表明:在定量上,该方法的结构相似度(S S I M)达到了 ,峰值信噪比(P S N R)达到了 ,F r c h e t初始距离得分(F I D)达到了 ,可学习感知图像块相似度(L P I P S)达到了 ;在定性上,比传统方法合成的人物图像具有更好的视觉效果.所提方法能有效解决残缺和模糊问题,提高合成人物图像的质量.关键词:生成对抗网络;多尺度特征;特征转换;人物图像合成;引导
3、注意力机制中图分类号:T P 文献标识码:A文章编号:X()收稿日期:基金项目:国家自然科学基金青年项目();国家重点研发计划(Y F B );安徽省自然科学基金(Q F );安徽省博士后基金(B )作者简介:邬成(),男,安徽六安人,硕士研究生,主要从事计算机视觉研究.通信作者:葛斌(),男,安徽安庆人,教授,博士,主要从事机器学习、计算机视觉、网络与信息安全研究.R e s e a r c ho nH u m a nI m a g e S y n t h e s i sM e t h o dB a s e do nM u l t i s c a l eG u i d e dA t t e
4、n t i o nWUC h e n g,G EB i n,Z HE NG H a i j u n,YANGZ h e n w e n(A n h u iU n i v e r s i t yo fS c i e n c ea n dT e c h n o l o g y,H u a i n a n ,C h i n a)A b s t r a c t:A i m i n ga t t h ep r o b l e mo f i n c o m p l e t e a n db l u r r e dh u m a n i m a g e s s y n t h e s i z e db ye
5、 x i s t i n gg e n e r a t i v e a d v e r s a r i a l n e t w o r k s,ah u m a n i m a g e s y n t h e s i sm e t h o db a s e do nm u l t i s c a l e f e a t u r ee x t r a c t i o na n dp o s eg u i d e df e a t u r et r a n s f o r m a t i o ni sp r o p o s e d T h ed e e pc o n v o l u t i o n
6、 a ln e u r a ln e t w o r k i su s e dt oe x t r a c tm u l t i s c a l e f e a t u r e so f i m a g e sa n dp o s e s t oe f f e c t i v e l yo b t a i nr i c hs e m a n t i c i n f o r m a t i o n T h eg u i d e da t t e n t i o nm e c h a n i s mi s i n j e c t e d i n t h e c o n v e r s i o np
7、 r o c e s so fd i f f e r e n t s c a l e f e a t u r e s,a n dt h ep o s t u r e i n f o r m a t i o ni su s e dt oc o r r e c t l yg u i d et h et r a n s f e ra n dt r a n s f o r m a t i o no f t e x t u r e f e a t u r e s T h eM a r k o vd i s c r i m i n a n tn e t w o r k(P a t c h GAN)i su
8、 s e da sad i s c r i m i n a t o r t of u r t h e re n h a n c et h ea b i l i t yt od i s t i n g u i s hi m a g et e x t u r ed e t a i l s F i n a l l y,t e s t i n g i sc o n d u c t e do nt h eD e e p F a s h i o nd a t a s e t T h er e s u l t ss h o wa s f o l l o w s:Q u a n t i t a t i v e
9、 l y,t h es t r u c t u r a l s i m i l a r i t y(S S I M)o f t h ep r o p o s e dm e t h o dr e a c h e s T h ep e a ks i g n a l t o n o i s er a t i o(P S N R)r e a c h e s T h e F r c h e ti n c e p t i o n d i s t a n c es c o r e(F I D)r e a c h e s L e a r n a b l ep e r c e p t u a l i m a g
10、 ep a t c hs i m i l a r i t y(L P I P S)r e a c h e s Q u a l i t a t i v e l y,c o m p a r e dw i t ht h et r a d i t i o n a lm e t h o d s,t h es y n t h e s i z e dh u m a ni m a g e sh a v eb e t t e rv i s u a le f f e c t s T h ep r o p o s e dm e t h o dc a ne f f e c t i v e l ys o l v et
11、h ep r o b l e m so f i n c o m p l e t e n e s sa n db l u r r i n g,a n d i m p r o v e t h eq u a l i t yo f t h es y n t h e s i z e dh u m a n i m a g e s K e yw o r d s:g e n e r a t i v ea d v e r s a r i a ln e t w o r k s;m u l t i s c a l ef e a t u r e;f e a t u r et r a n s f o r m a t i
12、 o n;h u m a n i m a g es y n t h e s i s;g u i d e da t t e n t i o nm e c h a n i s m人物图像合成是计算机视觉的重要分支,作用在于将当前人物图像合成为给定姿势的人物图像,它在第期邬成,等:基于多尺度引导注意力的人物图像合成方法研究虚拟试衣、图像编辑、视频合成、人员重识别的数据增强等方面都有着广泛的应用.人体是非刚性的物体,不同姿势下的人物图像具有很大差异,尤其是在姿势变化较大时,可能会造成身体部位及服饰被遮挡.在这种情况下采用生成对抗网络(g e n e r a t i v ea d v e r s a r
13、 i a ln e t w o r k s,GAN)合成人物图像,会产生纹理残缺与细节模糊等问题.目前,基于生成对抗网络合成人物图像的方法有很多,大多为生成对抗网络与其他策略的结合.P i x p i x方法使用U N e t作为生成器,有效地利用输入图像和输出图像之间的结构信息来提高生成质量.但该方法对输入数据的质量和分布敏感,当源姿势与目标姿势差距过大时可能无法生成合理的结果.针对该问题,P G 方法使用两阶段生成方式来生成目标图像,第一阶段专注于人体结构的迁移,第二阶段在第一阶段的基础上使用对抗的训练方式来补充人体的纹理细节,更加关注外观的生成.但该方法由于分开处理姿势与纹理,导致有些结
14、果并不真实.P AT N是一种渐进式的姿态迁移方法,引入级联的姿态注意力迁移模块,利用姿态掩模引导网络将图像中人物的不同部分进行像素块迁移,提高了生成效果和训练效率.但该姿态迁移机制忽略了人物衣服纹理及其他信息的变化,导致合成的图像纹理模糊.A D GAN方法也运用级联方式,将人体属性分解并嵌入潜在空间,通过混合和插值操作实现对属性的灵活控制,达到人物图像的可控合成.但该方法对姿势的约束较少,容易出现图像失真问题.P I S E方法通过合成与目标姿态对齐的人体解析图来提高语义指导能力,并结合全局和局部的每个区域编码和标准化来预测隐形区域服装的合理风格,实现了服装形状和风格的解耦.但该方法预先使
15、用语义分割算法提取人物图像的解析图,会增加计算成本和引入误差.其他一些方法如D I A F、D I S T 等基于光流对图像的变换进行建模,但主要只对关键点周围的局部流进行估计,无法捕捉到全局的变化,导致整体图像效果并不理想.针对上述方法合成不同姿势人物图像存在的真实性欠缺问题,本文提出了一种基于多尺度特征和引导注意力的人物图像合成方法,通过提取的多尺度特征,在不同分辨率级别上运用引导注意力机制,合成指定姿势的真实人物图像.本文贡献有如下两点:一是采用不同卷积核的深度卷积神经网络对人物图像与姿势进行多尺度特征提取,充分了解人物纹理和姿态特征;二是增加引导注意力机制,通过探索人物图像特征和姿势特
16、征之间的关联性,在不同尺度特征层面使用引导注意力机制,利用姿势的变化引导纹理特征进行转换,合成清晰完整的目标人物图像.基本原理生成对抗网络是一种无监督深度学习模型,由生成器G和判别器D组成.生成器G与判别器D相互对抗,往复循环训练,使得合成的人物图像更加真实准确.生成对抗网络的整体结构如图所示.图生成对抗网络的整体结构生成器G的任务是生成接近真实图像概率分布的人物图像,目的是欺骗判别器D.判别器D的任务是判断这张人物图像是真实图像还是生成器G的产物,目的是找到生成器G生成的假图像.整个GAN的目标函数为:金陵科技学院学报第 卷m i nGm a xDLG AN(G,D)EIt,Isl gD(I
17、t,Is)EIsl g(D(Is,G(Is)()式中:G为生成器,D为判别器,L为目标函数简称,E为期望值,Is为源人物图像,It为真实目标人物图像,G(Is)为生成器生成的目标人物图像.GAN通过不断优化目标函数,训练生成器G将输入的噪声映射到真实数据的分布上,使生成器生成与真实图片相似的人物图像.人物图像合成网络本文提出的网络整体框架如图所示,主要由个子网络组成,分别是特征编码网络、特征转换网络和判别器网络.图人物图像合成网络结构图特征编码网络结构 特征编码网络特征编码网络(f e a t u r ee n c o d en e t w o r k,F E N)用于提取源图、源姿势和目标姿
18、势的多尺度特征,为下一步的多尺度引导注意力机制提供多特征输入.本文将特征编码网络分为两条并行路径(图),一条用于图像的编码,输入为源图Is,另一条用于姿势的编码,输入为源姿势Ps与目标姿势Pt的深度连接.每条路径有个预处理模块和个特征编码模块F E NB l o c k.预处理模块采用的是一个卷积核大小为的卷积,目的是统一所有输入特征的尺寸为(,).特征编码模块F E NB l o c k采用的是一个C o n v层、B N层、R e L U激活层与残差网络的组合.个F E N B l o c k卷积核的大小依次为、.特征转换网络特征转换网络(f e a t u r e t r a n s f
19、 o r mn e t w o r k,F T N)用于纹理特征的转换与目标图像的合成(图).特征转换网络的输入是多尺度的源人物图像特征FIs和姿势特征FPsPt,输出是经过姿势引导的目标人物图第期邬成,等:基于多尺度引导注意力的人物图像合成方法研究像Ig.F T N共包含个子合成网络,全程按照分辨率由低到高的方式合成最终目标人物图像.每个子转换网络运用了特制的引导注意力机制.图特征转换网络结构在每个子转换网络中,引导注意力模块(g u i d ea t t e n t i o nb l o c k,GAB l o c k)对不同分辨率的特征进行处理,全面捕捉整体姿势变化信息与内部纹理变化信息
20、,解决残缺和模糊的问题,通过姿势的变化引导纹理特征进行相应的转移和变换,合成完整且清晰的人物图像(图).图引导注意力网络结构引导注意力模块基于S e l f A t t e n t i o nGAN 改进得到,由于S e l f A t t e n t i o nGAN中注意力的特征输入单一,且只考虑图像自身内部的关联,而人物图像合成任务为姿势和图像的多源特征输入,需要姿势来指导图像特征转换,因而S e l f A t t e n t i o nGAN无法直接用于本文任务.本文改进后的引导注意力模块GAB l o c k输入是由F E N提取的多尺度特征FIs和FPsPt构成.在GAB l o
21、 c k中,首先对输入的特征分别进行一次卷积操作,目的是提取特征矩阵.由FIs和FPsPt联结之后的特征得到两个特征矩阵K、Q,由FPsPt得到一个特征矩阵V,其注意力图的计算公式可表示为:i,je x p(KjQi)nie x p(KjQi)()式中,i,j表示j位置对i位置的影响,i,j值越大,两个位置之间的相关性就越强.在获取了注意力图之金陵科技学院学报第 卷后,姿势信息将引导图像特征进行相应的转移与变换,合成目标人物图像.引导注意力层的输出为o(o,o,oi,oj,on).oinii,jVi()此外,为了防止部分纹理细节的丢失,通过初始化为的可学习参数将注意力层的输出o与输入的源图特征
22、FIs相结合,GAB l o c k的输出y表示为:yi oiFIs()其次,从第二个F T N子网络开始,运用残差思想将每个F T N子网络输出的图像融合特征Fk与下一个F T N子网络进行整合,确保图像的整体完整性与真实性.整个F T N网络流程表示为:FF TN(FPsPt,FIs)y()FkF TNk(F(k)PsPt,F(k)Is)ykFk,k,()最终,经过姿势引导后的目标人物图像Ig表示为:Igd e c o n v(F)()判别器网络为了更准确地判断生成的目标人物图像是否接近真实的目标人物图像,判别器网络采用马尔可夫判别器(P a t c h GAN)取代普通的判别器.整个判别
23、器网络由全卷积网络构成,输入为需要鉴别的人物图像,输出为一个矩阵.基于映射的关系,P a t c h GAN将输入映射成大小为NN的矩阵,这些矩阵的值代表每个p a t c h为真样本的概率.取这些矩阵的均值作为判别器网络的最终输出,从而判断整张图像的真假.考虑到图像中不同部分的影响,P a t c h GAN相较于普通的判别器网络,更能使模型关注图像的细节与高频信息的构建,进而增强对图像纹理细节的约束能力.损失函数考虑到全局内容的真实性和局部特征的准确性,整个生成器在多个损失函数的共同约束下进行训练.为了确保低频正确性,采用Ll o s s计算生成图像与目标图像之间的损耗L.LItIg()式
24、中:It为真实目标人物图像,Ig为生成的目标人物图像.为了增强合成图像的高频正确性,使用P a t c h GAN计算二进制交叉熵(B C E)损失Lg a n:Lg a nLB C E(D(IjA,IjB),)()式中:IA为源人物图像,IB为目标人物图像.为了提高生成图像的视觉逼真度,加入VG G 预训练模型,通过提取该模型第层与第层输出的粗略与精细特征构造感知函数Lp e ri.Lp e riNii(XT)i(X?T)()式中:XT为真实目标人物图像特征,X?T为生成的目标人物图像特征.生成器的完整损失函数为个损失函数的加权和Lf u l l.Lf u l la r gm i nGm a
25、 xDLLg a n(Lp e rLp e r)()式中:,是对应损失函数的权重.实验基础 数据集为了验证本文方法的有效性,选取D e e p F a s h i o n 数据集来进行训练和测试,该数据集包含 张背景单一、分辨率为 的高清人物图像,这些图像里具有大量不同的人物,每个人物具有丰富的第期邬成,等:基于多尺度引导注意力的人物图像合成方法研究外观和不同的姿势.本文采用人体姿势估计器O p e n P o s e 提取人体关节,每张人物图像都会生成对应的 个关键点姿势热图.为了使实验结果更科学,本实验采用P AT N方法对不同姿势的人体图像进行配对,再在总数据集里随机选取、划分 对图像作
26、为训练集,对图像作为测试集,训练集与测试集均不存在相同的人物.选取人物图像合成领域几个较为主流的方法(P AT N、A D GAN和P I S E)进行对比.实验环境本实验使用G B内存的NV I D I AT e s l a V G P U,学习框架为P y T o r c h.采用A d a m 优化器对网络进行 次迭代训练,初始学习率设为 e x p(),b a t c hs i z e设为.评价指标本文采用结构相似度(S S I M)、峰值信噪比(P S N R)、F r c h e t初始距离得分(F I D)和可学习感知图像块相似度(L P I P S)作为评价指标.采用S S I
27、 M度量真实图像与合成图像之间的相似度.采用P S N R衡量图像质量的全参考评价指标.采用F I D计算真实图像与生成图像的特征向量距离.采用L P I P S度量两张图片之间的差别.实验结果与分析 测试结果本文方法通过输入源图像和目标姿势,合成所需的最终目标图像,部分测试结果如图所示,第列为输入源图像,在分别经过不同目标姿势的引导之后,合成第列的目标人物图像.对比实验几种方法的对比结果通过定性和定量的方式展示.定性结果如图所示,通过对比可见,本文方法合成的人物图像具有更正确更完整的纹理特征,相较于其他模型在细节上表现更优越,如图 a和图 c中本文方法合成的人物面部特征、头发和衣服细节更接近
28、于真实图像;图 b中本文方法将女性人物鞋子这种局部的纹理清晰正确合成,而其他方法合成的鞋子都出现了残缺与模糊的问题;图 d也显示出本文方法在细节方面更胜一筹.图本文方法的测试结果图几种方法的定性比较结果定量结果如表所示,展示了本文方法、P AT N、A D GAN和P I S E在D e e p F a s h i o n数据集上的S S I M、P S N R、F I D和L P I P S指标.通过对比发现,本文方法的P S N R值最高,说明本文模型合成的人物图像失真度更小,图像质量更好.此外,本文方法的F I D值最低,说明本文模型合成的人物图像最接近于真实目标人物图像.并且本文方法的
29、S S I M值高于P AT N和P I S E且与A D GAN相差甚少,L P I P S值低于金陵科技学院学报第 卷P AT N与A D GAN且与P I S E几近持平.表几种方法的定量比较结果M o d e lS S I MP S N RF I DL P I P SP A T N A D G AN P I S E O u r s 消融实验图消融实验定性比较结果为了验证本文方法的有效性,通过设计组消融实验进行对比(图),分别是第列的全模型(M)、第列的去除多尺度特征提取模块的模型(M)和第列的去除 引 导 注 意 力 模 块 的 模 型(M),所 有 实 验 均 在D e e p F
30、a s h i o n数据集上进行测试,并选取S S I M、P S N R、F I D和L P I P S作为评价指标.从图b的第列和第列可以看出,在增加了引导注意力模块后,人物胳膊处的服装纹理合成准确,证明引导注意力模块对于引导特征转移极其重要.从图c的第列和第列可以看出,在增加了多尺度特征提取模块之后,合成的人物背部服装纹理变得合理,证明了多尺度特征提取模块对于细节特征的捕捉能力是有效的.可见多尺度特征提取模块和引导注意力模块对于图像的完整性和正确性具有至关重要的作用.定量结果如表所示,通过对比模型M 和模型M,发现去除多尺度特征提取模块后,S S I M、P S N R下降明显.通过对
31、比模型M 和模型M,发现去除引导注意力模块后,F I D、L P I P S均有明显上升,尤其是F I D上升最多.这从另一角度说明多尺度特征提取模块和引导注意力模块对于合成正确且多样的图像至关重要.表消融实验定量比较结果M o d e lS S I MP S N RF I DL P I P SM M M 结语针对目前生成对抗网络方法合成的人物图像质量不高的问题,本文提出了一种基于多尺度特征提取和引导注意力的人物图像合成方法,结果如下:)通过多尺度特征提取模块,对人物图像的整体语义信息和细节纹理信息进行全面获取,强化了特征提取能力.)设计引导注意力模块,利用姿势变化引导人物图像特征进行转换,增
32、强了图像整体效果.)本文方法虽然提升了一定的图像质量,但参数量较大,下一步将对模型进行轻量化处理.参考文献:赵宁,刘立波融合自注意力机制的人物姿态迁移生成模型J激光与光电子学进展,():G O O D F E L L OWI,P OUG E T A B A D I EJ,M I R Z A M,e ta l G e n e r a t i v ea d v e r s a r i a ln e t sC N e w Y o r k:P r o c e e d i n g so f第期邬成,等:基于多尺度引导注意力的人物图像合成方法研究t h e t hI n t e r n a t i o n
33、 a lC o n f e r e n c eo nN e u r a l I n f o r m a t i o nP r o c e s s i n gS y s t e m s,:I S O L AP,Z HUJY,Z HOU T H,e ta l I m a g e t o i m a g et r a n s l a t i o nw i t hc o n d i t i o n a la d v e r s a r i a ln e t w o r k sC/I E E Ec o n f e r e n c eo nc o m p u t e rv i s i o na n dp
34、a t t e r nr e c o g n i t i o n(C V P R)H o n o l u l u:I E E E,:R ONN E B E R G E RO,F I S CHE RP,B R O XT U n e t:c o n v o l u t i o n a ln e t w o r k s f o rb i o m e d i c a l i m a g es e g m e n t a t i o nC/I n t e r n a t i o n a l c o n f e r e n c eo nm e d i c a l i m a g ec o m p u t
35、i n ga n dc o m p u t e r a s s i s t e d i n t e r v e n t i o n C h a m:S p r i n g e r,:MALQ,J I AX,S UNQR,e t a l P o s eg u i d e dp e r s o ni m a g eg e n e r a t i o nC/A d v a n c e s i nn e u r a l i n f o r m a t i o np r o c e s s i n gs y s t e m s:a n n u a l c o n f e r e n c eo nn e
36、u r a l i n f o r m a t i o np r o c e s s i n gs y s t e m s L o n gB e a c h:I E E E,:Z HUZ,HUANGTT,S H IBG,e t a l P r o g r e s s i v ep o s e a t t e n t i o n t r a n s f e r f o rp e r s o n i m a g eg e n e r a t i o nC/I E E E/C V Fc o n f e r e n c eo nc o m p u t e rv i s i o na n dp a t
37、t e r nr e c o g n i t i o n(C V P R)L o n gB e a c h:I E E E,:ME NYF,MAO Y M,J I AN G Y N,e ta l C o n t r o l l a b l ep e r s o ni m a g es y n t h e s i sw i t ha t t r i b u t e d e c o m p o s e dG ANC/I E E E/C V Fc o n f e r e n c eo nc o m p u t e rv i s i o na n dp a t t e r nr e c o g n i
38、 t i o n(C V P R)S e a t t l e:I E E E,:Z HAN GJS,L IK,L A IYK,e t a l P I S E:p e r s o n i m a g e s y n t h e s i s a n de d i t i n gw i t hd e c o u p l e dGANC/I E E E/C V Fc o n f e r e n c eo nc o m p u t e rv i s i o na n dp a t t e r nr e c o g n i t i o n(C V P R)N a s h v i l l e:I E E E
39、,:L IYN,HUANGC,L O YCC D e n s e i n t r i n s i ca p p e a r a n c ef l o wf o rh u m a np o s et r a n s f e rC/I E E E/C V Fc o n f e r e n c eo nc o m p u t e rv i s i o na n dp a t t e r nr e c o g n i t i o n(C V P R)L o n gB e a c h:I E E E,:R E N YR,YUXM,CHE NJM,e t a l D e e p i m a g e s p
40、 a t i a l t r a n s f o r m a t i o n f o r p e r s o n i m a g eg e n e r a t i o nC/I E E E/C V Fc o n f e r e n c eo nc o m p u t e rv i s i o na n dp a t t e r nr e c o g n i t i o n(C V P R)S e a t t l e:I E E E,:Z HANG H,G O O D F E L L OWI,ME TA X A SD,e t a l S e l f a t t e n t i o ng e n
41、e r a t i v e a d v e r s a r i a l n e t w o r k sJ A r X i vP r e p r i n t,:S I MONYANK,Z I S S E RMAN A V e r yd e e pc o n v o l u t i o n a ln e t w o r k sf o r l a r g e s c a l ei m a g er e c o g n i t i o nJ A r X i vP r e p r i n t,:L I UZW,L UOP,Q I US,e ta l D e e p F a s h i o n:p o w
42、 e r i n gr o b u s tc l o t h e sr e c o g n i t i o na n dr e t r i e v a lw i t hr i c ha n n o t a t i o n sC/I E E Ec o n f e r e n c eo nc o m p u t e rv i s i o na n dp a t t e r nr e c o g n i t i o n(C V P R)L a sV e g a s:I E E E,:C AOZ,S I MONT,WE ISH,e t a l R e a l t i m em u l t i p e
43、r s o n Dp o s ee s t i m a t i o nu s i n gp a r t a f f i n i t y f i e l d sC/I E E Ec o n f e r e n c eo nc o m p u t e rv i s i o na n dp a t t e r nr e c o g n i t i o n(C V P R)H o n o l u l u:I E E E,:K I N GMADP,B AJ A d a m:am e t h o df o r s t o c h a s t i co p t i m i z a t i o nJ A r
44、X i vP r e p r i n t,:WAN GZ,B OV I KAC,S HE I KH HR,e t a l I m a g eq u a l i t ya s s e s s m e n t:f r o me r r o r v i s i b i l i t y t os t r u c t u r a l s i m i l a r i t yJI E E ET r a n s a c t i o n so nI m a g eP r o c e s s i n g:aP u b l i c a t i o no f t h e I E E ES i g n a lP r o c e s s i n gS o c i e t y,():(责任编辑:湛江谭彩霞)