1、2023 年第 9 期194智能技术信息技术与信息化基于 StyleGAN 的虚拟人脸生成技术陈宇轩1 姚剑敏1,2 严 群1,2 林志贤1CHEN Yuxuan YAO Jianmin YAN Qun LIN Zhixian 摘要 虚拟人脸生成技术是计算机视觉领域中备受关注的研究方向之一,随着深度学习的不断发展,基于各类生成对抗网络的虚拟人脸生成技术逐渐成了研究的热点。针对虚拟人脸生成技术的研究,提出了一种基于 StyleGAN 的虚拟人脸生成技术。算法包括训练和生成两个主要步骤。在训练阶段,采用了大规模的真实人脸数据集,结合 StyleGAN 的生成能力,训练出了高质量的虚拟人脸生成模型。
2、在生成阶段,使用了训练好的模型,通过对输入噪声向量的调整以及预先对人脸的对齐,生成高度逼真的虚拟人脸图像。同时,通过引入一个 Pix2Pix 网络,提升了将图像映射到潜在空间的速度,大大改善了 StyleGAN 网络的缺点。为了验证提出的算法的有效性和优越性,进行了大量的实验和对比分析。实验结果表明,算法在生成虚拟人脸图像的逼真度、多样性和真实性等方面均有显著提高,同时还能够避免传统虚拟人脸生成技术中存在的一些缺陷和问题。关键词 深度学习;StyleGAN;虚拟人脸;图像生成;Pix2Pix doi:10.3969/j.issn.1672-9528.2023.09.0431.福州大学 福建福州
3、 350108 2.晋江市博感电子科技有限公司 福建晋江 362200 基 金 项 目 福 建 省 教 育 厅 中 青 年 教 师 教 育 科 研 项 目(JAT210030)0 引言虚拟人物已经成为数字娱乐、虚拟现实、电子商务、社交网络等领域中不可或缺的一部分。虚拟人物的设计与开发中最关键的部分之一,便是虚拟人脸的生成。虚拟人脸的生成涉及许多技术领域,包括计算机视觉、机器学习、图像处理等等,因此一直是研究的热点和难点之一。目前生成虚拟人脸的方式主要有两种,一种是采用贴图的传统方法生成虚拟人脸,一种是采用深度学习的方法来产生虚拟人脸1。用贴图的方式生成虚拟人脸,能够灵活不断地对脸部的任何细节进
4、行自己想要的改动,以达到良好的效果。但是缺点是效率太低,需要自己逐个改动,费时费力,在需要生成大规模的虚拟人脸时,这个方法显然不太现实2。在深度学习产生虚拟人脸的方式中,比较常见的是采用卷积神经网络(convolutional neural networks,CNN)3。只要可以将数据变换成为图像的格式,都可以通过学习来得到想要的虚拟人脸。但是 CNN 在学习过程中需要大量样本,并且对计算机的性能有很大的要求,因此在数据量比较大的时候,这个方法也存在着很大的缺陷。另一种则是生成对抗网络(generative adversial network,GAN)4。生成对抗网络生成的图像的分辨率和质量正
5、在迅速提高,它已被证明可以在各种数据集上可靠地工作。目前,用于高分辨率图像合成的最新方法是 StyleGAN,StyleGAN 是由 NVIDIA 公司提出的一种基于生成对抗网络的图像生成技术,具有生成高质量、高度逼真的图像的能力5。它的显著特征是其非常规的生成器体系结构。映射网络不是将输入的潜在代码 z Z 仅馈送到网络的开头,而是将其转换为中间的潜在代码 w W6。细微变换然后产生通过自适应实例规范化(AdaIN)控制合成网络 g 层的样式。另外,通过向合成网络提供额外的随机噪声图来促进随机变化。已经证明,该设计使中间潜空间 W的纠缠比输入潜空间 Z 的纠缠小得多。目前通过生成对抗网络生成
6、虚拟人脸的研究中,普遍存在一些问题,比如对于 StyleGAN 来说,它将图像映射到潜在空间的过程比较慢,耗时很长;在真实的人脸数据集中,大部分人脸的姿势各不相同,并不是总能找到两个相同的人脸进行人脸混合。而不同姿势的人脸混合得出的虚拟人脸有可能真实性并不高。本文的主要贡献在于提出了一种高效、有效、适用范围广的虚拟人脸生成技术,为虚拟人脸生成领域的研究和应用提供了有力的支持。1 相关理论1.1 StyleGAN 模型结构StyleGAN 模型最重要的贡献是引入了“样式”概念,它可以控制图像的高层次特征,例如面部特征,头发样式,眼睛颜色等。这种样式控制是通过将潜在向量映射到不同的样式向量来实现的
7、。样式向量包括两个部分:潜在向量和样式向量。潜在向量被用于控制图像的低级特征,例如纹理和 2023 年第 9 期195智能技术信息技术与信息化颜色。样式向量则控制高级特征,例如面部特征和头发样式。通过使用这种样式控制,StyleGAN 可以生成高度个性化的图像。除了样式控制外,StyleGAN还引入了一种新的插值方法,称为“随机插值”。这种插值方法将两个潜在向量之间的差异添加到样式向量中,以生成新的样式向量。这种插值方法可以在生成图像时提供更多的变化性7。StyleGAN 的网络结构包含两个部分,第一个是 Mapping network,这是一个由隐藏变量 z 生成中间隐藏变量 w 的过程,这
8、个 w 就是用来控制生成图像的 style。第二个是 Synthesis network,它的作用是生成图像,创新之处在于给每一层子网络都输入了 A 和 B,A 是由 w 转换得到的仿射变换,用于控制生成图像的风格,B 是转换后的随机噪声,用于丰富生成图像的例如皱纹之类的细节,即每个卷积层都能根据输入的A 来调整“style”,通过 B 来调整细节8。其具体网络结构如图 1 所示。模型的工作流程如下:输入图片,先转换得到一个隐藏编码,然后将隐藏编码输入 Mapping network 解耦,得到一个中间向量 w,这些中间向量后续会传给生成网络得到 18 个控制向量,这 18 个控制向量两两一组
9、,传入 Synthesis network 的 9 个卷积层的 AdaIN 模块中,在每个 AdaIN 模块之前再向每个通道添加一个缩放过的噪声,最后输出一张样式混合过的根据真实人脸生成的不同风格的虚拟人脸9。图 1 StyleGAN 网络结构图(1)Mapping network:随着卷积层数量的增多,后续大量的控制向量之间会出现特征纠缠的现象,Mapping network 就很巧妙地解决了特征纠缠的问题,Mapping network 由八个全连接层组成,其结构如图 1 左所示,它的输出 w与输入层(5121)的大小相同。当隐藏编码通过 Mapping network 后,就会被解耦成中
10、间向量 w,用这些独立的中间向量去控制生成的图像特征,就避免了特征纠缠的现象。Mapping network 有以下特点。非线性映射:Mapping network 使用的是非线性映射函数,能够对随机向量进行更加复杂的转换,从而提高生成图像的多样性。多层映射:Mapping network 由多层神经网络组成,每一层都将随机向量进行映射,随着层数的增加,可以提高潜在空间向量的维度和表达能力,进而生成更加复杂的图像。可控的潜在向量:Mapping network 将随机噪声向量映射到潜在空间向量,而潜在空间向量中的每个维度都对应着一种语义特征,因此可以通过调整潜在向量中的某个维度的值来控制生成图
11、像的某个特征。Mapping network 的非线性映射和多层结构可以增加潜在空间向量的多样性,使得生成的图像更加丰富多样化。同时,它可以通过反向映射的方式,将生成的图像映射回潜在空间向量,从而实现逆向生成图像的功能。Mapping network 还能提高对图像特征的控制能力,通过调整潜在向量中的某个维度的值,可以控制生成图像的某个特征,如面部表情、头发样式等,从而提高对生成图像的控制能力。(2)Synthesis network:Synthesis network 是 StyleGAN的核心部分,其主要作用是将 Mapping network 的潜在向量与噪声向量进行合并,并将合并后的向
12、量传递到生成器网络中生成图像。下面介绍一下Synthesis network的特点和优点。首先,Synthesis network 采用了可变分辨率的方法来生成图像。在生成过程中,它首先生成一个较低分辨率的图像,然后逐步增加分辨率,直到最终生成高分辨率的图像。这种方法可以使模型更加高效,减少模型训练和生成图像的时间。其次,Synthesis network 采用了渐进式生长的方式生成图像,也就是说,它不是一次性生成完整的图像,而是通过逐步增加图像的分辨率,使得图像的细节和质量不断提高。这种方法使得生成的图像更加细腻、自然,并且具有更高的真实感。再次,Synthesis network 还采用了
13、新的卷积操作逆卷积(transpose convolution),它可以将低分辨率的特征图扩展到高分辨率的特征图上。这种操作可以更好地处理分辨率变化的问题,从而使生成的图像更加平滑和连贯。最后,Synthesis network 还可以通过调整生成器网络中的参数来控制生成的图像的特征,例如控制图像的朝向、表情、年龄等。这种可控性是 StyleGAN 的又一大特点,使得生成的图像更加多样化,满足了不同需求和场景下的应用。总的来说,Synthesis network 的特点主要体现在可变分辨率、渐进式生长、逆卷积和可控性等方面,这些特点使得生成的图像更加自然、高质量、多样化,并且减少了模型训练和生
14、成时间11。(3)微调:AdaIN 是 StyleGAN 中的一个重要模块,它的公式为:(1)2023 年第 9 期196智能技术信息技术与信息化将 w 通过一个可学习的仿射变换扩变为放缩因子 y,与偏差因子 y,,这两个因子会与标准化之后的卷积输出做一个加权求和,就完成了一次 w 影响原始输出 x的过程。通过对放缩因子的微调,可以实现对图片样式信息的调整10。从数据分布来说,低概率密度的数据在网络中的表达能力很弱,直观理解就是,低概率密度的数据出现次数少,能影响网络梯度的机会也少,但并不代表低概率密度的数据不重要。可以提高数据分布的整体密度,把分布稀疏的数据点都聚拢到一起,其公式为:(2)通
15、过对压缩倍数 的微调,可以实现对 的截断,从而改变生成图片的样式,效果图如图 2。图 2 不同时生成的同一图像 1.2 Pix2Pix对于 StyleGAN 来说,它将图像映射到潜在空间的过程比较慢,耗时很长,在实际的应用场景中,显然无法提供大量的时间去做映射的过程,因此,引入了一个 Pix2Pix 网络来提高将图像映射到潜在空间的速度。Pix2Pix 是一种经典的图像到图像翻译框架,它可以通过训练一个生成器网络来学习将输入图像转换成输出图像。该框架可以用于各种图像转换任务,例如:将黑白图像转换为彩色图像,将草图转换为真实图像,将卫星图像转换为地图等。Pix2Pix 的主要优点是可以生成高质量
16、的图像,并且可以控制输出图像的特征。它通过引入条件 GAN 的方法,将输入图像作为条件来生成输出图像。通过这种方式,Pix2Pix 可以在生成器网络中保留输入图像的特征,从而生成更加真实的输出图像。Pix2Pix 框架中的生成器网络使用了一种称为“U-Net”的结构,它包含一个编码器网络和一个解码器网络。编码器网络将输入图像缩小到一个低维表示,并将该表示传递给解码器网络。解码器网络通过上采样将低维表示转换为与输入图像相同的大小,并生成最终的输出图像。Pix2Pix 的训练过程使用了一个特殊的损失函数,它可以帮助生成器网络学习生成更加真实的图像。此外,Pix2Pix 还使用了一个附加的 L1损失
17、,以确保生成的图像与目标图像之间的像素级别的差异最小。Pix2Pix 的生成器网络损失函数为:(3)L1损失函数为:(4)用 L1 loss 重建的图像很模糊,也就是说 L1并不能很好地恢复图像的高频部分(图像中的边缘等),但能较好地恢复图像的低频部分(图像中的色块)。因此将 L1损失函数和生成器网络损失函数结合使用,用 L1 loss 恢复图像的低频部分,GAN loss恢复图像的高频部分,就能达到比较好的效果。Pix2Pix 网络的判别器的输入不仅仅只是真实图像与生成图像,还将输入图像也一起作为输入的一部分,即将输入图像与真实图像、生成图像分别在第 3 通道进行拼接,然后一起作为输入传入判
18、别器模型。在每个 conv 层之前将输入和decoder 对应的镜像层进行了拼接,因而输入的通道数增加了一倍,大大加快了映射速度。2 实验和结果分析为了验证基于StyleGAN的虚拟人脸生成技术的有效性,在 FFHQ 数据集上进行了实验,并与其他模型进行了比较。本文的实验平台为 NVIDIA Tesla P40 GPU 和 PyTorch 深度学习框架。2.1 实验设置本文使用了 FFHQ 数据集,该数据集包含了 70 000 张10241024分辨率的真实人脸图片,用于训练和测试该模型。采用了与 StyleGAN 相同的训练方法,并使用了相同的参数设置,包括每个批次的样本数、学习率和梯度下降
19、算法。首先,比较了不同随机向量大小的影响。使用了两个不同大小的随机向量,分别为 512 和 1024。随机向量大小的增加可以使生成图像更加丰富多彩,同时也增加了生成器的计算复杂度。此外,并没有发现随机向量大小的增加对于生成的图像质量有显著的影响。其次,比较了不同数量的训练迭代次数的影响。使用了 1000、2000、4000 和 8000 个迭代次数来训练模型。随着迭代次数的增加,生成的图像质量逐渐提高。然而,当迭代次数超过 4000 时,生成的图像质量的提高速度开始变得缓慢。此外,训练时间的增加也导致了生成器的计算复杂度的增加。将生成的虚拟人脸与真实人脸进行了比较,使用了两个指标来评估模型的性
20、能:inception score 和 frchet inception distance(FID)。inception score 是基于 inception 模型的一种评估图像质量的指标,它度量了图像的多样性和质量。FID度量了两个分布之间的相似性,这里是真实人脸和生成的虚拟人脸之间的相似性。将该模型与其他现有的人脸生成模型进行了比较,包括DCGAN 和 CycleGAN。比较内容包括性能对比和不同人脸 2023 年第 9 期197智能技术信息技术与信息化生成虚拟人脸时间的对比。2.2 实验结果及分析 实验结果如图 3 所示,从实验结果可以看出,使用StyleGAN 生成的虚拟人脸具有更高
21、的视觉质量和逼真度,与真实人脸非常相似。生成的虚拟人脸能够反映出不同的特征和风格,比如性别、年龄、种族等。而且,通过操纵输入的随机向量,可以生成不同的虚拟人脸,从而满足不同应用的需求。图 3 模型生成效果图另外,为了评估模型的性能,使用了两个指标:FID 和IS。其中,FID 表示生成图像与真实图像之间的差异,值越小表示模型生成的图像越接近真实图像;IS 表示生成图像的多样性和质量,值越大表示模型生成的图像越多样化、越逼真。对比结果如表 1 所示,通过对比结果可以看出,使用StyleGAN 生成的虚拟人脸在 FID 和 IS 指标上都优于其他方法。这说明,StyleGAN 能够更好地生成高质量
22、的虚拟人脸,并且能够生成更多样化的图像。表 1 对比结果表网络FIDIS生成单张人脸所需时间/sStyleGAN4.698.344.2DCGAN6.036.225.1CycleGAN5.267.583.5本文改进的网络4.029.142.9总的来说,基于 StyleGAN 的虚拟人脸生成技术在视觉质量和多样性以及速度方面具有较高的优势,并且在各种应用中都具有广泛的应用前景。3 结语针对虚拟人脸的生成,本文提出基于 StyleGAN 的生成方法。在实验中,通过在 StyleGAN 中加入 Pix2Pix 网络和数据微调,本文的模型在 Inception Score 和 FID 指标上分别达到了
23、9.14 和 4.02,且生成一张虚拟人脸只需要 2.9 s,明显优于其他模型。总的来说,基于 StyleGAN 的虚拟人脸生成技术在视觉质量和多样性以及速度方面具有较高的优势,并且在各种应用中都具有广泛的应用前景。未来的研究方向可以在更多的细节方面进行探索,比如如何更好地操纵生成的虚拟人脸特征,如何进一步提高生成效率等。参考文献:1 KINGMA D P,WELLING M.An introduction to variational autoencodersJ.Foundations and trends in machine learning,2019,12(4):307-392.2 C
24、HAUDHARI P,AGRAWAL H,KOTECHA K.Data augmentation using MG-GAN for improved cancer classification on gene expression dataJ.Soft computing,2019,24:1-11.3 GOODFELLOW I,POUGET-ABADIE J,MIRZA M,et al.Generative adversarial networksJ.Communications of the ACM,2020,63(11):139-144.4 ZEYNU S,PATIL S.Predicti
25、on of chronic kidney disease using data mining feature selection and ensemble methodJ.International journal of data mining in genomics&proteomics,2018,9(1):1-9.5 BHATT A R,GANATRA A,KOTECHA K.Cervical cancer detection in pap smear whole slide images using convnet with transfer learning and progressi
26、ve resizingJ.PeerJ computer science,2021,7:e348.6 SRIVASTAVA A,JAIN S,MIRANDA R,et al.Deep learning based respiratory sound analysis for detection of chronic obstructive pulmonary diseaseJ.PeerJ computer science,2021,7:e369.7 JAVIER R D S,RODRIGO V,MAURICIO C.Recognition of faces in unconstrained en
27、vironments:A comparative studyJ.EURASIP journal on advances in signal processing,2009,2009(1):184617.8 SELINGER A,SOCOLINSKY D.Appearance-based facial recognition using visible and thermal imagery:a comparative studyJ/OL.Equinox corporation,2002,15.2022-10-26.https:/ SOCOLINSKY D A,SELINGER A.A comp
28、arative analysis of face recognition performance with visible and thermal infrared imageryC/2002 International Conference on Pattern Recognition.Los Alamitos:IEEE Computer Society,2002:217-222.10 赵姝,李筱蔚,金鑫.虚拟人像生成软件设计与实现 J.北京电子科技学院学报,2022,30(2):68-78.11 杜 圣 杰,贾 晓 芬,黄 友 锐,等.面 向 CNN 模 型 图 像分类任务的高效激活函数设计 J.红外与激光工程,2022,51(3):493-501.【作者简介】陈宇轩(1997),男,江西抚州人,就读于福州大学物理与信息工程学院,研究方向:深度学习、图像处理。姚剑敏(978),男,福建莆田人,博士,副研究员,研究方向:人工智能、图像处理、计算机视觉等。(收稿日期:2023-03-01 修回日期:2023-04-09)