基于CutFace算法的深度伪造检测方法_朱振.pdf

资源描述

1、工业控制计算机2023年第36卷第2期图1真假人脸对应差分掩码摘要：为解决深度伪造技术被不法分子滥用对网络信息安全、个人隐私构成的威胁，针对使用CNN容易过拟合的问题，提出一种结合数据预处理的深度伪造检测方法。受随机擦除算法的启发，提出一种CutFace数据增强算法，可以很好地和检测模型相集成。在此基础上，提出一种改进的EffcientNet网络检测模型，通过在网络的浅层添加CBAM模块，使得网络聚焦人脸的伪造操纵部分。为了验证所提出方法的有效性，做了两组对比的实验，实验结果表明：基于CutFace算法的深度伪造预测方法在FaceForensics+数据集上两个版本的三个评价指标Acc、AUC

2、、LogLoss均达到了最优，验证了该方法的有效性。关键词：人脸切割；深度伪造预测；注意力模块Abstract:In order to solve the threat posed by the abuse of deep forgery technology by criminals to network informa-tion security and peoples privacy,this paper proposes a deep forgery detection method combined with data preprocessingto solve the proble

3、m of easy overfitting using CNN.Inspired by the random erasure algorithm,a CutFace data enhancementalgorithm is proposed,which can be well integrated with the detection model.On this basis,an improved EffcientNet net-work detection model is proposed in this paper.By adding a CBAM module in the shall

4、ow layer of the network,the net-work focuses on the fake manipulation part of the face.In order to verify the effectiveness of the proposed method,twosets of comparative experiments are conducted in this paper.The experimental results show that the three evaluation indi-cators Acc,AUC and LogLoss of

5、 the two versions of the deepfake prediction method based on the CutFace algorithm onthe FaceForensics+dataset all reach the optimality,and the effectiveness of the method is verified.Keywords:CutFace,deepfake detection,atteention module最近几年中，随着深度学习的迅速发展，人脸操纵技术变得愈发成熟，一种名为深度伪造1（Deepfake）的人脸操纵方式得以出现。由

6、于该技术高度开源性，普通人在没有专业技术的背景上也可以完成人脸操纵，从而引发互联网上一轮换脸热潮。任何事物都是有利有弊的，深度伪造作为新出现的技术，带给人们全新认知的同时，也为个人隐私、政府形象、国家安全等方面构成了威胁。如何对深度伪造视频进行有效检测迫在眉睫。当前国内外众多学者针对深度伪造进行有效检测展开相关研究。文献2利用胶囊网络的独有特点，提出了一种基于胶囊网络的深度伪造检测方法，胶囊网络能够准确捕捉生成人脸部分和完整人脸之间的空间差异特征，对深度伪造的人脸进行准确判别；文献3提出一种名为MesoNet的卷积神经网络用于深度伪造检测。因为图像在被压缩成视频时，容易丢失低层语义信息，并且通

7、过人眼很难观察出图像的高级语义信息，所以该模型主要利用图像的中层语义信息来进行检测；文献4采用了多特征融合进行深度伪造检测，解决在使用神经网络提取特征时，因为池化或者下采样等操作时图像丢失了局部特征。文献5提出了一种新颖的深度伪造检测模型，先通过一个多任务级联模型对视频帧的图片进行人脸检测，然后由卷积神经网络对所有人脸区域进行提取特征，最后通过人脸自动加权层和门控循环单元来判断是否是深度伪造视频；文献6提出了一种名为FakeSpotter的方法，该方法不同于以往直接利用深度模型进行检测的方法，而是通过监控神经元激活值的异常行为来进行判断，作者认为神经元的激活值分布可以反映操纵人脸留下的痕迹，可

8、以捕捉微妙的特征；文献7研究了视频分类领域的几种模型在伪造人脸检测方面的效果，通过大量的对比实验表明这些在动作识别数据集上预训练的模型能很好的迁移到伪造人脸视频上。以上提出的方法涉及到使用机器学习、深度学习、人类生理特征等多种方式进行检测。但是很少涉及数据预处理方式，种类多样性好、数量众多的数据可以有效提升模型性能。本文针对目前深度伪造数据集存在脸部变化小、多样性低等问题，提出一种数据增强算法-CutFace。利用真假人脸的先验知识，在人脸区域动态生成遮挡，提升检测性能，并可以与检测网络相集成。接着提出与该算法集成的改进的EfficientNet8检测模型。通过在网络的浅层添加CBAM9模块，

9、使得网络更加关注操纵的区域，更改最后的分类层，使其更切合深度伪造检测任务。1CutFace人脸增强算法主要思想：使用dlib人脸检测器生成人脸图像不同区域的关键点，计算真假人脸图像之间的SSIM10系数，进而生成二值的SSIM差分掩码。通过该差分掩码指导算法在人脸面部动态生成不规则的几何图形，并填充0，对未伪造区域进行有规则的选择擦除。CutFace算法首先计算一个真实视频帧和对应伪造视频帧之间的SSIM系数，进而生成一个像素级别的二值差分掩码。如图1所示，这个差分掩膜中的人脸操纵区域的像素用1基于 CutFace 算法的深度伪造检测方法Deep Forgery Detection Metho

10、d Based on CutFace Algorithm朱振（东南大学自动化学院，江苏南京210096）89基于CutFace算法的深度伪造检测方法表示，未经操纵区域的像素用0表示。在图1中，上部分的人脸是对人脸嘴巴区域进行了操纵，下部分的人脸是在眼睛和嘴唇之间区域进行了操纵。SSIMI差分掩码为对非操纵区域的动态生成人脸多边形提供指导。在训练过程中，以一定的概率执行CutFace。对于小批次处理中的输入图像I，它以概率为p进行数据增强，根据随机输入的不同人脸关键点区域进行两种不同的面部切割。其中对人脸中的眼睛、鼻子和嘴巴部分构成感官切割，对人脸轮廓部分构成轮廓凸包11切割。进行感官切割时根

11、据输入不同的关键点选择三者中的一个，然后与事先计算的SSIM差分掩码进行比较得到最大包围多边形区域，将多边形赋值给变量Ic，通过该操作来估计伪造区域的数量。定义在SSIM差分掩码中，M1是感官切割多边形区域Ic内所有像素为1的个数，而M是整张掩码图中所有像素为1的个数。根据定义可以等得到M1M。两者比值用表示，计算如公式1所示：=M1M（1）定义Tc表示进行人脸分割的阈值，默认设置为0.2。如果上述计算的值满足条件，则对所选择的点区域内进行切割增强。此外值得注意的是只适用于伪造人脸，对于真实人脸图像，不进行上述计算，其不存在原始图像，故差分掩码计算不包含任何的1（全为0，图像全黑），因此该|M

12、|总是为0，进行计算没有意义。对于轮廓凸包的切割：首先，在27个人脸轮廓关键点中随机选取8到16个点。根据选定的点绘制一个多边形。对于每个多边形使用下面的不规则多边形计算公式算出面积。S=12n-1i=1xiyi+1+xny1-n-1i=1xi+1yi-x1yn（2）（x，y）为图像中选取的顶点的坐标，该公式的作用就是选择满足Tc的最大多边形。然后从8到16之间的随机挑选一个整数i，再从人脸轮廓关键点坐标中随机选取i个连续点。例如对于i=10的第一次迭代，我们选择的是1到10，第二次迭代是2到11，以此类推到第五次迭代后停止。每次迭代用选取的点绘制多边形并计算对应的，选取满足约定条件中Tc最大

13、的多边形。最后使用27个边界点绘制多边形，求出该多边形的质心。紧接着通过质心在多边形内部作水平、垂直两条直线将整个多边形进行横纵分割，得到四个子多边形。选取计算得到的值最小的那个多边形即为进行切割的部分。图2展示了进行不同操作后的人脸对比：图2执行CutFace算法得到的人脸图像（a原图）2改进的EfficientNet伪造检测模型2.1模型介绍整个检测模型流程图如图3所示，整体模型架构由数据预处理模块、改进的骨干网络模块（添加CBAM注意力模块）和分类模块这三个模块组成。具体流程如下：首先经过预处理模块，将真实人脸帧序列和对应的伪造人脸帧序列计算得到SSIM差分掩码，然后通过上一节提出的Cu

14、tFace数据增强算法后生成增强后的视频序列。再使用MTCNN人脸检测器检测经过数据预处理后的视频帧中的人脸，将人脸图像调整为224224大小的图像送入到骨干网络提取特征；为了让模型对伪造操纵的细节更加敏感，在骨干网络EfficientNet-B4的浅层中添加CBAM注意力模块，增强网络对伪造篡改痕迹的关注；最后在分类模块中更改Efficient-Net-B4的输出层，对输出的向量经过两个全连接层和一个softmax分类层对伪造检测结果进行更好分类。CBAM（Convolutional Block Attention Moudle）是一种将混合的注意力机制模块，相较于普通注意力模块SeNet只

15、关注通道的注意力机制，CBAM通过结合通道和空间注意力取得更好的效果。在深度伪造检测中，由于操纵的部分都是在人脸中细微的部分，在空间域内会存在视觉伪影，添加空间通道注意力可以更好的让模型发现伪造的特征。网络的浅层提取的数据和输入数据距离较近，包含更多操纵像素点更改信息（细节信息），在网络浅层加入CBAM模块可以更好地捕捉到操纵的细节信息。本文在EfficientNet-B4网络前三个stage间的MBConv模块加入CBAM模块。加入后的结构如图4所示：图4CBAM模块结构图在CBAM模块中，通过串联的方式依次连接通道注意力模块和空间注意力模块计算出各自权重，在整体的运算流程如公式（3）所示：

16、F1=Mc（F）F，F2=Ms（F1）F1（3）公式（3）中的F代表EffientNet-B4网络中第二个MB-Conv模块提取的大小为HWC的特征图，F1、F2分别表示经过通道注意力模块后和空间注意力模块后得到的特征图；Mc、Ms表示分别执行通道和空间注意力操作；表示将特征图进行逐元素的相乘运算。通道注意力模块首先将MBConv网络中得到的图像特征图F输入到通道注意力模块里，分别进行最大池化和平均池化对特征图的空间信息进行聚合，得到两个新的特征图，再将它们送到一个两层的神经网络（MLP），这两层神经网络的权值是共享的，然后将两个结果逐项元素的加操作，在经过sigmoid激活操作，生成通道特征

17、图Mc，最后将Mc和输入的特征图进行逐项相加的操作后得到最终的输入空间通道注意力图，通道注意力图计算公式如下所示：图3改进的EfficientNet伪造检测模型90工业控制计算机2023年第36卷第2期Mc（F）=（MLP（AvgPool（F）+MLP（MaxPool（F）=（W1（W0（Fcavg）+W1（W0（Fcmax）（4）其中Mc表示通道特征图，W0、W1表示多层感知机中的权重，Favg、Fmax分别表示全局平均池化和全局最大池化，表示sig-moid激活函数。空间注意力模块，首先对经过通道注意力模块处理后的特征图进行列通道的维度最大、平均池化操作（取一列通道的最大值或平均值），接着

18、将得到的两个特征图基于通道进行拼接，得到新特征图，随后将拼接后的特征图用一个77大小的卷积核进行卷积操作，将通道压缩。最后再经过sigmoid激活函数得到对应的空间特征图，空间特征图计算过程如公式（5）所示：Ms（F1）=（f77（AvbPool（F1）;MaxPool（F1）=（f77（Fsavg;Fsmax）（5）其中F1表示输入特征图，f77表示进行大小为77的卷积操，Favg、Fmax表示将经过平均池化和最大池化得到的大小为的特征图进行拼接。最后将得到的空间注意力图Ms与经过通道注意力模块处理后得到的特征图，进行逐元素相乘得到新特征图。再将新的特征图与MBConv得到的原始特征图F进行

19、逐元素相乘，得到最终的输出特征图。在对伪造人脸进行特征提取阶段，本文通过在EfficientNet网络中添加注意力模块CBAM实现对特征图通道和空间中的信息重要程度进行计算，从而使得对模型对特征图中有用的信息更加关注，降低冗余信息对最终结果的影响，提取到丰富的伪造操纵的细节信息，进而让模型更加关注到伪造操纵区域，提高检测的准确率。对深度伪造进行检测，本质是一个二分类任务。为了实现更好分类，需要更改EfficientNet网络的输出层，将最后一个MBConv模块得到的输出特征图（大小为77448）进行再接一个11卷积层，后再进行池化后得到111792维度的特征图，然后进行维度拉伸。随后接入两个全

20、连接层将特征图维度进一步降低，最后添加一个分类层对进行人脸真假识别分类。2.2损失函数本文使用通用的交叉熵函数作为损失函数，如公式6所示：L=-1NNi=1yilog（pi）+（1-yi）log（1-pi）（6）其中N表示输入人脸样本的总数；yi表示第i个输入人脸样本的标签，真实人脸则为0，虚假人脸则为1；pi表示人脸样本i预测为真的概率。3实验验证3.1数据集及预处理为验证本文所提出方法的有效性，文章采用通用的Face-Forensics+数据集进行实验验证。FaceForensics+是由FaceForensics数据集扩充而来。根据伪造方法的不同该数据集划分为DeepF

21、ake、Face2Face、FaceSwap和Neural Textures各一千个视频，加上原始的视频共计五千个视频。根据是否压缩可分为无压缩（raw）、轻压缩（c23）和重度压缩版本（c40），本文使用raw和c23两个版本进行实验。按照7:2:1的比例将数据集划分为训练集、测试集和验证集。在实验期间，我们使用MTCNN人脸检测定位方法，对视频中的人脸进行提取，然后使用CutFace算法结合传统数据增强方法对数据集进行增强，包括旋转、换位、添加高斯噪声等，最后将得到的人脸调整为大小224224的图像输入到模型中进行训练。本文的实验平台是LINUX操作系统，使用的CPU是英特尔公司的i7-1

22、2700K，显卡是英伟达RTX3080显卡，Python环境为3.6，Pytorch版本为1.8版本。我们使用在ImageNet上预先训练的EfficientNet-B4权重来初始化模型。该方法在训练的时候使用Adam优化器，其中1设置为0.9，2设置为0.999。初始化学习率设置为0.0001，batch size设置为32，每次实验迭代50个epoch。每进行10次epoch迭代，学习率衰减为原来的十分之一，直到学习率衰减到110-8时停止迭代。3.2评价指标将Acc（Accuracy，准确率）、AUC、LogLoss（训练损失）指标来评价模型的效果，准确率是指正确分类的样本占总样本数量的

23、比例，是对总体准确率的评估。准确率的计算公式为：Acc=TP+TNTP+FN+FP+TN（7）其中TP是指被模型预测为真的真实人脸；FP是指被模型预测为的伪造人脸；FN是指被模型预测为假的真实人脸；TN是指被模型预测为假的伪造人脸。受试者曲线是一种绘制了不同阈值下的真阳性率（TPR）和假阳性率（FPR）的图表，可以通过计算曲线下面积AUC（AreaUnder the Curve）来比较不同模型的ROC曲线。AUC是一个介于0.5到1之间的数值，AUC越接近0.5则模型进行随机分类，此时分类效果最差，AUC越接近1则表明分类模型准确率越高，分类的性能越好。3.3实验结果本文做了两组对比消融实验，

24、分别在raw版本和c23版本下进行，所得结果如表1、表2所示：表1raw版本实验结果表2c23版本实验结果从实验结果分析，加入CutFace预处理算法可以有效提高LogLoss，在raw、c23版本上性能分别提升了20%、17%。加入CBAM模块可以有效提高准确率和AUC这两个指标，对比基线模型在raw版本上分别提高了1.6%、2%；在c23版本上分别提高了2%、0.8%。最后通过结合两种手段在两个版本的数据集上均取得了最优的性能，对比基线模型分别提高2.4%、3.2%、27%和3.1%、2.6%、23%。验证了本文所提出方法的有效性。参考文献1LUISAVERDOLIVA.MediaFore

25、nsicsandDeepFakes:anoverview J.IEEE Journal of Selected Topics in Signal Pro-cessing,2020,14(5):91-9322Huy H Nguyen,Fuming Fang,Junichi Yamagishi,et al.Mul-ti-task learning for detecting and segmenting manipulatedfacial images and videos J.arXiv preprint arXiv:1906.06876,2019.73D Afchar,V Nozick,J Y

26、amagishi,et al.Mesonet:a compactfacial video forgery detection networkC2018 IEEE Interna-tional Workshop on Information Forensics and Security(WIFS),IEEE,2018:1-74卞明运，彭勃，王伟，等.基于空洞卷积的低质量人脸深度伪造图片检（下转第94页）91（上接第91页）测J.现代电子技术，2021，44（6）：133-1385MONTSERRATDM,HAOH,YARLAGADDASK,etal.Deepfakes Detection wit

27、h Automatic Face WeightingJ.arXivpreprint arXiv:2004.12027,20206RUN WANG,LEI MA,FELIX JUEFEI-XU,et al.FakeSpotter:A Simple Baseline for Spotting AI-Synthesized Fake FacesC 29th International Joint Conference on Artificial Intelli-gence,2021:3425-34327Y WANG,A DANTCHEVA.A video is worth more than 100

28、0lies.Comparing 3DCNN approaches for detecting deepfakesC15th IEEE International Conference on Automatic Faceand Gesture Recognition,20208MINGXING TAN,QUOC V LE.EfficientNet:Rethinking ModelScaling for Convolutional Neural Networks C36th Interna-tional Conference on Machine Learning,2019:10691-10700

29、9WOO S,PARK J,LEE J Y,et al.CBAM:Convolutional BlockAttention Module J.Neural Computation,1997,9(8):1735-178010ZHOU WANG,A C BOVIK,H R SHEIKH,et al.Imagequality assessment:from error visibility to structural similari-ty.IEEE Transactions on Image Processing,2004,13(4):60061211CEVIKALP HAKAN,YAVUZ HA

30、SAN SERHAN,TRIGGS BILL.Face Recognition Based on Videos by Using Convex HullsJ.IEEE Transactions on Circuits and Systems for VideoTechnology,2020,30(12):4481-4495收稿日期：2022-05-31两个不同数据集上本文所提出方法（ours）和两个经典基础网络pix2pix、cycleGAN在SSIM、FSIM以及PSNR三个客观评价指标上的测试结果。表3CUFSF数据集上测试结果图3展示了不同方法的合成效果，从左到右依次为输入原始素描图像、

31、pix2pix合成结果、CycleGAN合成结果、本文方法合成结果及真实人脸照片。从实验结果可以看出，pix2pix和cycleGAN方法生成的人脸照片会存在模糊或者伪影等问题，而本文所采用的方法能够有效消除合成人脸照片中的伪影和模糊，提高了合成图像的质量。图3本文方法与其他方法合成人脸照片对比图表4为消融实验结果，本文在CUFS和CUFSF两个数据集上进行消融实验。w/o MSG表示不含多尺度梯度特征，w/MSG代表包含多尺度梯度特征。由实验结果可以看出增加多尺度梯度特征后，各项指标都有所提升。表4消融实验4结束语为了提高人脸素描照片合成的图像质量，本文提出了一种融合多尺度梯度特征的人脸素描

32、照片合成方法，该方法结合了MSG-GAN的思想，同时在U-Net网络中加入了残差单元，来缓解深度神经网络训练过程中产生的梯度消失和梯度爆炸的问题。定量和定性实验表明本文提出方法的有效性。尽管现有的研究工作已取得了较大的成果，但依然有很多问题有待进一步研究。现有方法对光照变化、背景干扰等环境噪声的鲁棒性较差，影响合成人脸图像的质量，因此提高人脸素描照片合成算法的泛化能力至关重要。参考文献1孙锐，孙琦景，单晓全，等.基于多残差动态融合生成对抗网络的人脸素描-照片合成方法J.模式识别与人工智能，2022，35（3）：207-2222徐文博，孙广玲，陆小锋.预训练网络引导的人脸图像超分辨率重建J.工业

33、控制计算机，2020，33（6）：36-383TANG X,WANG X.Face sketch recognition J.IEEE Trans-actionsonCircuitsandSystemsforVideoTechnology,2004,14(1):50-574CHANG L,ZHOU M,HAN Y,et al.Face Sketch Synthesisvia Sparse Representation C International Conference onPattern Recognition(ICPR),IEEE,2010:2146-21495ZHANG J,WANG N

34、,GAO X,et al.Face sketch-photo syn-thesis based on support vector regression C 2011 18thIEEE International Conference on Image Processing,2011:1125-11286WANG N,ZHA W,LI J,et al.Back projection:An effectivepostprocessing method forGAN-based face sketch syn-thesisJ.Pattern Recognition Letters,2018,107

35、:59-657ZHANG M,WANG N,LI Y,et al.Face sketch synthesis fromcoarse to fine C32nd AAAI Conference on Artificial Intelli-gence(AAAl),2018:7558-75658KARNEWAR A,WANG O.MSG-GAN:Multi-Scale Gradientsfor Generative Adversarial Networks C 2020 IEEE Confer-ence on Computer Vision and Pattern Recognition(CVPR)

36、,2020:7799-78089MAO X,LI Q,XIE H,et al.Least Squares Generative Ad-versarial Networks C 2017 IEEE International Conferenceon Computer Vision,2017:2813-282110LI C,WAND M.Combining MarkovRandomFieldsandConvolutional Neural Networks for Image Synthesis C 2016IEEEConferenceonComputer-VisionandPatternRecognition,2016:2479-2486收稿日期：2022-06-06融合多尺度梯度特征的人脸素描照片合成94

展开阅读全文