高频特征与全局交互的人脸伪造检测_张萌萌.pdf

资源描述

1、第卷第期佳木斯大学学报（自然科学版）年月（）文章编号：（）高频特征与全局交互的人脸伪造检测张萌萌，汪可馨（安徽理工大学计算机科学与工程学院，安徽淮南）摘要：人脸伪造技术在娱乐大众的同时也对多媒体信息安全造成了很大威胁。针对现有的人脸伪造检测技术未考虑图像内容交互及压缩处理丢失伪造痕迹的问题，提出了一个基于高频特征与全局交互的深度人脸伪造检测方法。首先，利用缩放局部自注意力机制捕获像素之间的空间交互，实现全局交互。其次，利用高通滤波器放大高频微妙伪影，提高对压缩伪造内容的检测准确度。最后，结合空间域与频域信息，最大程度地捕捉图像上下文信息，有效提高模型的泛化性。在

2、和数据集的实验结果表明，所提出方法比之前的方法具有更好的检测效果和泛化性能。关键词：人脸伪造检测；频率；自注意力；泛化中图分类号：文献标识码：引言随着深度学习的不断发展，以生成对抗网络（，）、变分自编码器（，）等为代表的人脸伪造技术生成的虚假图像和视频越来越难以通过肉眼进行分辨。此类伪造技术可带来商业价值，如移动端应用为普通民众提供大众娱乐换脸服务。也会给个人和社会带来相应的风险和挑战。这些伪造技术在娱乐大众的同时也会被恶意滥用从而引发公众对社交媒体上的内容产生信任危机。因此，人脸伪造检测已成为多媒体信息安全领域的研究热点。目前，研究人员针对深度伪造视频检测问题展开了一系列的研究。传统

3、的图像取证方法大多利用设备指纹、图像噪声，解决复制粘贴、拼接等图像篡改技术。然而随着深度学习的发展，基于卷积神经网络（，）的伪造检测技术提取判别性特征实现检测的方法，渐渐超过了依赖特定类型篡改痕迹的传统取证方法。等发现生成图像与自然图像的像素统计存在差异，通过在三个颜色通道上提取共生矩阵检测假图。祝恺蔓等利用关键帧特征交互区分真假视频，先通过提取单帧特征，然后采用自注意力机制在多帧间进行数据交互，最后聚合全局信息作出决策。这类方法没有考虑帧内全局像素关系，利用局部处理原则提升的检测性能有限。另外，在真实场景中，图像或视频经过压缩处理后，会破坏篡改痕迹。有研究者通过（）或（）将图

4、像从空域转换到频域，挖掘在图像域中看不到的伪影。杨挺等提出了改进的三元组损失解决压缩问题。等采用交叉注意力融合频率感知图像分解和局部频率统计提取伪造模式实现面部检测。上述方法对于压缩检测取得了一定的效果，但是大多利用单一频域特征进行篡改检测，未考虑不同领域间的互补信息。为了解决以上问题，提出了一个基于高频特征与全局交互的人脸伪造检测方法。该方法包含自注意力模块（，）和频率信息挖掘模块（，）。具体来说，首先在网络主体部分引入缩放局部自注意力机制，仍遵循的局部处理原则，通过捕捉图像遥远像素间的关系实现全局交互，使得深度神经网络更倾向于关注高级语义特征，由此提高图像检测准确度。其次，在图像输入到

5、网络前，先经将图像从空域转换到收稿日期：基金项目：安徽省自然科学基金（）；安徽高校与人工智能研究院协同创新项目（）。作者简介：张萌萌（），女，河南商丘人，硕士，研究方向：人工智能。第期张萌萌，等：高频特征与全局交互的人脸伪造检测频域，利用高通滤波器过滤掉低频信息抑制图像内容，进一步扩大高频中的微妙伪影。此外，为了充分挖掘频率信息，还添加了全频滤波器保留图像的整体信息，因频域不符合自然图像的平移不变性和局部一致性，会将其再次转换到彩色空间。最后，结合信息和频率信息建立一个全局的人脸伪造检测网络，最大程度地捕捉图像上下文信息，从而实现更优的检测效果。基于高频特征与全局交互的人脸伪造检测整体框

6、架提出的基于高频特征与全局交互的人脸伪造检测双流网络，包含两个分支：流和频率流。流在骨干网络主体部分引入了自注意力模块，频率流通过频率信息挖掘模块挖掘微妙伪影。采用在预训练的作为骨干网络，检测方法的整体框架如图所示。该框架同时从空间域和频域提取特征，通过操作将二者特征图连接实现二分类。图总体框架图自注意力模块采用在预训练的网络为基础，将网络和中的空间卷积替换为缩放局部自注意力机制，用来作为我们的流网络。如图所示。图自注意力模块的结构图现有大部分基于卷积神经网络的人脸伪造检测方法更关注局部的异常特征，容易过拟合特定篡改痕迹，使检测方法无法精准检测未知操作类型的伪造内容。基于以上

7、问题，提出了一个自注意力模块，该模块引入缩放局部自注意力机制捕捉遥远像素间的关系实现全局信息交互，引导网络关注高级语义特征，从而提高检测方法的泛化性能。缩放局部自注意力机制的结构如图所示。与传统的自注意力不同，我们是在每个局部非中心窗口内计算自注意力。缩放局部自注意力可看作生成空间上变化的滤波器，给定输入，其中，和分别代表图像的高、宽和输入通道数。具体的过程可以从图中看出。一次提取一个像素块的局部邻域，而不是对每个像素提取单独的邻域，即将图像分割成个不重叠的大小为，（）的二维窗口，每个块代表一组查询像素，添加的光晕操作将块周围个像素带组合起来（边界处有填充），以获得相

8、应的共享邻域块形状为，（），从中计算键和值。然后利用下采样操作并行处理每个查询块及其相应的邻域。实际的实验中的设置为，为，实际窗口大小可达。频率信息分解模块等指出在频域可捕捉到压缩在域破坏的伪造痕迹。而伪造图像和视频通常会经过不同程度的压缩，带来检测上的困难。因此，修改和扩展了频率感知分解，引入频率图像信息，以此提高模型检测能力。实验所采用的频率图像如图所示。首先，利用离散余弦变换将输入图像从空域转换到频域得到，如公式（）所示。（）（）代表的是，根据频率分布的良好布局，即低频响应放置在左上角，高频响应位于右下角，然后，设计个二元基滤波器，将频谱划分为低、中和高频带，

9、为了自适应性地选择基滤波器之外的感兴趣的频率，添加个可学习的滤波器，到基滤波器中，输入图像经分解后的频率分量可表示为式（）：（），（）式（）中是逐元素乘积，（）（）（）代表的是将输入压缩到到之间。模型只保留了高频率成分，利用高通滤波器过滤掉低频信息抑制图像内容，进一步扩大高频中的伪造模式的同时添加了额外的全频滤波器，保留了图像的整体频率信息，补充划分的频率可能存在不佳木斯大学学报（自然科学版）年足以捕获到整体微妙伪影的缺陷。但频域与图像的平移不变性和局部一致性不匹配，根据频率与兼容的性质，最后，将频率分量通过的逆后得到与兼容的频率图像，可以表示为式（）：

10、图缩放局部自注意力机制的原理图，（）是逆。设置中的为，将频域划分为高频带和一个全频带，频带划分表示为：）高频带是整个频谱的后；）额外的基滤波器表示的是整个频谱，处理后的输入为。图频率图像示例（）高频图像；（）全频图像实验结果及分析实验设置）数据集：为了验证所提方法的有效性，在（）和公开数据集进行了实验。包含个带有真实人脸的原始视频，每一个视频都进行了种面部伪造操作处理，包括：（），（），（）和（），各生成个虚假视频，共个视频。对于真实、虚假视频进行了种级别的压缩，分别生成原始（）、低质量（）和高质量（）的输出视频。实验中使用的是版本，所有真假视频按：划分训练集、验证集

11、和测试集。：由个真视频和个假视频构成，按照数据集的划分比例将数据集分为训练集、验证集和测试集。数据集详情如表所示。表数据集介绍实验数据集预处理均采用将视频抽帧保存为图片，所有的真假视频截取视频帧时，采取每帧提取出一帧，取前帧作为数据集使用。之后使用将图片裁剪为大小。对于，数据集中存在的真假样本不均衡问题，对真样本中截取后的人脸图像增强次使真假样本数量相当。）评价指标：曲线下的面积（）和准确度分数（）。）实验细节：模型使用框架。采用作为模型优化器，学习率初始化为。数据集的批处理大小为，总共训练个迭代次数。采用交叉熵损失函数对模型进行约束和优化。实验结果与分析为了验证所提

12、出方法的合理性和有效性，针对性地进行了消融实验，以为基础网络，分别添加频率信息挖掘模块和自注意力模块，不仅计算其在数据集的检测准确率，还验证了它们各自的泛化性能，如表所示。从实验结果可以得出以下结论：（）与基础网络的结果对比，可以发现通过全局交互第期张萌萌，等：高频特征与全局交互的人脸伪造检测使网络关注高级语义特征的能够提升伪造人脸检测的准确率，此外，利用频率信息也有助于挖掘更多的微妙伪影。（）融合两个模块的双流网络比和两个单分支的检测效果都要好，证明了融合自注意力模块和频率信息挖掘模块进行决策的有效性。（）根据在数据集的检测结果，可以知道和也提升了泛化性能。表添加不同模块对

13、检测效果的影响其次，对在数据集训练的几种伪造方法的跨数据集实验数据进行了对比，如表所示。同时，为了验证所提出方法的泛化性能，我们也给出了基准方法的实验结果。从整个实验结果来看，相比于基准方法，模型的泛化效果提升了。与其他基于深度学习的人脸伪造检测方法相比，所提出的方法在数据集上的泛化效果最好，充分验证了其跨数据集能力。第二列是在操作方法的检测性能结果。表不同方法在上跨数据集的结果在数据集上与现有的人脸伪造检测方法进行了比较，实验对比结果如表所示。以在公共数据集复现的骨干网络结果为基准。实验结果表明，所提出的方法对比基准模型有明显的性能提升，并且检测准确度远高于方法。此

14、外，对比了和利用图像残差，的检测方法，模型检测准确率均高于这三种伪造检测方法。由于模型缺乏局部伪影信息，数据集内的准确率稍落后于，降低检测率却大大提高了模型的泛化性能。从整个实验结果来看，结合频率和空间域特征关注图像整体上下文信息，可精准检测伪造人脸图像，检测性能可达。表与其他方法对比注：表中的“”表示空值结语提出的基于高频特征与全局交互的深度人脸伪造检测方法，该方法包含自注意力模块和频率信息挖掘模块，利用缩放局部自注意力机制进行像素间内容交互的同时融合频率信息放大高频微妙伪影，最大程度地捕捉图像上下文信息，以此提高检测性能。实验结果表明，所提出的方法在检测准确率和泛化性

15、能上取得了比其他现有方法更好的效果。未来将探索如何利用人脸定位进一步提高伪造人脸的检测效率。参考文献：，（）：，（）：，：，：，（）：祝恺蔓，徐文博，卢伟，等多关键帧特征交互的人脸篡改视频检测中国图象图形学报，（）：杨挺，朱希安，张帆基于改进三元组损失的伪造人脸视频检测方法计算机应用研究，（）：，：，：，：，：（下转页）佳木斯大学学报（自然科学版）年焦艳璐，袁风磊，赵艺一种真空镀膜机的抽真空系统山东省：，廖凤娟离子镀膜机真空机组设计及涂层工艺研究成都：西华大学，张志军，张世伟，韩进，等扩散泵的现状及发展趋势真空，（）：刘梦夏，强西林光学薄膜膜系设计方法及发展趋势西安工业学院学报，（）：林江平，胡壮光伏玻璃双层镀膜的研究玻璃，（）：，（）：赵兴梅，师建涛，郭鸿香短波通滤光片膜系设计应用光学，（）：许红灯，盛耀武浅析真空镀膜稳定性与均匀性中国机械，（）：，（，；，）：，：；（上接页），：，：，：，：，：，：，：，：，：，：，：，（，）：，：；

展开阅读全文