融合多尺度特征与多分支预测的多操作检测网络.pdf

资源描述

1、面对不断进步的图像编辑技术，发展相应的图像取证技术显得尤为重要.针对现有图像篡改检测技术中存在的可检测操作类型单一、鲁棒性不强、篡改区域定位不足等问题，提出一种基于卷积神经网络的多操作图像篡改检测方案.在该网络中，通过构造基于残差块的卷积流以提取操作特征.然后，设计一个多尺度特征融合模块，实现不同尺寸的操作特征融合.最后，将融合后的操作特征输入多分支预测模块进行篡改类型预测与定位，得到多操作检测结果.本文制作了多操作图像篡改数据集，对提出的网络模型进行训练和测试.实验结果表明，本文方案与主流的目标检测网络相比，能够更准确地对篡改区域进行定位，参数量更少，且对常见的图像后处理具有更好的鲁棒性.关

2、键词：图像取证；多操作检测；目标检测；深度学习中图分类号：TP391.4 文献标志码：AMulti-manipulation Detection Network Combining Multi-scale Feature and Multi-branch PredictionZHU Xinshan1，LU Junyan1，GAN Yongdong1，REN Honghao1，WANG Hongquan1，XUE Juntao1，CHEN Ying2（1.School of Electrical and Information Engineer，Tianjin University，Tianji

3、n 300072，China；2.Beijing SGITG-ACCENTURE Information Technology Co.Ltd.，Beijing 100052，China）Abstract：With the continuous development of image editing technologies，it is particularly significant to develop image forensics technologies for image content security.Most existing forensics methods concen

4、trated on single image manipulation detection but with weak robustness and no considerations on tampering location.This paper presents a multi-manipulation image forgery detection method based on convolutional neural network.In this network，a convolution flow based on residual block is constructed t

5、o extract manipulation features.Then，a multi-scale feature fusion module is designed to achieve operational feature fusion at different scales.Finally，the fused manipulation features are fed into the multi-branch prediction module，predicting the type and location of each utilized manipulation as the

6、 multi-manipulation detection results.An image dataset produced by multiple typical image manipulations is built to train and test the proposed network.The experimental results show that the proposed scheme can recognize the type of tampered manipulations and locate the tampered area more accurately

7、 with fewer parameters，and has better robust 收稿日期：2022-07-07基金项目：国家自然科学基金资助项目（61972282，61971303），National Natural Science Foundation of China（61972282，61971303）作者简介：朱新山（1977），男，辽宁新民人，天津大学副教授，博士通信联系人，E-mail：文章编号：1674-2974（2023）08-0094-12DOI：10.16339/ki.hdxbzkb.2023285第 8 期朱新山等：融合多尺度特征与多分支预测的多操作检测网络n

8、ess to common image post-processing operations，compared with the state-of-the-art object detection networks.Key words：image forensics；multi-manipulation detection；object detection；deep learning随着图像采集设备的普及和图像编辑软件的快速发展，近年来数字图像的伪造现象也越来越多.数字图像取证技术的基本思想是从图像中提取篡改痕迹的统计特征，建立分类器对篡改进行识别和判断，以获取操作的历史信息.目前，已经研究的

9、取证技术包括图像来源取证、篡改操作取证、复制粘贴取证、图像修复取证等，这些取证技术都可以反映图像的完整性和真实性1.本文主要研究了对图像操作篡改的检测方法，图像操作篡改取证是当前在取证领域活跃的研究方向.可用于图像篡改的操作主要包括滤波操作、图像压缩操作、图像重采样操作等2.图像篡改操作检测不需要过多关注图像的语义信息，主要研究各种操作对图像信号统计规律的影响.并且，操作检测可以挖掘篡改区域与无篡改区域之间的操作历史不一致性，间接实现图像复制粘贴、合成等篡改检测.目前已有的图像篡改检测方法主要可以分为两类，一类是基于传统方法的篡改检测，另一类是基于深度学习的篡改检测.传统方法主要利用手工设计的

10、特征来描述篡改检测模型.Chen等人3通过分析中值滤波图像像素与邻域像素的差值的关系，将全局概率特征与局部相关特征进行融合，得到全局-局部特征集（Global and Local Feature Set，GLF），并基于 GLF 特征设计检测器进行中值滤波检测.Vazquez-Padin 等人4通过奇异值分解（Singular Value Decomposition，SVD）提取图像的渐进特征值，发现真实图像与经过上采样的图像存在差异，由此设计了一种能够发现重采样痕迹的图像取证检测器.李晟等人5利用JPEG合成图像中往往存在质量因子不一致性或分块位置不

11、一致性的特点，判断图像是不是JPEG压缩合成图像.Yang等人6提出了一种基于误差的统计特征提取方案来解决双重JPEG压缩取证问题.首先，通过解压缩JPEG图片生成重建图像，进而可以计算压缩图像与重建图像之间的量化误差和截断误差.然后，根据误差构造统计特征.最后，采用支持向量机来识别图像是不是经过双重压缩的.Wang等人7对篡改图像使用似然对数滤波器提取关键点，并用鲁棒的特征来描述，以检测图像是否存在拷贝-粘贴操作.De Rosa等人8提出了一种基于二阶共生矩阵的对比度增强取证方案，通过计算共生矩阵每一列的标准差进行特征检测.Fan等人9采用高斯混合模型（Gaussian Mixture Mo

12、del，GMM）对不同类型的操作图像进行统计分析建模，提取通用特征以检测不同类型的图像操作.该方法需要构建多个二分类器进行分类检测，操作复杂，而且鲁棒性不强.谢伟等人10提出了一种基于局部色彩不变量的图像篡改检测方法，具有较快的检测速度且鲁棒性较好.张旭等人11根据篡改区域与真实区域之间的光照不一致性，提出了一种透视投影下空间光照估计方法，可以检测图像是否经过拼接篡改操作.孙鹏等人12利用自动白平衡方法对图像块的色温进行估计，实现了图像篡改的检测与定位.传统方法通常需要手动设计特征，但手动设计特征非常困难.而且，特征提取和分类器分开设计，无法实现二者的同时优化.近些年，深度学习已经在许多领域取

13、得了巨大成功13-16，学术界已经开始研究基于深度学习的图像取证技术.Zhang等人17使用离散傅里叶变换将空间域图像转化到频域中，然后输入到卷积神经网络（Convolutional Neural Network，CNN）.其通过训练两个卷积的偏置项，舍弃部分与中值滤波无关的频率信息.Barni等人18针对两次JPEG压缩提出了改进的基于CNN的取证方案.该网络具有相对复杂的结构，可以自动学习操作特征，而且能够检测有序的和无序的二次 JPEG 压缩.Zhang 等人19将 VGG（Visual Geometry Group）网络提取的特征分成两个路径输出给两个网络，分别用于提取Gamma校正的

14、操作痕迹和直方图均衡的操作痕迹.该方案可实现对全局对比度的检测，并对中高质量的JPEG压缩具有很强的鲁棒性.Kumawat等人20利用非JPEG压缩图像和无损JPEG压缩图像之间DCT系数分布的差异性，构建检测模型，以检测无损JPEG压缩，拓展了研究方向.为确定图像拼接的位置，Pomari等人21把图像变换到亮度空间，再将亮度空间特征输入ResNet22，分类器采用了SVM.该方案可获得96%的区域定位精度.Zhu等人23提出一种基于自注意力机制和残差结构95湖南大学学报（自然科学版）2023 年的篡改检测网络.首先，结合空间和通道注意力自适应的捕捉上下文特征.然后，使用深度匹配方法计算特征图

15、之间的相关性并生成粗糙掩码.最后，用能够保留目标边界结构的残差细化模块对掩码进行优化，实现像素级的篡改检测定位.Zhang等人24提出了一种基于扩散的图像修复的取证分析方法，该方法采用改进的编码解码网络来组成特征金字塔（Feature Pyramid Network，FPN），以提取多尺度篡改特征，完成图像修复取证.Kim等人25提出建立一个双流神经网络，一个是受限的CNN，一个是马尔可夫网络，前者接收原图，后者接收图像的DCT系数，然后，将两个CNN的输出组合在一起进行操作检测.该方案具有一定程度的通用图像篡改检测功能，且提升了对JPEG压缩的鲁棒性.田秀霞等人26提出了一个双通道的全卷积网

16、络结构，深度挖掘彩色图像和隐写分析通道的篡改痕迹，可以实现图像篡改检测任务.钟辉等人27提出并行空洞卷积层和通道注意力模块，能够获取更全面的上下文信息.朱叶等人28设计了一个端到端的高分辨率扩张卷积注意力网络，具有较优的检测性能和泛化性.陆璐等人29使用最新的Transformer结构与卷积神经网络融合，使模型能够检测不同大小、形状的篡改区域.最近，也有少量研究采用目标检测框架构建篡改检测网络.Zhou等30提出了基于Faster R-CNN的双流网络实现篡改区域定位的方法.其中，以空域图像作为输入的RGB流负责提取边界信息.再使用空域富隐写模型31（Spatial Rich Model，SR

17、M）滤波器将空间域图像转换成噪声图像，使用噪声流捕捉噪声图像的篡改痕迹.最后，通过双线性池化操作融合双流信息用于分类和边框回归.在此基础上，Chen32 摒弃了 SRM 滤波，改为通过 CNN 来提取噪声图像特征，并引入残差网络提取特征，从而提高了检测效果.然而，这两种方法只适用于单种操作的检测及定位.通过总结图像篡改检测的研究现状，我们发现已有的图像取证技术存在以下问题：1）不能同时对多种操作类型进行取证.现有图像篡改检测方法大多是针对某种特定的篡改操作设计对应的检测模型，一旦有多种操作需要检测，则需要使用多个不同的检测器，效率较低，普适性不强.2）不能对出现在同一幅图像的多种操作类型进行取

18、证.图像伪造者往往使用多种篡改操作对图像进行处理，多种操作同时出现在图像中可能会使单一类型的操作检测失效，增大取证的难度.针对单幅图像的多操作检测具有更高的普适性，但这方面的研究目前非常少.3）现有图像篡改检测大多是针对操作的特定参数设计.比如针对特定滤波核参数设计得到的高斯滤波篡改检测器，一旦伪造者更改滤波核尺寸和方差等参数，则检测效果下降甚至检测失效.4）现有的方法大多对图像进行全局的判断，检测篡改操作是否发生.然而，伪造者一般只对图像进行局部篡改，如何定位局部篡改操作是个值得研究的问题.针对当前图像篡改检测技术中存在的不足之处，本文将目标检测技术应用于图像篡改检测，设计了一种多操作图像篡

19、改检测网络.网络结构主要分为残差主干网络、多尺度特征融合模块和多分支预测模块.该方法实现了单幅图像的多操作篡改检测，且具有较好的鲁棒性.1 多操作图像篡改检测问题本文需要设计基于深度学习的目标检测方案来对图像中的多种篡改操作目标进行检测和定位.更具体来说，先指定多种篡改操作类型，针对图像中存在的所有篡改操作目标，本文的方法可以检测出图像中所有篡改操作目标的最小包围矩形框以及对应的操作类型.1.1 多操作图像篡改模型为了更直观了解图像中的局部篡改操作，本文用图1展示篡改操作过程.图中ImgA表示原图，在图中随机选择操作区域得到ImgB.为了提高检测器的实用性，本文设计的检测方法需要对不规则区域进

20、行检测，所以选择的操作区域也是不规则的，更加符合一般情况.接下来再对每个区域随机选择一种操作进行篡改，得到篡改后的ImgC.值得一提的是，篡改前后的图像ImgA和ImgC从视觉上难以区分，计算机图像取证技术从统计特征方面来分析图像是否经过篡改将是更加准确和高效的.当前图像取证领域对图像的多操作局部篡改缺少明确的数学模型描述.为了更清晰地理解这个问图1 多操作篡改示意图Fig.1 The process of image multi-operation tampering96第 8 期朱新山等：融合多尺度特征与多分支预测的多操作检测网络题，本文构建了图像的多操作局部篡改的数学模型.输入图像用I（

21、u，v）表示，从原图像素到操作后像素的映射关系用F表示，不同的篡改操作对应不同的F，则对于输入图像I（u，v），经过多操作局部篡改操作后的图像I(u，v)可以表示如下：I(u，v)=F()I()u，v，if()u，v SI()u，v，otherwise（1）式中：(u，v)表示像素坐标，S表示所有操作目标的像素点坐标集合.1.2 篡改操作与视觉语义目标的差异本文虽然将篡改检测定位问题视为目标检测问题进行解决，但是通用的目标检测方法所提取的特征偏重内容特征，而篡改操作遗留的痕迹称为操作特征，二者存在很大的差异.研究者通过设计实验3334，证实了中值滤波操作遗留的痕迹特征其实是一种“弱特征”，该特

22、征不容易被CNN提取.同理，其他大多数篡改操作特征都存在该特性，所以需要对篡改检测网络进行针对性设计和改进.2 多操作篡改检测网络架构本文设计了以残差块卷积流作为提取篡改操作特征的主干网络，并联合多尺度特征融合与多分支预测模块，构建一种多操作检测深度卷积神经网络.如图2所示，网络结构由三部分组成：主干网络、多尺度特征融合和多分支预测.输入图像为RGB三通道图像，尺寸为300 300 3，经过主干网络提取特征，使用特征金字塔网络结构融合不同尺度的特征，得到一组多尺度特征图，然后在具有不同感受野的多尺度特征图上进行类别预测和边框位置回归，得到预测结果.测试模式的推理阶段，会将所有预测结果进行非极大

23、值抑制，去除冗余的预测目标，得到最终的输出结果.2.1 主干网络结构设计主干网络的主要作用是从输入数据中提取特征，能够提取到有效的特征是提高目标检测精度的关键.基于CNN的主干网络从数据中学习特征，比传统手工设计的特征具有更好的泛化能力，使模型具有更好的性能.但是，随着CNN卷积层数的增加，会产生梯度消失和梯度爆炸问题.残差网络中的跳跃连接结构很好地解决了这个问题，让网络能够更深，模型拟合能力更强.研究者提出基于残差的局部描述子，可以看作是一个简单的约束CNN用于实现篡改检测，能区分篡改区域和非篡改区域.本网络结构的主干就是卷积层堆叠的同时，添加跳跃残差连接，图2 多操作图像篡改检测网络结构F

24、ig.2 The architecture of multi-operation image tampering detection network97湖南大学学报（自然科学版）2023 年形成卷积块残差流.如图 2 所示，主干网络首先将输入图像送入block-0，经过步长为2的跨步卷积、批归一化（Batch Normalize，BN）、ReLU 非线性激活函数和步长为 2的最大池化，对输入图像降低分辨率的同时增加通道个数，减少计算量和显存占用.接下来是四个结构相似的特征提取块，单个模块结构如图3所示.每个特征提取块由两个残差单元组成，每个残差单元由3 3卷积、ReLU、BN组成.使用S1和S

25、2表示特征提取块中卷积的步长，用于进行下采样操作，可以减小特征图尺寸，降低模型的计算量.完整的主干网络参数表如表1所示.另外，本文设计的主干网络残差单元，添加了Dropout层进行随机失活处理.随机失活处理的关键思想是在训练期间从神经网络中随机让神经元的输出为0，即让其丧失活性，以防止训练的模型过度依赖局部区域内神经元之间的联系，提高了模型的泛化能力.主干网络中的4个特征提取块，共包含8个残差单元，本文在每个残差单元的第二个卷积层之前添加Dropout层，所以共添加8个Dropout层.其中，Dropout层的失活概率 p 作为超参数直接影响调节效果，本文中 p 取0.5.主干网络的 bloc

26、k-2、block-3和 block-4特征提取块分别输出三种分辨率的特征图（F1、F2和F3），包含了篡改操作痕迹的有效统计特征.F1、F2和F3作为主干网络的输出，提供给多尺度特征处理模块.2.2 多尺度特征融合图像中的篡改区域面积是不固定的，为了适应不同尺寸的目标，本文基于特征金字塔结构设计了多尺度特征融合模块.具体结构如图4所示.首先，主干网络输出的特征图 F1、F2、F3，经过1 1的卷积处理，将通道数统一为64，输入到多尺度特征融合模块中.然后，P3 经过上采样和特征融合操作，得到特征图P2，P2 经过同样的操作得到P1.上采样使用的是双线性插值，采样倍数为2，融合操作图3 特征提

27、取块网络结构图Fig.3 The structure of feature extraction block表1 本文模型主干网络配置表Tab.1 Configuration of the model s backboneBlockblock-0block-1block-2block-3block-4Output size75757575383819191010Layer configurationConv（3，32，3，1，s=2），BN，ReLUConv（32，64，3，1，s=1），BN，ReLUMaxPool（3，s=2）Conv（64，64，3，1，s=1），BN，ReLU，Drop

28、out（0.5）Conv（64，64，3，1，s=1），BNConv（64，64，3，1，s=1），BN，ReLU，Dropout（0.5）Conv（64，64，3，1，s=1），BNConv（64，128，3，1，s=2），BN，ReLU，Dropout（0.5）Conv（128，128，3，1，s=1），BNConv（128，128，3，1，s=1），BN，ReLU，Dropout（0.5）Conv（128，128，3，1，s=1），BNConv（128，256，3，1，s=2），BN，ReLU，Dropout（0.5）Conv（256，256，3，1，s=1），BNConv（256，25

29、6，3，1，s=1），BN，ReLU，Dropout（0.5）Conv（256，256，3，1，s=1），BNConv（256，512，3，1，s=2），BN，ReLU，Dropout（0.5）Conv（512，512，3，1，s=1），BNConv（512，512，3，1，s=1），BN，ReLU，Dropout（0.5）Conv（512，512，3，1，s=1），BN98第 8 期朱新山等：融合多尺度特征与多分支预测的多操作检测网络使用的是特征图相加操作，保持了特征图尺寸不变.接下来，对P3 使用步长为2的卷积进行下采样，得到特征图P4，进一步可以得到P5.这五个具有不同分辨率的融合特征图

30、P1、P2、P3、P4、P5 即多尺度特征融合模块的输出.本文设计的特征融合模块划分了精细的五层多尺度，这样可以让不同尺度的目标更容易被其中一个尺度匹配，有利于提高检测精度.2.3 多分支预测模块多分支预测模块进行操作类型预测和边框位置回归，得到最终的多操作篡改检测结果.多尺度特征融合模块输出的5个特征图分别送入5组预测头.每一组预测头包含两个并行的分类分支和边框位置回归分支，两个分支都是由连续 4个卷积核大小为3 3的卷积层组成.5组预测头结构相同，但是权重参数不共享，每组预测头可以适应不同大小的目标区域.为了减少计算量，同时提高预测的准确性，本文在输出预测特征图的每个像素位置放置 B 个锚

31、框，本文中 B 取4.锚框放置方式如图5所示.令hl表示输入特征图 Pl 的高度，l 1，2，3，4，5，则特征图中每个锚框的高度和宽度ah、aw的计算公式如下：ah=sf(l+1)/hl（2）aw=t ah（3）式中：t 表示锚框的纵横比，本文选择1 1和2 3两种纵横比.sf表示锚框的缩放系数，该参数决定了特征图相对于所有锚框的整体大小比例，本文sf 取值为16.sf的取值需要适应数据集的大部分目标的尺寸分布，如果整体尺寸较大，sf 应当设置更大的值，反之亦然.假设总共要预测 K 类目标，那么一个分类分支输出的通道总数Cclsout=B K，一个边框位置回归分支输出的通道总数为Clocou

32、t=4K.分类分支预测的是每个锚框分别属于 K 个类别的概率，边框位置回归分支预测的是每个锚框相对于真实边框位置的中心坐标的偏移量(x，y)、宽度偏移量w和高度偏移量h.边框位置回归分支预测的都是相对于锚框的偏移量，而不直接预测边框相对图像的绝对位置，这是因为锚框是人为预设的已知信息，在这个基础上预测边框位置的偏移量，可以更好地接近真实物体.反之，如果直接预测边框绝对位置，那么可能由于边框坐标变化幅度大而导致网络难以收敛.在测试模式下，为了得到最终有效的输出，需要将预测得到的结果进行转换和筛选，保留有效预测结果.本文网络结构将预测结果经过边框绝对位置转换和非极大值抑制两个过程，得到最终输出结果

33、.为了得到边框的绝对位置，先要利用锚框的参考位置，将预测结果转换成绝对位置.接下来剔除冗余的预测结果，因为锚框是在特征图上密集放置的，一张300 300 3的输入图像，生成的融合特征图尺度集合为3，5，10，19，38，放置的锚框个数为(32+52+102+192+382)4=7 756，这些锚框区域存在大量重叠.所以对任意一个图像中的真实目标，可能存在多个锚框覆盖，导致预测结果中可能有多个预测目标对应一个真实目标的情况.为了抑制这些冗余的预测，本文采用 Soft-NMS算法35，相比 NMS更加灵活，而且提高了检测器的召回率.2.4 损失函数为了更好地引导神经网络完成取证任务，正确优化网络权

34、重参数，损失函数的设置至关重要.本文总损失Ltotal由分类损失Lcls和边框位置回归损失Lloc组成.计算公式如下：图4 多尺度特征融合模块结构图Fig.4 The structure of multi-scale feature fusion module图5 锚框设置示意图Fig.5 The setting of anchor boxes99湖南大学学报（自然科学版）2023 年Ltotal=Lclsnp+nn+Llocnp（4）式中：np为所有正样本数量，nn为用于计算损失的所有负样本数量.Lcls使用交叉熵损失，同时统计了所有正样本和负样本损失，其数学表达为：Lcls=-i=1npk

35、=1Klog(cki)-j=1nnlog(c0j)（5）式中：K 表示目标种类数，log（）表示对数函数，cki表示将第 i 个样本划分为第 k 类目标的概率，c0j表示将第 j 个负样本划分为背景类别的概率.Lloc使用 Smooth L1 损失36，只统计了所有正样本损失，计算公式为：Lloc=i=1npm LL1(lmi-gmi)（6）式中：lmi表示第 i 个正样本的边界框的 m 属性的网络输出值，gmi 表示图像中与第 i 个正样本对应的真实目标的边框与锚框在边界框属性m上的偏移量.这里两个边框的位置偏移量具体由(cx，cy，w，h)四个属性表示，cx、c

36、y表示两个边框中心点的偏移量，w/h分别表示两个边框的宽度和高度的偏移量，LL1()表示Smooth L1损失.模型的复杂度与权重参数 w 的个数呈线性关系，即参数量越多，模型越复杂.在训练数据量有限的情况下，过高的模型复杂度容易引起过拟合，所以考虑用更宽松的正则化来限制权重参数.正则化是通过在预测值和真实值的损失Ltotal之外，引入一个正则项(w)来约束权重参数.加入正则项后，公式如下：L=Ltotal+(w)（7）式中，是调节正则项权重因子，本文取0.003.常用的正则化函数有L1范数和L2范数，本文使用L2范数，对应的正则化叫L2正则化，L2正则项表示如下：(w)=jw2j（8）从公式

37、（7）和（8）可以看出，L2正则化将权重参数 w 的平方和引入损失函数的计算中，权重参数平方和越大，损失越大，所以优化目标变成了最小化数据损失的同时，让所有权重参数 w 的平方和尽量小.这样所得的网络优化权重参数较为均衡且较小，确保网络提取的所有特征都能对最终决策起作用，因此可以获得更好的泛化性.3 实验结果与分析为了测试提出的多操作图像篡改检测方案的性能，本文构建了多操作篡改图像数据集，并用该数据集对模型进行了训练和测试.然后，将该数据集应用到主流目标检测网络进行训练和测试，使用平均精度（Average Precision，AP）和平均精度均值（mean Average Precision，

38、mAP）来评估检测器的检测性能，比较本文方案的优缺点.此外，在数据集中添加了JPEG压缩、模糊、加噪、重采样等后处理操作，并测试检测模型性能，验证检测方法的鲁棒性.3.1 数据集构建本文基于公开数据集获取的源图像，制作了一个多操作图像篡改数据集.选择了八种图像操作对源图像进行篡改，分别为中值滤波（Median Filtering，MF）、高斯滤波（Gaussian Filtering，GF）、高斯白噪声（Gaussia White Noise，WG）、重采样（Resampling，RS）、同态滤波（Homogeneous Filter，HF）、直方图均衡化（Histogram Equal

39、ization，HE）、Prewitt 锐化（Prewitt Sharpening，PS）和 Gamma 变换（Gamma Transformation，GT）.这八种操作包括了图像篡改领域常用的增强操作，能进行图像增强，修改图像的对比度、色调等视觉效果，还可以掩盖合成篡改操作遗留的痕迹.部分数据集图像如图6所示，其中第一行是原始图像，第二行是生成的篡改区域及操作类型伪彩图，第三行是篡改后的图像，第四行是带真实标签的图像.篡改操作的参数设置如下.同态滤波计算如公式（9）所示：H(u，v)=(H-L)1-e-c D2(u，v)/D20+L（9）式中：D(u，v)为输入图像信号，H(u，v)为

40、输出同态滤波结果，D0表示截止频率，c 控制从低频到高频过渡段的速度，H和L控制滤波器的幅值上限和下限.在本文中，H=2.2，L=0.25，c=2，D0=0.008.Gamma变换结果G(u，v)的计算见公式（10）：G(u，v)=0D(u，v)（10）式中：0是变换的线性系数，为变换的指数.在本文中，0=1.02，=1.2.对于中值滤波和高斯滤波，本文选择了3 3、5 5、7 7三种尺寸的滤波核.高斯滤波和高斯白噪声的标准差=1.2.最后，局部重采样的缩放因子设置为=0.5.100第 8 期朱新山等：融合多尺度特征与多分支预测的多操作检测网络数据集的制作流程见表2.其中，不规则篡改区域的像素

41、面积占全图像素面积的比例介于3%7%.由图6可以看出，局部区域篡改操作后的图像，从人眼视觉上并无明显差异.数据集共有17 125张图像，并把篡改数据集按照约9 1的比例划分为训练集和测试集.值得注意的是，为了避免类别不平衡导致训练的模型偏重类别数量多的一方，本文在制作数据集过程中，保持了不同类型的目标数量的相对平衡，各类别数量和占比如表3所示.3.2 训练细节本文模型的训练与测试使用 NVIDIA GeForce RTX 3090 GPU，Intel Xeon（R）W-3223 CPU 和64GB RAM.所提出的网络模型使用PyTorch深度学习框架实现，输入图像尺寸为300 300 3.网

42、络训练采用随机梯度下降优化器（Stochastic Gradient Descent，SGD），训练参数设置如下：动量为 0.9，衰减系数为0.000 5，初始学习率为9 10-4.学习率和梯度决定了每次迭代更新参数的幅度，所以学习率的设置非常重要，随着模型收敛，学习率应该逐渐下降.否则在最优解附近，过大的学习率会导致损失严重振荡甚至发散.所以本文设置逐渐衰减的学习率，当迭代次数为 7 104，9 104，11 104，13 104 时，学习率在上一次的基础上衰减40%.另外，训练时每次送入神经网络的批尺寸（Batch size）大小设置为128.深度学习方法通常依赖大量的数据集，当数据量不足

43、的时候，可以使用数据增强技术，在不实质性增加数据的情况下，对现有数据执行变换操作，变换后的数据具有同等的训练价值.常用数据增强方法中的变形、缩放、模糊等操作很容易破坏篡改操作痕迹，所以本文尽量避开这些数据增强方法，而采用对操作特征影响不明显的数据增强方法，比如图像翻转和镜像方法进行数据增强，提高模型的泛化能力.同时，本文所有的训练数据都经过了JPEG压缩，压缩因子为75.3.3 评价指标为了能够客观地对本文提出的方法进行评价，本章选取了平均精度（Average Precision，AP）和总平均精度（mean Average Precision，mAP）两个常用的评价标准.平均精度可以综合不同

44、情况下的召回率和准确率信息，以衡量模型对于某一类别目标的检测效果.最准确的方法是将准确率-召回率曲线与坐标轴所围成的面积作为平均精度值.但实际计算AP时，为了减小计算量，会在召回率上均匀取11个点作为11个召回率阈值，统计召回率大于每一个阈值时对应图6 部分数据集图像Fig.6 Some typical examples from the datasets表2 本文数据集制作流程Tab.2 The procedure for the construction of our forensics dataset输入输入：无篡改图像集I=Xk|k=1，2，N，其中Xk表示第k个输入样本图像（图6第一

45、行）输出输出：篡改后的图像集S=Ok，Zk|k=1，2，N，其中Ok，Zk表示第k个输出样本图像（图6第一行）1：for each Xk I do2：采用区域随机生长算法，在图像中随机生成一个或多个不规则操作区域（图6第二行）3：对每个不规则区域随机从八种篡改类型中选取一种进行篡改操作，得到篡改操作处理后的图像Ok（图6第三行）4：记录所有操作目标的最小包围矩形边框信息和对应的类别标签，得到真实标签图像Zk（图6第四行）5：end for101湖南大学学报（自然科学版）2023 年的最大精确率，求取该 11 个精确率的平均值得到AP，这种方法也叫11点法，可以表示如下：AP=r 0，0.1，1

46、pre(r)10（11）式中：r表示召回率，pre(r)表示召回率为r时，对应的精确率最大值.对于需要检测多种目标的检测器，则取每类的AP的均值作为总平均精度mAP.假如有K类目标，第j类目标的AP值表示为APj，则该检测器mAP计算公式如下所示：mAP=1Kj=1KAPj（12）3.4 无后处理的性能测试为了说明本文方法的有效性，选择两种当前主流的单阶段 Anchor-based 目标检测方法：SSD37和YOLOv338作为对比方法.我们使用相同的训练参数，对这两种检测方法进行了训练和测试.本文使用三种检测方法分别对测试图像进行检测，检测结果如图7所示.其中，第一行为篡改后的图像，第二行为

47、篡改真实标签图，第三到五行分别为SSD37、YOLOv338和本文模型的测试结果.我们提图7 可视化取证结果Fig.7 Visualization of forensic results表3 本文数据集各操作类型对象的数量和占比Tab.3 The number and proportion of objects of eachoperation type in this dataset操作类型同态滤波中值滤波添加高斯白噪声局部直方图均衡化高斯模糊边缘锐化局部重采样Gamma变换合计数量/个8 0518 1207 9347 9938 0198 1357 9798 09664 327占比/%12.

48、512.612.312.412.512.612.412.6100102第 8 期朱新山等：融合多尺度特征与多分支预测的多操作检测网络出的模型展示出了优秀的性能，比如：第一列的图中，SSD和YOLOv3都漏检了一个同态滤波，而本文方法成功检测到同态滤波篡改对象；在第三列的图中，YOLOv3误检了一个锐化篡改操作，SSD和本文提出的方法都成功检测.但是，本文提出的方法检测的置信度得分相较于SSD要高很多，本文方法检测三个操作目标的置信度分别是 0.71、1.00、0.95，而SSD对应的置信度是0.43、0.98、0.47，证明本文的检测方法更加稳定可靠；第五列的图SSD和YOLOv3都误检了一个

49、高斯白噪声篡改对象，只有本文提出的方法正确检测出全部的操作类型和准确的定位.然后，本文用测试集对训练得到的模型进行客观性能评估，当真实标注区域与预测篡改区域重合区域的交并比（Intersection over Union，IoU）大于50%时，认为该区域识别准确，测试结果如表4所示.观察实验结果可以发现，本文提出方法的mAP指标为 69.69%，比 SSD高 5个百分点，比 YOLOv3高 4个百分点，说明在8种目标的平均精度上，本文提出的方法具有很大的优势.另一方面，比较单个类别的AP指标，SSD对局部直方图均衡化的检测精度最高，为79.60%；YOLOv3对同态滤波和Gamma变换的检测精度最高，分别为92.26%和40.74%.对于其他五个类别，本文提出的方法都具有最高的单类检测平均精度.此外，三种检测方

展开阅读全文