基于显著区域优化的对抗样本攻击方法.pdf

资源描述

1、第 49卷第 9期2023年 9月Computer Engineering 计算机工程基于显著区域优化的对抗样本攻击方法李哲铭1，2，王晋东1，侯建中2，李伟2，张世华2，张恒巍1（1.信息工程大学密码工程学院，郑州 450001；2.中国人民解放军陆军参谋部，北京 100000）摘要：在计算机视觉任务中，以卷积神经网络为基础的图像分类模型得到广泛应用，但因其自身的脆弱性容易受到对抗样本的攻击。目前的攻击方法大多会对整张图像进行攻击，产生的全局扰动影响了对抗样本的视觉质量。针对这一问题，提出一种基于显著区域优化的对抗样本攻击方法，利用显著目标检测技术为每张原始图像生成显著图，并将其二值化为

2、显著掩模，将该掩模与对抗扰动相结合，使显著区域内的对抗扰动保留下来，实现对抗扰动的局部添加。通过引入 Nadam 优化算法,稳定损失函数更新方向并动态调整学习率，提高损失函数收敛速度，从而在保持较高黑盒攻击成功率的同时，有效降低对抗扰动的可察觉性。在 ImageNet数据集上分别进行单模型和集成模型环境下的对抗攻击实验，并对各方法生成的对抗样本图像质量进行对比分析，结果表明，与基准方法相比，该方法在集成模型攻击中的隐蔽性指标实现了 27.2%的性能提升，黑盒攻击成功率最高达到了 92.7%的水平。关键词：卷积神经网络；对抗样本；黑盒攻击；局部优化；迁移性开放科学（资源服务）标志码（OSID）：

3、中文引用格式：李哲铭，王晋东，侯建中，等.基于显著区域优化的对抗样本攻击方法 J.计算机工程，2023，49（9）：246-255，264.英文引用格式：LI Z M，WANG J D，HOU J Z，et al.Adversarial example attack method based on salient region optimization J.Computer Engineering，2023，49（9）：246-255，264.Adversarial Example Attack Method Based on Salient Region OptimizationLI Zhe

4、ming1，2，WANG Jindong1，HOU Jianzhong2，LI Wei2，ZHANG Shihua2，ZHANG Hengwei1（1.School of Cryptographic Engineering，Information Engineering University，Zhengzhou 450001，China；2.PLA Army Staff Department，Beijing 100000，China）【Abstract】Convolutional neural network-based image classification models are wide

5、ly used in computer vision tasks.However，these models are susceptible to adversarial examples due to their inherent vulnerability.Many existing attack techniques target the entire image，resulting in a global disturbance that degrade the visual quality of adversarial examples.To address this issue，th

6、is study introduces an adversarial example attack technique based on salient region optimization.Initially，salient object detection technology is employed to create a saliency map for each original image.This map is then converted into a saliency mask.By combining this mask with adversarial perturba

7、tions，disturbances are confined to salient regions.Furthermore，the Nadam optimization algorithm is introduced to stabilize the update direction of the loss function and dynamically adjust the learning rate.This innovation accelerates the convergence of the loss function，effectively reducing the visi

8、bility of adversarial disturbances while maintaining a high success rate in black-box attacks.Adversarial attack experiments are conducted on the ImageNet dataset under single-model and ensemble-model settings.Comparative analysis of the image quality of adversarial examples generated by each method

9、 reveals that，compared to the benchmark method，this approach achieves a 27.2%improvement in the concealment index in ensemble-model attacks.Additionally，the black-box attack success rate reaches an impressive 92.7%.【Key words】convolutional neural network；adversarial examples；black-box attack；local o

10、ptimization；transferabilityDOI：10.19678/j.issn.1000-3428.0065814基金项目：国家重点研发计划（2017YFB0801900）。作者简介：李哲铭（1994），男，硕士研究生，主研方向为深度学习；王晋东，教授、硕士；侯建中，高级工程师；李伟，学士；张世华，硕士；张恒巍（通信作者），副教授、博士。收稿日期：2022-09-21 修回日期：2022-11-24 Email：图形图像处理文章编号：1000-3428（2023）09-0246-10 文献标志码：A 中图分类号：TP391第 49卷第 9期李哲铭，王晋东，侯建中，等：基于显著

11、区域优化的对抗样本攻击方法0概述在图像分类任务中，基于卷积神经网络的图像分类模型已经达到甚至超过人眼的能力水平1。但目前研究表明，当在原始图像上添加特定扰动后，卷积神经网络会以高概率分类出错2-3。更重要的是，这些扰动对人眼和机器来说都是不易察觉的4。对抗样本的存在给深度神经网络安全带来了巨大的挑战，严重阻碍了模型的实际部署和应用5-6。与此同时，对抗样本作为一种技术检测手段，也为测试和提升图像分类模型的安全性和鲁棒性提供了良好的工具7。对抗样本的攻击性能主要体现在两个方面：一是能够欺骗模型，可以使性能良好的图像分类模型分类出错；二是能够欺骗人眼，即人眼无法有效区分对抗样本和原始图像。根据攻

12、击者对模型的了解程度，可以将对抗样本攻击分为白盒攻击和黑盒攻击。白盒攻击需要攻击者掌握模型的结构和参数，但由于实际模型部署中通常设有防护机制，攻击者往往难以获得模型的内部信息。因此，黑盒攻击得到研究者的更多关注。文献8提出了 FGSM（Fast Gradient Sign Method）方法，该方法可以利用对抗样本的迁移性进行黑盒攻击。文献 9 将动量项引入到对抗样本的生成过程中，提出 MI-FGSM（Momentum Iterative Fast Gradient Sign Method）方法，稳定了反向传播过程损失函数的更新方向，进一步提高了对抗样本的黑盒攻击成功率。但由

13、于以上方法是以全局扰动的方式在原始图像上添加对抗噪声，生成的对抗样本与原图存在较大的视觉差异，使得对抗样本因过多的对抗纹理特征而易被人眼察觉。为有效降低对抗扰动的可察觉性，提高对抗样本的视觉质量，提升其攻击性能，本文将对抗扰动限制在一个特定的局部区域内，并采用优化算法迭代更新损失函数，从而降低对抗扰动的可察觉性，并将攻击成功率保持在较高水平，即主要通过深度神经网络的显著目标检测技术生成可视化显著图，利用该图生成二值化掩模，将该掩模与对抗扰动相结合从而确定显著攻击区域，实现对抗扰动的局部重点区域添加。此外，为进一步提高黑盒攻击成功率，本文通过引入 Nadam 算法，优化损失函数更新方向并动态调整

14、学习率，提高损失函数收敛速度，有效避免函数更新过程中的过拟合现象，以生成攻击性能更好的对抗样本。1相关工作随着对抗样本研究的逐步深入，单纯提升对抗样本的攻击成功率已经不能满足对抗攻击测试的要求，还需要考虑由于对抗扰动过大带来的对抗攻击隐蔽性降低的问题。因此，本文研究围绕对抗攻击的隐蔽性，提升其攻击性能，在保持对抗样本的黑盒攻击成功率较高的同时，缩小对抗扰动添加区域，降低对抗样本被发现的可能。1.1对抗样本攻击方法由于本文研究是在 FGSM 类方法基础上提出来的，因此首先介绍该类的相关方法。文献 8 提出的FGSM 方法是该类方法的原始版本，该方法沿损失函数的梯度方向单次添加对抗扰动，单步生成

15、的方式使得白盒攻击成功率较低；针对攻击过程中欠拟合问题，文献10对 FGSM 进行了改进，提出了I-FGSM（Iterative Fast Gradient Sign Method）方法，该方法采用多步迭代的方式添加对抗扰动，使得对抗样本的白盒攻击成功率得到提高，但黑盒攻击成功率有所下降；文献 9 通过引入动量项稳定了损失函数的前进方法，提高了对抗样本的迁移攻击能力；文献 11 提出了 DIM（Diverse Input Method）方法，在每轮次迭代循环前，首先对图像进行随机尺度变换和随机填充，提高了输入多样性，有效缓解了过拟合；文献12利用图像平移不变

16、性提出了 TIM（Translation-Invariant Method）方法，使用卷积的方法实现了图像的批量输入及变换，从而提升了攻击成功率；文献 13 利用图像保损变换，通过尺度不变性实现了模型的拓增，使得生成对抗样本的黑盒攻击能力更强。以上方法均在整张图像上采用全局扰动的方法添加对抗噪声，因此存在对抗样本与原图像视觉差别较大的问题。1.2显著区域生成方法显著区域构建的方法一般可分为模型解释的方法和显著目标检测的方法14。模型解释的方法可以将分类结果通过反向传播算法逐层传递到输入层，从而确定图像显著特征。文献 15 通过非线性分类器的逐像素分解，提出了一种理解分类决策问题的通用解

17、决方案；文献 16 通过 SmoothGrad方法锐化了基于梯度的敏感度图，并讨论了敏感度图的可视化参数设置方案；文献17提出的 CAM（Class Activation Mapping）方法将卷积神经网络的全连接层替代为全局平均池化层，从而保留了图像特征的位置信息，但该方法需要修改网络，并重新训练。在显著目标检测的方法中，文献 18 通过子集优化的方法选择显著性对象标注框，该方法在多对象图像中效果较好，但存在边界模糊的问题；为提升边界精度，文献 19 对编码器和解码器设置双向反馈机制，并使模型从显著性预测中提取到更多的边界信息；文献 20 利用弱监督信息建立分类网络和描述网

18、络，并利用转移损失函数协同训练优化模型。基于目标检测的显著图生成方法只需要输入原始图像，而不再需要攻击模型的梯度信息，更符合黑盒攻击的情况设定，因此，该方法选用了显著目标检测的方法生成显著图。2基于显著区域优化的攻击方法本节首先介绍本文的研究思路，由于同一图像不同部位的语义信息含量不同，因此可对重点区域添加对抗噪声，非重点区域少添加或不添加对抗噪2472023年 9月 15日Computer Engineering 计算机工程声。然后描述将显著图与对抗样本生成过程相结合的方法，实现对抗扰动的局部添加。在迭代生成对抗样本的过程中，通过引入性能更好的优化算法提高对抗样本生成过程中损失函数的收敛速

19、度，从而提升对抗样本的迁移攻击能力。2.1问题分析与研究思路在以往的对抗样本生成方法9，11中，通常是对原始图像上每个像素点都进行修改，最终使图像分类决策过程中的损失函数值变大，导致分类出错。这些方法将图像上所有的点看成了等同价值的像素，但在实际上，这种全局扰动的添加方式将一些非必要对抗噪声添加到原始图像上，使得对抗纹理特征更明显，违背了攻击不可察觉的要求，从而降低了对抗样本的攻击性能。同时，将相同大小的对抗扰动添加到不同的位置，其视觉效果也不一样，如果添加到色彩丰富与细节较多的图像语义区域，对抗扰动则不是很明显，而添加到图像的背景区域，如图 1所示，如在蓝天、草地等部位，对抗扰动会比较引人注

20、目，更易被察觉检测，从而造成了攻击失效。因此，本文方法通过在图像显著区域添加对抗噪声，降低了扰动的可察觉性，从而提高了对抗样本的攻击隐蔽性。此外，由于显著区域的引入会缩小对抗扰动的添加范围，在一定程度上对抗攻击隐蔽性的提高会以黑盒攻击成功率的降低为代价，因此本文分析了对抗样本的攻击特点，引入性能更好的 Nadam 优化算法，通过梯度累积及自适应学习率的方法，优化损失函数的收敛过程，使得最终生成的对抗样本具有更好的隐蔽性和攻击性。2.2显著区域优化攻击方法根据图像中语义信息量的不同，可以将图像分为主体部分和背景部分。主体部分对图像分类结果有更大的影响，当对该部分进行遮挡时，图像分类模型的精度会有

21、明显的下降。因此，本文考虑在语义主体的显著区域内添加对抗扰动。显著目标检测技术可以识别出图像中视觉最明显的物体或区域，并且该区域几乎与图像中的分类标签对应的信息相同。因此，可以运用该技术提取出图像中的主体部分，对该区域添加对抗扰动。在本文研究中，使用了 DCFA（Deformable Convolution and Feature Attention）网络模型21生成图像的显著图。该模型在图像的低层细节和高层语义信息中提取不均匀的上下文特征，并在空间域和通道域中分配特征的自适应权重，使得生成显著图的边界更清晰准确。该方法将原始图像转化成了像素值在 0255 之间的灰度图，该灰度图称为显著图 S

22、。在该显著图中，其语义特征明显的主体部分更接近白色，而主体之外的背景部分更接近黑色，图像的显著特征区域即为白色的区域。通过显著图可以将原图像中的显著区域圈定，将原图像分割成了添加对抗扰动区域和不添加对抗扰动区域，进一步将显著图 S 转换为二值化的显著掩模 M，可表示如下：mij=0sij（1）其中：sij是显著图 S 的第（i，j）位置像素值；为对应的像素阈值；mij是二值化后显著掩模 M 对应的第（i，j）位置的值。该步骤只是对显著图的像素值进行二值化，便于与对抗扰动结合，从而进行添加扰动的取舍，图像大小不发生改变。此时，生成的显著掩模图是一个由 0和 1组成的多

23、维数组，对应显著图特征区域是 1，非特征区域为 0。将显著掩模与文献 9 中的动量法结合可以迭代生成对抗样本，其迭代过程可表示为如式（2）式（5）所示。gn+1=gt+xL(xadvnytrue；)xL(xadvnytrue；)1（2）xadvn+1=Clipxxadvn+sign(gn+1)（3）nnoiseadv=（xadvn+1-x）M（4）xadv=x+nnoiseadv（5）其中：g0=0、=1、xadv0=x为参数及图像初始化的过程；（xadvn+1-x）M是将最后一轮迭代生成的对抗样本与原始图像作差，从而得到对抗噪声，再与显著掩模做 Hadamard乘积，从而将显著区域内的对抗扰

24、动保留下来，而非显著区域内的对抗扰动置为零。该方法通过显著掩模将对抗扰动添加过程限制在显著区域内，减弱了背景区域的对抗扰动纹理特征，使得攻击具有更好的隐蔽性。同时，在实验中发现，当只对显著区域添加对抗扰动时，虽有效地提高了对抗攻击的隐蔽性，但也在一定程度上降低了对抗样本的黑盒攻击成功率。因此，本文从优化的角度对该攻击方法进行了完善提升，以保证在提高攻击隐蔽性的基础上，攻击成功率仍在较高水平。对抗样本的生成过程是一个有限制条件的优化过程。该过程基于反向传播算法中损失函数的梯度计算，逐步增大图像分类过程中的损失函数值，从而使得分类出错。而在上文提到的动量法中，将损失函数的更新过程以动量累积的形式加

25、以集成，稳定了损失函数的更新方向，从而能够使得对抗样本的生成过程具有更好的收敛特性。利用动量法生成对图 1对抗样本生成示例Fig.1Example of adversarial sample generation248第 49卷第 9期李哲铭，王晋东，侯建中，等：基于显著区域优化的对抗样本攻击方法抗样本虽然攻击性较强，但由于噪声固化、学习率固定等原因，黑盒攻击成功率并不是很高。因此，本文研究将性能更强的优化器引入到对抗样本的局部优化攻击过程中，在图像的显著区域内对生成过程进行优化。寻找性能更好的优化器主要有两个思路：一方面是对学习路径的优化；另一方面是对学习率的优化。因此，本文方法

26、通过引入 Nesterov 算法和RMSprop 算法，组合形成 Nadam 算法，如图 2 所示，加快损失函数更新的收敛速度，更快地到达损失函数极大值点，提高对抗样本的迁移性。以上的过程可以看作是对动量法的改进，式（6）、式（7）首先引入了 Nesterov算法，实现了在现有对抗样本生成过程中的梯度跳跃，帮助损失函数前进过程中预估梯度变化，并将这种变化计入梯度累积过程，有助于算法更快地跳出局部极值点。xnesi=xadvi+gi（6）gi+1=gi+xL(xnesiy；)|xL(xnesiy；)|1（7）之后，通过 RMSprop算法引入第二动量，实

27、现学习率的动态调整，如式（8）式（11）所示。mi+1=1mi+(1-1)gi（8）vi+1=2vi+(1-2)gi2（9）i=1-i+121-i+11，si+1=mi+1+vi+1（10）xadvi+1=xadvi+isi+1si+12（11）其中：mi+1为第一动量，实现对梯度的累积；1为其对应的衰减因子；vi+1为第二动量，实现对梯度平方的累积，2为衰减因子。第一动量的主要作用是稳定损失函数更新过程中的前进方向，而第二动量主要是用以动态调整损失函数前进过程中的学习率，使函数避免陷入局部极值点。由以上方法可以看出，Nadam 优化算法集成了第一动量和第二动量的优点，可实现梯度历史数据和预估

28、数据的累积，实现损失函数更新路径和学习的优化，可有效提高对抗样本的生成效率。该优化算法可以自然地与显著区域扰动生成方法相结合，形成基于掩模 Nadam 迭代快速梯度法（Mask-based Nadam Iterative Fast Gradient Method，MA-NA-FGM），其过程如图 3所示。在该过程中，首先将原始图像输入到 DCFA 模型中，得到显著图并二值化后得到显著掩模；然后将原始图像输入到图像分类模型中，并利用 Nadam 优化算法与卷积神经网络反向传输过程中的梯度信息，迭代生成对抗样本，将得到的全局扰动对抗样本与原图像作差，得到全局的对抗噪声；最后再将全局噪声与显著掩模进

29、行 Hadamard 乘积，便可得到显著区域内的对抗噪声，将该噪声与原图像相结合，得到最终的显著区域对抗样本。2.3对抗样本攻击算法基于以上分析，本文设计了单模型条件下的对抗样本攻击算法，如算法 1所示。在该算法中，第 1步确定了对抗样本攻击过程的初始条件，第 4 步和第 5 步是对损失函数学习路径的优化，可以有效地将梯度的历史数据和预估数据考虑进去，从而避免图 2优化算法关系Fig.2Optimization algorithm relationship图 3基于掩模 Nadam 迭代快速梯度法示意图Fig.3Schematic diagram of mask-based Nadam ite

30、rative fast gradient method2492023年 9月 15日Computer Engineering 计算机工程损失函数优化过程中的局部震荡。第 6步引入了第二动量，根据梯度的大小动态调整学习率的大小，从而实现了损失函数更新过程中的动态步长调整，避免了在最后极值点附近反复震荡。在第 11、12 步中，实现了对抗扰动的显著区域添加，从而形成了攻击性更强的对抗样本。算法 1 单个分类模型攻击算法输入原始图像x，相应的正确标签ytrue，原始图像对应的显著掩模 M，一个卷积神经网络f与相应的交叉熵损失函数L(x，ytrue；)，总迭代轮数T，当前迭代步数t，输入图像的维度D

31、，对抗扰动的尺寸，衰减因子1与2输出对抗样本xadv，满足|x-xadv|1.m0=0，v0=0，xadv0=x，and t=0；2.=D/T；3.while t T do4.gn=gn-1+xL(xadvn-1+gn-1，ytrue；)xL(xadvn-1+gn-1，ytrue；)1；5.mt+1=1mt+(1-1)gt；6.vt+1=2vt+(1-2)g2t；7.t=1-t+121-t+11，st+1=mt+1+vt+1；8.xadvt+1=xadvt+tst+1st+12；9.xadvt+1=Clip(xadvt+1，x-，x+)；10.t=t+1；11.noiseadv=（xadvn

32、+1-x）M；12.return xadv=x+noiseadv.3实验结果与分析本节首先介绍实验环境设置、所用的数据集及评价指标等内容，然后通过在数据集上进行大量实验，验证了显著区域对分类结果的影响，并从攻击成功率和攻击隐蔽性两方面来衡量攻击性能，通过与基准方法相比体现本文方法的优势。3.1实验设置实验环境：本文使用 Python 3.8.5 和 Tensorflow 1.14.0深度学习框架进行编程及实验测试，服务器内核为 Intel Core i9-10900K，内存为 64 GB，主频为3.7 GHz。为实现对抗样本的快速生成，在实验中使用 NVIDIA GeForce R

33、TX 2080 Ti GPU 加速完成计算过程。数据集及网络模型：为验证本文所提对抗样本生成方法的有效性，从 ImageNet dataset22的验证集中随机挑选 1 000 张图像，每张图像属于不同的类别。这些图像在所涉及到的图像分类模型上经过测试均能被正确分类，从而使得添加对抗扰动后被误分类的图像均为对抗样本。在攻击测试过程中，使用了 4个正常训练模型23-25和 3个对抗训练模型26。评价指标：1）攻击成功率（Attack Success Rate，ASR）指标。该指标表征的是对抗样本欺骗图像分类模型使之分类出错的能力，也即分类错误率。在实验过程中，用生成的对抗样本在不同的图像分类模型

34、上进行测试，分类出错的图像即为对抗样本，其在总图像个数中所占的比例，也即攻击成功率。攻击成功率计算公式如式（12）所示：AASR=xif()xi=y f()xi+r yxif()xi=y（12）2）图像特征差异性指标。通过引入图像方差，将图像的行间像素信息作为图像的特征值。图像的像素方差计算如式（13）所示：S2=i=1m(xi-X)2m（13）通过计算原始图像和对抗样本的各像素点位置的方差值，运用特征值相似指标来评估原始图像与对抗样本之间的距离。通常，在计算方差特征值时需要对原始图像进行缩放，m 为缩放后的图像尺度，X为图像每行像素值的平均值。在衡量原始图像的方差特征值与对抗样本的方差特征值

35、的差异时，将其差值进行相似性度量，设置置信度来衡量发生改变的像素点的数量，具体用方差特征相似度（Variance Feature Similarity，VFS）来量化表述，从而方便度量在不同对抗样本生成方法下对抗噪声添加效果的差异性和扰动不可察觉性的强弱。该指标为未改变像素点占所有像素数量的比例，因此为寻找对抗扰动更隐蔽的生成方法，该指标越大越好。3）图像结构相似性指标。用结构相似性指标（Structural Similarity Index Measure，SSIM）27来衡量原图像与对抗样本之间的差异性，该指标相对于峰值信噪比（PSNR）等传统指标，更能符

36、合人眼的判断标准。该指标主要比较亮度、对比度和结构三方面的内容，定义如式（14）式（17）所示。SSSIM(xxadv)=l(xxadv)c(xxadv)s(xxadv)（14）l(xxadv)=2xxadv+C12x+2xadv+C1（15）c(xxadv)=2xxadv+C22x+2xadv+C2（16）s(xxadv)=xxadv+C3xxadv+C3（17）其中：l(xxadv)比较的是原始图像与对抗样本之间的亮度信息；c(xxadv)和s(xxadv)分别对应的是对比度信息和结构信息；x和xadv为原始图像和对抗样本像素信息对应的平均值；x和xadv为像素标准差；xxadv为原始图像

37、与对抗样本之间的协方差；C1、C2、C3是用以保持l(xxadv)、c(xxadv)和s(xxadv)稳定性的常数。该指标通常归一化为-1，1 范围内，数值越大，说明两张图像结构相似度越高，本文的目标是使该指标越大越好。3.2显著区域对分类结果的影响在本文的对抗攻击过程中，添加对抗扰动主要是在显著区域内开展。因此，首先验证图像的显著250第 49卷第 9期李哲铭，王晋东，侯建中，等：基于显著区域优化的对抗样本攻击方法区域对分类结果的影响作用。在实验中设计了基于显著掩模及反向显著掩模两组样本来对比分析，与原图像作 Hadamard 乘积可得到只保留显著区域图像 Adv-SR，及去掉显著区域的图

38、像 Adv-non-SR。利用 DCFA 模型生成显著图，之后生成显著性掩模，将对应的像素阈值设定为 15，即大于 15 像素值的部位掩模值取为 1，在 Adv-SR 中作保留处理，在Adv-non-SR 中作去除处理。对比示意图如图 4所示。在 6 个图像分类模型上进行分类测试，其结果如图 5所示。从图 5可以看出，Adv-SR 和 Adv-non-SR 相对于原始图像的分类正确率均有所下降，Adv-SR 的正确率平均下降了 4.8 个百分点，而 Adv-non-SR 平均下降了 73.3 个百分点。因此，显著区域在图像分类过程中发挥着更大的作用，

39、当对该区域进行攻击时，产生的对抗样本更能有效地使模型分类出错。3.3模型攻击对比实验能够成功实现攻击是对抗样本的基础，本文首先进行图像分类模型的攻击成功率测试。在正常训练模型上生成对抗样本，随后在 7 个图像分类模型（包括 4 个正常训练模型和 3 个对抗训练模型）上进行攻击测试，以白盒和黑盒情况下的攻击成功率为指标衡量对抗样本的攻击表现。实验中选用 MI-FGSM 为基准方法，验证本文所提出的 MA-MI-FGSM（Mask-based Momentum Iterative Fast Gradient Sign Method）、MA-NA-FGSM（Mask-based

40、 Nadam iterative Fast Gradient Sign Method）方法的有效性，所涉及到的超参数为：最大扰动值为=16像素，迭代轮数T=10，动量衰减因子=1，Nadam 衰减因子1=0.9，2=0.999，稳定系数=10-14。实验结果如表 1所示。从表 1 数据可以看出，未经过优化过程的显著区域对抗样本生成方法相对于全局扰动的对抗样本生成方法，白盒攻击和黑盒攻击成功率均有所下降，如在 Inc-v3 模型上生成的对抗样本作白盒攻击时，MA-MI-FGSM 比 MI-FGSM 成功率下降 0.3 个百分点，而在 Inc-v3ens3模型上进行黑盒攻击时，攻击成功率下降了 1

41、.7个百分点，这说明背景区域在一定程度上也影响图像分类的结果，并且重点区域添加的对抗扰动强度也不够。当引入 Nadam 优化算法后，对应的攻击算法黑盒攻击成功率得到较大幅度的提升，在 Inc-v4上生成的对抗样本当在其他 6个图像分类模型上进行迁移攻击时，其平均的黑盒攻击成功率提高了 7.55 个百分点，体现了本文攻击算法的优势。表 1MA-NA-FGSM 等方法单模型攻击成功率 Table 1Single-model attack success rate of methods such as MA-NA-FGSM%模型Inc-v3Inc-v4IncRes-v2Res-101方法MI-FGS

42、MMA-MI-FGSMMA-NA-FGSMMI-FGSMMA-MI-FGSMMA-NA-FGSMMI-FGSMMA-MI-FGSMMA-NA-FGSMMI-FGSMMA-MI-FGSMMA-NA-FGSMInc-v399.999.399.963.855.369.368.760.969.252.343.254.9Inc-v448.539.751.299.898.799.661.853.263.748.140.651.1IncRes-v237.629.839.253.845.755.399.797.999.445.536.748.1Res-10130.922.232.847.640.351.552

43、.243.253.998.998.399.1Inc-v3ens315.113.417.819.816.820.125.225.126.522.422.325.9Inc-v3ens414.114.516.317.113.819.421.322.923.918.719.121.0IncRes-v2ens7.36.48.69.68.710.314.313.715.911.712.013.2图 5原始图像、Adv-SR及 Adv-non-SR分类正确率对比Fig.5Comparison of classification accuracy of original image，Adv-SR and Ad

44、v-non-SR图 4原始图像、Adv-SR及 Adv-non-SR对比示意图Fig.4Schematic diagram of the comparison of original image，Adv-SR and Adv-non-SR2512023年 9月 15日Computer Engineering 计算机工程本文设计实验将 MA-DIM（Mask-based Diverse Input Method）、MA-NA-DIM（Mask-based Nadam Diverse Input Method）和 DIM 进行对比，如表 2 所示。其中，在尺度变化时变换范围为 299，33

45、0）像素，其余超参数如前文所述。与基准方法相比，显著区域优化的生成方法显然更具有攻击性，实现了攻击成功率和攻击隐蔽性的性能提升，如在 IncRes-v2上生成的对抗样本，MA-NA-DIM 方法相对于 MA-MI-DIM 方法提高了 7.2 个百分点，比 DIM 方法的平均黑盒攻击成功率得到进一步提升。需要注意的是，对抗噪声仅仅添加到了图像的显著区域内，此时噪声可察觉性已实现了较大幅度的降低。在表 1 和表 2 中，分别进行白盒测试和黑盒攻击测试，4 个模型为对抗样本的生成模型，即分别利用 Inc-v3、Inc-v4、IncRes-v2 和 Res-101 生成对抗样本，利用在这些已知模型上生

46、成的对抗样本在 4 个已知模型和 3 个未知模型（Inc-v3ens3、Inc-v3ens4和IncRes-v2ens）上进行攻击测试，在已知模型上进行的是白盒测试，而在未知防御模型上进行的是黑盒测试。表 1 中各方法主要是在 MI-FGSM 的基础上进行改进对比，其中，MA-MI-FGSM 是在 MI-FGSM 的基础上进行了显著性掩模处理，MA-NA-FGSM 是在 MI-FGSM 的基础上进行了 Nadam 算法优化及显著性掩模处理。类似地，在表 2各方法中，主要是对DIM 方法对比分析，MA-DIM 是在 DIM 的基础上进行了显著性掩模处理，MA-NA-DIM 是在

47、DIM 的基础上进行了 Nadam 算法优化及显著性掩模处理。3.4图像质量对比实验图像质量对比实验主要有以下 3种：1）特征差异性指标对比实验。首先对不同方法生成的对抗样本图像特征进行对比分析，运用 MI-FGSM 方法与本文所提出的 MA-MI-FGSM 方法分别在 1 000 张图像上生成对抗样本。然后为了方便计算，将对抗样本图像与原始图像缩放至 6464 像素值大小，并将图像分割成 64 维的张量形式，以行向量为单位计算其对应的平均值，并求取相应的方差值。将该方差值作为图像的特征值，计算其相似度指标，如图 6和图 7所示。其中，星标、三角标和圆标分别对应原图像素方差、对抗样本像素方差和

48、像素方差的差值，其中圆标线越长，表示原始图像和对抗样本的差值就越大，特征的区别度也就越大，表明在生成对抗样本过程中对原始图像的改动（即添加的对抗扰动）也就越大。因此，本文的目的在于缩小原始图像与对抗样本之间像素方差的差值。由于该差值为反向指标，为更直观地度量其差值，本文引入了特征相似度的概念，即改变的像素点个数在像素值总数所占的比例，而是否发生改变用方差置信度来表示，例如设置置信度为 0.95时，表示变化量在原图方差值的 5%浮动范围。在置信度设置为 0.95时，得到对抗样本与原始图像的特征相似度如图 6（b）、图 6（c）和图 7（b）、图 7（c）所示，特征相似度越高，说明对抗样本与原始图

49、像越接近，其对抗扰动的不可察觉性越好。相对于全局扰动的对抗样本生成方法，利用本文方法生成的对抗样本与原始图像相比特征相似度更高，这主要是由于在全图像添加对抗扰动的过程中，在图像的背景部分引入了更多的对抗噪声，从而使得对抗样本图像与原始图像之间的特征差异性更大。而本文所提出的方法通过在图像的主体语义区域添加对抗扰动，在尽可能小的范围内对原始图像进行改动，从而使得对抗样本与原始图像之间的特征相似度更大。表 2MA-NA-DIM 等方法单模型攻击成功率 Table 2Success rate of single-model attack by methods such as MA-NA-DIM%模型

50、Inc-v3Inc-v4IncRes-v2Res-101方法DIMMA-DIMMA-NA-DIMDIMMA-DIMMA-NA-DIMDIMMA-DIMMA-NA-DIMDIMMA-DIMMA-NA-DIMInc-v399.198.799.480.272.383.680.671.382.971.360.474.6Inc-v469.360.872.399.198.399.376.465.880.666.058.369.2IncRes-v263.754.365.271.563.873.698.297.899.362.555.763.9Res-10158.851.760.363.455.965.668

展开阅读全文