收藏 分销(赏)

一种基于特征融合的恶意代码快速检测方法_王硕.pdf

上传人:自信****多点 文档编号:465145 上传时间:2023-10-12 格式:PDF 页数:10 大小:2.19MB
下载 相关 举报
一种基于特征融合的恶意代码快速检测方法_王硕.pdf_第1页
第1页 / 共10页
一种基于特征融合的恶意代码快速检测方法_王硕.pdf_第2页
第2页 / 共10页
一种基于特征融合的恶意代码快速检测方法_王硕.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 1 期2023 年1 月电子学报ACTA ELECTRONICA SINICAVol.51 No.1Jan.2023一种基于特征融合的恶意代码快速检测方法王硕,王坚,王亚男,宋亚飞(空军工程大学防空反导学院,陕西西安 710051)摘要:随着恶意代码对抗技术的发展,恶意攻击者通过加壳、代码混淆等技术繁衍大量恶意代码变种,而传统恶意代码检测方法难以对其进行有效检测.基于恶意代码可视化的恶意代码检测方法被证明是一种能够有效识别恶意代码及其变种的新方法.针对目前研究仅着眼于提升模型分类准确率而忽略了恶意代码检测的时效性,本文提出了一种基于特征融合的恶意代码快速检测方法.该方法以深度神经网络为框架

2、,采取模块化设计思想,将多尺度恶意代码特征融合与通道注意力机制结合,增强关键特征表达,并使用数据增强技术改善数据集类别不平衡问题.通过实验证明本文方法分类准确率高且参数量小、检测时效性高,优于目前的恶意代码检测技术.关键词:恶意代码;深度神经网络;特征融合;通道注意力机制;数据增强技术;恶意代码可视化基金项目:国家自然科学基金(No.61703426)中图分类号:TP309.5文献标识码:A文章编号:0372-2112(2023)01-0057-10电子学报URL:http:/DOI:10.12263/DZXB.20211701A Fast Malicious Code Detection M

3、ethod Based on Feature FusionWANG Shuo,WANG Jian,WANG Ya-nan,SONG Ya-fei(Air Defense and Antimissile School,Air Force Engineering University,Xi an,Shaanxi 710051,China)Abstract:With the development of anti-malicious code technology,malicious attackers multiply a large number of malicious code varian

4、ts by adding shell,code obfuscation and other technologies.However,traditional malicious code detection methods are difficult to detect them effectively.Malicious code detection based on malicious code visualization has been proved to be an effective method for identifying malicious code variants.Th

5、e current research only focuses on improving the accuracy of model classification while ignoring the timeliness of malicious code detection.To solve the above problem,this paper proposes a fast malicious code detection method based on feature fusion.Based on the framework of deep neural network and

6、the idea of modular design,our method combines multi-scale malicious code feature fusion with channel attention mechanism to enhance typical feature expression.In addition,data augmentation technology is utilized to deal with the problem of dataset category imbalance.The results of experiments indic

7、ate that the proposed method achieves high classification accuracy,small number of parameters and high detection timeliness,which is superior to the current malicious code detection technology.Key words:malicious code;deep neural network;feature fusion;channel attention mechanism;data augmentation t

8、echnology;malicious code visualization Foundation Item(s):National Natural Science Foundation of China(No.61703426)1引言恶意代码是指经过人为设计执行恶意行为或攻击的软件.据2021年国家互联网应急中心发布的第2期周报统计1,在1月4日至10日仅一周的时间,境内被感染网络病毒的主机数量约为67万个,境内计算机恶意程序传播次数高达4 009.3万.大量的恶意代码不仅对用户日常生活产生严重影响,甚至影响了国家网络的安全,阻碍网络命运共同体的构建.恶意代码分析技术按照是否执行文件分为动态

9、分析技术和静态分析技术.动态分析是指在沙箱、模拟器和虚拟机中运行可执行文件并通过系统调用监视、分析应用程序行为的实践.静态分析方法提取恶意代码的静态特征来识别样本的不法行为.静态分析方法在速度和有效性方面优于动态分析,因为它可以捕获与结构特性相关的信息2,3.传统的恶意代码检测方法采取基于特征码的模板匹配思想,它需要研究员根据专家知识手工提取恶意代码的特征码,并将其与数据库收稿日期:2021-12-24;修回日期:2022-07-31;责任编辑:李勇锋电子学报2023 年中已知特征码进行逐一比对.随着恶意代码混淆、加壳等技术的发展,恶意代码繁衍出大量变种.而传统检测方法效率较低,并且难以有效地

10、检测与识别恶意代码的变种.因此,如何准确、高效地对恶意代码及其变种进行检测、分类成为了该领域的研究热点.为了解决传统恶意代码检测方法面临的困境,更有效地检测经过加壳、混淆后的恶意代码变种,基于可视化的恶意代码检测方法应运而生46.该方法先将恶意代码映射为图像,根据同一恶意家族中的图像纹理特征具有相似性,不同恶意家族中的图像纹理特征具有差异性的特点,提取恶意代码图像的纹理特征并进行分类.该方法被证明能够有效地检测恶意代码变种,并且检测速度相较于动态检测技术快4 000倍7.从该方法提出以来,大量专家学者对此展开了研究8,9.Nataraj等10融合图像和信号特征来描述恶意代码,并使用KNN(K-

11、Nearest Neighbor)作为分类器来识别恶意代码.Kancherla等11为了增强特征的多样性将Gabor特征、小波特征和强度特征融合作为总特征,并训练SVM(Support Vector Machines)分类器实现恶意代码分类.刘亚姝等12通过融合恶意图像的GIST特征与LBP(Local Binary Pattern)特征构建抗混淆特征,以解决模型在相似恶意图像中的分类性能下降的问题.Naeem等13为了减少计算时间,提出了一种融合恶意代码图像局部特征和全局特征的LGMP特征描述子.卢喜东等14使用HOG特征作为恶意图像的分类依据,最后使用随机森林分类器对恶意代码及其变种进行检

12、测与分类.上述研究将机器学习应用于基于可视化的恶意代码检测方法,这些方法的特征提取与分类是分开进行的.恶意图像纹理特征的提取需要依靠手工方式,而手工提取特征的方式需要消耗大量的计算资源,导致该方法效率较低,并且检测的精度仍有待提升.深度学习在图像分类任务中取得了瞩目的成绩,将深度学习与恶意代码可视化相结合是一种有效提升恶意代码分类准确率的方式.Gibert等15分析了手工特征提取的特点与不足,设计了一种深度神经网络结构用于提取恶意图像的特征,在多个恶意代码数据集上均取得了良好的分类性能,具有较好的泛化能力.Danish等16将恶意代码映射为彩色图像,丰富了恶意图像中的信息,并将迁移学习应用于恶

13、意代码检测任务,实验结果表明该方法在分类准确率方面表现卓越.Kabanga等17设计了一个由三个卷积层和两个全连接层组成的卷积神经网络(Convolutional Neural Network,CNN)框架用于识别恶意代码,取得了较好的性能.崔志华等18,19针对恶意代码数据集中样本不平衡问题,提出了一种使用群智能算法优化深度神经网络模型的最优样本类别输入比例的解决方案.上述基于恶意代码可视化的方法能够实现恶意代码变种的检测与分类,在一定程度上解决了代码混淆问题.但是这些方法仅将注意力聚焦于提升分类准确率,而忽略恶意代码分类模型其他的性能指标,如检测时间、模型体积大小等.针对这个问题,本文提出

14、了一种基于特征融合的恶意代码快速检测方法.该方法旨在提升分类准确率的同时缩短识别时间.首先,该方法将恶意代码映射为灰度图像并通过双线性插值算法对恶意图像进行尺寸归一化.然后,使用数据增强技术解决恶意代码数据集不平衡问题.其次,融合在不同尺寸卷积核中提取的多尺度特征来增加特征的多样性,并结合通道注意力机制增强恶意图像关键特征表达.最后,训练深度神经网路模型实现对恶意代码变种的分类.本文的工作主要包括以下3点.(1)提出了一种基于特征融合的深度神经网络模型来检测和分类恶意代码及其变种.该模型结合了多尺度特征融合与通道注意力机制,具有良好的纹理特征提取能力、参数量小,在提升分类准确率的同时能够快速检

15、测未知的新样本.(2)提出了使用数据增强技术来解决数据不平衡问题.通过对图像的变换实现少样本的过采样,均衡数据集,提升模型性能.(3)在 DataCon数据集和 Malimg数据集上通过大量实验证明本方法在恶意代码变种检测和分类中的卓越性能,并分析了性能提升的原因.2模型概述本文提出的恶意代码检测方法包含两个部分:数据预处理和FFSE模型构建.其中,数据预处理包括恶意代码可视化、图像尺寸归一化以及数据增强技术.该方法的结构如图1所示.2.1数据预处理2.1.1恶意代码可视化恶意代码可视化是将恶意代码二进制文件转化为灰度图像的过程,其流程如图2所示.首先,将给定的恶意代码二进制文件以每8位无符号

16、整数为一组进行读取.然后,将每组二进制数转化为 10进制整形.其次,根据PE文件大小确定行宽,并将其转换为二维数组,其行宽与文件大小对应关系如表1所示.最后,以二维数组中每一个元素作为图像的灰度值,将二维数组映射为灰度图像,部分转化后的恶意家族样本如图3所示.2.1.2图像尺寸归一化在卷积神经网络中,由于全连接层的权值矩阵大小是固定的,即输入到全连接层的特征尺寸必须保持一致.如果输入图片的尺寸不同,那么经过卷积和池化操作后的特征尺寸也会产生差异,即输入全连接层的58第 1 期王硕:一种基于特征融合的恶意代码快速检测方法特征尺寸不同,这导致全连接层失效.因此,输入卷积神经网络的图片必须为同一尺寸

17、.但是,可视化后的恶意图像尺寸均不相同.因此,需要对可视化后的恶意图像进行尺寸归一化.为了使经过归一化后的恶意图像尽可能保持原有的纹理特征不变,本文采用双线性插值算法对图像尺寸进行归一化.该算法首先选取与恶意图像插值点直接相邻的4个像素点,然后先在X方向上进行两次线性插值运算;最后在Y方向上进行线性插值计算得到插值点的像素:f(x,y1)=x2-xx2-x1f(x1,y1)+x-x1x2-x1f(x2,y1)f(x,y2)=x2-xx2-x1f(x1,y2)+x-x1x2-x1f(x2,y2)(1)f(x,y)=y2-yy2-y1f(x,y1)+y-y1y2-y1f(x2,y2)其中,f(x,

18、y)是恶意图像中插值点的像素值,(xi,yj)(i,j=1,2)是恶意图像插值点附近的 4 个像素.图 4 为 Allaple.A家族中某样本经过归一化后的恶意图像,通过观察可以看出经过双线性插值算法后的恶意图像的基本纹理特征得到良好的保留.2.1.3数据增强技术在深度学习模型中,分类的效果与数据集的质量有着密切的关系,充足且均衡的数据集不但能够提升模型的分类准确率而且还能在一定程度上避免过拟合现象的产生.当数据集样本数量较小或者各类别样本数量不均衡时,使用数据增强技术可以增加少数类的样本数量,从而抑制数据集样本类别不均衡给模型造成的影响,提高模型的鲁棒性.常见的图像数据增强是通过对原始图像数

19、据的变换来生成新的数据,比如:缩图4双线性插值法放缩恶意代码图像 FFSE 模型 FFSE BlockInceptionSEInceptionSE FFSE BlockInceptionSEInceptionSE FFSE BlockInceptionSEInceptionSE FFSE BlockFeatureFusionSE BolckFeatureFusionSE BolckDENSE数据预处理 二进制恶意代码:0100100010001011100101110100100.8位二进制向量:01001000,10001011,10010111,0100100.十进制二维数组:72,39,

20、11,73.,86,78,175,38.,.数据增强CBRMaxPoolCBRMaxPoolCBRMaxPoolCONVBNReLUCBR 图1模型结构示意图 二进制恶意代码:0100100010001011100101110100100.8位二进制向量:01001000,10001011,10010111,0100100.十进制二维数组:72,39,11,73.,86,78,175,38.,.图2恶意代码可视化流程图表1行宽与恶意文件大小对应关系文件大小1 000 KB宽度3845127681 024 Adialer.CFakereanInstantaccess 图3不同恶意家族可视化后的恶

21、意图像59电子学报2023 年放、翻转、移位等.为解决恶意代码数据集中各类样本数量不均衡的问题,本文使用python中的图像数据增强技术函数对数据集进行样本扩充,表2给出了实验中使用的数据增强技术的参数设置.本文将Malimg数据集的70%划分为训练集,20%划分为验证集,10%划分为测试集.本文模型使用数据增强技术将原训练集的6 604个样本增扩到51 608个样本.2.2FFSE模型构建卷积神经网络通过端到端的学习能够自动地提取样本的特征,并根据特征对样本进行分类.很多学者通过构建卷积神经网络模型来识别和分类恶意代码,但是这些方法均使用单一尺度的卷积核对恶意图像进行特征提取,忽略了特征提取

22、的多样性,导致提取的特征不具备鲁棒性并且影响了恶意代码的检测精度.为了解决上述的问题,本文结合通道注意力机制(Squeeze and Excitation Networks,SE)20设计了一个多尺度特征融合的网络结构,如图1中FFSE模型所示.模型的核心设计思想为增强模型的特征提取能力,使用少量的神经网络层数获得较深的神经网络的特征提取效果.通过减少神经网络参数、降低浮点运算量来提升模型运算速度,在提高恶意代码分类准确率的同时具有较快的恶意代码检测速度.模型主体由CBR层、最大池化层、FFSE 模块、以及全连接层构成.其中,CBR 层是本文模型的基础单元,其包括卷积层、BN(Batch No

23、rmalization)层和Relu(Rectified linear unit)激活函数.它是传统卷积层的一种改进,能够加速模型的收敛.其流程为:首先,输入特征进入卷积层进行卷积操作,然后进入BN层进行批量归一化,最后经过Relu函数进行激活得到非线性特征输出.FFSE模块是模型的核心结构,其包括特征融合模块和通道注意力机制模块,其结构如图5所示.特征融合部分的核心思想是同时使用不同大小的卷积核提取图像的多尺度的特征,并将这些特征相融合以获得兼顾局部特征与全局特征的总特征.在特征提取的过程中,特征图是由每一个通道提取的特征结合得到,但并非每一个通道都能有效的提取特征.通道注意力机制能够根据各

24、个通道的特征提取效果计算各个通道的权重,赋予特征提取效果好的通道相对较大的权重,赋予特征提取效果差的通道相对较小的权重,将通道注意力集中在图像的主要特征上,以增强恶意代码图像的关键特征表达,提升恶意代码检测和分类的精度.在特征融合模块中,首先,输入特征VRCHW会同时通过四个分支I,II,III,IV进行运算,为了使提取的特征具有多样性、代表性,在每个分支中采用的是不同感受野的卷积核进行特征提取,每个分支会得到相应的 分 支 输 出 特 征V1RC1HW,V2RC2HW,V3RC3HW,V4RC4HW.然后,将得到的分支输出特征V1,V2,V3,V4进行融合,得到既包含局部特征又包含全 局 特

25、 征 的 总 特 征,并 将 其 作 为 输 出 特 征VmRCHW,输出通道数C=C1+C2+C3+C4.通道注意力模块分为两个部分:压缩(Squeeze)和激活(Excitation).首先,压缩操作Fs是对Vm进行全局池化得到ZR11C,其公式如下:zc=Fs(Vm)=1H+Wi=1Hj=1WVm()i,j(2)然后,对压缩得到的Z进行激活操作Fe得到通道的权重值w:w=Fe(Z,W)=(g(Z,W)=(W2(W1Z)(3)其中,是 Relu 激活函数,W1RCrC,W2RCCr,wR11C.r为变换中的超参数一般取r=16.最后,将计算得到的通道的权重值w与输入特征Vm进行Fscale

26、操作,实现将通道的权重值赋予给输入特征的各个通道,得到通道加权后的输出V?m,其公式如下:V?m=Fscale(vc,wc)(4)其 中,V?m=v?1,v?2,v?C,v?CRHW.恶 意 图 像 通 过FFSE模块后,得到一个局部特征与全局特征相融合的综合特征,通道注意力机制对特征图中每个通道特征赋予权重,抑制特征提取效果差的通道特征表达,增强表2数据增强技术的参数设置方法rescalewidth shiftheight shiftrotation range设置1/2550.00.00.0方法shear rangezoom rangehorizontal flipfill mode设置0

27、.00.0FalseNone 11 CBR11 CBR11 CBR33 CBR33 CBR33 CBR11 CBR33 MaxPool输入特征VFuture FusionHWC输出特征 VmCHWGlobal PoolHWC11C ExcitationSqueeze通道权重W11CSE Block输入特征 VmFeature concatenateIIIIIIIVReLu function 图5FFSE模块结构示意图60第 1 期王硕:一种基于特征融合的恶意代码快速检测方法特征提取效果好的通道特征表达,进而提高图像纹理特征提取能力.3数据集及评价指标3.1实验环境及数据集本文实验采用64位Wi

28、ndows10操作系统,Intel(R)Core(TM)i7-7700HQ CPU,16 GB RAM,Nvidia GeForce GTX 1050 GPU,Python 3.6编译环境和Tensorflow 2.1深度学习框架.本文在两个恶意代码数据集上来评估FFSE模型的性能,其具体信息如下:数据集一由奇安信息技术研究院2020年“DataCon开放数据计划”21提供,记作 DataCon.数据集中共计23 655个PE样本,包含15 759个正常样本和7 896个恶意挖矿样本.DataCon中的样本均源于从现网中捕捉的真实数据,包含大量的经过加壳、混淆后的样本.在实验中,数据集的 70

29、%划分为训练集,20%划分为验证集,10%划分为测试集.数据集二为Malimg数据集5,它包含25个恶意家族共9 435个恶意代码.Malimg数据集中各个恶意家族的样本数量相差较大,是一个不均衡数据集.在实验中,将Malimg数据集的70%划分为训练集,20%划分为验证集,10%划分为测试集.3.2实验环境及数据集本文采用准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1分数(F1-score)四个指标对模型的性能进行评价,这些评价指标已经广泛的应用于相关研究2224,其公式如下:Accuracy=TP+TNTP+TN+FP+FN(5)Precision=

30、TPTP+FP(6)Recall=TPTP+FN(7)F1-score=2PrecisionRecallPrecision+Recall(8)其中,TP表示被正确预测为正类的正样本,FP表示被错误预测为正类的负样本,FN表示被错误预测为负类的正样本,TN表示被正确预测为负类的负样本.4实验结果与分析为了验证本文模型检测恶意代码的效果和效率,本节设计了如下实验:(1)输入图像尺寸选择实验;(2)数据增强技术有效性验证实验;(3)模型恶意代码检测能力验证实验(4)与经典神经网络模型的对比实验;(5)模型消融实验;(6)与近期恶意代码分类模型的对比实验.4.1输入图像尺寸选择实验由于CNN中全连接层

31、的限制,输入到模型中的恶意代码图像大小必须是固定的.另外,输入CNN的图像尺寸不仅会影响模型的大小,也会影响模型性能.为了得到更适合模型的输入图像尺寸的大小,使用双线性插值法将恶意代码图像归一化至3232、6464、128128、256256和 512512.然后,将 Malimg数据集中的恶意图像输入到模型中测试模型的性能,实验结果如表 3所示.从表 3中可分析得出恶意代码图像尺寸从3232增加到256256的过程中,准确率从84.28%提升至99.05%;图像尺寸从256256增加到512512的过程中,准确率从99.04%下降至98.61%,这说明模型出现了过拟合现象.另外,参数量随着图

32、像尺寸的增大不断增大,这是因为图像尺寸越大卷积运算越多参数量越大,并且参数量越大消耗的计算机资源越大,也会导致模型的训练时间增加.综合恶意代码分类精度与参数量,选择256256的恶意代码图像作为模型的输入.4.2数据增强技术有效性验证为了验证数据增强技术对模型性能提升的有效性,我们在Malimg数据集上把使用数据增强技术的模型与未使用数据增强技术的模型进行实验对比,结果如表4所示.通过观察可知,使用数据增强技术的模型的准确率为99.04%,未使用数据增强的数据增强技术的模型准确率为98.35%.使用数据增强技术后的模型不论是在准确率、精确率、召回率或是F1分数方面表现均优于未使用数据增强技术的

33、模型.这证明数据增强技术能够消除数据集不平衡带来的影响,有效地提升恶意代码检测模型的性能.4.3模型的恶意代码检测能力验证实验为了测试本文模型检测恶意代码的能力,本节在DataCon上与近期恶意代码检测方法进行实验对比.杨望等25在DataCon上提取其函数调用图,并将归一化后表3输入图像尺寸对模型影响的实验结果尺寸32326464128128256256512512准确率/%84.2894.2298.0799.0498.61精确率/%83.4493.0898.0699.1898.61召回率/%84.2794.2298.0799.0498.60F1/%82.8293.2698.0799.069

34、8.60参数/M0.310.350.501.113.58表4使用数据增强技术前后模型性能比较模型数据增强前数据增强后准确率/%98.3599.04精确率/%98.4299.18召回率/%98.3599.04F1/%98.3899.0561电子学报2023 年的函数调用图输入到深度神经网络中进行训练得到检测结果.刘亚姝等26先使用LDA(Latent Dirichlet Allocation)算法对预处理后的恶意代码进行降维,并将降维后的特征作为输入训练随机森林分类器得到检测结果.Guo等27将数据集映射为恶意图像并使用GIST算法提取恶意图像特征,并训练KNN分类器和随机森林分类器进行投票实现

35、恶意代码的检测.Saadat等28使用卷积神经网络作为特征提取器,训练XGBoost分类器来检测恶意代码.图6为本文模型与近期恶意代码检测模型的对比实验结果,从图中可清晰观察到本文方法在DataCon上的检测准确率为96.35%,高于上述文献中的检测准确率.这说明本文模型具有良好的恶意代码检测能力,能够有效地检测目前现网中的恶意代码变种.4.4模型的恶意代码检测能力验证实验为了验证本文模型的效果,本节在Malimg数据集上首先对模型的训练性能进行了评估,然后将FFSE模型与AlexNet29,VGGNet30,ResNet31这些卓越的深度神经网络模型进行实验对比.图 7 为 FFSE 模 型

36、 的 训 练 曲 线,以 50 轮 为 基准,FFSE 模型的训练时长为 10 081.05 s,内存消耗为 3 365.03 M.从图7中可观察到,当训练轮次达到20时模型已经收敛,这说明收敛速度较快.模型收敛后训练集的准确率达到100%,测试集准确率达到99.04%,模型在训练集和测试集上均表现良好,没有出现过拟合现象.另外,模型的训练时间和GPU的性能息息相关,使用性能强大的GPU能够大大缩短模型训练时间,以满足在几十万到上百万个恶意代码上于可接受的时间内训练出模型.表5为FFSE模型与经典神经网络模型对比实验的结果,从中可看出,本文模型不论是准确率、精确率、召回率或是F1-score都

37、高于其他三个模型,且有较大幅度的提升.以精确率为例,本文模型的精确率为99.18%,相较于 AlexNet8的 92.77%提升了 6.41%,比 VGG16的97.00%提 升 了 2.18%,比 ResNet 的 97.57%提 升 了1.61%.实验证明了本文模型在恶意代码分类精度方面优于其他三个模型.为了详细地观察各个模型分类的具体情况,绘制了四个模型在数据集中各个类别的分类情况分布图,结果如图8所示.从图8中可以看出,AlexNet在Autorun.X家族分类精度仅为0,且在Yuner.A家族分类精度不足50%,这是AlexNet模型分类精度远低于其他三个模型的主要原因.而VGG16

38、与ResNet在Malimg数据集上分类精度相差不大,在Lolyda.AA2和Lolyda.AA3恶意家族中VGG16分类效果好于ResNet,但是在C2LOP.P,C2LOP.gen!g,93.3593.0393.4496.2396.35文献25方法 文献27方法 文献28方法 文献26方法本文方法80828486889092949698100/%率确准 图6各恶意代码检测方法的准确率对比 010203040500.00.20.40.60.81.0准确率训练轮次 训练集 验证集(a)准确率曲线 010203040500123456损失值训练轮次 训练集 测试集(b)损失曲线图7FFSE模型训

39、练曲线表5不同模型的实验结果模型AlexNet8VGG16ResNetFFSE准确率/%94.1297.1197.5499.04精确率/%92.7797.0097.5799.18召回率/%94.1197.1197.5499.04F1-score/%93.1997.0397.5399.0562第 1 期王硕:一种基于特征融合的恶意代码快速检测方法Swizzor.gen!E,Swizzor.gen!恶意家族中VGG16分类效果不如ResNet.而FFSE模型不同程度上改善了VGG16和ResNet在一些易混淆恶意家族中分类精度不足的问题,进而提升了总体分类精度,比如在C2LOP.P,C2LOP.g

40、en!g,Swizzor.gen!E,Swizzor.gen!家族中FFSE模型分类效果优于VGG16,在Lolyda.AA2和Lolyda.AA3恶意家族中FFSE模型的分类效果优于ResNet.特征融合与通道注意力机制的结合具有良好的特征提取能力,能够有效地提取恶意代码关键特征,区分易混淆的恶意家族,提升模型准确率.除分类精度外,模型对未知恶意代码的检测时间对于恶意代码的检测与分类也是一项重要的指标,检测时间是指检测恶意代码所产生的时间开销.实验以测试集的恶意代码图像为单位,计算模型的参数量大小和平均检测时间,实验结果如表6所示.实验结果表明 FFSE 的参数量为 1.11 M,是 Ale

41、xNet8 模型的 1/60、VGG16的 1/43、ResNet的 1/22,实现了轻量化的目的.另外,FFSE模型的检测时间最短,检测一个未知样本平均需要4.2 ms,仅为IMCFN 16 的检测时间180 ms的1/20.综上,本文的模型不仅拥有较高的准确率,并且参数量低、有着极快的检测速度.这得益于FFSE模型特征融合模块卓越的特征提取能力,它能够有效提取恶意代码深度关键特征.更加高效的特征提取能力意味着能够使用更少的神经网络层数获得深层神经网络的特征表示,减少神经网络层数能够减少参数量、降低浮点数运算量,进而提升模型的运算速度.4.5模型消融实验为进一步验证FFSE模型的在恶意代码分

42、类中的有效性,本节将对模型进行消融实验.我们将FFSE模型与CNN、CNN+SE和FF模型的分类性能进行实验对比,结果如表7所示.从表7中可得,CNN+SE的准确率在数值上比CNN模型的高 1.39,FFSE模型比 FF模型的准确率高 0.75,说明通道注意力机制能够有效的提升模型分类准确率.FF模型比CNN模型的分类准确率高1.82,FFSE模型比CNN+SE模型的准确率高1.18,说明特征融合模块能够有效提升模型准确率.FFSE模型的分类准确率相较其它三种模型准确率有明显提升,说明特征融合与通道注意力机制的结合能够有效提升模型的分类性能.为了更加清晰仔细的观察各个模型在每个恶意家族中的具体

43、分类情况,绘制了各个模型的混淆矩阵,其结果如图9所示.对比图9中的结果可得到,FFSE模型相较其它模型在 C2LOP.P,C2LOP.gen!g等易混淆家族中的分类效果均有所提升,说明特征融合与通道注意力机制的结合能够增强特征表达、改善易混淆恶意家族的分类效果进而提高模型的整体分类性能,这也进一步证明了本文提出模型在恶意代码分类任务中具有着卓越的表现.4.6与近期恶意代码分类方法的对比实验为了验证本文方法的分类性能,我们将其与同样使用Malimg数据集的基于可视化的最新恶意代码检测方法进行对比.表 8 为各个模型的性能对比结果,显然,本模型优于现有的基于可视化的恶意代码分类方法.Adialer

44、.CAgent.FYIAllaple.AAllaple.LAlueron.gen!JAutorun.KC2LOP.PC2LOP.gen!gDialplatform.BDontovo.AFakereanInstantaccessLolyda.AA1Lolyda.AA2Lolyda.AA3Lolyda.ATMalex.gen!JObfuscator.ADRbotigenSkintrim.NSwizzor.gen!ESwizzor.gen!IVB.ATWintrim.BXYuner.A0.00.20.40.60.81.0Adialer.CAgent.FYIAllaple.AAllaple.LAlue

45、ron.gen!JAutorun.KC2LOP.PC2LOP.gen!gDialplatform.BDontovo.AFakereanInstantaccessLolyda.AA1Lolyda.AA2Lolyda.AA3Lolyda.ATMalex.gen!JObfuscator.ADRbotigenSkintrim.NSwizzor.gen!ESwizzor.gen!IVB.ATWintrim.BXYuner.A0.00.20.40.60.81.0Adialer.CAgent.FYIAllaple.AAllaple.LAlueron.gen!JAutorun.KC2LOP.PC2LOP.ge

46、n!gDialplatform.BDontovo.AFakereanInstantaccessLolyda.AA1Lolyda.AA2Lolyda.AA3Lolyda.ATMalex.gen!JObfuscator.ADRbotigenSkintrim.NSwizzor.gen!ESwizzor.gen!IVB.ATWintrim.BXYuner.A0.00.20.40.60.81.0精确率 AlexNet8 VGG16 ResNet FFSE召回率 AlexNet8 VGG16 ResNet FFSEF1-score AlexNet8 VGG16 ResNet FFSE(a)各模型的精确率(

47、b)各模型的召回率(c)各模型的F1-score图8各模型在Malimg数据集中的精确率、召回率和F1-score表6不同模型准确率与预测时间实验结果指标参数量/M检测时间/msFFSE1.114.2AlexNet860.0010.7VGG1643.4011.8ResNet22.6920.3表7不同模型的实验结果模型CNNCNN+SEFFFFSE准确率/%96.4797.8698.2999.04精确率/%96.5397.8598.2699.18召回率/%96.4797.8698.2999.04F1-score/%96.4697.7798.2799.0563电子学报2023 年5结论本文对基于可

48、视化的恶意代码检测方法进行了研究,针对恶意图像纹理特征提取成本高且特征鲁棒性差、检测时效性不足问题,提出了一种基于特征融合的恶意代码快速检测方法.该方法采取模块化设计,提出了一种特征提取能力强且参数量小的轻量化卷积神经表8不同恶意代码分类方法的实验结果方法GIST+KNN5SPAM-GIST10DRBA+CNN18刘亚姝等人12LGMP+KNN13NSGA-II+CNN19Venkatraman32Gibert15IMCFN16Vinita33DCNN34DEAM-Densenet35MFFC36FFSE时间2011201620182018201920192019201920202020202

49、020212021方法机器学习机器学习深度学习机器学习机器学习深度学习深度学习深度学习深度学习集成学习深度学习深度学习深度学习深度学习深度学习准确率/%97.1897.4094.5098.8098.4097.6096.3098.5098.8298.5898.7998.5098.7299.04精确率/%96.6097.6091.8098.0098.8598.0498.7996.9098.8699.18召回率/%88.4098.2088.4091.5098.0098.8198.0698.4796.6098.7299.04F1-score/%91.6098.0098.7598.0598.4696.7

50、098.7399.05 1000000000000000000000000010000000000000000000000000100000000000000000000000001000000000000000000000000010000000000000000000000000100000000000000000000000000.8800000000000000.040.0400.0400000000.040.920000000000000.04000000000000100000000000000000000000001000000000000000000.01300000000.9

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 品牌综合 > 临存文档

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服