收藏 分销(赏)

基于BiTCN-SA的恶意代码分类方法.pdf

上传人:自信****多点 文档编号:626561 上传时间:2024-01-18 格式:PDF 页数:8 大小:1.82MB
下载 相关 举报
基于BiTCN-SA的恶意代码分类方法.pdf_第1页
第1页 / 共8页
基于BiTCN-SA的恶意代码分类方法.pdf_第2页
第2页 / 共8页
基于BiTCN-SA的恶意代码分类方法.pdf_第3页
第3页 / 共8页
基于BiTCN-SA的恶意代码分类方法.pdf_第4页
第4页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第2 4卷 第4期空 军 工 程 大 学 学 报V o l.2 4 N o.42 0 2 3年8月J OURNA L O F A I R F O R C E E NG I N E E R I NG UN I V E R S I T YA u g.2 0 2 3收稿日期:2 0 2 3-0 2-2 7基金项目:国家自然科学基金(6 1 8 0 6 2 1 9,6 1 7 0 3 4 2 6,6 1 8 7 6 1 8 9);陕西省自然科学基金(2 0 2 1 J M-2 2 6);陕西省高校科协青年人才托举计划(2 0 1 9 0 1 0 8,2 0 2 2 0 1 0 6);陕西省创新能力支撑

2、计划(2 0 2 0 K J X X-0 6 5)作者简介:黄 玮(1 9 9 9-),男,江西赣州人,硕士生,研究方向为网络空间安全、恶意代码检测。E-m a i l:h w_a f e u 1 6 3.c o m通信作者:王 坚(1 9 8 2-),男,陕西渭南人,副教授,研究方向为智能信息处理和恶意软件检测。E-m a i l:2 6 4 7 1 3 7 5q q.c o m引用格式:黄玮,王坚,吴暄,等.基于B i T C N-S A的恶意代码分类方法J.空军工程大学学报,2 0 2 3,2 4(4):7 7-8 4.HUAN G W e i,WAN G J i a n,WU X u

3、a n,e t a l.A M a l i c i o u s C o d e C l a s s i f i c a t i o n M e t h o d B a s e d o n B i T C N S AJ.J o u r n a l o f A i r F o r c e E n g i n e e r i n g U n i v e r s i t y,2 0 2 3,2 4(4):7 7-8 4.基于B i T C N-S A的恶意代码分类方法黄 玮,王 坚*,吴 暄,李思聪(空军工程大学防空反导学院,西安,7 1 0 0 5 1)摘要 当前恶意代码的对抗技术不断变化,恶意代码

4、变种层出不穷,使恶意代码分类问题面临严峻挑战。针对目前基于深度学习的恶意代码分类方法提取特征不足和准确率低的问题,提出了基于双向时域卷积网络(B i T C N)和自注意力机制(S e l f-A t t e n t i o n)的恶意代码分类方法(B i T C N-S A)。该方法融合恶意代码操作码特征和图像特征以展现不同的特征细节,增加特征多样性。构建B i T C N对融合特征进行处理,充分利用特征的前后依赖关系。引入自注意力机制对数据权值进行动态调整,进一步挖掘恶意代码内部数据间的关联性。在K a g g l e数据集上对模型进行验证,实验结果表明:该方法准确率可达9 9.7 5%,

5、具有较快的收敛速度和较低的误差。关键词 恶意代码分类;特征融合;双向时域卷积网络;自注意力机制D O I 1 0.3 9 6 9/j.i s s n.2 0 9 7-1 9 1 5.2 0 2 3.0 4.0 1 2中图分类号 T P 3 9 3.0 8 文献标志码 A 文章编号 2 0 9 7-1 9 1 5(2 0 2 3)0 4-0 0 7 7-0 8A M a l i c i o u s C o d e C l a s s i f i c a t i o n M e t h o d B a s e d o n B i T C N-S AHUANG W e i,WANG J i a n*

6、,WU X u a n,L I S i c o n g(A i r a n d M i s s i l e D e f e n s e S c h o o l,A i r F o r c e E n g i n e e r i n g U n i v e r s i t y,X ia n 7 1 0 0 5 1,C h i n a)A b s t r a c t A t p r e s e n t,t h e c o u n t e r m e a s u r e t e c h n o l o g y o f m a l i c i o u s c o d e i s c o n s t a

7、 n t l y c h a n g i n g,a n d n e w v a r i e t i e s o f m a l i c i o u s c o d e a r e e m e r g i n g i n e n d l e s s s t r e a m t o m a k e t h e c l a s s i f i c a t i o n o f m a l i c i o u s c o d e f a c e s e v e r e c h a l l e n g e s.A i m e d a t t h e p r o b l e m s t h a t f e

8、 a t u r e s e x t r a c t e d a r e i n s u f f i c i e n t a n d l o w i n a c c u r a c y b y u-s i n g c u r r e n t m a l i c i o u s c o d e c l a s s i f i c a t i o n m e t h o d s b a s e d o n d e e p l e a r n i n g,a m a l i c i o u s c o d e c l a s s i f i c a t i o n m e t h o d(B i T

9、 C N-S A)b a s e d o n b i-d i r e c t i o n a l t e m p o r a l c o n v o l u t i o n n e t w o r k(B i T C N)a n d s e l f a t t e n t i o n m e c h a n i s m i s p r o p o s e d.T h i s m e t h o d i s c o m b i n a t i o n o f o p c o d e f e a t u r e s w i t h i m a g e f e a t u r e s t o s h

10、 o w d i f f e r-e n t f e a t u r e d e t a i l s,i n c r e a s i n g f e a t u r e d i v e r s i t y.T h e B i T C N i s c o n s t r u c t e d t o p r o c e s s t h e f u s e d f e a t u r e s,m a k i n g f u l l u s e o f t h e p r e a n d p o s t d e p e n d e n c i e s o f t h e f e a t u r e s

11、.T h e s e l f a t t e n t i o n m e c h a n i s m i s i n t r o-d u c e d t o d y n a m i c a l l y a d j u s t t h e d a t a w e i g h t,f u r t h e r m i n i n g t h e c o r r e l a t i o n b e t w e e n t h e i n t e r n a l d a t a o f m a l i c i o u s c o d e.T h e m o d e l i s v e r i f i e

12、 d b y u s i n g t h e K a g g l e d a t a s e t.T h e r e s u l t s s h o w t h a t t h e a c c u r a c y o f t h i s m e t h o d c a n r e a c h 9 9.7 5%,a n d t h e m e t h o d i s f a s t a t c o n v e r g e n c e s p e e d,l o w i n e r r o r,a n d b e t t e r t h a n t h e o t h e r m o d e l

13、s.K e y w o r d s m a l i c i o u s c o d e c l a s s i f i c a t i o n;f e a t u r e f u s i o n;b i-d i r e c t i o n a l t e m p o r a l c o n v o l u t i o n n e t w o r k;s e l f a t t e n t i o n m e c h a n i s m 随着网络技术的不断发展,网络环境不断变化。国家互联网应急中心2 0 2 2年第2 4期网络安全信息与动态周报显示1,2 0 2 1上半年,捕获恶意程序样本数量约

14、 2 3 0 7 万个,均传播次数达5 8 2万余次,涉及恶意程序家族约2 0.8万个。随着恶意代码的肆虐,如何准确地对恶意代码进行分类已成为领域的研究热点。传统的静态分析方法基于标签和特征库2,在分析已知的恶意代码方面表现良好,然而对于未知恶意代码,并不能进行很好地分析,存在一定的局限性。由于恶意代码的种类和数量都在不断增加,恶意代码采用各种加壳、混淆等对抗技术不断变化,进化出了更具威胁性的变种,传统的恶意代码分类手段已经无法准确对此类恶意代码进行分类。为破解传统恶意代码分类中出现的问题,基于深度学习的恶意代码分类方式逐渐引起了广泛的重视。相较于传统方法,使用深度学习的方法能从大量训练样本中

15、学习数据的内在规律,自行挖掘数据内部更深层的依赖关系。因此基于深度学习的恶意代码分类方法可以表现出更高的准确率3。近年来,这一领域涌现出很多有意义的研究成果。文献4 提出了一种多尺度特征融合卷积神经网络,利用深度学习实现基于可视化的恶意软件有效分类,可以防御恶意软件变体和混淆恶意软件。文献5 提出了一种半监督方法,该方法集成了深度学习、特征工程、图像转换和处理技术,用于混淆恶意软件检测,准确率明显优于其它方法。文献6 提出了一种基于静态特征的恶意软件分类算法(m a l-w a r e c l a s s i f i c a t i o n w i t h S i mH a s h a n d

16、 C NN,MC-S C),该算法将反汇编后的恶意代码转换为基 于S i mH a s h的 灰 度 图 像,将 转 换 后 的 灰 度 图 输 入C NN中对恶意代码进行分类。无论样本是否均匀分布,MC S C均能有效对恶意软件进行分类。文献7 将半监督生成对抗网络与深度卷积学习网络相结合,构建半监督深度卷积生成对抗网络,对恶意代码进行识别与分类,取得良好效果。文献8 提出了一个混合的恶意代码分类框架,结合了静态和动态2种恶意代码分析方法,其中静态恶意代码可执行文件和动态进程内存转储文件通过填充空间的曲线转换为图像,从中提取视觉特征进行恶意代码分类,取得良好效果。文献9 通过使用W o r

17、d 2 V e c预训练策略来获得更紧凑的具有更少维度的向量,从而可以使参数更少和恶意软件特征表示更强。上述基于恶意代码可视化的方法能够实现恶意代码变种的分类,一定程度上解决了代码混淆问题。然而,以上文献使用的单一序列特征或单一图像特征,特征的多样性不足,特征提取能力有限。为了更好地表示恶意代码,挖掘恶意代码内部的特征信息,提高恶意代码特征提取能力和分类准确率,本文提出一种基于B i T C N S A的恶意代码分类方法,主要工作如下:1)利用n-g r a m方法提取O p C o d e操作码特征,并将恶意代码转换为灰度图,融合O p C o d e特征与图像特征以展现不同的细节特征,增加

18、特征多样性。2)基 于 时 域 卷 积 网 络(t e m p o r a l c o n v o l u t i o n n e t w o r k,T C N),构建双向时域卷积网络(b i d i r e c-t i o n a l t e m p o r a l c o n v o l u t i o n n e t w o r k,B i T C N)用于恶意代码分类,增强特征提取能力。3)提出了使用自注意力机制来捕捉数据内部的依赖关系,自适应地为数据分配不同的注意力权重,以提高模型分类能力。1 相关工作1.1 恶意代码特征提取恶意代码图像特征最早由NAT A R A J等人1 0提

19、出,主要思想是将恶意代码的二进制文件转换成灰度图,利用图像中的纹理特征,采用图像处理的方法对恶意代码进行处理。T o n y等人1 1在2 0 0 4年最先提出了基于B y t e-C o d e提取n-g r a m特征应用于恶意代码处理的想法。2 0 0 8年MO S KOV I T CH等 人1 2提 出 基 于O p C o d e提取n-g r a m特征的方法,比基于B y t e C o d e提取的n-g r a m特征更加有效。本文基于以上研究,充分将恶意代码的图像特征与在O p C o d e中提取的n-g r a m特征相结合,以混合特征作为双向时域卷积网络(B i T

20、C N)的特征,有效利用了恶意代码的不同尺度的特征信息。1.2 时域卷积网络T C N传统的卷积神经网络由于缺乏抓取长距离依赖信息的能力,一般不用于处理时序问题。但最近有研究表明,特定的卷积神经网络结构也可以有效对时序数据进行处理,这就是时域卷积网络。时域卷积网络(T C N),最早由B A I等人1 3于2 0 1 8年提出的,本质上是一种特殊的一维卷 积。T C N的网络结构在普通一维卷积的基础上添加了因果卷积和膨胀卷积,防止了信息从未来到现在的泄露,扩大了感受野,并使用了残差连接以增强模型的泛化性,在时间序列预测问题上拥有很好的表现。87空军工程大学学报2 0 2 3年相较于常用于时序问

21、题的循环神经网络,T C N可以对输入数据并行的处理,极大地提高了处理速度,在一些任务上甚至能超过循环神经网络相关模型。本文在T C N的基础上,构建双向时域卷积网络用于恶意代码分类。1.3 自注意力机制注意力机制最早在视觉领域提出,G o o g l e M i n等人1 4指出了卷积神经网络的弊端,并提出了视觉注意力机制,使注意力机制逐渐引起关注。B AH-D ANAU等人1 5提出将S e q 2 S e q+A t t e n t i o n模型应用于机器翻译,首次将注意力机制应用在自然语言处理领域。随后自注意力和多头注意力等变体机制不断出现1 6。自注意力机制作为注意力机制的一个变形

22、,它不依赖其它的外部信息,只依靠自身的输入数据信息进行训练,就可以获得输入数据内部不同数据单元的注意力权重,以此捕获数据内部间的依赖关系,进而突出数据内更加重要的特征信息。本文引入自注意力机制,充分利用注意力机制中的上下文学习能力,使每一个数据元对其它所有数据进行关注,深入挖掘数据间的依赖关系,从而提升恶意代码分类的准确度。2 模型概述本文设计的基于双向时域卷积网络(b i d i r e c t i o n a l t e m p o r a l c o n v o l u t i o n n e t w o r k,B i T C N)与自注意力机制(S e l f A t t e n t

23、 i o n)的恶意代码分类模型(B i T C N S A),包括输入层、双向时域卷积网络层、自注意力层、s o f t-m a x层和输出层,其结构如图1所示。图1 基于B i T C N S A的恶意代码分类模型2.1 数据预处理对数据处理的结果会直接影响到模型的最终结果,本文选择选取由微软公司提供的K a g g l e数据集作为实验数据,分别通过恶意代码反汇编文件提取其序列特征和图像特征,采用特征融合方法将两者结合。2.1.1 序列特征提取首先,先从所有的恶意代码反汇编文件中分别提取操作码序列。其次对提取的操作码序列进行去重操作,以去除操作码序列中含有的大量冗余,避免耗费大量的计算时

24、间。去重后的序列不仅保留了原有的序列信息,也更易于计算。再用n-g r a m方法提取去重后的操作码特征,在本文中,经过反复验证,选取n-g r a m的n=3。经过反复验证,最后在具体的特征选择上选取每个分类出现次数高于的5 0 0的作为最终特征。特征提取流程如图2所示。图2 n-g r a m特征提取2.1.2 图像特征提取将恶意代码反汇编文件转换成二进制流,从二进制数据中读入一个8位二进制数组成的向量,每个向量对应一个像素点,然后将向量的二进制值转换为十进制值,对应区间为0,2 5 5,其中0为黑色,2 5 5为白色,即可将恶意代码转换为灰度图。由于恶意代码为一维数据,若将其转换为二维图

25、像会影响原有的空间相关性,为了保留恶意代码原有的空间信息,因此不改变图像的维度,将恶意代码的转换为一维灰度图。图3为恶意代码生成灰度图过程。97第4期 黄玮,等:基于B i T C N-S A的恶意代码分类方法图3 恶意代码生成灰度图流程2.2 双向时域卷积网络T C N中的卷积网络具有可并行计算的特性,能够有效解决耗时过长的问题,已在多个领域证明比传统R NN甚 至 其 相 关 变 种 更 优。但 是 单 一 的T C N不能对从后到前的信息进行编码,导致无法学习当前特征项与后面特征项之间的关联。为解决上述问题,本文构建在T C N的基础上,保留了因果膨胀卷积和残差连接,通过因果膨胀卷积学习

26、数据的依赖关系,并使用残差连接消除有网络层数增加而导致的梯度消失问题。此外,一方面使用正向数据学习数据从前到后的依赖关系,另一方面通过逆向数据学习数据从后到前的依赖关系。最后通过将2个方向学习到的数据进行结合,从而获取正反两个传播方向间数据的依赖关系。2.2.1 残差连接在基于B i T C N S A的恶意代码分类模型中,整个双向时域卷积网络层由多个残差模块叠加而成,每个残差模块中包含了因果膨胀卷积,W e i g h t N o r m,激活函数R e l u和D r o p o u t 以及一个1 1的卷积。在每个残差块中,通过两因果膨胀卷积进行卷积操作。通过W e i g h t N

27、o r m进行权重归一化,规范化隐含层的输入,解决梯度消失问题。D r o p o u t的加入能够有效解决模型过拟合问题。残差连接公式可表示为:o=A c t i v a t i o n(x+F(x)(1)式中:x为输入;F为残差网络。通过残差连接,能有效防止梯度消失,使神经网络更加稳定。残差连接结构如图4所示。图4 残差连接结构2.2.2 因果卷积为解决传统卷积神经网络对于时序数据处理时存在的信息从未来到现在的泄露问题,采用一种特殊的卷积神经网络结构,即因果卷积。因果卷积是一种特殊的卷积神经网络,其原理是通过下一层t时刻的值和之前的值x1,x2,xt来计算上一层t时刻的值yt,使得yt接近

28、于实际值。其公式为:P x =P x =Tt=1P xtx1,x2,xt-1 (2)对于当前时刻的值,因果卷积只用当前时刻之前的数据进行计算,同时限制不会对未来的数据有依赖,避免了信息的泄露,具有严格的约束性。本文提出的基于B i T C N S A的恶意代码分类模型中的双向时域卷积网络层中,使用因果卷积,能有效解决时间序列数据中数据从未来对过去的泄露问题。因果膨胀卷积结构如图5所示。图5 因果膨胀卷积2.2.3 膨胀卷积为解决传统卷积神经网络不善于抓取时序数据长距离依赖信息的问题,采用膨胀卷积。膨胀卷积也叫空洞卷积,在传统卷积的基础上,膨胀卷积允许卷积时的输入数据间存在空格,即跳过部分输入使

29、卷积核可以获得更大的感受野。具体来说,对于大小为k的卷积核,空洞数为d,添加膨胀卷积的卷积核大小为k,其计算公式如下:k=k+k-1 d-1 (3)通常,随着网络层数的增加,d的大小也要成指数型增长。如此一来,就能够实现将膨胀卷积网络感受野进行扩张。08空军工程大学学报2 0 2 3年本文模型的因果膨胀卷积共设置4层,每层的空洞数d分别设为1、2、4、8,以更深模型层数、更多的空洞数来获取更高、更大的视野。2.3 自注意力机制本文引入自注意力机制以捕获数据间的依赖关系,挖掘深层次的特征关联性。首先将输入数据I与对应的权重矩阵相乘,转化得到查询向量Q,键向量K和值向量V,其中Q=WqI,K=Wk

30、I,V=WvI。再计算查询向量和键向量间的相关性A,并进行s o f t m a x归一化得到A,A 表示每个查询向量分别对每个项输入数据的注意力权重,其公式为:A=QKTdk(4)A=s o f t m a xA =e x pA nk=1e x pA (5)最后,将值向量V与A 相乘得到最终的输出O。其公式为O=A V完整的自注意力机制公式为:A t t e n t i o nQ,K,V =s o f t m a xQKTdk V(6)3 实验与分析3.1 数据集与实验环境本实验数据集选择的是微软于2 0 1 5年在数据竞赛平台K a g g l e公开的恶意代码数据集。该数据集中的恶意代码

31、共有1 0 8 6 8个样本,分为9个恶意代码家族,原始数据包含.a s m类型具有汇编语言代码的数据的文件以及二进制格式文件,没有P E标头。每个恶意软件文件都有一I D、一个唯一标识文件的2 0个字符哈希值和一个C l a s s。本文所有实验使用7 0%的数据集进行训练,3 0%的数据集进行测试。数据集如表1所示。表1 M i c r o s o f t M a l w a r e C l a s s i f i c a t i o n数据集家族名数量 类型 R a m n i t1 5 4 1 蠕虫 L o l l i p o p2 4 7 8 广告植入 K e l i h o s_v

32、 e r 13 9 8 后门 K e l i h o s_v e r 32 9 4 2 后门 V u n d o4 7 5 木马病毒 S i m d a4 2 后门 T r a c u r7 5 1 木马下载器 O b f u s c a t o r.A C Y1 2 2 8 混淆恶意代码 G a t a k1 0 1 3 后门 B i T C N S A模型及所做的所有实验均在K r e a s环境下完成,具体实验环境如表2所示。表2 实验环境配置实验环境具体配置 操作系统 W i n d o w s 1 1 C P U I n t e l(R)C o r e(TM)i 5 8 3 0 0

33、H C P U 2.3 0 GH z 2.3 0 GH z 内存 1 6 G B 硬盘 5 0 0 G B 显卡 NV I D I A G e F o r c e G T X 1 0 5 0 T i 开发框架 K e r a s 2.9.0/T e n s o r F l o w 2.9.1 开发语言 P y t h o n 3.1 03.2 评价标准实验评价选用了准确率A c c u r a c y、精确率P r e-c i s i o n、召回率R e c a l l和F 1值等4个指标。各项评价指标定义分别为:A c c u r a c y=T P+T NT P+T N+F P+F N(

34、7)P r e c i s i o n=T PT P+F P(8)R e c a l l=T PT P+F N(9)F 1=2P r e c i s i o n R e c a l lP r e c i s i o n+R e c a l(1 0)式中:T P表示对正样本的正确预测;F P 表示对正样本的错误预测;F N表示对负样本的错误预测;T N表示对负样本的正确预测。3.3 实验结果分析为了充分验证本文提出的基于B i T C N S A的恶意代码分类方法的有效性,现设置如下实验:实验1:基于B i T C N S A的恶意代码分类实验;实验2:单特征和多特征融合对比分析实验;实验3:n

35、-g r a m取值分析实验;实验4:本文模型与其它模型对比分析实验。其中,实验1分析本文模型的分类能力;实验2验证多特征融合方法的有效性;实验3分析n-g r a m方法提取特征时,n的取值的影响;实验4将本文模型与近年来其他模型进行对比,验证本文模型的有效性。3.3.1 基于B i T C N S A的恶意代码分类实验(实验1)图6显示了模型训练过程中训练集和测试集的性能随训练批次的变化,其中图6(a)是准确率随训练批次变化的曲线,图6(b)是损失率随训练批次变化的曲线。黄线代表测试集,蓝线代表训练集。可以看到,模型能够快速收敛收敛。经过训练和测试,该模型的准确率达到9 9.7 5%,损失

36、率为0.0 1 3 5。18第4期 黄玮,等:基于B i T C N-S A的恶意代码分类方法为了清楚地观察模型的分类细节,绘制了模型的混淆矩阵,如图7所示。混淆矩阵中的主对角线的值表示恶意软件家族分类的真阳性率,而其他值表示恶意软件家族分类的假阴性率。可以看出该模型在多个家族分类效果优秀,仅在个别家族上分类存在 误 差。实 验 结 果 表 明,该 模 型 的 准 确 率 为9 9.7 5%,精确率为9 9.6 6%,召回率为9 9.6 3%,F 1值为9 9.6 9%。(a)准确率(b)损失率图6 模型训练信息图7 模型混淆矩阵3.3.2 单特征和多特征融合对比分析实验(实验2)为了进一步提

37、高对数据信息的提取能力,本模型在数据处理时分别用n-g r a m方法提取操作码序列特征和恶意代码的灰度图特征,并将两者进行融合。为验证该方法的有效性,设置对比实验,将操作码序列特征、灰度图特征以及混合特征进行对比,结果如表3所示。从表中可以看出,混合特征的准确率、精确率、召回率和F 1值等4项评价指标比单独操作码特征分别提高了2.9 6%、2.4 1%、2.8 4%、2.8 1%,比单独图像特征分别提高了1 2.2 2%、4.6 6%、3 0.4 9%、2 5.3 0%。表3 单特征和多特征融合对比分析特征评价指标/%A c c u r a c yP r e c i s i o nR e c

38、 a l lF 1操作码9 6.7 99 7.2 59 6.7 99 6.8 8图像特征8 7.5 39 5.0 06 9.1 47 4.3 9操作码+图像特征9 9.7 59 9.6 69 9.6 39 9.6 9 实验结果表明:操作码+图像特征的混合特征的效果明显优于其中任何单个特征,对模型的效果提升明显,验证了方法的有效性。分析原因为:操作码序列特征和灰度图特征能够分别从不同尺度反映恶意代码的本质,将两者提取的特征相结合,能够丰富恶意代码的特征信息,产生互补作用,防止恶意代码混淆、加壳的影响,因此取得了更好的效果。3.3.3 n-g r a m取值分析实验(实验3)本模型数据在数据处理时

39、用n-g r a m算法提取了恶意代码中操作码的特征,其中n的取值对模型效果有直接影响。为获取n最佳的取值,设置其余条件相同,将n=2、3、4、5等4种不同的取值结果进行对比,实验结果如图8所示。从表中可以看出,相较于其他n-g r a m的取值,当n=3时模型的准确率高达9 9.7 5%,高于其它取值的准确率。当n取值高于3时,准确率逐渐降低。实验结果表明,n=4为n-g r a m的最佳取值。图8 n-g r a m不同取值对比3.3.4 本文模型与其它模型对比分析实验为进一步验证基于B i T C N S A恶意代码分类模28空军工程大学学报2 0 2 3年型的性能,现设置实验,将本模型

40、与近年来其它恶意代码分类型进行对比,结果如表4所示。从表4中可以看出,本文提出的基于B i T C N S A恶意代码分类模型准确率高达9 9.7 5%,在各项评价指标上均优于其它所有方法。验证了本文方法的有效性。表4 不同模型实验结果对比方法特征评价指标/%A c c u r a c yF 1-s c o r eP r e c i s i o nR e c a l l 1 D C NN I M I R1 7灰度图9 8.9 4 R S G C1 8操作码+灰度图9 8.9 0 文献1 9灰度图9 7.5 09 4.0 0 MC S C2 0灰度图9 8.8 69 8.0 7 O r t h

41、r u s2 1字节+操作码9 9.2 49 8.7 2 W o r d 2 V e c T C N9操作码+A P I9 7.5 09 7.5 09 7.6 09 7.5 0 本文模型操作码+灰度图9 9.7 59 9.6 99 9.6 69 9.6 34 结语本文提出了基于B i T C N S A的恶意代码分类方法,序列特征方面使用了n-g r a m提取O p C o d e操作码特征,图像方面使用一维图像而不是二维图像表示恶意代码特征,避免因为图像折叠带来的恶意代码图像特征中像素点之间不存在的局部相关性。将不同特征结合,从多角度利用恶意代码的特征信息。构建了双向时域卷积网络,使时域卷

42、积网络能够充分利用前后2个方向的数据信息。引入自注意力机制进 一 步 抓 取 数 据 内 部 的 依 赖 关 系。最 后 通 过s o f t m a x层对恶意代码进行分类。实验结果表明,B i T C N S A具有较高的准确率和收敛速度,验证了本文模型的可靠性,实现了提高准确率的恶意代码家族分类目标。参考文献1 国家互联网应急中心.2 0 2 2年第2 4期网络安全信息与动态 周 报 E B/O L.(2 0 2 2-0 6-1 4)2 0 2 2-0 7-0 1.h t t p s:/w ww.c e r t.o r g.c n/p u b l i s h/m a i n/4 6/i

43、n d e x.h t m l.2I R F AN A N,A R I F F I N A,MAHR I N M,e t a l.A M a l w a r e D e t e c t i o n F r a m e w o r k B a s e d o n F o r e n s i c a n d U n s u p e r v i s e d M a c h i n e L e a r n i n g M e t h o d o l o g i e sC/2 0 2 0 9 t h I n t e r n a t i o n a l C o n f e r e n c e o n S

44、o f t w a r e a n d C o m-p u t e r A p p l i c a t i o n s.S.l.:I C S C A,2 0 2 0:1 9 4-2 0 0.3张杨,郝江波.基于注意力机制和残差网络的恶意代码检测方法J.计算机应用,2 0 2 2,4 2(6):1 7 0 8-1 7 1 5.4WAN G S,WANG J,S ON G Y F,e t a l.M a l i c i o u s C o d e V a r i a n t I d e n t i f i c a t i o n B a s e d o n M u l t i s c a l e

45、F e a-t u r e F u s i o n C NN sJ.C o m p u t a t i o n a l I n t e l l i g e n c e a n d N e u r o s c i e n c e,2 0 2 1,2 0 2 1(1 3):1.5D A R EM A,A B AWA J Y J,MAKKA R A,e t a l.V i-s u a l i z a t i o n a n d D e e p-L e a r n i n g-B a s e d M a l w a r e V a r i a n t D e t e c t i o n U s i n

46、 g O p C o d e-L e v e l F e a t u r e sJ.F u t u r e G e n e r a t i o n C o m p u t e r S y s t e m s,2 0 2 1,1 2 5:3 1 4-3 2 3.6N I S,Q I AN Q,Z HAN G R.M a l w a r e I d e n t i f i c a t i o n U s i n g V i s u a l i z a t i o n I m a g e s a n d D e e p L e a r n i n gJ.C o m p u t e r s&S e c

47、 u r i t y,2 0 1 8,7 7:8 7 1-8 8 5.7王栋,杨珂,玄佳兴,韩雨桐,等.基于半监督生成对抗网络的恶意代码家族分类实现J.计算机工程与科学,2 0 2 2,4 4(5):8 2 6-8 3 3.8S HAO Y L,L U Y,WE I D,e t a l.M a l i c i o u s C o d e C l a s s i f i c a t i o n M e t h o d B a s e d o n D e e p R e s i d u a l N e t-w o r k a n d H y b r i d A t t e n t i o n M

48、e c h a n i s m f o r E d g e S e-c u r i t yJ.W i r e l e s s C o mm u n i c a t i o n s a n d M o b i l e C o m p u t i n g,2 0 2 2,2 0 2 2:3 3 0 1 7 1 8.9S UN J,L UO X,G AO H,e t a l.C a t e g o r i z i n g M a l-w a r e v i a A W o r d 2 V e c-B a s e d T e m p o r a l C o n v o l u t i o n a l

49、N e t w o r k S c h e m eJ.J o u r n a l o f C l o u d C o m p u t i n g A d v a n c e s S y s t e m s a n d A p p l i c a t i o n s,2 0 2 0,9(1):1-1 4.1 0NA TA R A J L,KA R TH I K E YAN S,J A C O B G,e t a l.M a l w a r e I m a g e s:V i s u a l i z a t i o n a n d A u t o m a t i c C l a s s i f i

50、 c a t i o nC/P r o c e e d i n g s o f t h e 8 t h I n t e r n a t i o n-a l S y m p o s i u m o n V i s u a l i z a t i o n f o r C y b e r S e c u r i t y.S.l.:A CM,2 0 1 1:1-7.1 1A B OU-A S S A L EH T,C E R C ON E N,K E S E L J V,e t a l.N-G r a m-B a s e d D e t e c t i o n o f N e w M a l i c

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服