收藏 分销(赏)

融合注意力与卷积的系统调用异常检测.pdf

上传人:自信****多点 文档编号:721099 上传时间:2024-02-22 格式:PDF 页数:9 大小:6.32MB
下载 相关 举报
融合注意力与卷积的系统调用异常检测.pdf_第1页
第1页 / 共9页
融合注意力与卷积的系统调用异常检测.pdf_第2页
第2页 / 共9页
融合注意力与卷积的系统调用异常检测.pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、Journal of InformationEngineeringUniversityAug.20232023年8 月Vol.24 No.4信息工程大学学报第2 4卷第4期D0I:10.3969/j.issn.1671-0673.2023.04.013融合注意力与卷积的系统调用异常检测陈仲磊,伊鹏,陈祥,胡涛(信息工程大学,河南郑州450 0 0 1)摘要:基于系统调用数据是实施主机异常检测的一种有效手段,然而现有检测技术无法有效应对混淆攻击。提出一种融合注意力与卷积的系统调用异常检测模型,能够同时关注到系统调用序列展现的进程全局行为与每一个时间窗口的局部行为。首先,设计了一种混淆攻击数据模拟

2、生成方法解决样本数据不平衡问题,提出基于进程行为特征的序列补齐方法增强系统调用语义特征;其次,融合注意力机制与一维权重卷积网络同时从系统调用序列的全局与局部提取数据特征;最后,基于单一变量原则和交叉验证方式获得最优异常检测模型,进而得到异常检测结果。与其他传统异常检测方法对比得出,所提模型具有更高的准确率(9 6.6%)和较低的误报率(1.9%),同时此模型具有抵抗混淆攻击的能力。关键词:一维权重卷积;系统调用;多头注意力;位置编码;异常检测中图分类号:TP309.1文献标识码:A文章编号:16 7 1-0 6 7 3(2 0 2 3)0 4-0 47 5-0 9Anomaly Detecti

3、on Based on System Calls Combining Attention and ConvolutionCHEN Zhonglei,YI Peng,CHEN Xiang,HU Tao(Information Engineering University,Zhengzhou 450001,China)Abstract:It is an effective method to implement host intrusion detection based on system calls that re-flect the most primitive and fine-grain

4、ed behavior information of host.However,existing detectiontechniques cannot effectively deal with obfuscation attacks.In this paper,an anomaly detection modelbased on system calls combining attention and convolution is proposed,which can pay attention toboth the global process behavior and the local

5、 behavior of each time window.First,a method for simu-lating and generating obfuscation attack data is designed to solve the problem of the data imbalance,and a sequence completion method based on process behavior characteristics is proposed to enhancethe semantic characteristics of system calls.The

6、n,the attention mechanism and one-dimensionalweighted convolution network are combined to simultaneously extract data features from the global andlocal aspect.Finally,based on the single variable principle and cross validation method,the optimalconstant detection model is obtained,and then the anoma

7、ly detection results are obtained.Comparedwith other traditional anomaly detection methods,the proposed model has higher accuracy(96.6%)and lower false positive rate(1.9%),and has the ability to resist obfuscation attacks.Key words:1D-Convolution;system calls;multi-head attention;positional encoding

8、;anomaly de-tection二十一世纪以来计算机领域飞速发展,网络空间安全事关民生福社和国家发展战略布局不容有失。国家计算机网络应急技术处理协调中心发布的互联网网络安全监测数据分析报告指收稿日期:2 0 2 2-0 7-2 5;修回日期:2 0 2 2-0 8-2 0基金项目:国家重点研发计划资助项目(2 0 19 YFB802505,2 0 2 0 YFB8 0 6 40 2)作者简介:陈仲磊(19 9 7-),男,硕士生,主要研究方向为人侵检测。20233年476信息工程大学学报出,2 0 2 1年上半年我国境内感染计算机恶意程序的主机数量为446 万台,同比增长46.8%,网络

9、安全形势日益严峻。异常检测技术作为一种有效的主动防御手段在网络安全威胁感知方面发挥重要作用,相比于传统的数据加密、防火墙等技术具有发现零日漏洞的优势,现已成为网络安全领域的研究热点系统调用函数是主机用户态与内核态的调用接口,系统调用轨迹序列是追踪程序调用系统调用函数产生的时间序列,可以认为是程序在计算机系统上的底层行为映射。通过对系统调用数据的处理和分析可对进程的敏感行为进行监控和预警,从程序行为层面实现对主机系统最底层、最基础和最核心的防护。基于系统调用的传统异常检测方法面临如下问题:数据处理方式复杂繁琐、识别准确率低、检测误报率高等。近年来越来越多的研究将深度学习网络应用于主机异常检测中,

10、事实证明两者的结合有效解决了传统方式带来的诸多弊端,为网络安全领域注人了新的活力。深度学习网络具有多个隐藏层,每个隐藏层具有多个参数,通过不断学习训练样本来更新网络模型参数可以实现对数据特征的自动提取以及完成各种分类任务。深度学习为基于系统调用的异常检测在各个方面提供助力:在特征提取方面,Word2Vec模型11为每一个系统调用分配了一个融合频率与语义特征的固定维度向量表示,相比于传统的n-grams、t f-i d f、词袋模型等方式,该表示方式在单纯的聚类模型上具有更好的表现;在模型训练方面,循环神经网络(RecurrentNeuralNetwork,RNN)2可以从时间维度抓取系统调用序

11、列的行为特征,这是隐马尔可夫模型、支持向量机(Sup-portVectorMachine,SVM)、决策树等传统模型无法具备的能力;在异常检测整体结构设计方面,利用深度学习自动提取数据特征大于异常检测系统降低整体结构的复杂程度。深度学习网络的应用同时也为系统调用的数据处理带来了新的问题:一是数据集中的数据不平衡问题,导致异常检测分类准确率降低;二是变长的系统调用序列与深度学习网络输人不匹配问题本文将带位置编码的注意力机制与一维权重卷积网络相融合应用于基于系统调用的异常检测中,首先将恶意轨迹序列数量进行扩充以解决数据不平衡问题,其次将系统调用序列进行补齐便于输人到深度学习网络中训练,最后使用已经

12、训练好的模型来识别进程异常行为。实验表明,本文所提出的异常检测模型检测准确率(9 6.6%)与误报率(1.9%)优于一般网络模型,且具有对混淆攻击的抵御能力。1相关工作受自然界免疫系统启发,文献3首次将系统调用序列用于Unix系统的异常检测,提出序列延时嵌人(Sequence TimeDelay Enbedding,STIDE)方法以获得系统调用序列的n-grams分词数据库。在检测阶段,通过在数据库中匹配样本序列的n-grams分词来判断样本序列中是否具有异常行为序列片段。该方法成功构建了单一进程的正常行为轮廓,证明了使用系统调用作为异常检测系统数据的可行性。此后,越来越多的研究专注于基于系

13、统调用的异常检测研究,并已经有了一些成果。在传统基于系统调用的异常检测研究中,研究人员往往使用贝叶斯分类器4、SVM5、极限学习机等机器学习模型来作为异常行为与正常行为的分类器。文献6 提出基于语义理论的系统调用异常检测方法。该方法在数据预处理阶段将系统调用序列基于语义理论分割成若干短序列并将高频出现的短序列作为语义单元保存在数据库中,在检测过程中每一个系统调用行为序列都被认为是语义单元的随机组合,以组合成序列的若干语义单元为特征作为极限学习机的输入数据,极限学习机输出异常检测分类结果。该方法在达到10 0%检测准确率的同时,误报率为2 0%,同时此方法在训练阶段花费了数周时间。文献7 提出基

14、于一套基于云环境的异常检测方案,其中使用具有有限记忆的逻辑回归算法作为异常检测判决模型,其优于一般的SVM模型。文献8 提出高级持续性威胁(A d v a n c e d Pe r s i s t e n t T h r e a t,A PT)攻击知识图谱构建框架,运用本体模型构建系统调用知识图谱来实现APT攻击识别。与传统的机器学习算法一样,深度学习算法在基于系统调用的异常检测领域同样应用广泛文献9 使用两个单层长短期记忆网络(LongShort-Term Memory,LST M)和一个双层LSTM作为基学习器构成了基于系统调用的Bagging集成第4期陈仲磊,等力与卷积的系统调用异常检测

15、477学习异常检测模型。该模型在ADFA、U NM、K D D数据集上达到了0.9 2 8 的面积曲线值(AreaUnderCurve,AUC),优于其他的异常检测系统调用模型。为改善循环神经网络从时间维度获取系统调用序列特征的长时记忆消失问题10 ,文献11在LSTM模型中添加注意力机制。先将系统调用数据作去穴余和切割处理以减小系统调用序列长度,然后在模型训练时增加重要系统调用的敏感度,这使得重要系统调用对模型的异常行为判断决策影响更大。该模型在测试集上达到了9 4.2%的检测准确率,优于一般的LSTM异常检测模型。值得一提的是,循环神经网络无法使用图形单元(Graphics Process

16、ing Unit,GPU)来加速模型训练,因此其训练时间一般远超过其他模型。文献2 运用训练速度相对较快的门控循环单元结合卷积网络来作为系统调用异常检测分类模型,在改善以往使用循环神经网络训练时间过长问题的同时对检测准确率稍有提升。文献12 使用LSTM提取系统调用序列时间特征,随后将其输入到Transfomer编码器中以期望模型获取到对于整个系统调用序列的权重信息。此模型虽有效提高了准确率,但是其在原LSTM上增加大量参数,性价比不高。文献13 将系统调用序列用图表示并将其与多个其余特征融合在一起,使用3层全连接网络作为异常分类器。该模型中系统调用序列与图的结合有效提高了异常检测模型的全局特

17、征捕获能力。文献14 使用LSTM预测模型构建系统调用序列正常行为轮廓,所提出模型在容器异常检测中达到较高准确率。除循环神经网络外,文献15 将系统调用序列转为二维形式,使用二维卷积网络提取序列特征。通过上述分析可知,深度学习网络在系统调用异常检测技术中的应用有助于提高异常行为的检测准确率,使用深度学习网络自动提取特征大大减小在数据预处理阶段的工作量。本文提出融合注意力与卷积的系统调用异常检测,在数据预处理阶段使用基于混淆攻击一般规律的数据扩充方式扩充数据并将数据补齐,在模型训练阶段利用注意力机制从全局抓取系统调用序列整体特征,利用卷积网络从局部抓取系统调用短序列语义特征,有效提升了系统调用序

18、列异常行为的检测准确率,同时对于混淆攻击具有防御能力。2融合注意力与卷积的系统调用异常检测总框架为抵御针对系统调用数据的混淆攻击,增强系统调用异常检测效果,本文提出融合注意力与卷积的异常检测模型。模型整体流程如图1所示,主要包括数据预处理、特征选择、异常决策3个部分。在数据预处理阶段,需先将原始数据集中的恶意序列进行扩充,然后将系统调用序列补齐以便深度学习网络抓取数据特征。在特征选择过程中,将使用Word2Vec向量嵌人的系统调用序列使用多头自注意力机制与一维权重卷积网络同时抓取全局与局部特征。将抓取的数据特征依次输人到池化层、全连接层与SoftMax层做出异常决策。混清攻击模拟RawData

19、j序列数据补齐数据生成特征选择Multi-headPositionAttentionEmbeddingWord2VecEmbeddingConv*3异常决策PoolingDenceSoftMaxResult图1融合注意力与卷积的异常检测总体流程3数据预处理3.1混淆攻击数据模拟生成方法混淆是长时期网络攻防中演进出来的概念,其目的是使得对手对于已方攻击手段或者防御手段难以察觉。应用混技术来绕过人侵检测系统已经成为目前黑客攻击的常规手段16 。目前对于系统调用异常检测的混淆攻击,主要有以下两个方面:一是直接针对系统调用轨迹序列的更改操作,即在正常攻击流程中调用大量无关系统调用进行混淆或将易被入侵检

20、测系统捕获的系统调用组合替换为同样功能的常规系统调用组合;二是通过网络人侵攻击修改或新增主机系统调用函数,使得攻击产生的系统调用序列与其对应的程序行为出现较大偏差。本文提出混淆攻击数据模拟生成方法,使得生成的恶意样本与混淆攻击产生的系统调用序列具有相似特性,从而为模型增加对混淆攻击的天然抵抗力20233年478信息工程大学学报基于混淆攻击一般规律,提出如图2 所示3种混淆攻击数据模拟方法:1)通过在数据集恶意样本中加人大量正常轨迹序列片段生成混淆攻击模拟序列;2)通过将数据集恶意样本轨迹随机抽取片段替换为正常序列片段来生成混淆攻击模拟序列;3)通过在恶意样本轨迹中将部分系统调用序列替换或增加未

21、曾出现的系统调用生成混淆攻击模拟序列。通过混淆攻击模拟数据生成方法扩充原数据集恶意样本,解决数据不平衡问题,并使得新生成的数据集中恶意样本具有混淆攻击特征。Abnormal Seq:12,22,32,12,43,44,22,.方式一:原异常序列插人正常序列片段Samplel:12,22,22,33,22,33,32.12,43,44,22.方式一:原异常序列删除部分序列片段Sample2:12,22,32,N2,3,44,22.方式:原异常序列中部分片段与正常序列片段替换Sample3:12,22,22,33,22,33,44,22,.图2 淘混淆攻击数据模拟生成方法3.2基于程序行为特征的数

22、据补齐方式计算机系统在运行程序文件时具有共性。在Windows操作系统上,当一个程序文件被打开并执行时会首先调用“NtOpenKeyEx”、“Nt Q u e r y Va l-ueKey等函数频繁查询注册表,而在程序结束的时候会调用“NtClose”函数。同样的,在类似于Linux的宏内核操作系统上,不同程序运行时仍在系统调用追踪轨迹上存在共性。Linux系统程序执行往往是从调用“execve函数开始的,而以调用exit函数作为结束。程序行为的一般规律是程序在操作系统上执行的开始阶段与结束阶段具有类似的行为轨迹,而恶意行为可能会发生在任意时段。基于此,本文提出基于程序行为特征的数据补齐方法。

23、通过对实际抓取的程序运行时的系统调用追踪序列分段验证,基于大量数据测试的经验总结可以认为程序运行时前1/5时刻为开始阶段,后1/5时刻为程序结束阶段,中间则为程序工作阶段。本文所提数据补齐方式如图3所示,其中maxlen=axl+b,在数据补齐时仍将程序系统调用序列的开始阶段与结束阶段仍保留在序列开头和结尾位置,在中间部分填充完整系统调用序列与程序工作阶段序列将原长度为1的序列补足为数据集中系统调用序列最长长度maxlen。ST.SusS,.,St.Sus+ISSS,15+h4L/5+1a个Seqbseqmaxlen图3基于进程行为特征的数据补齐方式4融合注意力与卷积的网络模型本文所提出应用于

24、系统调用序列特征获取的网络模型如图4所示。首先,将已经补齐过后的系统调用序列用已训练的Word2Vec向量嵌人,经过嵌人长为maxlen的系统调用序列变为maxlenn的矩阵;其次,采用分支结构分别从全局和局部两个方面来获取系统调用语义特征,融合特征向量输入到最大池化层以防止模型过拟合;最后,经过平滑层、全连接层与Softmax层得到分类结果outSoftmaxDenceFlattenpoolingconcatenateSelfAttentionConvConvConvPositionEmbeddingConvolutionEmbeddingOOInput图4融合注意力与卷积的网络模型4.1W

25、ord2Vec词向量嵌入本文使用CBOW模型得到系统调用序列的词嵌人矩阵,CBOW语言模型是利用上下文预测中心词的语言模型,其结构如下所示。上下文系统调用独热编码作为模型的输人,需要预测的系统调用作为输出,设上下文长度为C,系统调用函数个数为n,网络模型的数学表达式为C1hX,Wo(1)CUXni=1u,=g(h,Wl(2)nnXu采用负采样算法生成上下文系统调用与其对应的正例与负例,损失函数应尽可能让正例对应概6陈仲磊,等意力与卷积的系统调用异常检测第4期479率尽量大而负例对应概率尽量小,如式(3)所示:E=-log g(vh)-log(-vu,h)(3)wjeWneg式中:w。代表正例;

26、w,代表反例;W代表反例的集e合,h是隐藏层的输出矩阵;使用随机下降法进行梯度更新,模型训练完成后的Wox,即为系统调用序列的嵌人矩阵,n则为嵌人后的系统调用向量维度4.2三角函数位置编码与自注意力机制系统调用序列对于位置信息是十分敏感的,输人的系统调用序列经Word2Vec词嵌人后包含上下文信息与频率信息,但并不具有位置信息。因此在使用多头注意力机制前加入位置编码17 是十分必要的,此处可以参考Bert模型18 。融合了三角函数位置编码的多头自注意力机制使得网络模型能够区分在不同时间调用的系统调用函数,这对于分析代表程序行为的系统调用轨迹序列是十分重要的。三角函数位置编码表示公式如下:(Pk

27、,2;=sin(k/10 0002/d)(4)(p k.2i+1=cos(k/10 0002/d)式中:Pk.2/、Pk.2 i+1是系统调用序列第k个调用嵌人向量的第2 i、2 i+1个分量;d是位置向量的维度,在本文中等于嵌人向量的维度n。经过三角函数位置编码的系统调用矩阵形状未发生改变,但是每一个系统调用序列的向量表示与其所在位置具有相关性,可以反映系统调用序列时间上的先后程度。使用多头自注意力机制从全局抓取系统调用特征,其结构如图5所示InputcayerWO.vxmOutputHiddenLayerLayer0000.00O0:O:00WovxnWInxVn-dim00:00:00-

28、dimWoVXCxv-dim图5CBOW语言模型示意图首先将系统调用序列矩阵分为h个头即X=E,E2,Eh(5)将每个头进行投影得到Q、K、V向量,即Q,=E,W.,K,=E,Wk,V,-E,W然后计算每个头的自注意力,如下所示:QKTAttention(Q,K,V)=softmax(7)h,=Attention(Q;,K,V,)(8)这其中每个头的参数不共享,但是随着迭代同时更新,这使得模型能够从多个维度抓取系统调用序列特征。最后多头注意力层输出如下:MultiHead(Q,K,V)=Concat(h,hh)wo(9)式中,W均表示模型中需要更新的参数矩阵。如果抛开激活函数softmax的影

29、响的话,可以将每个头的注意力其看为3个形状为nxdk、d,x m、mx d,的矩阵相乘,得到一个nd,的矩阵。即将 nxd,的查询矩阵Q编码成了一个新的添加权重的nxd,的矩阵。如图6 所示,系统调用序列经Word2Vec嵌人后变为二维的系统调用序列矩阵,经三角函数位置嵌人层添加位置信息后计算多头注意力权重。其中,h表示矩阵分成的一个维度,在本文中将经过位置编码的系统调用矩阵分为8 个维度。值得注意的是,位置编码层与多头自注意力层均不会改变经过嵌人的系统调用矩阵形状,它们只是在原来矩阵的基础上更新了每一个系统调用向量的权重,使其能够抓取系统调用序列全局特征。一.nheadnhead,headP

30、ositionembeddingSystemcallsmatrix图6多头自注意力示意图4.3添加权重的一维卷积融合网络本文使用添加首尾权重的一维卷积融合网络抓取系统调用序列局部特征。其网络结构示20233年480程大学学报信息意图如图7 所示:形状为maxlenn的系统调用序列矩阵先与一个首尾权重因子相乘,然后分别与宽度为3、5、7 的卷积核进行一维卷积运算得到3个维度的序列局部特征,最后通过合并操作将从3个局部序列特征进行融合得到形状为maxlen150的系统调用序列特征矩阵。一维卷积19 是卷积网络在序列数据上的应用。在一维卷积的操作过程中,首先选取和卷积核同样形状的窗口,然后以固定步长

31、滑动窗口,窗口每一次滑动所截取矩阵将与卷积核作相乘求和操作并保留计算结果,一维卷积的通道数代表该维度的卷积核数量,将每个卷积核与原系统调用序列矩阵的卷积结果拼接得到一维卷积特征矩阵。一般的一维卷积网络对于序列的首尾与中间部分并无权重分配,仅仅采取类似n-grams的滑动窗口操作,这与一般进程的行为特征不符合。本文提出在添加首尾权重的一维卷积融合网络,在利用融合卷积网络抓取系统调用序列局部特征时,使用首尾权重因子对原序列进行权重分配,同时也为系统调用序列矩阵添加位置信息。其中权重因子如下式所示。其中k表示对应序列的行数,首尾权重因子将系统调用序列前后1/3增加权重,且位置越靠近首尾,权重增加幅度

32、越大。;=0.5+cos(k/maxlen)(10)将权重因子带人融合卷积网络,如下式所示,使得添加首尾权重的一维卷积融合网络具有更强的系统调用序列局部行为特征抓取能力f(x)=(X,x)(W,W2,W,)+b(11)filter=3,MaxlenxnChannels=50filter=5,XconcatChannels=50filter=7,SystemcallsmatrixChannels=50Featuremap图7融合卷积示意图5实验与异常检测效果分析5.1实验设置5.1.1实验环境实验在win10环境下进行,使用tensorflow2.4版本,GPU型号为11GB内存的RTX2080

33、-TI。实验使用ADFA-LD数据集,总共包含52 0 5条正常序列轨迹和7 46 条恶意轨迹序列,经扩充后,恶意轨迹序列数据经混淆攻击模拟扩充为原来的4倍,一共有2 9 8 4条恶意轨迹序列。本实验中随机抽取2 0 0 条原恶意轨迹序列和6 0 0 条弱特征恶意轨迹序列作为测试集,其余设置为训练集,具体设置表1所示。表1抗混淆攻击数据扩充后的数据集单位:条数据集经扩充的恶意原恶意正常轨迹样本轨迹样本轨迹样本训练集1.7385464.405测试集6002008005.1.2超参数设置对ADFA-LD数据集统计发现,最长系统调用序列长度为30 16,故所有数据的补齐长度为3016。在transf

34、ormer模型的训练过程中嵌人层输出维度为12 8,多头自注意力分为8 个头,每个头的输出维度为16。在融合卷积中使用3、5、7 的卷积核,步长均设为1,通道数设为50。使用参数为20的最大池化层和参数为0.5的dropout层防止过拟合。由于系统调用序列长度过长导致内存不足错误故batchsize设置为4。模型采用Adam优化器,学习率设置为10-5。另外,在平滑层后添加了参数为0.5的dropout层以防止模型过拟合,由于多头自注意力层对CPU内存要求较大故batchsize设定为4。5.2模型效果检测评估为了评估本文所提出模型的检测效果,对比了其余3个基于系统调用的入侵检测网络模型,分别

35、是LSTM、Bi-LST M 以及SVM模型。481陈仲磊,等意力与卷积的系统调用异常检测第4期LSTM模型在RNN基础上解决了长序列训练过程中梯度消失和梯度爆炸问题,系统调用序列数据可以被认为是超长时间序列,两者具有相当的匹配性,LSTM模型也是一直以来用于人侵检测的经典模型。本实验中LSTM模型使用两个LSTM层抓取系统调用语义信息,循环单元设为50,同样采用了增强语义的数据补齐方法。在Bi-LSTM模型中,模型的输出被传人到一个向前的LSTM网络核向后的LSTM网络,它们得到的输出增加了对后时刻输入的关联性。在本实验中为与LSTM模型使用的循环网络层数设计一致,采用单层设计,输出单元为5

36、0。SVM模型是经典的机器学习模型,与其余对比模型不同的是,为了让SVM模型具有可观的人侵检测性能,在数据预处理时使用tf-idf方式提取特征并对特征向量进行归一化,选取了高斯核作为核函数。为验证本文所提出模型的检测效果,在原数据集上进行模型效果评估测试,其检测结果如表2 与图8 所示。实验表明,融合一维权重卷积与注意力机制的人侵检测模型表现优异,在对比实验中其准确率、召回率、精确率、F1值以及漏报率上均达到了最优。在ROC曲线中,其AUC值为0.9 8 7 8,同样达到了对比模型中的最优。表2原数据集下的模型异常检测效果模型准确率召回率精确率F1值漏报率Conv+Att0.9520.9400

37、.9640.9500.035BiLSTM0.9170.9000.9320.9160.060SVM0.9100.9100.9100.9100.090LSTM0.9150.9000.9270.9130.0721.00.80.60.4one-conv+attention(area=0.97237)0.2bilstm(area=0.95885)svm(area=0.95717)Istm(area=0.95485)0.00.00.20.40.60.81.0误报率图:原数据集下各模型的ROC曲线使用经过扩充的ADFA-LD数据集来验证模型效果,其结果如表3与图9 所示。实验表明抗混淆攻击的数据扩充方式解决

38、了原来数据集的数据不平衡问题,同样的网络模型在经扩充的数据集上训练其检测结果更佳。同时在横向比较中本文所提模型仍然表现优异,在准确率、精确率、F1_score、误报率上均达到了最优。在ROC曲线中本文所提出模型在经过扩充的数据集上达到了0.9 9 39 4的AUC值。表3抗混淆扩充数据集下的异常检测效果模型准确率召回率精确率F1值漏报率Conv+Att0.9660.9500.9800.9650.019BiLSTM0.9500.9510.9460.9500.053SVM0.9160.9320.9030.9170.096LSTM0.9620.9430.9750.9610.0241.00.80.6o

39、ne-conv+attention(area=0.99394)bilstm(area=0.98727)0.4svm(area=0.96939)1stm(area=0.98756)0.20.00.20.40.60.81.0误报率图9扩充数据集下各模型的ROC曲线5.3对于混淆攻击的防御能力评估为基于混淆攻击的数据扩充方法对基于系统调用的入侵检测模型是否具有攻击能力,同时也进一步验证本文所提出模型对混淆攻击的防御能力。本文在未经过扩充的数据集上训练了4个模型,同时在经过扩充的数据集上进行测试,实验结果如表4与图10 所示。实验表明,混淆攻击模拟扩充算法确实对模型产生了较大影响,所有模型在测试经过扩

40、充的数据集时均产生了较大的性能下降,其中LSTM模型与BiLSTM模型性能下降最为明显,其准确率下降了12%。同时,对SVM模型的影响效果最小,其准确率仅仅下降了6%。本文所提模型在准确率上相比于在原未经扩充的数据集上的测试结果下降了8%,尽管如此,其各项指标仍然在对比模型中达到了最优,具备可信任的人侵检测能力。20233年482程大学学报信息表4未扩充的训练集与经扩充测试集上的异常检测效果模型准确率召回率精确率F1值误报率Conv+Att0.8770.9120.8500.8820.149BiLSTM0.7920.8970.7440.8120.257SVM0.8580.9140.8220.86

41、50.170LSTM0.7930.9560.7230.8220.2701.00.80.60.4one-conv+attention(area=0.95167)bilstm(area=0.92197)0.2svm(area=0.92386)lstm(area=0.81914)0.00.00.20.40.60.81.0误报率图10未扩充的训练集与经扩充测试集下各模型的ROC曲线6结束语基于系统调用数据的入侵检测模型往往使用循环神经网络,而在面对过长序列时循环神经网络具有记忆消失问题,同时循环神经网络的性质决定了它不能使用GPU并行加速。本文所提模型融合一维卷积与自注意力机制,从全局与局部两个方面获

42、取系统调用数据的语义信息。为解决数据集数据不平衡问题,同时也为了解决混淆攻击所引起的模型失效问题,本文提出混淆攻击数据模拟方法,用此方法扩充数据集不仅提升了模型的泛化能力,同时也使得模型增加了对于混淆攻击的抵御能力。为了使得变长系统调用序列能够输入到深度学习网络中,提出基于程序行为特征的数据补齐方法。实验表明,本文所提出的融合一维卷积与注意力机制的异常检测模型检测效果优于现有的异常检测模型,同时具有抵抗混淆攻击的能力。参考文献:1李橙,罗森林.基于系统调用行为相似性聚类的主机人侵检测方法研究J.信息安全研究,2 0 2 1,7(9):8 2 8-835.2 CHAWLA A,LEE B,FAL

43、LON S,et al.Host based intru-sion detection system with combined CNN/RNN modelC/ECML PKDD 2018 Workshops.Cham:Springer,2019:149-158.3 FORREST S,HOFMEYR S A,SOMAYAJI A,et al.Asense of self for UNIX processes C/Proceedings 1996IEEE Symposium on Security and Privacy.Oakland,CA,USA:IEEE,1996:120-128.4 K

44、OUCHAM O,RACHIDI T,ASSEM N.Host intrusion de-tection using system call argument-based clustering com-bined with bayesian classification C/2015 SAI Intelli-gent Systems Conference(IntelliSys).London,UK:IEEE,2015:1010-1016.5 KHREICH W,KHOSRAVIFAR B,HAMOU-LHADJ A,etal.An anomaly detection system based

45、on variable n-gramfeatures and one-class SVM J.Information and SoftwareTechnology,2017,91:186-197.6 CREECH G,HU J K.A semantic approach to host-basedintrusion detection systems using contiguousand discontig-uous system call patterns J.IEEE Transactions on Com-puters,2014,63(4):807-819.7 LIU M,XUE Z,

46、HE X J,et al.SCADS:a scalable approachusing spark in cloud for host-based intrusion detectionsystem with system callsDB/0L.(2021-09-24)2022-03-10J.https:/arxiv.org/abs/2109.11821v1.8 HAN W J,XUE J F,WANG Y,et al.APTMallnsight:i-dentify and cognize APT malware based on system call in-formation and on

47、tology knowledge framework J.Informa-tion Sciences,2021,546:633-664.9 KIM G,YI H,LEE J,et al.LSTM-based system-call lan-guage modeling and robust ensemble method for designinghost-based intrusion detection systems DB/OL.(2016-11-16)2 0 2 2-0 3-10 .h t t p s:/a r x i v.o r g/a b s/16 11.01726.10KHAND

48、ELWAL U,HE H,QI P,et al.Sharp nearby,fuzzy far away:how neural language models use context C/Proceedings of the 56th Annual Meeting of theAssociation for Computational Linguistics(Volume l:Long Papers).Melbourne,Australia:Association forComputational Linguistics,2018:284-294.11 XIE W Q,XU S W,ZOU S

49、H,et al.A system-call behav-ior language system for malware detection using a sensi-tivity-based LSTM model C/Proceedings of the 3rdInternational Conference on Computer Science and Soft-ware Engineering.Beijing,China:Association for Compu-ting Machinery,2020:112-118.12 CUAN Y,EZZATI-JIVAN N.Malware

50、system calls de-tection using hybrid system C/2021 IEEE Interna-tional Systems Conference(Sy s Co n).Va n c o u v e r,BC,Canada:IEEE,2021:1-8.13 MORA-GIMENO F J,MORA-MORA H,VOLCKAERT(编辑:高明霞)上接第453页)(编辑:高明霞)第4期陈仲磊,等意力与卷积的系统调用异常检测483B,et al.Intrusion detection system based on integratedsystem calls gr

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服