收藏 分销(赏)

基于改进变分自动编码器的入侵检测模型构建及仿真.pdf

上传人:自信****多点 文档编号:634400 上传时间:2024-01-19 格式:PDF 页数:8 大小:1.78MB
下载 相关 举报
基于改进变分自动编码器的入侵检测模型构建及仿真.pdf_第1页
第1页 / 共8页
基于改进变分自动编码器的入侵检测模型构建及仿真.pdf_第2页
第2页 / 共8页
基于改进变分自动编码器的入侵检测模型构建及仿真.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 35 卷 第 2 期2023 年 6 月河南工程学院学报(自然科学版)JOURNAL OF HENAN UNIVERSITY OF ENGINEERING(NATURAL SCIENCE EDITION)Vol.35,No.2Jun.2023 基于改进变分自动编码器的入侵检测模型构建及仿真 曹春梅(合肥幼儿师范高等专科学校 信息技术中心,安徽 合肥 230013)摘 要:针对现有网络流量入侵检测查准率低的问题,提出了一种基于改进变分自动编码器的入侵检测方法,先在变分自动编码器上增加判别器实现网络流量的入侵检测,之后在 CICIDS2017 数据集上对所提方法进行验证。结果表明,所提方法对正

2、常流量与异常流量检测的平均查准率、召回率、F1 值均达到 87%以上,且平均 AUC 值达 90%。相较于 CE-SAE 模型和传统变分自动编码器,所提方法在各项指标上的表现更好,具有明显优势。关键词:网络安全;入侵检测;生成对抗网络;变分自动编码器;查准率 中图分类号:TP399 文献标志码:A 文章编号:1674-330X(2023)02-0063-07Construction and simulation of intrusion detection model based on improved COD-VAE modelCAO Chunmei(Information Technolo

3、gy Center,Hefei Preschool Teachers College,Hefei 230013,China)Abstract:Aiming at the problem of low accuracy of intrusion detection in existing network traffic,an intrusion detection method based on improved COD-VAE model is proposed.Methods by adding a discriminator to the COD-VAE model and using t

4、he GAN network confrontation learning method to build the model,the network traffic intrusion detection is realized.Finally,the proposed method is verified on CICIDS2017 data set.The results show that the proposed intrusion detection method based on the improved COD-VAE model has good detection perf

5、ormance.The average precision,recall and F1 value of normal and abnormal traffic are more than 87%,and the average AUC value is 90%.Compared with CE-SAE model and traditional COD-VAE model,the proposed method performs better in various indicators and has obvious advantages.Keywords:network security;

6、intrusion detection;generate confrontation network;COD-VAE model;precision ratio收稿日期:2022-07-19基金项目:安徽省高等学校省级质量工程项目(2021zyyh034)作者简介:曹春梅(1984),女,安徽合肥人,讲师,主要研究方向为计算机技术。对网络流量进行入侵检测是确保网络安全的重要手段,正日益受到人们的关注。为实现异常流量的检测,王文涛等1提出一种特征选择结合 SAE-LSTM 的入侵检测模型,通过随机森林打分策略与聚类思想选择特征以降低算法的计算量,同时采用稀疏自动编码器对数据进行重构,利用 LST

7、M 卷积网络实现网络流量的异常检测;任家东等2通过计算网络流量特征的皮尔逊相关系数对特征进行筛选,采用随机森林和决策树算法分别对网络流量进行分类,实现了工业互联网的入侵检测;朱龙隆等3根据网络流量入侵时服务器缺乏鲁棒性的特点,提出了一种基于拟态防御的网络流量入侵检测方法,并基于真实流量数据对所提方法进行了验证,结果表明该方法具有较高的查准率。目前网络流量入侵检测研究积累了丰硕的成果,但普遍认为检测的查准率有待提高,原因是现有方法对正常网络流量的空间分布学习能力有限4。为提升网络流量入侵检测的查准率,本研究提出了一种基于改进变分自动编码器的入侵检测方法。1 1 基本算法1.1 变分自动编码器变分

8、自动编码器采用概率分布构建由一个编码器和一个解码器构成的自编码器网络,其基本网络结构河南工程学院学报(自然科学版)2023 年如表 1 所示。编码器负责从概率角度对输入数据集的多维度均值和方差进行拟合,进而求解数据集的后验概率分布 q(z|x),解码器负责基于变分近似分布 p(x|z)还原输入数据集 x。其中,、为参数,z 表示隐藏层空间向量,即隐藏层维度。表 1 变分自动编码器网络结构Tab.1 Network structure of variational automatic encoder层输出形状 激活函数步幅填充卷积核Encoder Layer(None,80,1)Noneconv

9、ld_l(None,40,32)RelucSame(32,3)convld_2(None,20,64)RelucSame(64,3)flatten(None,1 280)Noneencoded_hidden(None,16)Reluz_mean(None,2)Nonez_log_var(None,2)Nonesampling(None,2)NoneDecoder Layer(None,2)Nonedecoded_hidden(None,1 280)Relureshape(None,20,64)Noneconvld_transpose_1(None,40,64)Relu2Same(64,3)co

10、nvld_transpose_2(None,80,32)Relu2Same(32,3)convld_transpose_3(None,80,1)Relu1Same(1,3)变分自动编码器通过重构误差和 KL 散度误差进行参数的迭代更新,达到模型训练的目的5。重构误差反映了输入数据集 x 与重构数据集x 的相似性,数学描述见式(1);KL 散度误差即利用 KL 散度反映生成正态分布与标准正态分布的离散程度,可通过式(2)描述6:J(;x;x)=12hW,b(x)-x2,(1)KL(N(,2)N(0,1)=12(-lg 2+2+2-1)。(2)训练变分自动编码器的解码器时,适当降低 KL 散度误差

11、,有利于模型更快达到训练目的。解码器训练完成后,适当增加 KL 散度误差,可避免模型过拟合。变分自动编码器可通过一维卷积计算网络流量序列化特征,并利用后验概率学习正常流量特征,进而实现对网络异常流量的检测,但其检测性能有待提高7。为解决该问题,在变分自动编码器基础上采用GAN 生成对抗思想,通过生成器和判别器对抗的方式构建入侵检测模型,以更好地学习正常网络流量空间分布,区分正常流量与异常流量,提高模型的入侵检测能力。图 1 GAN 结构Fig.1 GAN structure1.2 生成式对抗网络生成式对抗网络(generative adversarial networks,GAN)是一种基于对

12、抗学习的无监督生成模型,相较于传统监督学习模型,GAN 直接通过判别器反馈结果,无须通过标签数据计算损失,故具有更好的判别效果。GAN 由生成器和判别器组成8,如图 1 所示。生成器负责将输入的随机噪声生成假数据,判别器则负责对生成器生成的假数据和真实数据进行判别,并输出判别结果。生成器的训练通过判别器的误差反向传播到生成器更新参数实现,判别器的训练则根据生成器更新参数后生成的假数据及真实数据更新参数实现。设GAN生成器G通过先验分布Pz(z)生成的假数据特征分布为 Pg,判别器 D 输出的真实数据概率为46第 2 期曹春梅:基于改进变分自动编码器的入侵检测模型构建及仿真D(x;d),则 GA

13、N 的目标函数9可表示为minGmaxD V(D,G)=Ex Pdata(x)lg D(x)+Ez Pz(z)lg(1-D(G(z),(3)式中:Pdata(x)表示真实数据分布;lg D(x)表示判别器对真实数据的判别结果;lg(1-D(G(z)表示判别器对假数据的判断结果。利用 GAN 生成对抗思想改进变分自动编码器,得到改进后的变分自动编码器网络结构,如表 2 所示。表 2 改进变分自动编码器网络结构Tab.2 Network structure of improved variational automatic encoderGAN层输出形状 激活函数步幅填充生成器Encoder_1(

14、None,2,6)Relu2SameDecoder(None,80,1)ReluSameEncoder_2(None,2,6)Relu2Same判别器Encoder(None,2,1)Leaky Relu0ValidActivation(None,2,1)Sigmoid2 2 基于改进变分自动编码器的入侵检测2.1 改进变分自动编码器构建改进变分自动编码器的构建包括特征工程、异常得分、决策阈值 3 个阶段。2.1.1 特征工程阶段初始化模型的各层参数W1,W2,Wn和b1,b2,bn,并利用前向传播卷积核计算特征向量的均值 和方差。训练判别器 D。训练过程中需要固定生成器 G 的参数,同时根据

15、式(4)更新输入数据权重,根据式(5)计算样本为真的概率,并采用 adam 算法更新权重 W1、W2和偏置 b1、b210:Dh1=Leaky Re lu(inputW1+b1),(4)Output=sigmoid(Dh1W2+b2)。(5)训练生成器 G。训练过程中需要固定判别器 D 的参数,利用 Eecoder_2 学习隐藏层空间特征,同时根据式(6)和式(7)更新隐藏层权重和偏置,并采用 adam 算法更新权重和偏置11:Lcon=Ex pxx-G(x)1,(6)Lenc=Ex pxGE(x)-E(G(x)2。(7)当模型损失函数接近局部最小时,模型训练完成。2.1.2异常得分阶段将特征

16、流量输入模型得到隐藏层空间向量 z 和重构隐藏层空间向量z,之后根据式(8)计算每个网络流量的异常得分12:score=z-z2。(8)2.1.3决策阈值阶段利用已知的正常与异常流量分布 p,得到分布决策阈值=pscore。(9)通过上述 3 个阶段的操作,实现了改进变分自动编码器的构建。2.2 基于改进变分自动编码器的入侵检测流程用 2.1 节构建的改进变分自动编码器对网络入侵进行检测,具体流程如下:(1)数据采集与预处理。考虑到原始网络流量存在噪声等影响,采用去奇异、归一化和抽样等方式进行预处理。(2)利用预处理后的网络流量生成一维网络流量特征向量,并输入改进变分自动编码器学习网络流量的统

17、计特征。(3)利用异常得分区分正常网络流量与异常网络流量,并输出结果。56河南工程学院学报(自然科学版)2023 年完整的基于改进变分自动编码器的入侵检测流程如图 2 所示。图 2 基于改进变分自动编码器的入侵检测流程Fig.2 Intrusion detection flow based on improved variational automatic encoder3 3 仿真实验3.1 实验环境搭建本实验在 Ubuntu 16.04 操作系统中进行,硬件配置为 Intel(R)Xeon(R)Silver 4208R 处理器、Nvidia GPU(GeForce GTX2060)显卡,计

18、算框架为 CUDA 10.1,通过 Tensorflow 2.3.1 深度学习框架和 cuDNN 7.6.0深度神经网络库实现。3.2 数据来源及预处理本实验数据来自 CICIDS2017 数据集13,该数据集包括最常见的网络攻击类型及 CICFlowMeter 网络流量分析结果,是一个高度不平衡的多类数据集。将 CICIDS2017 数据集划分为异常类样本和正常类样本,并将正常类样本按照 41的比例划分为训练集和测试集,同时从异常类样本中随机抽取部分样本加入测试集。为更好地进行网络流量特征学习,需要将数据包的五元组(目的地址、目的端口、源地址、源端口、传输协议)转化为具有流式特征的网络数据流

19、。实验采用 CICFLOWMETER 生成器生产可在源地址和目标地址往返传输的双向流。考虑到数据中存在异常值和 IP 地址信息等强相关性特征维度,且包含众多不规则散布的数据信息,所以实验前对数据进行异常值清洗和规范化处理。针对异常值和强相关性特征维度进行直接删除处理;针对不规则散布的数据信息采用 min-max 归一化方式进行处理:x=x-xminxmax-xmin,(10)式中:x 为原始数据;xmax、xmin分别为 x 的最大值和最小值;x 为预处理后的数据。考虑到数据集中 Heartbleed、Infiltration、Web Attack 等网络攻击的恶意攻击数据量过小,同时为确保训

20、练集与测试集中样本数量比例维持在 4 1,删除 Heartbleed、Infiltration 数据项,并将所有 Web Attack 数据项进行合并14-15,最终得到训练集中正常样本 1 818 476 条,测试集中正常样本 272 772 条,测试集中异常样本分布见表 3。表 3 测试集中异常样本分布Tab.3 Distribution of abnormal samples in test set序号网络攻击类型样本量1Bot1 2032DDOS15 3443DoS GoldenEye6 1014DoS Hulk27 7365DoS Slowhttptest3 2826DoS slow

21、loris3 4887FTP-Patator4 7788PoitScan19 0849SSH-Patator3 56210Web Attack1 3023.3 评价指标本实验选用查准率、召回率、F1 值和 AUC 值作为评估模型性能的指标,计算方法如下:Pprecision=TPTP+FP,(11)Rrecall=TPTP+FN,(12)F1=2PprecisionRrecallPprecision+Rrecall,(13)AUC=positiverankMN,(14)式(11)至式(14)中:TP 表示真正例;FP 表示假正66第 2 期曹春梅:基于改进变分自动编码器的入侵检测模型构建及仿真

22、例;FN 表示假负例;M 表示正样本数量;N 表示负样本数量;positiverank 表示在 MN 对样本中的正样本预测值大于负样本预测值的样本量。图 3 改进变分自动编码器的混淆矩阵Fig.3 The confusion matrix of improved variational automatic encoder4 4 结果与分析4.1 模型性能验证为验证所提改进变分自动编码器对网络入侵检测的有效性,分析了模型在 CICIDS2017 数据集上的性能。图 3 为所提模型在 CICIDS2017 数据集上检测结果的混淆矩阵。由图 3 可知,所提模型对实验数据集中正常流量样本识别正确的数量

23、为 256 336,对异常流量样本识别正确的数量为 59 530,具有良好的识别准确率。所提模型在 CICIDS2017 数据集中训练集上的查准率、召回率和 F1 值见表 4。由表 4 可知,所提模型对正常流量的查准率、召回率和 F1 值均达到 91%以上,对异常流量的查准率、召回率和 F1 值均达到 71%以上,平均查准率、召回率和 F1 值达到 87%以上,具有较好的网络入侵检测性能。所提模型在 CICIDS2017 数据集中训练集上的平均 AUC 值见图 4。由图 4 可知,所提模型的平均 AUC值为 0.9,说明所提模型具有良好的多分类性能。表 4 模型的查准率、召回率和 F1 值Ta

24、b.4 Model precision rate,recall rate and F1 value%流量分类査准率召回率F1 值正常流量91.1592.7992.30异常流量78.4171.4073.57平均值87.7388.0788.07图 4 模型的 AUC 值Fig.4 AUC value of model所提模型在 CICIDS2017 数据集中测试集上对不同类型异常流量样本检测的 AUC 值见表 5。由表 5 可知,所提模 型 可 检 测 到 不 同 类 型 的 异 常 流 量,其 中 对DoS GoldenEye 攻击检测的 AUC 值最高,达到 98.13%,对Web Attac

25、k 攻击的检测不够精准,AUC 值为 72.11%,对大多数攻击检测具有较高的 AUC 值,接近 90%,具有良好的多分类性能。表 5 模型对异常样本检测的 AUC 值Tab.5 AUC value of the model for abnormal samples%攻击类型BotDDOSDoS GoldenEyeDoS HulkDoS SlowhttptestDoS slowlorisFTP-PatatorPortScanSSH-Patator Web AttackAUC 值84.8195.5698.1387.7692.8596.3296.8289.7378.8672.114.2 模型性能对

26、比为进一步验证所提模型的有效性和优越性,对比了所提模型与常用的 CE-SAE 模型和变分自动编码器在 CICIDS2017 数据集上的性能。所提模型与对比模型在 CICIDS2017 数据集上的混淆矩阵见图 5。由图 5 可知:CE-SAE 模型对正常流量样本的识别个数为 229 743,对异常流量样本的识别个数为 43 029;变分自动编码器对正常流量样本的识别个数为 237 849,对异常流量样本的识别个数为 50 157;改进变分自动编码器对正常流量样本的识别个数为 256 336,对异常流量样本的识别个数为 59 530。由此可见,相较于对比模型,所提改进变分自动编码器对76河南工程学

27、院学报(自然科学版)2023 年正常流量和异常流量样本的识别个数均得到了不同程度的提高,即所提模型在实验数据集上对流量入侵检测的性能更好、查准率更高。图 5 不同模型的混淆矩阵Fig.5 Confusion matrix of different models所提模型与对比模型在 CICIDS2017 数据集中训练集上的查准率、召回率和 F1 值对比见表 6。由表 6可知,相较于 CE-SAE 模型和变分自动编码器,所提改进变分自动编码器在查准率、召回率和 F1 值指标上的表现更好,平均查准率分别提升了 12.00%和 7.49%,平均召回率分别提升了 12.26%和 7.76%,平均 F1

28、值分别提升了 12.30%和 7.79%,具有明显的优势。表 6 不同模型的查准率、召回率和 F1 值对比Tab.6 Comparison of precision,recall and F1 values of different models%模型流量分类査准率召回率F1 值CE-SAE 模型正常流量83.9884.2684.12异常流量49.5048.9949.24平均值75.7375.8175.77变分自动编码器正常流量86.9487.2287.08异常流量58.9958.3758.68平均值80.2480.3180.28改进变分自动编码器正常流量91.1592.7992.30异常流量

29、78.4171.4073.57平均值87.7388.0788.07 CE-SAE 模型、变分自动编码器和改进变分自动编码器在训练集上的平均 AUC 值见图 6。由图 6 可知,相较于 CE-SAE 模型和变分自动编码器,所提改进变分自动编码器的 AUC 值分别提高了 16%和 8%,表现出了更优异的性能。图 6 不同模型的 AUC 值对比Fig.6 Comparison of AUC values of different models86第 2 期曹春梅:基于改进变分自动编码器的入侵检测模型构建及仿真图 7 不同模型的 AUC 值对比Fig.7 Comparison of AUC value

30、s of different models 所提模型与对比模型在测试集上的 AUC 值对比见图 7。由图 7 可知,相较于 CE-SAE 模型和变分自动编码器,所提改进变分自动编码器对不同类型入侵检测的 AUC 值更高,尤其是对 FTP-Patator、PortScan 两类攻击检测的 AUC 值提升幅度较大,达到 20%以上,对 SSH-Patator 类攻击检测的 AUC 值提升达到 10%以上,具有更好的鲁棒性。这是因为所提改进变分自动编码器可通过隐藏层测算误差。4.3 模型异常得分分布为得到所提改进变分自动编码器对入侵检测的真实效果,实验分析了所提模型异常得分分布,并将其与 CE-SA

31、E 模型和变分自动编码器的异常得分进行比较。根据样本点与正常样本集的空间分布偏差度计算每个样本点的异常得分,分值为0,1,并以箱线图的形式描述不同类型异常流量的得分情况,结果如图 8 所示。图 8 中,横坐标上的“0”表示正常流量,110 对应表 3 中异常流量序号。由图 8 可知,对于正常流量,所提模型的异常得分接近 0,对比模型的异常得分为 1,说明所提模型可良好拟合正常流量特征,可准确区分正常流量和异常流量,而对比模型对正常流量与异常流量的区分难度较大。对于异常流量,不同流量类型的改进异常得分差距明显,而对比模型异常得分的差距较小,分析其原因是所提模型对正常流量的特征学习能较好地完成,可

32、更好地预测恶意攻击。由此说明,所提模型可较好地检测网络入侵,且检测效果优于 CE-SAE 模型和变分自动编码器,具有一定的实用性。图 8 不同模型异常值分布Fig.8 Distribution of outliers in different models图 9 不同 z 维度下模型 AUC 值的变化Fig.9 AUC value change of model under different z dimensions4.4 隐藏变量 z 对准确率的影响隐藏变量 z 的维度是影响所提改进模型性能的重要参数,本次实验通过设置不同 z 的维度分析模型AUC 值确定其最佳值。变量 z 不同维度下模型

33、的 AUC值见图 9。由图 9 可知,随着 z 维度的增加,所提模型的 AUC 值先增大后变小,当 z 的维度为 6 时,模型的AUC 值达到最大,为 90.91%。因此,本次实验设置所提模型的隐藏层维度为 6。5 5 结语本研究所提的基于改进变分自动编码器的入侵检测方法,通过结合变分自动编码器在入侵检测中的优势与 GAN 生成对抗思想,实现了网络流量入侵检测,(下转第 80 页)96河南工程学院学报(自然科学版)2023 年nal of computational physics,2012,231(4):1743-1750.11 CZERNOUS W.Numerical method of

34、characteristics for semilinear partial functional differential systems J.Journal of numeri-cal mathematics,2008,16(1):1-21.12 WANG Z,HUANG X,ZHOU J P.A numerical method for delayed fractional-order differential equations:based on G-L definition J.Applied mathematics&information sciences,2013,7(2):52

35、5-529.13 TARASOV V E.Fractional derivative as fractional power of derivativeJ.International journal of mathematics,2007,18(3):281-299.14 YUSTE S B.Weighted average finite difference methods for fractional diffusion equationsJ.Journal of computational physics,2006,216(1):264-274.15 YUSTE S B,ACEDO L.

36、An explicit finite difference method and a new von Neumann-Type stability analysis for fractional diffu-sion equationsJ.SIAM journal on numerical analysis,2005,42(5):1862-1874.(上接第 69 页)且具有良好的检测性能,在查准率、召回率、F1 值、AUC 值等指标上表现良好,平均查准率、召回率和 F1 值均达到87%以上,平均 AUC 值达到90%。但由于条件限制,该模型仍存在一些不足,如对 Web Attack 异常流量

37、的检测精度较低,AUC 值仅为 72.09%,相较于对比模型提升幅度并不明显。在下一步研究中,将尝试结合其他入侵检测方法对该类异常流量进行检测,以提高模型的泛化能力。参考文献:1 王文涛,汤婕,王嘉鑫.结合特征选择的 SAE-LSTM 入侵检测模型J.中南民族大学学报(自然科学版),2022,41(3):347-355.2 任家东,张亚飞,张炳,等.基于特征选择的工业互联网入侵检测分类方法J.计算机研究与发展,2022,59(5):1148-1159.3 朱龙隆,陈翰泽,程灵飞,等.拟态防御下的网络流量异常检测架构J.福州大学学报(自然科学版),2022,50(3):293-300.4 潘羿,

38、李彬.基于 DNSAE 和随机森林的电力信息网络入侵检测模型J.电力信息与通信技术,2022,20(5):23-29.5 吕正林,段炼,朱龙,等.边云协同环境下智能家居物联网入侵检测方法J.移动通信,2022,46(5):106-112.6 李开放,惠冠程,王汝涵,等.基于生成对抗网络与自校准卷积的行人重识别J.激光与光电子学进展,2022,59(10):303-313.7 段雪源,付钰,王坤.基于 VAE-WGAN 的多维时间序列异常检测方法J.通信学报,2022,43(3):1-13.8 仲林林,胡霞,刘柯妤.基于改进生成对抗网络的无人机电力杆塔巡检图像异常检测J.电工技术学报,2022,

39、37(9):2230-2240,2262.9 张永宏,张中洋,赵晓平,等.基于 VAE-GAN 和 FLCNN 的不均衡样本轴承故障诊断方法J.振动与冲击,2022,41(9):199-209.10 白文超,韩希先,王金宝.基于条件生成模型的高效近似查询处理框架J.浙江大学学报(工学版),2022,56(5):995-1005.11 马跃强,陈怀源,张雄杰.基于 CPK 组合公钥的车联网安全监测感知平台应用研究J.信息安全研究,2022,8(6):563-569.12 李泽一,王攀.基于代价敏感度的改进型 K 近邻异常流量检测算法J.南京邮电大学学报(自然科学版),2022,42(2):85-92.13 张旭华,任蔚,李欣.基于贝叶斯网络的电子阅读 App 软件动态检测技术J.微型电脑应用,2022,38(4):57-59,64.14 王运兵,姬少培,查成超.基于 CNN 与 WRGRU 的网络入侵检测模型J.通信技术,2022,55(4):486-492.15 陈晨,刘曙,王艺菲,等.基于 PSOGWO-SVM 的网络入侵检测方法J.空军工程大学学报(自然科学版),2022,23(2):97-105.08

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服