1、第 55 卷第 6 期郑 州 大 学 学 报(理 学 版)Vol.55 No.62023 年 11 月J.Zhengzhou Univ.(Nat.Sci.Ed.)Nov.2023收稿日期:2022-06-30基金项目:科技部重点研发项目(2017YFE0135700)。第一作者:魏明军(1969),男,教授,主要从事信息安全技术、图像处理研究,E-mail:109849249 。通信作者:闫旭文(1995),男,硕士研究生,主要从事信息安全技术、图像处理研究,E-mail:2811637099 。基于 CNN 与 LightGBM 的入侵检测研究魏明军1,2,闫旭文1,纪占林1,2,陈钊1(1
2、.华北理工大学 人工智能学院河北 唐山 063210;2.华北理工大学 河北省工业智能感知重点实验室河北 唐山 063210)摘要:网络入侵检测少数类样本不仅自身准确率和召回率低,而且还影响整体准确率和召回率。针对此问题,提出一种基于生成式对抗网络(GAN)、卷积神经网络与 LightGBM 相结合的算法。首先,使用降噪变分自动编码器改进GAN,以实现对不平衡数据集的处理。其次,使用卷积注意力机制改进残差卷积神经网络,更好地提取数据的关键特征。最后,利用 LightGBM 集成学习算法对处理后的数据集进行分类。实验结果表明,在 NSL-KDD 测试集上,改进后算法的准确率、召回率、精确率和 F
3、1 值均有提高。该模型缓解了少数类样本对模型分类带来的负面影响,具有良好的分类性能。关键词:入侵检测;生成式对抗网络;卷积神经网络;LightGBM中图分类号:TP393.08文献标志码:A文章编号:1671-6841(2023)06-0035-06DOI:10.13705/j.issn.1671-6841.2022190 Research on Intrusion Detection Based on CNN and LightGBMWEI Mingjun1,2,YAN Xuwen1,JI Zhanlin1,2,CHEN Zhao1(1.College of Artificial Intel
4、ligence,North China University of Science and Technology,Tangshan 063210,China;2.Hebei Provincial Key Laboratory of Industrial Intelligent Perception,North China University of Science and Technology,Tangshan 063210,China)Abstract:Aiming at the problem that the minority class samples of network intru
5、sion detection not only have low accuracy rate and recall rate,but also affect the overall accuracy rate and recall rate,a new combined algorithm based on generative adversarial network(GAN),convolutional neural network and LightGBM was proposed.Firstly,the GAN was improved using a denoising variati
6、onal autoencoder to handle the unbalance datasets.Secondly,the residual convolutional neural network was improved using the convolutional block attention mechanism to extract the key features of the data better.Finally,the processed dataset was classified using the LightGBM ensemble learning algorit
7、hm.The experimental re-sults showed that after improvement,the accuracy rate,the recall rate,the precision rate,and the F1 score were all increased on the NSL-KDD test set.The model alleviated the negative impact of minority class samples on model classification and had good classification performan
8、ce.Key words:intrusion detection;generative adversarial networks;convolutional neural networks;LightGBM0引言随着网络的快速发展,不仅网络攻击类型明显增多,而且网络攻击也越来越隐蔽和快速,这就要求入侵检测系统能够在网络受到攻击时快速准确判别,所以高效的入侵检测系统成为网络安全领域的重要研究内容。郑 州 大 学 学 报(理 学 版)第 55 卷入侵检测算法的步骤有数据预处理(数值化、归一化、数据清洗)、不平衡样本处理、特征提取、分类。其中特征提取起着关键作用,深度学习作为特征学习的代表,能够在高
9、维海量数据中获取本质特征,进而提高分类准确率。传统 机 器 学 习 方 法 如 支 持 向 量 机1、决 策树2、朴素贝叶斯3等算法,在现今新型网络攻击手段和高维数据的情况下,不能很好地提取特征,使得入侵检测准确率和召回率低。近年来,深度学习的出现,扩充了机器学习的入侵检测算法4。Sornsuwit 等5在 KDDCUP99 数据集上使用基于相关性的特征选择方法减少冗余特征后,采用 Adaboost 算法创建多种集成分类器以检测难以识别的 U2R 和 R2L 攻击,这种集成方法可以提高所有分类器的性能。周琪6通过自注意力机制改进卷积神经网络(convolutional neural netwo
10、rks,CNN),在 KDDCUP99 数 据 集 上 的 准 确 率 为89.59%,U2R 攻击准确率为 22.16%。安磊7通过GAN 对 少 数 类 样 本 进 行 扩 充,使 用 堆 叠 深 层 的SDAE 进行特征提取,最后使用随机森林进行分类,在 NSL-KDD 训练集上的准确率为 98.89%,误报率为 1.26%。张 峻 豪8通 过 递 归 特 征 消 除 RFE 与SVM 降维的卷积神经网络实现,训练集准确率为95.7%,但是 R2L 与 U2R 攻击类型的召回率与准确率较低。综上所述,目前网络入侵检测存在少数类攻击类型准确率与召回率低的问题。在网络入侵检测数据集中,经常出
11、现某个攻击类别数据相对于其他类别数据在数据量上过于稀少的现象,这就容易导致传统分类模型对小样本攻击类型的准确率相对较低。本文提出基于 DVAE-GAN-CBAM-Resnet-Light-GBM 的网络入侵检测模型。对模型进行实验分析,与其他机器学习算法相比,本文算法具有更好的检测性能。1相关工作1.1自动编码器自动编码器(auto encoder,AE)是一种无监督的神经网络模型,编码器对输入的数据进行学习,解码器(decoder)对编码器学习的特征进行重构得到原始的输入数据。AE 可以用于数据的降维、压缩、生成等方面,AE 的 基 本 结 构 包 括 编 码 和 解 码 两 个过程。降噪变
12、分自动编码器(denoising variational auto encoder,DVAE)是结合变分自动编码器(variational auto encoder,VAE)与降噪自动编码器(denoising au-to encoder,DAE)各自优点的算法,VAE 相较于 AE更加适合数据的生成,对编码器添加约束,强迫它产生服从单位高斯分布的潜在变量,而 DAE 则可以提高模型的鲁棒性。由于入侵检测的正常行为远远大于异常行为,通常采用 DVAE 处理不平衡数据集。DVAE 不仅可以生成与原始数据相近似的数据,而且还具有一定的鲁棒性。首先输入 x,将经过加入噪声的 X 送入编码器进行编码,
13、编码器会产生两个向量:一个是均值向量,一个是标准差向量,从 N(,2)中随机采样然后送入解码器进行解码得到 X。损失函数的定义包含 KL、J()、W(Pr,Pg),KL=-0.5ni=1(1+log(2i)-2i-2i),(1)J()=xsL(x,g(f(X),(2)W(Pr,Pg)=infr(Pr,Pg)E(x,y)rx-y,(3)其中:Pr与 Pg分别为真实分布与生成分布。1.2生成式对抗网络GAN 是由生成器网络 G 和判别器网络 D 组成的。生成网络 G 负责生成数据,它接收一个随机的噪声 Z,通过该噪声生成数据,将生成的数据记为G(Z)。判别网络 D 负责判别数据是真实的数据还是由
14、G 生成的假数据。训练模型时,生成器网络 G生成的数据与原始输入的数据一起送入判别器网络D 进行对比,通过博弈来不断更新参数,使得生成网络 G 生成的数据更加接近真实数据9。GAN 的结构如图 1 所示。图 1GAN 结构图Figure 1GAN structure diagram在生成数据方面,GAN 不能生成任意指定类型的数据,但是使用 DVAE 能够通过选择特定的噪声生成想要的数据,从而提高网络的泛化能力。在损失计算方面,DVAE 直接计算生成数据和原始数据的均方误差而不是像 GAN 那样不断地进行对抗学习。1.3卷积神经网络卷积 神 经 网 络(convolutional neural
15、 networks,63第 6 期魏明军,等:基于 CNN 与 LightGBM 的入侵检测研究CNN)是深度学习领域典型算法之一,一般包括卷积层、池化层、全连接层及输出层。在 CNN 中,其卷积核的参数共享,各层间连接稀疏,使得网络以较小的计算量提取特征信息,具有稳定的效果。通过计算真实值与预测值之间的差值得到误差函数值,从而反向调整网络参数,直至模型达到最优。1.4残差网络对于传统的 CNN 网络,一味地增加网络深度,容易导致梯度消失和爆炸,而残差卷积神经网络(residual convolution neural network,Resnet)既保留深层网络的性能10,又有浅层网络的优势
16、,避免出现梯度消失和爆炸的问题。1.5卷积注意力机制卷积注意力机制(convolutional block attention module,CBAM)是一种为卷积神经网络设计的、简单有效的注意力模块。CBAM 是一个轻量型模块,可以直接融合各种卷积神经网络进行模型训练,其中包括通道注意力机制与空间注意力机制这两个模块,对于卷积神经网络生成的特征图,CBAM 分别从通道和空间两个维度计算特征图的注意力图,然后将输出与输入相乘来进行特征的自适应学习。1.6LightGBM 分类器与传统机器学习方法不同的是,集成学习算法是通过构建并结合多个机器学习器来完成学习任务。梯 度 提 升 树(gradie
17、nt boosting decisior tree,GBDT)是 Boosting 算法的一种。GBDT 面临着准确率和分类效率的问题,而 LightGBM 的提出解决了该问题,能够在不降低准确率的条件下加快 GBDT 模型的训练速度。LightGBM 通过直方图算法把连续的特征离散化成对应的桶(bin),然后累加每个 bin 对应特征的梯度值并计数,最后遍历所有的特征和数据,寻找最优切分点。首先把样本按照梯度排序,选出梯度最大的 a%个样本,然后在剩下小梯度数据中随机选取 b%个样本,在计算信息增益的时候,将选出来b%个小梯度样本的信息增益增加 1-a/b。2入侵检测模型搭建2.1模型搭建基
18、于目前网络入侵检测模型存在准确率与召回率较低的问题,本文提出基于 DVAE-WGAN-CBAM-Resnet-LightGBM 的网络入侵检测模型,架构见图 2。2.2数据集介绍本文选取 NSL-KDD 作为验证模型性能的数据图 2入侵检测模型结构Figure 2Intrusion detection model structure集。NSL-KDD 由 KDDTrain+.csv 作为训练集,以及KDDTest+.csv 作为测试集,用来检测模型的性能。统计 NSL-KDD 的各类数据样本的分布,如表 1所示。表 1NSL-KDD 的数据样本分布情况表Table 1Data sample d
19、istribution of NSL-KDD类别训练集处理前数量/条占比/%训练集处理后占比/%测试集数量/条 占比/%Normal67 34353.4638.279 71143.08Dos45 92736.4726.107 45833.08Probe11 6569.2612.312 42110.73U2R520.0411.392000.88R2L9950.7811.932 75412.212.3数据处理2.3.1数据预处理NSL-KDD 数据集中每条数据由 41 个特征属性和一个标签组成11。经过字符向量化操作后,数据变 成 了 122 列 数 据(不 包 括 标签)。同时为了避免“大数吃小
20、数”现象的出现,需要对数据进行归一化处理。在处理数据之前需要将 122 维数据删除一列变成 121 维数据送入 Resnet 中进行特征学习或提取。本文根据斯皮尔曼相关性系数(Spearman correlation coefficient)计算特征之间的相关性,删除一列相似度最高的数据,如式(4),s=1-6d2in(n2-1)。(4)经过相关性分析,删除相似度较高的第 115 列的数据。2.3.2 基 于 DVAE-GAN 的 不 平 衡 处 理 方 法 DVAE-GAN 的核心仍然是利用一个生成器 G 和一个判别器 D 进行对抗学习,以区分真实的数据和生成的数据,但是差别在于这里的生成器
21、 G 是 DVAE,73郑 州 大 学 学 报(理 学 版)第 55 卷判别器采用 GAN 中判别器 D。这样不仅提高了模型的训练效率,而且还能提高网络生成数据的多样性。DVAE-GAN 算法结构如图 3 所示。图 3DVAE-GAN 结构图Figure 3DVAE-GAN structure diagramWasserstein 生成对抗网络(Wasserstein genera-tive adversarial networks,WGAN)的 Wasserstein 距离是衡量两个分布之间的距离,即使两个分布没有任何重叠,也可以反映它们之间的距离,从而解决了GAN 的模式崩溃问题。因此本文
22、采用 WGAN。由表 1 可以看出,在训练集中,Probe、U2R、R2L类型的数据分 别只有 11 656、52、995 条,且对 于R2L 类别,它在训练集占比 0.78%,却在测试集中占比 12.21%,两者相差巨大,导致在分类时倾向于多数类样本的类型。在保证多数类样本准确率的前提下,为了提高少数类样本的准确率,采用 DVAE-GAN 对不平衡数据集 NSL-KDD 的训练集进行处理。Probe 类型增加 10 000 条数据,U2R 类型增加 15 000 条数据,R2L 类型增加 15 000 条数据,使三类攻击类型的占比达到 10%以上。数据集处理后各类别占比结果见表 1。2.4改
23、进的残差网络特征提取对于入侵检测数据集来说,无论是少数类还是多数类样本,特征提取至关重要。Resnet 因为有残差的存在,所以更加容易学习,即使加深网络模型性能也不会出现梯度消失的现象。为了进一步提高入侵检测的准确率,本文采用 CBAM 对 Resnet 进行改进,改进后的残差网络结构如图 4 所示。图 4改进的残差网络结构图Figure 4Improved residual network structure diagramNSL-KDD 数据集经过数据预处理之后共有 121列数据。为进一步提高模型的准确率,本文采用CBAM 改进残差卷积神经网络进行特征提取。在每一个残差块 33 与 11
24、卷积核之间加入 CBAM,经过 33 卷积核后,通过 CBAM 进行自适应特征优化,然后经过 11 卷积核减少参数量,从而可以进一步加深网络深度,这里没有采用 33 卷积核是因为 33 卷积核的加入会增加参数量,而且网络深度也不宜过深。特征提取网络结构如图 5 所示。图 5特征提取网络结构Figure 5Feature extraction network structure3实验与结果分析3.1评估指标本文为 NSL-KDD 五分类实验,为验证入侵检测模型的性能,采用准确率(accuracy rate,AR)、召回率(recall rate,RR)、精确率(precision rate,PR
25、)和 F1 值(F1 score,F1)对 模 型 进 行 评 估。RRmacro、PRmacro、F1macro采用 macro average 方法,在计算均值时,每个类别具有相同的权重,最后的结果是每个类别指标值的算术平均。计算公式为AR=TP+TNTP+FP+FN+TN,PR=TPTP+FP,PRmacro=1nni=1PRi,RR=TPTP+FN,RRmacro=1nni=1RRi,F1macro=2PRmacroRRmacroPRmacro+RRmacro,其中:TP 表示识别正确的攻击数据;FP 表示识别错误的正常数据;FN 表示识别错误的攻击数据;TN 表示识别正确的正常数据;
26、n 表示类别总数;i 表示第 i个类别。3.2实验分析使用 CBAM 改进残差网络结构,因此需要增加参数 reduction_ratio(通道缩小比例)和 kernel_size(卷积核大小),参数值分别设置为 2 和 7。83第 6 期魏明军,等:基于 CNN 与 LightGBM 的入侵检测研究本文实验的其他参数及参数值:优化器使用Adam,激活函数使用 leaky_relu,dropout 设置为 0.3,epoch 设置为 60,learning_rate 设置为 0.009,batch_size 设置为 800,损失采用交叉熵损失。对改进后残差网络的残差块进行实验,结果如表 2 所示
27、。表 2不同残差块对比Table 2Comparison of different residual blocks残差块AR/%RRmacro/%PRmacro/%F1macro2,2,2,274.7450.7275.880.522,2,3,375.0250.6763.730.522,3,2,377.8551.6180.800.533,4,6,374.5348.8081.290.503,3,4,476.9053.7380.480.563,4,3,478.7453.2382.010.54注:黑体表示每列中的最高值。表 2 中 残 差 块 3,4,3,4 的 AR 可 以 达 到78.74%,PR
28、macro可以达到 82.01%。综合考虑,本文选择残差块为3,4,3,4。由表 3 可知,当提取特征个数为 96 时各指标明显优于其他特征个数,因此本文将提取 96 维特征送入 LightGBM 进行分类。由于 LightGBM 中参数较多,需要先确定 LightGBM 分类器中各参数具体值,所以本文通过 网格搜索 法进行 分 类 器 参 数 值 的选择。采用三种过采样算法对 NSL-KDD 不平衡数据集进行实验,三种算法对 Probe 攻击类型、U2R 攻击类型和 R2L 攻击类型增加相同数目的样本,各算法在测试集上结果如表 4 所示。表 3改进的残差网络在提取不同特征个数上的评价Tabl
29、e 3Evaluation of the improved residual network in extracting different numbers of features特征个数AR/%RRmacro/%PRmacro/%F1macro1272.1346.4064.580.462473.3447.8573.950.494875.7448.8068.480.509678.7453.2382.010.5411274.8948.9681.640.51注:黑体表示每列最高值。表 4三种过采样算法对比Table 4Comparison of three oversampling algorit
30、hms算法AR/%RRmacro/%PRmacro/%F1macroSMOTE74.451.077.80.540BorderlineSMOTE75.451.373.40.539WGAN-DVAE78.952.089.00.542注:黑体表示每列最高值。从表 4 中可以发现,三种过采样算法的 RRmacro与 F1macro值 相 差 不 大,但 WGAN-DVAE 算 法 的ARmacro和 PRmacro值明显高于其他两种算法,因此本文的过采样算法优于其他两种算法。三种过采样算法在不同类别数据上的性能表现见表 5。由表 5 可知 WGAN-DVAE 在 R2L 攻击类型上表现不佳,但是在其余
31、指标上具有良好的性能。综合可得,本文的过采样算法在整体性能上优于其他两种过采样算法。表 5三种过采样算法的对比Table 5Comparison of three oversampling algorithms类别SMOTEBorderlineSMOTEWGAN-DVAERRmacro/%F1macroPRmacro/%RRmacro/%F1macroPRmacro/%RRmacro/%F1macroPRmacro/%Normal94.700.76864.6996.280.78966.8097.490.81069.61DOS77.810.86096.0877.970.85394.2687.05
32、0.91095.40Probe58.160.65574.6057.610.65473.9458.270.68082.60R2L12.000.19857.149.500.15035.852.000.039100.00U2R12.310.21896.5814.270.24996.5615.400.26697.69注:黑体表示最高值。为 验 证 本 文 网 络 入 侵 检 测 模 型 各 模 块(即CBAM-Resnet、Resnet、DVAE-WGAN)的性能,将 各模型在测试集上进行验证。从表 6 可以看出,Resnet-LightGBM 模型在测试集上 的 各 指 标 都 远 低 于 其 他
33、三 个 模 型,DVAE-WGAN-CBAM-Resnet-LightGBM 模 型 较 原 始 模 型Resnet-LightGBM 的 AR 提 高 5.13%,PRmacro提 高20.37%,RRmacro提高 4.49%,F1 分数提高 0.07。为了进一步验证本文检测算法的性能,将本文的入侵检测算法与文献12、13进行对比。文献12的 AR 为 91.25%,文献13的 AR 为 94.40%,本文算法的 AR 可以达到 99.98%。由此可以看出本文算法在训练集的 AR 比文献12 高出 8.73%,比文献13高出 5.58%。93郑 州 大 学 学 报(理 学 版)第 55 卷
34、表 6四种模型效果对比Table 6Comparison of the effects of the four models模型AR/%PRmacro/%RRmacro/%F1macroResnet-LightGBM73.8068.6947.510.47CBAM-Resnet-LightGBM76.1887.7651.120.53DVAE-WGAN-Resnet-LightGBM75.5281.6650.370.53DVAE-WGAN-CBAM-Resnet-LightGBM78.9389.0652.000.54注:黑体表示每列最高值。4结论针对目前入侵检测不仅存在少数类样本自身准确率和召回率
35、低的问题,而且还会影响整体的准确率和召 回 率,本 文 提 出 基 于 DVAE-WGAN-CBAM-Resnet-LightGBM 的网络入侵检测模型。结果表明,本文模型相比改进之前,缓解了少数类样本对模型分类带来的负面影响,具有良好的分类性能。本文模型不能很好解决 R2L 少数类样本的不平衡问题,将来会针对此问题开展下一步的工作。参考文献:1CHANG Y,LI W,YANG Z.Network intrusion detection based on random forest and support vector machineCIEEE International Conferenc
36、e on Computationa Science and Engineering and Embedded and Ubiquitous Compu-ting.Piscataway:IEEE Press,2017:635-638.2张旻宇.一种改进的决策树算法在入侵检测中的应用J.现代信息科技,2020,4(23):147-152,159.ZHANG M Y.The application of an improved decision tree algorithm in intrusion detectionJ.Modern informa-tion technology,2020,4(2
37、3):147-152,159.3欧阳广津.基于改进的朴素贝叶斯的入侵检测方法J.通信技术,2020,53(5):1273-1276.OUYANG G J.Intrusion detection method based on modified naive Bayes J.Communications technology,2020,53(5):1273-1276.4谈帅昕.基于深度学习的入侵检测方法D.武汉:中南民族大学,2019.TAN S X.An intrusion detection method based on deep learning D.Wuhan:South-central
38、 University for Nationalities,2019.5SORNSUWIT P,JAIYEN S.Intrusion detection model based on ensemble learning for U2R and R2L attacksCInter-national Conference on Information Technology and Elec-trical Engineering.Piscataway:IEEE Press,2016:354-359.6周琪.基于 GAN 与 ACNN 的入侵检测方法D.衡阳:南华大学,2021.ZHOU Q.Intr
39、usion detection method based on GAN and ACNN D.Hengyang:University of South China,2021.7安磊.网络安全入侵检测预处理方法研究 D.沈阳:沈阳建筑大学,2021.AN L.Research on preprocessing method of network se-curity intrusion detection D.Shenyang:Shenyang Jianzhu University,2021.8张峻豪.基于深度学习的入侵检测研究D.天津:天津理工大学,2022.ZHANG J H.Research
40、 on intrusion detection based on deep learningD.Tianjin:Tianjin University of Tech-nology,2022.9张得祥,王海荣,钟维幸,等.融合软奖励和退出机制的 WGAN 知识图谱补全方法 J.郑州大学学报(理学版),2022,54(2):67-73.ZHANG D X,WANG H R,ZHONG W X,et al.WGAN knowledge map completion method integrating soft reward and exit mechanismJ.Journal of Zhengz
41、hou university(natural science edition),2022,54(2):67-73.10 王知人,谷昊晟,任福全,等.基于深度卷积残差学习的图像超分辨J.郑州大学学报(理学版),2020,52(3):42-48.WANG Z R,GU H S,REN F Q,et al.Residual learn-ing of deep CNN for image super-resolutionJ.Journal of Zhengzhou university(natural science edition),2020,52(3):42-48.11 XUE W,YANG R
42、L,HONG X Y,et al.A novel k-means based on spatial density similarity measurement C Chinese Control and Decision Conference.Piscataway:IEEE Press,2017:7782-7784.12 唐朝飞.基于 LightGBM 和自动编码器的网络入侵检测算法研究与实现D.乌鲁木齐:新疆大学,2021.TANG C F.Research and implementation of intrusion de-tection algorithm based on Ligh
43、tGBM and autoencoderD.Urumqi:Xinjiang University,2021.13 陈晨,刘曙,王艺菲,等.基于 PSOGWO-SVM 的网络入侵检 测方 法 J.空 军工 程 大 学 学 报(自 然 科 学版),2022,23(2):97-105.CHEN C,LIU S,WANG Y F,et al.A network intrusion detection method based on PSOGWO-SVM J.Journal of air force engineering university(natural science edi-tion),2022,23(2):97-105.04