基于集成学习的无监督网络入侵检测方法.pdf

资源描述

1、NETINFOSECURITY2024年第3期技术研究doi:10.3969/j.issn.1671-1122.2024.03.007基于集成学习的无监督网络人侵检测方法一江荣1，刘海天1，刘聪2（1.国防科技大学计算机学院，长沙410 0 7 3；2.中央军委后勤保障部信息中心，北京10 0 8 42）摘要：目前，网络对抗对入侵检测智能化和自主性的需求不断提高，基于深度学习的方法通过训练和学习来区分复杂攻击模式和行为，但有监督的学习方法需要专家知识和大量人工开销。针对上述问题，文章提出一种基于集成学习的无监督网络入侵检测方法，并使用基于3种不同异常检测理念的深度学习检测器，在3种不同集成逻辑

2、下对各单检测器的检测结果进行检测判定。该方法可以综合分析时间序列数据中不同类型的异常数据，降低无监督异常检测模型由于过度拟合所造成的影响，并以一种高效的在线方式检测可能存在的网络攻击数据流。在KDD CUP1999和CSE-CIC-IDS2018数据集上进行验证，实验结果表明，与其他单一的无监督异常检测模型相比，文章提出的集成方法结合了不同无监督检测模型的优势，适用于对多种网络入侵引起的异常进行检测。关键词：入侵检测系统；异常检测；无监督深度学习；集成学习中图分类号：TP309文献标志码：A文章编号：16 7 1-112 2（2 0 2 4）0 3-0 411-16中文引用格式：江荣，刘海天，

3、刘聪.基于集成学习的无监督网络入侵检测方法 J.信息网络安全，2 0 2 4，24(3):411-426.英文引用格式:JIANG Rong,LIU Haitian,LIU Cong.Unsupervised Network Intrusion Detection MethodBased on Ensemble LearningJ.Netinfo Security,2024,24(3):411-426.Unsupervised Network Intrusion Detection Method Based onEnsemble LearningJIANG Rongl,LIU Haitian,

4、LIU Cong?(1.College of Computer,National University of Defence Technology,Changsha 410073,China;2.InformationCenter,Logistic Support Department of Central Military Commission,Beijing 100842,China)Abstract:With the increasing demand for intelligent and autonomous intrusion detectionin network counter

5、,deep learning-based methods can distinguish complex attack patterns andbehaviors through training and learning.However,supervised learning requires professionalexpert knowledge and the overhead of a large amount of manually annotated data.In responseto the above issues,this paper proposed an unsupe

6、rvised network intrusion detection methodbased on ensemble learning,which used deep learning detectors based on three differentanomaly detection concepts in parallel to detect,and the results of individual detectors were收稿日期：2 0 2 3-11-17基金项目：国家自然科学基金 6 2 0 7 2 131；国家重点研发计划 2 0 2 2 YFB3104103作者简介：江荣

7、（19 8 4一），男，福建，副研究员，博士，CCF会员，主要研究方向为网络空间安全、大数据分析和人工智能；刘海天（19 9 4一），男，湖南，博士研究生，主要研究方向为网络安全态势分析和预测；刘聪（19 8 5一），男，江西，高级工程师，博士，主要研究方向为人工智能与大数据分析。通信作者：刘聪411NETINFOSECURITY技术研究2024年第3期combined under three different integration logics to provide the final detection decision.Thismethod could comprehensively

8、 analyze the different types of anomalies in time series data,reduce the impact of unsupervised anomaly detection models caused by overfitting,and detectpotential new attack data streams in an efficient online manner.Experiments are conductedon the KDDCUP 99 and the CSE-CIC-IDS 2018 datasets,and the

9、 results show that comparedto other single unsupervised anomaly detection models,the integrated method proposed in thearticle combines the advantages of different unsupervised detectors and is suitable for anomalydetection situations caused by multiple network intrusions.Key words:intrusion detectio

10、n system;anomaly detection;unsupervised deep learning;ensemble learning0引言随着信息时代的到来，人们不可避免地在网络上开展各种活动，同时面临多种网络威胁和攻击，如网络病毒、蠕虫传播、勒索软件和拒绝服务等。网络攻击往往会造成巨大的经济损失，甚至阻碍核心公共服务的运行。对一些机构来说，一次严重的分布式拒绝服务（Distributed Denial of Service，D D o S）攻击不仅造成每小时高达10 万美元的损失，还会影响客户的信任程度。在当前信息系统中，判定安全性和是否受到不法分子的外部威胁是两个复杂的问题，这些

11、外部威胁包括木马、病毒、后门程序、勒索软件以及Web攻击等。人侵检测系统（IntrusionDetection System，ID S）是一种解决上述问题的有效方法，用于检查特定环境下的活动，并识别多种网络威胁。根据检测技术进行分类，传统的IDS包括基于标志/误用、基于异常情况以及两种方法的结合。根据数据来源进行分类，IDS可以分为基于主机的 IDS（H o s t-Ba s e d I n t r u s i o n D e t e c t i o nSystem，H ID S）和基于网络的IDS（Ne t w o r k In t r u s i o nDetection System，N

12、ID S）。H ID S通过捕获和分析被攻击系统的数据进行检测，NIDS在攻击到达终端系统前，在网关处对流量数据(报文)进行捕获和检测 2。然而，传统的IDS主要依赖于主机和网络设备生成的日志和流量数据，并基于规则、签名和行为模式等方式检测潜在的人侵行为，这些传统的检测技术已无法处理现代网络攻击多变的数据流，使得传统IDS难以适应不断涌现的新型网络攻击，无法做到准确识别、及时报告和有效阻截。针对日益严峻的网络安全问题，迫切需要更多方法识别潜在的网络威胁，同时处理庞大而复杂的网络数据。随着人们对智能化和自主性需求的不断提高，神经网络受到广泛关注，其具有学习复杂模式和行为的能力，用于区分正常流量和

13、网络攻击，已经被广泛用于人侵检测领域 3.4。随着时间的推移，网络攻击不断演变，新的攻击不断被发现，因此维护恶意攻击流量存储库需要巨大的开销。同时，有监督的机器学习意味着专家必须对网络流量进行标注，并定期手动更新模型，这需要庞大的专业知识库来支持，并且标注过程耗时且昂贵，对人力成本要求较高。此外，分类本身是一种封闭的概念识别方法，即分类器只能通过训练来识别训练集中提供的类别，然而训练集中没有收集所有可能的恶意流量，因此使用场景有限。与有监督机器学习方法相比，无监督神经网络模型可以显著降低人工标记成本。在训练过程中，无监督模型不使用标签，因此可以避免采样平衡和欠采样等问题，并且对新的网络攻击类型

14、的适应性更好。类比于传统的基于异常的IDS，无监督神经网络模型可以通过观察网络的正常流量，建立一个无监督或半监督的神经网络模型，从而学习网络的正常流量模式。异常数据是指不符合正常模式明确定义特征的数据模式，这些异常数据通常由各种异常活动产生，如信用卡诈骗、电信诈骗和网络攻击等。在网络攻击中，异常数据不一定属于攻击数据，但人侵或攻击通常会以异常模式的形式呈现 5.6。这些异常数据的主要来源412NETINFOSECURITY2024年第3期技术研究通常是外部黑客的攻击，这些黑客试图未经授权访问网络，窃取信息或者破坏网络。鉴于异常的性质不同，将异常分为点异常、集合异常和上下文异常。在网络攻击中，不

15、同类型的网络攻击往往表现出不同的异常性质。攻击与异常类型映射如图1所示，简要展示了不同攻击类型与异常类型之间的相互关系，并选取KDDCUP1999数据集中的4种不同攻击形式作为示例。在拒绝服务（Denial of Service，D o S）攻击中，对Web服务器的大量连接请求构成集合异常，但单个请求却可能是合法的，因此DoS攻击特征与集合异常相匹配 7。Probe攻击则基于特定意图获取信息，因此它与上下文异常相匹配 8。而U2R和R2L攻击具有高度的条件特异性和复杂性，相对于其他异常类型更适合被视为点异常。本文考虑攻击者可能以多种方式留下不同的异常迹象，在进行攻击检测时，采取不同策略将会更有

16、效。异常类型点异常集合异常上下文异常U2RR2LDoS攻击类型图1攻击与异常类型映射本文为了更好地对网络数据流中的正常行为进行建模，进一步提高无监督异常检测模型对数据流中可能存在的异常流数据条目的检测性能，针对多种不同的时间序列数据异常特性，在现有无监督异常检测模型的基础上，提出一种基于多种无监督神经网络模型集成的网络攻击检测模型，该模型极大地减少了模型训练所需的专家知识以及人工开销，并以一种高效的在线方式检测可能存在的网络异常数据流。在这项工作中，使用复数无监督异常检测模型进行并行训练和异常识别，以降低某些无监督异常检测模型过度拟合产生的影响，该集成模型比单个检测器更高效，噪声更小，提高了整

17、体检测质量。本文基于3种不同异常检测理念提出不同深度学习模型框架，将点异常检测、上下文异常检测和集合异常检测进行技术集成，在通过不同深度模型结构实现各自技术优势的同时，考虑了时间序列数据中不同类型的异常数据。1相关研究通过网络流数据进行异常检测被视为一个典型的时间序列异常检测问题，主要目标是从时间序列中识别异常的事件或行为，此类异常检测算法目前已被应用于多个领域，如量化交易、智能运维和医疗健康等。由于数据流或者时间序列数据具有周期性、趋势性、季节性和不规则性等特点，如何准确地检测点异常成为一个具有挑战性的问题。研究人员在通过有监督机器学习进行异常检测方面取得了一些成果，文献 9 对经典的有监督

18、机器学习技术进行综述，各种常规分类器都可以使用，但需要注意样本不均衡问题。在通常情况下，异常样本数量远小于正常样本，因此需要处理样本不均衡问题，如上采样、下采样和调整阈值等，文献 10 针对该问题给出了相对完善的解决方案。在此基础上，各种深度学习网络相继出现，例如，2 0 18Probe年KIM等人提出C-LSTM模型，2 0 2 0 年YIN12等人在C-LSTM的基础上进行改进，这些都是基于网络流数据进行异常检测的典型方案。此外，在大多数现实场景中一般不会对大量数据进行标记，因此，本文更倾向于使用无监督方法构建基于异常的人侵检测模型。各种经典的无监督机器学习算法被广泛应用于异常检测中，统计

19、异常检测是一种常用的异常检测技术，K最近邻（K-Nearest Neighbor，K NN）异常检测方法是一种简单、应用广泛的点异常无监督全局异常检测方法，该方法根据KNN距离 13计算异常得分。为了降低KNN方法的计算成本，BREUNIG14等人提出基于密度的局部异常检测的无监督方法，也被称为局部离群因子（Local Outlier Factor，LO F)。T A NG 15等人提出基于LOF的改进方法，即基于连接性的离群值因子（Connectivity Based Outlier Factor，CO F）方法，该方法进一步考虑了线性结构。除了基于最近邻的算413NETINFOSECURI

20、TY技术研究2024年第3期法，基于聚类的算法也用于无监督离群点检测。基于聚类的离群因子（Cluster-Based Local Outlier Factor,CBLOF）16 是一种基于聚类的异常检测算法，其使用k-means聚类算法对数据点进行聚类。基于直方图的离群值（Histogram-Based Outlier Score,HBOS）17 是一种统计无监督异常检测算法，与基于最近邻和聚类的异常检测方法相比，该算法的计算成本更低。此外，以统计自回归移动平均（Auto Regressive Moving Average,ARMA）模型为代表的时间序列模型算法及其变化，也被广泛应用于时间序列

21、异常检测问题，如自回归移动平均（Auto Regressive Integrated Moving Average,ARIMA）模型。YU18等人提出一种基于ARIMA模型的无线传感器网络流量控制异常检测技术，通过结合ARIMA模型与短步指数加权平均法，更好地在网络流量中实现异常检测判断。YAACOB19等人通过对比实际网络流量和ARIMA预测模式，提出一种用于DoS攻击的早期预警检测技术。目前，无监督或者半监督神经网络架构已成功用于时间序列分析，通过无监督深度学习进行异常检测已经有了较为成熟的案例。一种典型的基于深度学习的异常检测方式是基于神经网络的自编码器，在文献 2 0-2 4中，自编码

22、器用于检测离群值，其核心思想是先将原始输人数据压缩成一个紧凑、隐藏的表示，再从隐藏的表示中重建输入数据。异常会在编码过程中丢失信息，因此一个有效的模型不应像正常实例一样能够重建异常。因为隐藏的表示非常紧，所以只能从输入中重建有代表性的特征，原始数据和重构数据之间的差异表示数据中的观察值是离群值的可能性。前馈全连接的神经网络是一个经典的自动编码器 2 0,其中输入层和输出层的神经元数量相同，隐层的神经元数量比输入层和输出层少得多，为了尽可能接近重构输入，隐层中的权值只捕捉原始输人数据中最具代表性的特征，而忽略输入数据的细节（如离群值），因此内层数据（即正常数据）比异常值更容易重构。经典的基于前馈

23、神经网络的自编码器常用于处理非顺序数据，为了在时间序列中进行异常值检测，本文基于递归神经网络的自编码器 2 1,2 解决时间序列异常检测问题。同时，遵循集成学习原则，为了进一步提高基于自编码器的离群点检测的准确性，自编码器集成技术被提出 2 3，其主要思想是构建一组自动编码器，并在检测异常值时考虑多个自动编码器的重构错误。然而，自动编码器集成技术仅适用于非顺序数据，不能直接用于时间序列，为了解决这个问题，KIEU24等人在前人基础上进一步在时间序列中执行离群值检测的自动编码器集成框架。另一种典型的基于深度学习的时间序列异常检测方法的核心是通过学习时间序列数据中上下文之间的有序性，查找巨大的输入

24、数据集的规律性和不规则性。当顺序输人时，深度学习模型将预测下一个值并将其与实际值进行比较，对两者之间的距离测量值进行测量和评分，以区分正常数据和异常数据 2 5-2 7。文献 2 5提出一种基于深度学习的时间序列数据异常检测方法DeepAnT，该方法使用深度卷积神经网络（ConvolutionalNeural Network，CNN）预测定义视界的下一个时间戳，同样也适用于非流数据。DeepAnT先获取一个时间序列窗口的信息（用作上下文），并尝试预测下一个时间戳，再将预测值传递给异常检测器模块，该模块负责将相应的时间戳标记为正常或异常。文献 2 6 使用基于循环神经网络（Recurrent N

25、eural Network，R NN）的预测模型，并用于工业物联网环境中的网络入侵检测，将余弦相似度作为评分函数，并通过设置余弦相似度边界执行异常检测。DU27等人提出一种基于长短期记忆（Long Short-Term Memory，LST M）的深度神经网络模型DeepLog，该模型不考虑网络数据流，而是将系统日志建模为自然语言序列，并从正常执行的系统日志中自动学习日志模式，将预测的输出与实际观察到的日志键值进行比较，从而检测异常。文献 2 8 提出EGADS模型，用于检测大尺度时间序列数据中的异常，对于给定的时间序列，EGADS对时间序列进行建模，并在时间戳t处产生一个期望值，将期望值与实

26、际414NETINFOSECURITY2024年第3期技术研究异常数据检测值进行比较，并将最可能的异常值作为输出。Numenta和NumentaTM29.30是基于Numenta的异常检测优化方法,在给定的数据流中模拟时间序列，在给定的时间t内对下一个时间戳进行预测。将这些预测值与实际值进行比较，从而确定一个值是正常的还是异常的。此外，关于利用深度学习技术进行无监督异常检测，研究人员还提出了其他方法，如生成对抗网络（Generative Adversarial Network，G A N），该方法适用于图像处理任务，但在时间序列数据中使用GAN框架的工作成果较少。近年来，部分学者尝试将GAN框

27、架用于异常检测 31-34。普通GAN框架包括生成式模型G和判别式模型D,G生成假样本,D判别输人样本的真假，两者进行对抗，从而使G生成的样本越来越接近真实样本，而判别器D的性能也达到最优。AnoGAN31方案利用GAN进行异常检测，在AnoGAN中G的参数是固定的，参数只能生成落在正常数据分布的图像，但此时仍需进行训练，因此把隐空间z看成待更新的参数，通过比较G(2)和x的差异进行更新，从而生成一个与x尽可能相似的正常图像。与基于图像的异常检测相比，本文更关注基于GAN的无监督时间序列异常检测方法。例如，MAD-GAN框架 32 首先将GAN的生成器G和判别器D构造为两个长短期循环神经网络（

28、LSTM-RNN）；然后将输人的流特征数据映射到随机空间，生成器G以随机潜在空间的序列为输人，生成假的时间序列，并将生成的序列样本传递给判别器；最后判别器将生成的数据序列与实际的正常训练数据序列进行区分。TAnoGAN3与MAD-GAN相似，仍然使用LSTM作为生成器和判别器模型来处理时间序列数据，不同的是，TAnoGAN使用不同架构检测小数据集的异常，以解决少量数据点问题，同时文献 33中研究了多种生成器和判别器的架构。文献 34指出应用标准对抗损失的原始计算方法中存在梯度不稳定和模式崩溃的问题，其中模式崩溃指在生成器与判别器的动态博奔后，生成器更倾向于产生已经被发现是好的样本来欺骗判别器，

29、而不愿意产生新的样本，导致生成器产生的样本多样性不足，无法完美收敛到目标分布。因此，TadGAN的目标包括Wasserstein损失（WassersteinLoss）和循环一致性损失（Cycle ConsistencyLoss），前者旨在使生成的时间序列分布与目标域的数据分布相匹配，后者旨在防止两个生成器之间产生矛盾。由于现代网络应用较广泛，从异常形状上看，点异常已转变为图异常，异常检测最近多应用于基于图的数据中。文献 35采用非参数图扫描(Non-ParametricGraph Scan，NPG S）统计来检测基于图的数据中的异常，基于NPGS统计法提出一种高效的近似方法，以解决连通异常子图

30、检测问题，该方法提供了可证明的性能和质量保证。针对特定形状图异常检测，文献 36 提出一种非线性方法，该方法侧重于通过归属图中的特定形状约束来优化一大类非线性成本函数，并可用于多种不同的图异常设置，在几何收敛速率上对近优解法有严格的理论保证。2时间序列异常检测集成学习框架2.1体系结构概述时间序列异常检测的基本任务是识别测试数据是否符合正常分布要求，在网络人侵方面，异常点包括但不限于Probe、D o S、D D o S等类别。模型框架如图2所示。数据源O学习重构误差或预测误差多元时间序分流-离线图2 描述了本文所提无监督异常检测集成模型的数据预处理BiLSTM-VAECNN-LSTM生成CN

31、N-VAE(Ensemble)良性数据流导入序列片段上下文单点图2 模型框架时间序列数据分流生成器模型训练异常检测检测器集合生成数据重构误差或预测误差未知数据流序列片段上下文单点多元时间序列分流-在线未知数据重构与预测玫击大于是阅值香检测结果归一化&加权求和入侵检测决策器正常415NETINFOSECURITY技术研究2024年第3期总体框架，主要分为两个部分进行考虑：1）基于常规网络数据流多元时间序列数据的无监督深度模型集合学习；2）实时异常数据检测。本文模型从确保安全的网络环境中获取常规的网络数据流，在完成数据的预处理后，通过不同单学习器分别学习不同的内在特征，包括时序特征和非时序特征。具

32、体过程如下。1）通过第三方工具、人工标记或统计算法等方式对常规网络环境下采集的数据流提取一组特征，将可以得到的原始网络数据流处理为多元时间序列数据。数据预处理主要负责训练准备数据，包括特征的数值化和归一化。为了获取针对不同时间序列数据异常的数据段，本文将原始的时间序列数据重构，并分流为3个不同的数据形式，即时间段型格式、上下文型格式和单点型数据，将获取相应的时序特征作为不同单学习器的训练数据输人。2）本文并行使用3个不同的单学习器构造集成模型，需要学习的异常检测模型包括基于序列数据的自编码器、基于上下文数据的RNN预测器和单点数据的自编码器集合。在并行训练集成模型前，本文将多变量时间序列划分为

33、子序列，将每个子序列对应的最后时间点数据设定为需要检测的关键点数据，通过引人滑动窗口，控制该子序列对应时间段数据的长度以及上下文数据中历史数据的长度。3）分别通过自编码器的重构误差和RNN的预测误差并行训练集成模型中的3个单学习器。对于单点自编码器，需要能很好地学习单条网络流数据的不同流特征的一般组合关系。基于序列数据的自编码器需要考虑子序列整体的时序关系，能捕获不同时间点之间的潜在交互作用。基于上下文数据的预测器主要负责捕获历史数据与当前时间点数据之间的时序发展关系，学习正常网络数据流中存在的周期模式。在本文模型进行实时异常数据检测期间，通过使用Wireshark和Snort等工具实时分析目

34、标网络环境下的网络数据包，对于每条新的数据流，结合其历史数据流信息，分流后由3个单学习器并行计算其异常值评分Score(S)，当评分大于异常值边界时，则对应的单学习器被认定为异常；否则，为正常。同时，由于点异常只考虑单个时间点的数据，而上下文异常和集体异常都同时考虑整个时间段的数据，因此，本文在测试阶段为点异常检测器单独设立一个时间回溯窗口（Back-TracingWindoW，BT W），当上下文异常或集体异常在当前时间点中检测到异常时，点异常检测器查看过往一个回溯窗口的检测值，如果存在异常点，则认为从时序全局考虑，当前时间点同样可以被认定为异常点。基于集成模型下不同决策器的固有优势，本文将

35、3个单学习器的检测结果分别通过3种不同的集成策略进行结合，包括“或”逻辑、“与”逻辑和多数票方法，同时对新进入检测系统的数据流给出实时异常检测的评估结果。2.2数据预处理本文遵循Feature Removing、Nu me r i c a l i z a t i o n 和Normalization等步骤准备模块输人前的数据。1）FeatureRemoving：在无监督模型中，缺乏必要的标签数据（先验知识），因此需要对识别异常数据流的关键流特征的重要性进行判别，通过专家推理对采用的流特征进行部分删选。以CIC-IDS-2018数据集为例,destinationport特征、timestamp特

36、征等是非必要的数据流特征，主要原因是人侵者和普通用户都可以拥有相同的端口地址或者类似的时间标签，删除该类Socket特征不会对异常数据流的识别造成显著影响。2）Numericalization：数值化是给网络流数据特征分配数值，大多数流特征可以通过第三方直接采集数据数值。例如，Serror_rate表示出现同步序列编号（Synchronize Sequence Numbers，SYN）错误的连接次数，rerror_rate表示出现rej错误的连接次数等。而部分流特征需要进一步进行离散化赋值。例如，Protocol表示所利用的网络协议。3）Normalization：为了避免特征在分类中产生不平

37、衡影响，往往需要将特征归一化到0,1，本文利用公式（1）进行特征数值的归一化。(1)Jmax-fmin其中，J为任意流特征在第个数据中的原特征值，Jma416NETINFOSECURITY2024年第3期技术研究为该流特征在所有流数据中的最大值，fmin为该流特征在所有流数据中的最小值，Ji,mrlz为该流特征在第i个流数据中的归一化值。2.3基于序列变分自编码器的独立框架本文使用基于独立框架的序列数据变分Bi-LSTM自编码器，针对时间序列数据中的集体异常进行检测。基于序列的集体异常检测策略在正常序列上训练变分Bi-LSTM自动编码器，使其学习网络数据流中的正常流量模式。在测试时,正常序列被

38、期望得到很好的重构，而异常序列不能被重构，原因在于模型在训练过程中没有看到异常数据。在实际工作中，本文采用变分Bi-LSTM自动编码器集合的基本独立框架，通过一个Bi-LSTM层提取时间序列数据的上下交互关系，每个时间点的输出都对应一个不同的变分自动编码器（Variational AutoEncoder，VAE），每个VAE都由一个独立的编码器和解码器组成，再通过另一个Bi-LSTM层重新对原时间序列数据进行重构。VAE集合中的每个自动编码器都通过最小化损失函数来独立训练。因此，本文将Bi-LSTM层所能接受的时间序列长度固定为子序列表示的拟采用窗口长度，使用不同的窗口大小来捕捉不同分辨率下的

39、系统状态，选取窗口长度SW-10。与确定性自动编码器不同，VAE不是直接输出一个隐变量，而是输出一个多维高斯分布的均值ux和方差x。在由 ux和x确定的分布中采样一个隐变量z,并将采样结果送入解码器中进行解码。VAE的解码目标同AE类似，同样需要z为解码器的原始输人。不同的是，基于VAE模型重建的是输入变量的分布参数而不是输入变量本身，因此，考虑使用概率测度作为异常得分。AN37等人提出一种计算重建概率的方法，使用蒙特卡罗积分估计VAE损失函数的重建项。此外，本文还给出常用的损失函数的计算方式，将VAE的损失函数分为两部分，一部分利用平均绝对误差（MeanAbsoluteError，M A E

40、）度量原数据的重构误差，另一部分使用KL（K u l l b a c k-Le i b l e r）散度度量VAE中潜在变量的分布和单位高斯分布的差异，如公式（2）公式（4）所示。VAEloss=Reloss+KL(N(u,o),N(O,1)Reou=-MAE(x,)-Zlk-lKL(N(,0),N(0,1)-,Z(1+1og()-0)(4)其中，Reioss是原数据x的重构误差，x,是原数据x第i个特征的真实值，x,是原数据x第i个特征的预测值。KL(N(,),N(0,I)是KL散度，N(u,o)是给定输人x时对应编码器输出的隐变量分布，N(O,1)是预设的先验分布。公式（4）旨在让编码器的

41、输出分布尽可能接近预设的先验分布，并通过KL散度衡量两者之间的差异。在基于自动编码的异常检测方法中，利用数据的可变性进行异常检测提升了本文所提模型的表达能力，即使在正常和异常数据可以共享相同期望值的情况下，变异性也是不同的，因此，需要一个额外的工具区分正常和异常数据。通过该独立框架，既确保了对于时间序列数据中时序关系的学习，也能很好地对单个时间点的流特征进行压缩保留，而使用单个自动编码器对整个时间序列数据进行编码和解码，则会失去对单个时间点流特征的敏感性。因此，本文所提模型的学习能力较好，并且具有更强的稳定性和鲁棒性。2.4基于卷积循环的预测框架针对时间序列数据中的上下文异常，本文使用一个基于

42、C-LSTM模型的上下文学习器进行检测。基于序列的上下文异常检测策略在正常序列上训练C-LSTM预测器，该模块获取一个历史时间序列信息（用作上下文），并通过尝试预测下一个时间戳信息。在测试时，将历史时间序列信息传递给C-LSTM预测器，并期望得到很好的预测效果，因为模型在训练过程中只针对正常的时间序列数据进行学习，所以异常序列不能被正常预测。深度学习能够在不需要任何领域知识的情况下自(2)(3)417NETINFOSECURITY技术研究2024年第3期动发现复杂特征，因此得到广泛应用。在实际工作时，本文采用一维C-LSTM模型作为预测器。由于CNN在以往的研究中可以很好地替代单变量和多变量时

43、间序列数据2 5，同时帮助预测器捕捉网络流数据的隐秘和动态特性38 ，而一维卷积层在学习空间特征方面已经被证明是有效的，如学习相邻的单词任务，因此本文将一维卷积层用于对数字向量进行初步的特征提取，在保留关键的语义特征和上下文关系的同时，方便预测器进一步学习网络数据流模式。LSTM作为RNN的一种优化模型，已被证明对不同任务中基于序列的学习是有效的，如机器翻译39 和情感分析。此外，与其他神经网络和统计模型相比，LSTM具有鲁棒性，文献40,41 表明，LSTM在时间数据方面表现良好，因为它能够提取时间序列中的长期趋势，所以本文将其用于解决时间序列回归的问题，通过LSTM层接收1D-CNN层的输

44、出数据，并用于预测下一个时间戳的流特征数据。本文使用不同的窗口大小来捕捉不同层次的历史上下文信息，选取窗口长度SW-9。公式（5）给出了平均绝对误差preioss的计算方法，本文选取preioss作为实际输出y和预测输出之间差异的标准，其中c代表网络流数据所包含的特征数量。通过减小实际值与预测值之间的误差可以学习预测时间序列的正常行为，而在测试时也可以选择将该平均绝对误差值作为异常值，一个大的异常值表示在给定的时间戳上有一个显著的异常。值得注意的是，本文方法只预测下一个时间戳，因此输出节点的数量为cx1，而当需要预测一个序列而不是单个数据点时，输出层的节点数也需要相应地改变。prem-MAE(

45、y,)-2,l,-)l其中，y,是原数据y第j个特征的真实值，,是原数据y第j个特征的预测值。2.5基于变分自动编码器的共享框架本文提出一种基于共享框架的单一时间点数据自编码器集合，针对时间序列数据中的点异常进行检测。基于点异常检测策略通过正常时间点数据训练CNN-VAE模型，给定n个任务，每个任务对同一时间点数据特征进行重构，而在隐藏层，本文让n个任务的隐含特征编码进行交互，使其学习数据的正常特征组合。在测试时，正常的时间点数据被期望得到很好的重构，而异常的时间点数据在重构时将会在大多数重构任务中产生较大误差。基本框架独立地训练不同变分自动编码器，这意味着不同变分自动编码器在训练阶段不交互。

46、然而，所有变分自动编码器都试图重构相同的点数据，因此变分自动编码器之间的交互是相关的。基于多任务学习原则2 42-4，本文通过共享框架合并不同自动编码器之间的交互。遵循集成学习的原理，变分自动编码器集成旨在进一步提高基于自动编码器的离群值检测的准确性2 1,而使用一组经典的、完全连接的简单变分自动编码器无法提升准确性，原因在于互相之间的网络是完全相同的。因此，对比直接使用多个简单VAE的集合，本文选择使用一个CNN-VAE模型实现共享框架。本文中的n个任务同时对点数据特征进行学习，首先将点数据特征进行n种不同顺序的排序，并将其拼接为二维矩阵数据；然后通过CNN层进一步从原始点数据特征中提取新的

47、特征，并通过一次全连接层将提取的特征进行编码，将其压缩到同一个隐空间；最后通过全连接的方式完成对隐层空间的初步解码，利用反卷积操作完成对原始点数据特征的最终重构。本文使用不同的任务数量n控制自编码器集合的大小，选取变分自编码器数量N-46。同时，本文结合上下文异常检测以及集体异常检测所使用的历史流数据长(5)度，在进行测试时，该检测器维持时间回溯窗口长度为BTW-9，使之与C-LSTM模型中的历史上下文信息长度一致。在共享框架中，本文采用平均绝对误差作为最小化目标函数来联合训练CNN-VAE模型，同时考虑所有自动编码器中流特征的重构误差，如公式（6）所示。418NETINFOSECURITY2

48、024年第3期技术研究表2 CIC-IDS数据集Reliss=MAE(x,)=-(6)nc其中，xj是原数据x在第i个变分自编码器中第j个特征的真实值，x,是原数据x在第i个变分自编码器中第j个特征的预测值。3实验分析3.1数据集本文使用两个经典数据集进行测试，具体介绍如下。1)KDD CUP1999数据集NSL-KDD人侵检测数据集由DARPA于1998 年发布，这是网络入侵检测常用的一个基准，此后发布了不同版本的数据集。本文选择人侵检测数据集KDDCUP1999进行测试45，如表1所示。表1中定义了4种特定类型的攻击，还显示了KDDCUP1999数据集的数据分布。值得注意的是，在训练集上只

49、出现了2 2 种攻击类型，此外，还有14种攻击类型仅出现在测试数据集中。在该数据集中，每个NSL-KDD样本包含41个特征（如协议类型、服务和标志），其中包含攻击样本和无攻击样本。表1KDDCUP1999数据集攻击类型子类DoSback、l a n d、n e p t u n e、p o d、s m u r f、t e a r d r o pProbingipsweep、n m a p、p o r t s w e e p、s a t a nfip_write、g u e s s _p a s s w d、i ma p、mu l t i h o p、p h f、s p y、R2LU2R2）C S

50、E-C I C-I D S2 0 18 数据集加拿大网络安全研究所于2 0 17 年、2 0 18 年分别发布了CIC-IDS2017和CSE-CIC-IDS2018两个人侵检测数据集，代表当前网络中的恶意行为。在CIC-IDS2017和CSE-CIC-IDS2018数据集中，收集了多种现代攻击行为。如表2 所示，该数据集由不同攻击场景组成，这些场景存储在不同子数据集中。本文选取更新的CSE-CIC-IDS2018数据集46 作为KDDCUP1999数据集的补充，实验验证了本文所提方法的有效性。工具攻击CIC-IDS 2017FTP-PatatorBrute ForceSSH-PatatorD

展开阅读全文