收藏 分销(赏)

交互博弈引导的网络流量异常检测建模方法研究.pdf

上传人:自信****多点 文档编号:3113793 上传时间:2024-06-18 格式:PDF 页数:11 大小:853.53KB
下载 相关 举报
交互博弈引导的网络流量异常检测建模方法研究.pdf_第1页
第1页 / 共11页
交互博弈引导的网络流量异常检测建模方法研究.pdf_第2页
第2页 / 共11页
交互博弈引导的网络流量异常检测建模方法研究.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 9 卷 第 2 期信 息 安 全 学 报Vol.9 No.22024 年 3 月Journal of Cyber SecurityMarch 2024通讯作者:魏松杰,副教授,Email:。本课题得到国家重点研发计划子课题内生安全交换机关键技术研究(No.2020YFB1804604)、工业互联网创新发展工程项目工业企业网络安全综合防护平台(No.TC200H01V)资助。收稿日期:2022-05-25;修改日期:2022-07-05;定稿日期:2023-11-02交互博弈引导的网络流量异常检测建模方法研究张文哲,杨栋,魏松杰南京理工大学 计算机科学与工程学院 南京 中国 210094摘要

2、基于网络流量的系统入侵会带来严重破坏,因此寻找能够准确识别和分类异常流量的方法具有重要的研究价值。数据作为基于机器学习模型的检测算法的唯一依据,训练过程对于外界是一个黑盒过程,整个模型在训练和使用过程中缺乏用户交互。这导致在网络运维场景中,专业运维人员不能根据当前模型检测结果,实时将指导信息反馈到系统中,进而削弱了系统的场景适应能力和检测纠错能力。本文基于强化学习过程,设计了一种基于动态贝叶斯博弈的交互引导式的网络流量异常检测方法。通过检测模型和运维人员交互的方式,在训练过程中让运维人员提供专业反馈使得模型获得外界针对当前检测效果的奖惩信号,从而对自身特征聚焦方向和收敛过程起到引导的作用。将运

3、维人员和检测模型视为博弈的双方,建立博弈模型,使双方之间的交互引导行为达到动态平衡状态。通过博弈对于模型交互频次和内容反馈给出指导,从而使得模型具有动态适应当前场景的能力,有效控制了人机交互反馈所带来的系统开销。实验部分验证了交互式博弈的流量检测方法中,双方博弈指导交互行为的可行性与有效性,证明了该方法在动态场景中具有良好的适应能力。相较于传统的机器学习方法,交互引导式模型提高了模型整体的检测性能。性能对比测试结果表明交互频次每增加 0.02%,系统整体检测性能随之提升 0.01%。关键词动态贝叶斯博弈;强化学习;网络流量;异常检测中图分类号TN915.08DOI 号 10.19363/J10

4、-1380/tn.2024.03.03Interactive-Gaming Guided Modeling andDetection for Network TrafficAnomalyDetectionZHANG Wenzhe,YANG Dong,WEI SongjieSchool of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094,ChinaAbstractSince system intrusion through network traffic m

5、ay cause serious damages,it is of great value to research formore accurate methods for network traffic recognition and anomaly classification.Traditional machine-learning baseddetection methods rely only on data,with the model training and application procedures lack interaction with domainusers,whi

6、ch makes the mode just mystery running in a black box.The domain experts in network anomaly detection scenarioscannot provide instant feedback about the model detection results to the system,and thus the detection system is short ofadaptability and self-correction capability in these scenarios.This

7、paper proposes an interaction guided network trafficanomaly detection based on the improved reinforcement learning procedure with the dynamic Bayesian gaming.The newmodel training and detection procedure enables system administrators and domain experts to return feedbacks about themodel behaviors in

8、to the system as incentive signals for feature focusing and model convergence.System administratorsand detection models are interacting with each other following the gaming theory to approximate a dynamic equilibriumstate.We design the interactive gaming strategy to control the interaction frequency

9、 and content,which optimize thedetection model to achieve dynamic adaptability to the current network traffic scenarios,with constrained interactionoverhead.We have conduct experiments with public dataset for traffic anomaly detection to verify the interactive gamingperformance,detectionimprovementa

10、ndeffectiveness.Theexperimentalresultseffectivelyprovethattheinteraction-guided model has good adaptability and usability in dynamic scenarios.It can make the interaction frequencycontrollable by adjusting parameters.It can achieve a balance between performance and interaction frequency on data sets

11、of different types and scenarios.Compared with traditional machine learning methods,the interactive guided modelimproves the overall detection performance of the model.Results show that the detection performance is improve by0.01%for every 0.02%more interaction frequency.张文哲 等:交互博弈引导的网络流量异常检测建模方法研究3

12、7Key wordsdynamic Bayesian gaming;reinforcement learning;network traffic;anomaly detection1引言由于网络中的任何入侵和异常都会严重影响许多领域,如私人和社会数据的安全、国家安全、社会和金融问题等,因此,科学界对信息和通信的安全性越来越关注。自 21 世纪初以来,研究人员在异常检测领域做出大量研究,并提出了众多异常检测方法,主要分为基于规则的异常检测和基于机器学习的异常检测两大类。其中基于机器学习的异常检测框架又分为无监督学习和有监督学习。在有监督学习中,利用已标记数据集的有用信息进行流量的分类,使用此类有

13、监督学习算法会达到高预测精度的效果。然而,手动标记所有数据这一过程任务量较大。在无监督学习中,模型通过寻找数据间的共同点去做相应的分类,整个过程不依赖于标签,但是其训练效果相比有监督学习较差,寻找能够检测恶意流量的新的快速而强大的算法模式对于应对不断变化的威胁和增加的检测难度至关重要。任何的网络流量异常检测模型都要具备适应不同网络场景的能力,随着网络环境的变化,模型要做出相应变化。在传统的网络流量异常检测中,将某个场景中的数据进行定量采集后,将其作为预先设计的机器学习算法模型的输入,进行模型的训练,当模型训练完备后,将当前模型发布到正式生产环境中使用,在使用过程中模型不具备针对当前网络的自适应

14、能力。对于新型的攻击模型无法识别时,发出告警将对于当前数据的检测和排查工作交由网络运维人员处理。面对当下比以往规模更大、结构更复杂的网络基础设施、基础服务和线上业务环境,该过程加大了网络运维人员的工作量,已经无法满足当前监控和管理任务的需要。智能运维(Artificialintelligence for IT operations,AIOps)的提出基于已有的运维数据,通过机器学习算法和运维场景结合的方式来进一步解决自动化运维所未能解决的问题,以提高监测系统的分析预判能力、准确率和稳定性,并有效地降低运维成本。但是 AIOps 中的算法模型使用已有的运维数据(日志、监控信息、应用信息等)进行驱

15、动,往往训练过程对于外界是一个黑盒子,已有的历史数据成为模型的唯一依赖,整个模型在训练和使用过程中不具有与用户交互的能力和机制,进而导致在运维环境中运维人员不能根据模型判断结果实时将信息反馈到 AIOps 系统中,从而削弱了系统的适应能力和纠错能力。针对上述问题,本文结合强化学习算法的Reward 回馈机制,提出一种交互引导式的模型进行网络流量异常检测。相较于传统的 AIOps 系统,在该场景中采用交互式博弈的方式,运维人员通过可视化交互界面,对模型的分析与决策进行反馈和评估,进而使得模型不断的在运维人员提供的外部信息训练过程中获得更加精确的训练结果。为了更好的使得运维人员和模型之间进行合作,

16、建立模型合理的交互策略以及模型合理的反馈策略,本文使用动态贝叶斯博弈模型建立了一个二者间的信誉评估和更新机制,通过博弈建立起运维人员和模型之间的均衡态,从而指导模型和运维人员的行为。本文结构如下所示:第一节为引言,第二节介绍网络流量异常检测领域相关工作,第三节介绍基于动态贝叶斯博弈的交互式引导异常检测方法以及相关理论,第四节详细描述系统中人机博弈模型的构建流程,第五节对实验结果进行整理和分析,第六节为总结和展望。2相关工作针对网络异常流量检测,机器学习作为一种基于统计的分析工具,已经在各个领域得到了广泛的讨论和应用。针对网络异常检测所制定的系统为入侵检测系统(Intrusion detecti

17、on system,IDS),是用来保护网络的一种典型的对抗手段。当前机器学习领域应用于 IDS 的算法多为传统的机器学习算法,例如支持向量机(Support vector machines,SVM),K 近邻算法(K-nearest neighbors,KNN),人工神经网络(Artificial neural networks,ANN)和决策树(Decisiontree,DT)以及深度神经网络(Deep neural network,DNN)。在网络流量的历史数据中,每条数据在空间和时间上相互关联依赖,所以网络流量的历史数据之间具有高度非线性和复杂性的特征。2012 年 K.Sethi等人

18、1提出了一种将日志关联和强化学习相结合的入侵检测系统。算法通过奖励回馈机制来识别已知和未知的攻击。2015 年 Kumar 等人2使用季节性差分自回归滑动平均模型(Seasonal autoregressive integratedmoving average,SARIMA)模型,通过分析流量分布进而设置流量分类阈值的方法进行流量的时间序列预测,但是该方法设置的阈值不具有普适性,难以38Journal of Cyber Security 信息安全学报,2024 年 3 月,第 9 卷,第 2 期适应各种网络场景。同年 Basant Subba 等人3提出线性判别分析(Linear discri

19、minant analysis,LDA)和逻辑回归(Logistic regression,LR)应用于网络异常检测中,相对于 SVM 具有更小的整体系统开销,并且便于实际应用中的部署。2017 年 Zhang Xiaofeng 等人4提出了一种改进的半监督学习网络入侵检测算法。该算法首先使用改进的 K-means 将要检测的数据划分为不同的聚类,然后使用多级 SVM 对标记为异常的簇进行分类,以达到提高检测效率的目的。2018年 R.Blanco 等人5在多层感知器(MLP)上使用深度Q 网络(Deep Q network,DQN)体系结构构建基于 RL的 IDS 系统。Daochen Zh

20、a 等人6提出了一种采用元策略的主动异常检测新框架,并命名为 Meta-AAD。Meta-AAD 框架通过近端策略梯度(Proximal policyoptimization,PPO)进行实例化,利用深度强化学习(Deep reinforcement learning,DRL)来训练元策略以选择最合适的实例,从而在整个查询过程中显式优化发现的异常数量。随后 G.Apruzzese 等人7提出通过双深 Q 网络(Double deep Q network,DDQN)算法进行僵尸网络检测程序的逃避攻击,自动生成能够逃避检测的攻击样本,并使用此类样本生成用于生成强化检测器的增强训练集,然后利用深度强

21、化学习算法来生成保留其恶意逻辑并能够逃避检测的对抗样本。在此类数据驱动的算法模型中,数据为算法模型的唯一依赖,整个模型不具有与用户交互的能力,导致模型缺乏对不同真实场景的适应能力。为了增强模型在网络流量异常检测系统中的动态适应性,本文结合强化学习算法,提出了一种基于动态贝叶斯博弈的交互引导式模型用于网络流量异常检测,通过模型和运维人员交互的方式增加模型的可维护性和扩展性,并且在其基础上建立动态贝叶斯博弈模型,寻找二者交互的平衡点。3交互式引导检测方法基于贝叶斯博弈的交互式引导检测方法整合了强化学习算法的奖励回馈机制以及动态贝叶斯博弈。在异常检测系统中运维人员通过给予模型反馈使得模型快速适应动态

22、环境。系统整体结构如图 1 所示。该架构主要分为 2个部分:第 1 部分为基于强化学习的交互式引导异常检测方法,第 2 部分为交互式博弈过程中的博弈系统。本节对于基于强化学习的交互式引导方法进行介绍,第 4 节对人机博弈系统进行阐述。图 1系统结构图Figure 1System structure diagram3.1算法概述强化学习(Reinforcement learning,RL)是一种机器学习范式,具有通过在动态环境中的模拟试错来自我学习的能力8。在 RL 框架中,代理、状态、动作、环境和奖励是学习循环的组成部分,即 agent,environment,state,reward,act

23、ion。其中模型为强化学习的本体,作为决策者;环境为强化学习智能体以外的组成部分,主要由状态集合组成;状态用来表示环境的数据,状态集则是环境中所有可能的状态;动作是智能体可以做出的动作;奖励为智能体执行一个动作后从环境中所获得的正/负反馈信号9。在当前异常检测场景下,强化学习范式各个模块定义如表 1 所示。强化学习通过在状态?处获取期望值?来引入价值函数?(?),表明状态?的价值。价值函数取决于 agent 选择 action 的策略?。在所有可能的函数中,存在最优值函数,表示为?蓐?(?),并且最大化可实现的动作值的最优策略为?,计算式表示为?蓐籀?蓐?蓐籀?蓐蓐?(?,蓐)。其中?函数的输

24、入为状态和动作,输出为奖励的值,?表示?函数的最优值。根据Bellman方程可知,最优?函数的递归定义如公式(1)所示。Q*(s,a)=R(s,a)+ESV*(s)(1)其中?(?,蓐)表示在状态?执行动作 蓐 后的即时奖励,?表示转换到下一个状态?后的预期奖励。张文哲 等:交互博弈引导的网络流量异常检测建模方法研究39表 1模块定义表Table 1Module definition模块定义Agents代理Environment训练集State流量数据Action当前预测标签Reward当前预测所获奖励在 Q-learning 算法中使用?表格的形式记录?值,表的大小为?,其中 m,n 分别表

25、示状态和动作的数量,通过查表的方式完成一次决策过程。?值更新方程如公式(2)所示。Qnew(st,at)=(1)Q(st,at)+(rt+maxaQ(st+1,at+1)(2)由于在 Q-learning 算法中状态空间过大时,会使得?表格过大从而导致维度灾难。本文使用 DQN 进行优化,在DQN算法中,使用神经网络代替?表格。该神经网络将当前状态作为输入,每个动作的?值估计作为输出。在 Q-learning 中,目标?值为:j+aQ(j+1,a;?)。其中表示状态?,?表示当前神经网络中的参数。在该神经网络中目标为最小化目标?值与神经网络输出的?值之间的误差,其用公式表示为:。Loss=(y

26、jQ(j,aj;?)2通过梯度下降寻找最小误差,进而训练神经网络。模型 Agent 中为一个 5 层的神经网络,其中隐藏层共 3 层,每层之间均采用全连接的方式。输入层共 12 个单元,通过 PCA 主成分分析的方式将数据集中的所有特征放缩为 12,其中输出层为数据的类别。经过 3 层隐藏层后模型的输出为四个 action 所对应的?值。3.2交互机制在本文基于强化学习算法的交互式引导异常检测模型中,模型分别接收来自环境和运维人员的反馈奖励。奖励方程如公式(3)所示。Rall(st,at)=RA(st,at)+(1)RE(st,at)(3)其中 RE(st,at)表示模型接收的来自环境的奖励,

27、RA(st,at)表示模型接收到的来自运维人员的反馈奖励,表示环境奖励和反馈奖励之间的权重比值。根据模型判断结果的正确率等指标,动态调节?数值,从而调节运维人员反馈奖励的占比,当模型在异常检测过程中表现较好时,需要适当减小?数值,从而降低运维人员反馈奖励对于模型总奖励的占比;当模型表现较差时,需要适当增加?数值,提升运维人员反馈奖励对于模型总奖励的占比,从而增大运维人员的引导强度。训练的过程中,通过运维人员的引导可以帮助异常检测模型收敛速度加快,并且在交互引导的过程中可以使得模型动态改变其对于异常数据的认知,从而加强模型推断运维人员意图的能力。4博弈模型和均衡解4.1博弈要素提取博弈论作为对抗

28、研究的数学理论,参与博弈的个体必须根据对手的选择得到自身选择的最佳方案,以获得最大利益10。一个完整的博弈过程应该由参与者、策略、收益和收益函数组成11。博弈过程中各个变量通过数学符号表示,各符号含义如表 2 所示。在运维人员和模型博弈的过程中,博弈模型中的主要要素组成如下。表 2符号含义表Table 2Symbol meaning符号含义M模型A运维人员?模型策略蓐?运维人员策略?模型选择策略?的概率?运维人员选择策略蓐?的概率?模型选择交互策略 j 的成本?蓐?运维人员选择反馈策略 k 的成本P失败方所受惩罚R整个系统的总资源J模型策略数量K运维员策略数量?模型的效用函数?运维人员的效用函

29、数运维人员对模型交互的先验信念new先验信念的更新(1)参与者:由运维人员和模型组成。他们根据对手的行动理性地决定自己的下一步策略,从而将自身收益最大化12。(2)策略:参与者在博弈过程中可选择的行动。模型?的策略集为?,?,?,其中?表示不发起交互,?表示发起交互且自身将该数据判断为异常数据,?表示发起交互且自身将该数据判断为正常数据;?,?,?分别表示模型策略的概率分布。其中?。运维人员?的策略集是?蓐?,蓐?,蓐?,其中蓐?表示不反馈,蓐?表示反馈且反馈内容为数据类别为正常数据,蓐?表示反馈并且反馈内容为数据类别为异常数据。?,?,?分别表示运维人员策略40Journal of Cybe

30、r Security 信息安全学报,2024 年 3 月,第 9 卷,第 2 期的概率分布。其中?。(3)收益:参与者博弈过程中可获得的收益。当模型选择交互,运维人员选择给予反馈并且模型所判断的数据类别和运维人员反馈结果中的数据类别不一致时,记作模型在单步博弈过程中失败,模型的收益等于交互的成本?加上给予模型相应的惩罚?。运维人员的收益为系统总资源?减去给予模型反馈所需要的成本?蓐?;当模型选择交互,运维人员选择给予反馈并且模型所判断的数据类别和运维人员反馈结果中的数据类别一致时,记作模型在单步博弈过程中胜出,模型的收益等于系统总资源?减去交互的成本?,运维人员的收益等于相应的惩罚?加上反馈所

31、需要的成本?蓐?;当模型选择交互并且运维人员选择不给予反馈,模型胜出,其收益为系统总资源?减去交互所需要的成本?,运维人员的收益为相应的惩罚?。当模型选择不进行交互,运维人员也没有主动向模型反馈时,模型和运维人员的收益都为 0;运维人员认为模型对于某条流量预测结果不正确,主动反馈但其反馈结果不正确时,运维人员的收益为?蓐?,模型的收益为 0;运维人员认为模型对于某条流量预测结果不正确,主动反馈并且反馈结果正确时,运维人员的收益为?蓐?,模型的收益为 0。收益矩阵如表 3 所示。表 3运维人员-模型收益矩阵Table 3Admin-model payoff matrix模型运维人员发起交互不发起

32、交互反馈?蓐?;?(j?)?蓐?;?(j?)?蓐?;?(j?)?蓐?;?(j?)不反馈?;?;?(4)收益函数。在博弈过程中,博弈参与者的策略受根据博弈要素构造的收益函数所支配。模型的收益函数。当模型选择不发起交互时,模型的收益一定为 0。即?。当模型选择交互时(?),其收益函数如等式(4)所示。()()(1)*0(1)()jkjmMjjkjmqpcUmqRc(4)综上所述,模型总收益如等式(5)所示。011 ()()()(1)()NMMMjjNjjkjmkjmjUUmUmqPcqRc(5)运维人员的收益函数。当运维人员选择不反馈时,其收益函数如等式(6)所示。00001001()(,)(,)

33、(1)(,)()NAAjAjNAjjUaUa mUa mUa mpP(6)当运维人员选择反馈时(1kN),其收益函数如等式(7)。010()(,)(,)(1)(,)NAkAkjAkjAkUaUamUamUam(7)将表 3 的数据代入等式(7)可得等式(8)。0()()()+()(1)(1)()(1)kkj kajakjAkkkkjakjakkkjakjapRcpPcUapqRcqcqRcqc(8)4.2确定均衡态纳什均衡是指由所有参与者的最优策略组成的策略组合。在这种策略组合中给定其他参与者的策略没有任何单个参与者有积极性选择其他策略打破当前状态下的均衡13。定理定理 1 在完全信息博弈中,

34、如果在每个给定信息下,只能选择一种特定策略,这个策略为纯策略(Pure strategy)14。对于参与者 i 的策略集?蓐?,蓐?,蓐?,则纯策略蓐?。定定理理 2 混合策略是指参与者可以在给定信息下,在一定概率分布中随机选择不同动作的策略,是其策略空间内的一种概率分布15。混合策略给每个纯策略分配一个概率,参与者的策略集就是一个“样本空间”。用?表示?上的概率分布,即:iiAp12,1iiinijijjppppp0,那么,混合策略12(,)iiiinippppA。定理定理 3 纳什均衡存在性定理,即有限的策略式博弈一定存在混合策略纳什均衡。因为模型是否发起交互是不确定的,所以当前博弈模型中

35、没有纯纳什均衡策略,只有混合纳什均衡策略。根据定理 3 可知,上述博弈模型中一定存在一个纳什均衡态。双方的混合纳什均衡策略集是?,?,?;?,?,?,即运维人员和模型都会在博弈的某个阶段随机选择概率不同的行动。1.运维人员的混合策略。根据模型的收益函数可知,运维人员的混合策略?,?,?还有待确定。在混合策略纳什均衡中,运维人员选择策略概率分布使模型不会偏好于任何行动,即选择每一个策略都会得到相同张文哲 等:交互博弈引导的网络流量异常检测建模方法研究41的收益。则由?可得等式(9)。()(1)()0jjkjmkjmqPcqRc(9)(1)jmkjRcqjNRP(10)011Njjqq(11)由等

36、式(10)可知,运维人员选择某种行为的概率与模型某种行为的成本和失败者所受的惩罚有关。由于行为成本越高,惩罚力度越大,模型选择该行为的可能性越小,所以运维人员选择该行为的可能性也越小。(2)模型的混合策略。根据运维人员的收益函数可知,模型的混合策略?,?,?还有待确定。在混合策略纳什均衡中,模型选择策略概率分布使运维人员不会偏好于任何行动,即选择每一个策略都会得到相同的收益。则由等式?蓐?蓐?得等式(12)。结合等式(10)进而可得?如等式(13)所示。11()()1()(1)(1)()(1)()kkj kajakjNkkjkjakjajkkkjakjaNjjpRcpPcpqRcqcqRcqc

37、pP-(12)(1)(1)()jkmakjRccRPpkNPR(13)011Njjpp(14)从等式(10)可以看出,模型选择是否交互的概率与相应交互成本和运维人员关于模型交互的信念等因素有关。模型发起交互的交互成本越大,交互的可能性就越小;运维人员反馈所需要的成本越大,交互的可能性越大;其关于模型交互的信念越大,交互的可能性就越小。00,(1);(1)(),(1)jkmakjjmkjRccRPppkNPRRcq qjNRP(15)综上所述,运维人员和模型的混合纳什均衡策略集如等式(15)所示。即博弈参与者在每个回合的博弈中会随机选择概率不同的行动。4.3先验信念更新修正先验信念new在动态贝

38、叶斯博弈中至关重要。在下一博弈回合开始之前,运维人员根据当前观察到的的行为来修改对于模型的先验信念,并相应地改变下一阶段的反馈策略。假设模型交互状态为?,?,其中?表示模型没有发起交互,?表示模型发起交互。运维人员始终处在待反馈状态,即?。运维人员检测当前交互状态结果的正确率为?,虚警率为?。运维人员会根据检测到的交互状态判断模型是否发起交互。模型 M 历史动作集为:hM(tt)=mM(t0),mM(t1),mM(t2),mM(tt1)其中?代表?时刻运维人员检测到的交互状态;?,?,?表示模型在?时刻没有发起交互,?表示模型在?时刻发起交互。不同状态下模型在?时刻的可选行为的概率分布如下:?

39、(1PF)*p0P(mM(tt)=1|SM=0)=PF?其中?表示当实际交互状态为?时,运维人员检测到交互状态?的概率。?时刻的先验信念是时刻?的先验信念更新。由贝叶斯公式可知,运维人员对是否存在交互的先验信念更新new为:(|()()|,()(|(),()(|()()|,()AMMtMtMMtAMMtMtAMMtMtMMtShtP mtShtSmthtShtP mtSht其中new是?时刻运维人员的先验信念,将指导运维人员下一阶段的策略选择。整个博弈流程如下:1)输入初始参数。先验信念、模型交互成本?、运维人员反馈成本?蓐、博弈失败时所受惩罚 P、整个交互系统的总资源 R、检测率?和虚警率?

40、;2)双方根据当前先验信念计算当前阶段的最大收益,然后输出下一阶段的策略空间?和?以及随机选择模型和运维人员的动作;3)根据检测到的交互情况(0表示检测到模型没有发起交互,1 表示检测到模型发起交互),运维人员利用贝叶斯公式更新先验信念;4)双方循环进行下一回合的博弈。5实验评估5.1数据预处理由于不同的数据集中异常数据的特征和占比等条件都有所不同,所以仅使用一种数据集不足以说明该算法的性能表现具有普适性。为了证明该方法的通用性,本文分别使用公共网络异常数据集和模42Journal of Cyber Security 信息安全学报,2024 年 3 月,第 9 卷,第 2 期拟异常环境进行模型

41、的训练和性能对比。5.1.1公共数据集公共数据集本 文 使 用 加 拿 大 网 络 安 全 研 究 所 发 布 的CIC-IDS2017 数据集作为公共数据集对检测模型进行训练。该数据集包含良性和最新的常见攻击,其对网络中的数据进行长达 5 天的采集,其中周二到周五 4 天包含了所有的异常数据16。以下是对于实验中涉及的攻击的简要说明:1)拒绝服务攻击(Denial of Service,DoS),指通过发送不重要的信息,以影响合法用户的使用,占用工作机器的内存空间,使工作机器的计算资源超载的行为。2)分布式拒绝服务攻击(Distributed Denial ofService,DDoS),指

42、处于不同位置的多个攻击者同时向一个或数个目标发动攻击,或者一个攻击者控制位于不同位置的多台机器并利用多台机器对受害者同时实施攻击17。3)端口扫描攻击(PortScan 攻击),是黑客用来发现网络中开放端口的常用技术。端口扫描攻击可帮助攻击者找到开放端口并确定端口是否在发送数据。它还可以揭示组织是否正在使用防火墙等主动安全设备。本文通过合并 CIC-IDS-2017 数据集中周三以及周五下午的 Port Scan 和 DDoS 数据进行数据的集中整合,对上述整合后的数据中每类数据进行同比例缩放后所产生的数据中各类数据占比如表 4 所示,并采取以下方式进行数据清洗。表 4公共数据集类型占比Tab

43、le 4Proportion of public dataset types攻击类型占比/%Benign61.8DDoS9.1DoS13.8Port Scan15.31)处理缺失值和无穷值。数据集 CIC-IDS-2017中的缺失值仅存在于 Flow Bytes/s 特征中,由于缺失值占比较小所以采用删除的方式对缺失值进行处理。其中无穷值存在于 Flow Bytes/s 和 Flow Packets/s特征中,由于无穷值无法进行正常计算,因此对于无穷值同样进行删除处理。2)数据标准化。本文通过 min-max 标准化方法将特征按比例缩放至?,?区间,从而去除数据的单位限制,将其转化为无量纲的纯

44、数值。转换函数公式为?(?)?蓐?,其 中?和?蓐 分别为该属性中的最小值和最大值。3)特征提取。采用 PCA 主成分分析进行特征提取,将原始数据特征由 78 维降至 12 维。5.1.2模拟数据模拟数据本文在局域网内建立模拟网络拓扑,通过虚拟机在特定的网络环境中模拟客户机和服务器之间发送数据包的过程,将整个过程中发送的数据包作为采集对象。其中流量包中正常数据和异常数据占比如表 5 所示。表 5模拟数据集类型占比Table 5Proportion of simulated dataset types攻击类型占比/%Benign61.8DDoS9.1DoS13.8在当前模拟环境下,本文模拟出 D

45、DoS 攻击,其中模拟客户机共 9 台,服务器共 1 台。其中 9 台客户机全部作为攻击者,服务器作为攻击的受害者出现在网络拓扑中。在攻击者机器中,通过 hping3 模拟DoS攻击,每10 ms同时向服务器发送一个数据包帧,在服务器端使用 tcpdump 对流量包数据进行采集。其中提取的数据共包含两部分,分别是 TCP 连接相关的特征和基于时间的网络流量统计特征,其中主要特征如表 6 所示。表 6数据采集的主要特征Table 6Main features of data collection特征含义duration连接持续时间service目标主机的网络服务类型(本实验中只涉及 ftp 和

46、http)flag连接状态:正常或错误src_bytes目标主机到源主机数据的字节数wrong_fragment错误分段的数量rmem_defaul默认的 TCP 数据接收窗口大小rmem_max最大的 TCP 数据接收窗口count具有相同的目标主机的连接数serror_rate“SYN”错误连接的百分比rerror_rate“REJ”错误连接的百分比same_srv_rate与当前连接具有相同服务的百分比diff_srv_rate与当前连接具有不同服务的百分比5.2初始参数配置5.2.1博弈要素参数博弈要素参数假设运维人员和模型每个博弈回合中,双方资源各为 1,总资源数为 2,对于博弈失败

47、方的惩罚为张文哲 等:交互博弈引导的网络流量异常检测建模方法研究430.8。数据类别不影响模型发起交互所需要的成本,所以在本文的仿真实验中,假定数据类别为正常和异常时,模型发起交互所需要的成本均为 0.8。根据等式(10)可知,?4?即运维人员反馈且反馈数据类别是正常的概率和数据类别是异常为 0.42,故?6,即当模型发起交互之后运维人员不给予反馈的概率为 0.16,可见当模型发起交互之后,运维人员为获取更多的收益,其选择反馈的概率更大。反馈中的数据类别则需要结合自身经验以及对于异常数据的把控能力进行自行判断。对于运维人员,不同的数据类别所消耗的时间和人力成本不同,由于大多异常数据具有明显的异

48、常特征,运维人员对其进行判断所消耗的时间和人力成本相对于正常数据较低。鉴于不同运维人员对于异常数据的把控能力以及其自身的熟练度都有所不同,所以运维人员对于不同类型数据的反馈所花费的成本,正确率和虚警率无法通过严苛的公式或者理论去推导而得。由于对于不同数据类别的反馈所消耗的成本之间的差别不会影响到最终实验结果要证明的内容,故,在本文的仿真实验中,假定当前运维人员反馈结果的正确率为 0.9,虚警率为 0.05,反馈一次正常数据所花费的成本为 0.6,反馈一次异常数据所花费的成本为 0.8,初始先验信念设置为中间值0.5,则由等式(13)可知,?9,即模型将自身检测类别为异常的数据发起交互的概率为

49、0.29,?4,即模型将自身检测类别为正常的数据发起交互的概率为 0.24。故?47。5.2.2强化学习模型参数强化学习模型参数(1)经验池大小。经验池目的是保证正样本被循环使用从而加速模型收敛速度,其设置过小不利于模型的收敛和训练,但是由于在本文使用的 DQN 算法中,经验池均匀采集数据样本用于模型的训练,新旧样本的采集概率相等,如果旧样本在经验池中存留时间过长,反而会阻碍模型的进一步优化。为了确保模型的收敛速度以及准确率,本文中将经验池的大小设置为 100000。(2)反馈奖励分配。本文中对于运维人员反馈奖励机制设计如表 7 所示。在模型中通过 Reward 奖励回馈机制将分类目标数值化和

50、具体化,引导Agent中的网络模型提取数据之间的关联性并用作异常的判断,为了降低模型误判率和假阳性率,在本文实验中加大运维人员对于被模型预测为正类的正样本和被模型预测为负类的正样本的反馈奖励和惩罚力度。在加大相应奖励和惩罚力度的同时又要保证Agent 中的网络模型最终能顺利学习到数据特征,确保算法正常收敛。表 7反馈奖励设计表Table 7Feedback reward design真实预测正例反例正例31反例315.3实验结果5.3.1可行性分析可行性分析为证明运维人员和模型之间建立动态贝叶斯博弈模型可以控制交互和反馈的频率,本文对两者的交互和反馈行为进行建模,图 2 反映了交互过程中模型交

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服