1、BIG DATA RESEARCH 大数据982023051-1Argus:基于多源数据驱动的工控安全态势感知系统摘要工业控制(工控)系统是国家工业制造与民用基础设施的“大脑”,近年来安全风险日益突出,已成为网络安全中的重点防护目标。针对工控安全数据分散、威胁感知滞后的问题,设计了多源数据驱动的工控安全态势感知系统Argus,提出了工控安全感知链,研发了无状态极速设备扫描、威胁情报精准提取、可疑攻击行为检测等工控安全态势自主感知技术,实现了多通道、立体式工控安全监测与态势感知。实验结果显示,相比传统工控安全态势感知方法,Argus系统的感知精度提升超过10%,效率提升两个数量级,并可前摄性地预
2、警、缓解潜在安全风险。关键词工业控制系统;多源数据融合;态势感知;威胁情报中图分类号:TP311 文献标志码:A doi:10.11959/j.issn.2096-0271.2023051Argus:multi-source data-driven industrial control security situational awareness systemZHU Tianchen1,2,ZHAO Jun3,LI Bo1,2,4,LI Jianxin1,2,41.School of Computer Science and Engineering,Beihang University,Bei
3、jing 100191,China2.Beijing Advanced Innovation Center for Big Data and Brain Computing,Beijing 100191,China3.School of Information Science and Engineering,Shandong Normal University,Jinan 250358,China4.Zhongguancun Laboratory,Beijing 100191,China朱天晨1,2,赵军3,李博1,2,4,李建欣1,2,41.北京航空航天大学计算机学院,北京 100191;2
4、.北京市大数据与脑机智能高精尖中心(北京航空航天大学),北京 100191;3.山东师范大学信息科学与工程学院,山东 济南 250358;4.中关村实验室,北京 100191AbstractIndustrial control system(ICS)is the brain of national industrial manufacturing and civil infrastructure.However,the security risks associated with ICS have become increasingly prominent,making it a signif
5、icant target for cybersecurity protection.This paper proposed a solution for the issues associated with ICS security data dispersion and delayed threat perception.Specifically,the paper presented a multi-source data-driven ICS security situational awareness system named Argus,which incorporated an a
6、wareness chain for ICS security.Furthermore,the paper developed autonomous 99TOPIC 专题2023051-2situational awareness technologies for ICS security,such as stateless high-speed device scanning,precise threat intelligence extraction,and suspicious attack behavior detection,to achieve multi-channel and
7、three-dimensional ICS security monitoring and situational awareness.The experimental results indicated that,compared with conventional ICS situational awareness methods,the perception accuracy of the Argus system has improved by over 10%,with efficiency improvements by two orders of magnitude.Additi
8、onally,Argus allows for proactive warning and mitigation of potential security risks.Key wordsindustrial control system,multi-source data fusion,situation awareness,threat intelligence0 引言工业控制系统(industrial control system,ICS,以下简称工控系统)是工业自动化生产的“神经中枢”,被广泛应用于能源、轨道交通、电力等民生基础领域。随着工业化与信息化的深度融合,工控系统正逐步从单机走
9、向互联、从封闭走向开放,网络空间与物理空间的边界被逐步打破1。然而,近年来网络安全事件频发,被誉为“工业大脑”的工控系统已成为网络攻击的首选目标,对工业生产、民生经济以及社会安定造成严重威胁2。目前,研究者已经在工控安全领域开展了广泛研究。具体地,Feng等人3研究了ICS的网络包内容及其时序性,提出了一种基于堆叠长短期记忆网络的入侵检测模型来实现工业控制系统异常检测。Muna等人4基于 TCP/IP 包信息,设计了基于深度自动编码器和深度前馈神经网络的异常检测框架。Chang等人5提出了一种基于 K-Means 和卷积自编码器的工业系统异常检测方法。Demertzis等人6提出了Grypho
10、n智能系统,该系统采用脉冲神经网络(spiking neural network)单分类器检测工控系统异常。Krithivasan等7则提出了一种基于超图的异常检测技术,结合增强的主成分分析和卷积神经网络(EPCA-HG-CNN)来感知系统异常状态。Doshi等8提出了一种基于在线差异测试(ODIT)的异常检测算法,该算法依赖假定的基线和攻击模式来感知工控系统态势。Khan等9提出了一种基于深度自编码器的工控入侵检测系统,通过分析流量时序特征来检测工控入侵事件。目前,工控安全防护模型与系统大多仅依赖单源数据,数据来源有限,且整合能力差。此外,它们主要通过对流量层进行被动监控来检测入侵威胁等边界
11、安全问题,导致威胁感知范围有限,整体防御关口滞后。为了提升工控安全防护系统对威胁感知的范围与时效性,将对态势感知、早期预警具有重要意义的多渠道数据(例如设备详情、漏洞舆情等)整合到系统中,有助于实现对工控系统的态势感知和早期预警。这些多源数据间可相互关联,触发多点分析,例如通过监测新闻、论坛中曝出的零时差漏洞的来源、软件、版本、端口等相关信息,可及时关联并预估潜在影响的工控设备数量,并整合相关工控设备IP地址发出预警信号。因此,本文提出“发现-监测-识别”的工控安全态势感知链,设计并实现了多源数据驱动的 工控安全态势感知系统Argus,以实现多维度立体式主动防御。Argus系统旨在实时整合和分
12、析联网设备、漏洞威胁、可疑访问等多源多模态数据,并协同处理设备、漏洞、可疑访问等不BIG DATA RESEARCH 大数据100同维度的感知面。针对上述3类感知面,本文提出了基于无状态扫描、多属性图建模等方法的多维度工控安全态势感知技术。具体而言,通过无状态极速扫描技术,Argus系统定期扫描全网段的联网工控设备,获取设备指纹信息,以实现工控设备的高效发现;其次,通过Bi-LSTM+CRF模型从网络公开的新闻、论坛、博客等数据源抽取工控安全威胁情报,完成漏洞威胁的实时监测;最后,Argus系统综合利用采集的设备与漏洞信息,搭建工控设备仿真蜜罐,并部署一套基于多属性图建模的异常流量检测算法,用
13、于识别可疑访问及其源头。通过上述感知链,Argus系统能够在工控网络威胁产生的早期快速感知风险,识别潜在的风险源及其可能影响的工控设备网络,进而评估全网工控安全态势并发出可靠的预警信息。总之,Argus系统能够高效精准地发现、监测并识别工控系统面临的潜在威胁,实现工控网络威胁的早期发现与预警,将工控安全风险感知的关口前移。本文的主要贡献如下。首次提出并构建了一种新型的工控安全态势感知系统Argus。该系统通过建立以“发现-监测-识别”为核心的感知链,实现多维度立体式的前摄性安全态势感知,是对工控安全防护的一种重要补充。Argus系统汇聚面向工控安全的网络空间多源大数据,分别从联网设备、漏洞威胁
14、、可疑访问3个感知面对工控网络安全态势进行建模与关联,有效实现多源工控大数据的融合,该系统有助于实现工控网络威胁的早期发现与预警。针对工控设备扫描、漏洞威胁监测、可疑访问识别等工控安全态势感知场景,本文提出无状态极速扫描、多属性图建模学习等优化方法。相比传统设备扫描、可疑访问检测等工控安全态势感知方法,扫描效率提升两个数量级,检测精度提升超过10%。1 多源数据驱动的工控安全态势感知系统1.1 系统框架威胁分析与风险评估(TARA)被认为是网络安全分析的核心方法10,从TARA的方法论可以看出,网络资产、威胁手法、攻击路径是网络空间安全威胁的三大核心要素(如图1所示)。因此,为了全面感知工控网
15、络的安全态势,需要建立以“发现-监测-识别”为核心的感知链,分别从联网设备(网络资产)、漏洞威胁(威胁手法)、可疑访问(攻击路径)3个感知面对工控网络安全态势进行融合建模与感知。Argus工控安全态势感知系统由三大模块组成:多源数据采集、安全态势分析以及用户交互可视化(如图2所示)。系统定期从公开网络和仿真蜜罐上采集工控多源大数据,包括工控设备、安全新闻和访问日志等。系统以“发现-监测-识别”感知链为核心构建工控安全态势感知链路,从联网设备、漏洞威胁和可疑访问3个感知面开展深度分析与融合,以实现工控安全态势的立体式感知与评估。具体而言,首先,Argus系统利用无状态极速扫描技术定期图 1网络空
16、间安全威胁三要素2023051-3101TOPIC 专题扫描全网段的联网工控设备,以高效发现工控设备并获取设备指纹信息。其次,通过基于Bi-LSTM+CRF模型的信息抽取模型,从网络公开的新闻、论坛、博客等数据源抽取工控安全威胁情报,完成漏洞威胁的实时监测。最后,Argus系统综合利用采集的设备与漏洞信息,搭建工控设备仿真蜜罐,并部署一套基于多属性图建模的异常流量检测算法,用于识别可疑访问及其源头。通过上述“发现-监测-识别”的感知链,Argus系统能够在工控网络威胁产生早期快速感知风险,识别潜在的风险源及其可能影响的工控设备网络,并发出可靠的预警信息。1.2 多源数据采集多项数据采集模块是工
17、控安全态势分析的基础,用于采集多源大数据以提供数据支撑。具体而言,如图3所示,该模块包含工控安全认知状态机、工控安全数据源池、工控安全数据仓库3个核心组件,以及4个多源数据采集与高效处理工具,并具备高度相关、动态扩展、循环更新等采集机制。数据采集模块主要用于维护工控安全数据源,定期采集公网暴露的可用工控设备IP地址及端口、最新的新闻博客等工控安全资讯,以及设备访问流量日志等多源工控安全大数据。Argus系统设计并实现了高可靠、可扩展的数据源池,动态采集、更新、融合多源数据,最终形成包括工控安全知识、事件、技术等在内的数据仓库。1.3 安全态势分析针对联网设备、漏洞威胁和可疑访问3个工控安全感知
18、面,Argus系统中分别设置了设备发现、舆情监测以及行为识别3个工控安全态势分析模块,建立了以“发现-监测-识别”为核心的感知链,并在此基础上实现了多维感知面融合与综合安全态势评估。图 2Argus 系统框架2023051-4BIG DATA RESEARCH 大数据102(1)联网设备发现模块该模块用于扫描联网工控设备信息,建立和动态更新工控设备库。Argus系统周期性地扫描、更新暴露在公网上的海量工控设备,解析工控设备协议,识别相应的设备类型、状态、型号和地理位置等细粒度信息,挖掘不同类型和型号的设备分布,形成并维护工控设备地图与设备库。Argus设计并应用了一种基于无状态扫描与零复制技术
19、的极速扫描算法,可从43亿个可用IP地址中快速、准确地定位暴露在互联网的工控设备和系统,突破了网络端口扫描的效率瓶颈。联网设备发现模块一方面为可疑行为识别模块提供工控设备协议、参数等信息,支撑工控高拟真仿真蜜罐的搭建;另一方面为风险设备分布、风险设备预警、态势指数计算等安全态势分析与可视化提供数据支撑。(2)漏洞舆情监测模块该模块用于采集、抽取与工控漏洞相关的威胁情报。Argus系统在新闻媒体、黑客论坛、暗网帖子等平台上进行长期、定点监测,使用设备库和漏洞库中的关键信息作为触发词,在工控安全相关文本中提取漏洞和攻击行为等威胁信息,抽取威胁情报,从而支持工控系统在遭遇安全威胁之前发出前摄性预警。
20、Argus设计并应用了一种面向工控安全的威胁情报抽取算法,可从海量非结构化、半结构化文本中准确提取零时差漏洞等威胁信息。漏洞舆情监测模块一方面为可疑行为识别模块提供包括固件、版本等在内的漏洞威胁相关信息,支撑工控高拟真仿真蜜罐的搭建;另一方面为风险设备评估、态势指数计算等安全态势分析与可视化提供数据支持。(3)可疑行为识别模块该模块用于检测工控蜜罐上的异常流图 3多源数据采集与融合模块架构2023051-5103TOPIC 专题量,记录可疑访问行为的源头信息。Argus系统通过部署分布式工控蜜罐主动检测可能存在的攻击行为,尤其是有针对性地模拟零时差漏洞或高风险重要设备,实时记录其流量访问日志并
21、加以分析,从中识别可疑访问行为,实现主动式安全态势感知。此外,Argus系统实现了一种基于多属性异构图的可疑行为识别算法,有效提升了对“僵尸”设备的检测精度,对于僵尸网络等攻击的规避与预警具有重要作用。可疑行为识别模块为可疑访问数量统计、态势指数计算等安全态势分析与可视化提供了数据支撑。1.4 用户交互可视化该模块整合、汇聚、融合多源数据的分析结果,完成风险设备的评估、预警及分布可视化,记录并展示可疑访问的源IP地址、地理位置及访问次数。此外,该模块根据风险设备数量和可疑访问数量综合计算态势指数,提供设备地图、情报卡片、可疑访问统计、知识图谱、态势指数等方式,实现对工控安全态势的综合评估和交互
22、式可视化。2 面向工控安全的威胁情报抽取网络威胁情报是一种实现主动式安全态势感知的有效手段,也是工控安全态势感知链的关键。威胁情报本质上是基于证据的知识,旨在通过从安全博客、黑客论坛、暗网帖子等平台提取漏洞、设备型号等威胁信息,可以协助构建仿真蜜罐,发现风险设备,计算工控安全态势指标,并在设备或系统遭遇威胁前发出预警信息11。通常,威胁情报从攻击行为和漏洞入手进行描述,通过提取和分析各个攻击和漏洞的特征,对系统面临的威胁进行警报与预警。与通用领域的语料相比,工控安全领域的语料具有许多特点,例如大量专业术语、缩略语以及工控系统特定的单词和短语。这种多源多域的特殊性和异构性使工控安全威胁情报抽取效
23、果不佳。为了提高抽取精度,本文提出了一种基于Bi-LSTM+CRF模型的工控威胁情报高效精准抽取方法。该方法通过内嵌特定的规则,针对性地优化实体抽取的精度,并利用上下文扩充机制优化关系抽取的精度,可以自动化地从非结构化文本中提取IOC,并准确识别工控安全相关的威胁实体和关系。2.1 工控威胁情报定义(1)威胁情报实体定义本文首先参照STIX2.0协议下的威胁情报实体类别12对本文所用的威胁情报实体的类别进行定义。该定义见表1。(2)威胁情报关系定义对于威胁情报中的实体关系,本文将其进行归纳,见表2。2.2 基于Bi-LSTM+CRF模型的工控威胁情报抽取工控威胁情报的抽取主要包括两个部分:实体
24、识别和关系抽取。威胁情报实体识别是指从工控安全相关文本中识别具有特定意义的实体,例如设备类型、端口号、漏洞名称和机构名称等。威胁情报关系抽取则是指从工控安全相关文本中抽取实体之间的目标关系。双向长短期记忆网络(bidirectional-long short-term memory,Bi-LSTM)13是 一种 能 够 捕 捉 文 本序 列中上下文信息 的 神 经 网 络,它 能 够 提 高实 体 识 别2023051-6BIG DATA RESEARCH 大数据104和关 系抽取 的 准 确性。假 设 文 本 序 列12text(word,word,word)n=,每个词wordi通过wor
25、d2vec等特征抽取算法转化为词向量iw。那么文 本序列可以 表 示 为12(,)n=sw ww,该 序 列 通 过 L S T M分 别 从 两 个方向 进 行 计 算,即 可得 到正向 输出12(,)n=hh hh 以 及 反向 输出12(,)n=hh hh,将这两个输出中对应的向量ih和ih拼接为输出向量ih,即文本序列的输出向量为12(,)n=hh hh。由于Bi-LSTM模型并不能学习到标签之间的约束,例如在识别时可能会出现B-PRO后出现I-MOD的情况,而在BIO标注中,I开头的实 体必须在同样 类型的B实 体后。因此,为了解决这一问题,本文在Bi-LSTM13模型后添加了一层条
26、件随机场(conditional random field,CRF)层13,将12(,)n=hh hh作为输入,利用CRF的全局归一化特点学习标签的约束关系。CRF层能够将Bi-LSTM网络输出的概率序列转化为标注序列,通过考虑标注序列之间的依赖关系,进一步提高序列标注的准确性,从而达到更好的效果。具体而言,首先对Bi-LSTM的输出结果做线性变换:=PWH(1)其中,矩阵 H是由向量 h组 成的矩阵,d nH,参数矩阵k dW,k nP即为CRF模型的状态特征矩阵。其中为标签的总类型数,n为词向量的总数,则,i jP表示文本序列中的第j个词作为第i个标签的得分,因此整个序列的得分情况如式(2
27、)所示:1,0(,)iijnny yj yij iS X Y+=+AP(2)其 中,12(,)nXx xx=是 输 入 序 列,12(,nYy yy=是输出序列,(2)(2)kk+A是状态转移矩阵,其中,i jA表示第i种标签转移到第j种标签的得分。对该得分进行归一化即可得到概率模型:(,)(,)e(|)eXS X YS X YY Yp Y X=(3)其中,YX表示输入文本序列所对应的所有可能标签序列集合,则CRF的目标函数为:表 1威胁情报实体类别定义实体类别详细描述VENV E N 实 体 代 表 生 产 软 件 的 厂 商,例 如Microsoft、Tencent等。在STIX2.0中,
28、该实体对应于IdentityPROPRO实体代表厂商生产的软件、硬件产品,例如Word、Office等VERVER实体代表产品的版本信息,例如ver3.0、v4.2.0等MODMOD实体代表产品中的某个模块或者产品包含的功能组件,例如插件等FILE/PATHFILE/PATH实体代表文件路径或URL超链接地址FUNCFUNC实体代表文件中的某个具体函数,例如某个文件中的函数名称、某个模组中的类等PARAMETERPARAMETER实体是参数实体。它代表文件中的变量和常量,例如某段代码包含的变量numATTACKERATTACKER实体代表实行攻击的某个组织、团体或个人VULTYPEVULTYP
29、E代表漏洞的分类,例如XSS、Stack Overflow、SQL Injection等VULVUL实体代表具体漏洞名称PROBLEMPROBLEM实体代表产品、模组、文件或具体代码中客观存在的可能发生的问题表 2威胁情报实体关系定义关系类别详细描述OWNERSHIPOWNERSHIP关系的意义为包含,可表达厂商、产品、版本和组件之间的基本联系USEUSE关系的意义为使用,可表达黑客团体针对某个软件的攻击路径TARGETTARGET关系的意义为目标,可表达安全威胁和产品的关联点,这是威胁情报关系脉络中最重要的信息RELATEDRELATED 关系意义为相关,可表达不同名称的实体内部联系,进而对
30、比分析出不同安全事件中的更多信息2023051-7105TOPIC 专题(,)argmax(log(|)argmax(,)logeXS X YY Yp Y XS X Y=(4)为了有效应对互联网公开文本信息的不确定性、时效性和脏数据等问题,并提升传统Bi-LSTM+CRF模型在工控安全领域语料上的实体抽取和关系抽取方面的性能,本文提出了一种数据预处理方式及两种模型优化方法。针对公开语料资源的不确定性,本文采用数据跨源认证的交叉处理方法,通过整合多个高信誉数据源的信息来提高信息的可信度和准确性。同时,为了保证抽取结果的可靠性,本文还采用了多源数据交叉验证机制,通过抽取算法对包含同一威胁事件的多源
31、数据进行分析,并对抽取结果进行交叉验证和确认,从而提高了提取结果的准确性和可靠性。具体方法如下。(1)数据跨源认证的数据交叉处理在工控威胁情报提取过程中,原始语料数据中存在的不确定性、时效性和脏数据等问题会严重影响提取结果的准确性和可靠性。为了解决上述问题,本文建立了一个工控威胁情报源的信誉库,动态维护、更新威胁情报来源的信誉度评分和可靠性评分。通过对来源的认证和评估,可以提高提取结果的可靠性和准确性。在此基础上,为了保证抽取结果的可靠性,本文采用多源数据交叉验证机制,通过抽取算法对包含同一威胁事件的多源数据进行分析,并对抽取结果进行交叉验证和确认,从而提高提取结果的准确性和可靠性。(2)内嵌
32、规则匹配的实体抽取优化传统Bi-LSTM+CRF模型在抽取格式化实体(如URL、版本号和一些厂商名称)时,可能会出现误差。这是因为这些实体的字符串通常没有任何规律,并且在分词时可能会被拆分为多个单词,导致它们被错误地识别为无关实体。为了解决这个问题,本文在实体识别过程中嵌入了特殊的正则规则,对具有特定模式的实体进行预处理,从而避免了Bi-LSTM+CRF等模型的误判。例如对于VER和VUL实体,本文分别嵌入了表3所示的正则规则,从而提高了实体抽取的准确性。(3)上下文扩充制的关系抽取优化经典的关系抽取模型14通常将两个实体间的文本序列作为上下文信息,并混合词嵌入和实体嵌入等向量作为关系抽取模型
33、的输入。然而,这些方法通常需要在实体抽取阶段学习到精确的向量表示,这导致在涉及误判实体的关系抽取任务上表现不佳。为了解决这个问题,本文设计了一种新的上下文扩充机制,对于待识别关系类型的两个实体,在原文中分别以这两个实体为起点双向扩散,直到遇到距离最近的其他实体为止,采样这一段文本序列并将其加入上下文信息,用于关系的抽取。通过扩大上下文信息至邻近的其他实体,可有效提升误判实体的关系抽取精度。综上,通过分析互联网上的一些公开文本信息,抽取以漏洞(特别是一些零时差漏洞)和安全事件为中心的威胁情报,并形成漏洞知识库,有效支撑对漏洞威胁程度的研判,辅助构建仿真蜜罐,发现风险设备,计算工控安全态势指标。此
34、外,表 3威胁情报实体抽取嵌入规则示例实体类型正则规则抽取示例VER(v|ver|version).-?dx+(.-dx+)*.-?“version1.0”“ver1.x”dx+(.-dx+)+.-?“1.5.2”da-z3232 位的 commit idVULcve-.+cve-2018-11693cwe-.+cwe-6652023051-8BIG DATA RESEARCH 大数据106综合利用设备发现模块中动态更新的设备库信息,可以对具有相关漏洞的工控设备发出前摄性预警,以提高工控系统的安全性。3 基于多属性异构图的可疑访问行为识别僵尸网络已成为发动大规模DDoS攻击的重要途径,也是威胁
35、工控网络安全的重要因素。因此如何精准检测僵尸(机器人)流量,在系统边界识别可疑访问行为,是防范僵尸网络等攻击的重要问题,也是工控安全态势感知链的核心。传统基于入侵检测的可疑访问识别模型通常部署在单一的工控系统边界,只能被动地监控针对当前设备的攻击行为,并且无法建模访问行为间的复杂关联,识别精度低且一旦系统面临攻击很难有充足的调整时间。针对上述问题,Argus系统设计了“关联+检测”的可疑访问行为识别框架。该框架一方面搭建了工控蜜罐,广泛模拟各类工业控制设备(如不同种类的PLC和SCADA)来吸引远程攻击,记录访问流量日志用于提前发现可疑的主机与流量并产生预警;另一方面提出了基于多属性异构图关联
36、建模的检测算法,从蜜罐访问日志中建模可疑行为的复杂关联,从而精准检测可疑访问流量及其“僵尸”主机源头,进而为真实的工控设备、系统的防御策略提供调整方向,提升系统的主动防御能力。3.1 工控蜜罐搭建Argus系统选取了部分工控设备和系统进行仿真与参数配置,通过部署分布式高拟真工控蜜罐,模拟存在漏洞的工控设备或系统,用于采集并分析可疑的访问流量。仿真对象的选取遵循两个原则:一是优先选取设备发现模块中应用、分布较为广泛的工控系统或设备;二是优先选取舆情监测模块中存在高危漏洞的系统软件或设备固件。工控蜜罐的部署框架如图4所示,其工作流程如下。(1)网络会话构建在不同网络端口上维持动态蜜罐节点和攻击者的
37、异常会话,由对应端口上的套接字处理请求和应答。(2)工控协议解析解 析 被 广 泛 应 用 于 工 控 领 域 的ModusBus、Bacnet、S7、IEC104、Guardian和Kamstrup 6种工业控制通信协议。云端部署多行业多场景的蜜罐节点来模拟上述6种常用工控协议,并仿真其工业生产工艺流程,动态解析多种工控指令报文,实现对不同场景和应用控制协议的动态解析与恶意行为捕获。Argus系统已在全球部署了10个蜜罐节点来捕获工控攻击行为,其统计信息见表4。(3)设备状态模拟为了提高蜜罐节点的隐蔽性和迷惑性,模板设置数据区设置被蜜罐节点模拟的工业控制设备的状态信息,包括设备名、编号、厂商
38、等不可修改信息和电压值,以及剩余油量等可改的状态信息。(4)实时数据回传采用RabbitMQ消息队列构建云端节点与本地内网连接,当蜜罐产生新的访问流量数据时,直接通过该连接将数据发送到数据队列中,由RabbitMQ向内网主机推送数据,实现日志数据实时回传。3.2 多属性异构图建模为了准确描述流量数据中可疑访问行为之间的复杂关联,本文利用多属性图对流量数据进行建模15。具体而言,将网络2023051-9107TOPIC 专题流数据中报文的6个关键要素定义为图上的节点,将报文之间的传输关联等关系定义为图上的边,将报文中的部分细粒度信息定义为节点的属性。因此可将流量数据形式化建模为多属性图G=(V,
39、E,A),其中V代表节点集合,包含源IP地址、目标IP地址、请求、端口号、协议类型、应答6类节点,节点类型以及属性信息如图5所示;E代表边集合,包含的关系类型见表5,1miiAA=代表节点的属性集合。3.3 基于多属性异构图的可疑访问检测本文将网络流量数据中的源IP地址、端口、请求、目的IP地址、协议类型、响应之间的交互关联建模为多属性异构图G=(V,E,A),并基于此将可疑访问检测的任务转化为异构图上对源IP地址节点的二分类任务,以判定源IP地址对应的主机是否属于可疑的“僵尸”主机15。算法流程如图6所示,具体流程如下。(1)节点相似性嵌入由于被劫持的很多“僵尸”主机通常通过脚本等方式批量控
40、制,在进行扫描或网络攻击时,其行为模式具有一定的同源性与相似性,因此可以通过分析访问流量属性之间的关联关系,计算所有主机(即源IP节点)的相似性。本文假设通过重要图 4工控蜜罐部署框架表 4蜜罐节点统计蜜罐IP地理位置采集日志数量/条114.215.17.58中国北京17 356120.76.53.242中国杭州402 068122.112.235.239中国杭州970 783122.112.235.27中国杭州913 285139.159.221.18中国深圳521 352139.159.221.19中国深圳864 532139.159.221.20中国深圳675 27747.88.212.
41、109新加坡4 546 79047.88.77.143美国圣马特奥580 67347.89.26.43中国香港1 124 7822023051-10BIG DATA RESEARCH 大数据108的元路径(见表6)连接的对象,其关联应当更紧密,并且往往更相似15-16,因此如果两个源IP地址节点间拥有大量相似的元路径实例,则它们对应的主机更有可能是相似的类型。具体而言,本文采用基于元路径随机游走的相似性度量算法15-16,计算源IP地址节点之间的相似性邻接矩阵,如式(5)所示。metapath2sim,()MijmijmmijmjjmhPh hhPhP=+w (5)其中,ijmhP代表源IP地
42、址节点ih在元 路径 Pm下连 通源 I P 地 址节点hj的一条 路 径 实 例,(,)mijmPhPi j=C,(,)miimPhPi i=C,(,)mjjmPhPi j=C,(,)mjjmPhPj j=C,()mPC是基于元路径mP下的交换矩阵。mw是一组可训练的参数,代表元路径mP的权重,M代表元路径的数量。进而,通过成对随机游走算法15可以得到基于元路径的源IP地址的相似性邻接矩阵N NA以及对应节点属性矩阵N dX,其中N代表多属性图中源IP节点的数量。(2)图卷积特征提取进一步可利用图神经网络来提取图上节点的特征,本文定义图上节点的初始特征为(0)=HX,其中d h,h为图卷积的
43、特征维度,进而使用多层图神经网络来学习多属性图上节点的特征:(1)()()()()()()()(,)()llllllllfb+=+=+HHAHAH WHH (6)其中,()ld hW是从图神经网络第l层到第l+1层的参数矩阵,()ld hb是图神经网络第层的偏置项参数矩阵,是激活函数。(3)非均衡分类优化由于可疑访问场景下,正负样本存在极端不均衡的情况,本文采用经过非均衡优化的交叉熵损失函数作为目标函数对模型进行优化:()101Loss,logiiiiji YjY ZYZY=(7)表 5多属性异构图的关系类型关系编号 对应节点类型详细信息R1源IP地址-目的IP地址表示从某一源IP地址到某一目
44、的IP地址的连接R2源IP地址-协议表示某一源IP地址通过某一协议发送请求报文R3源IP地址-端口号表示某一源IP地址与其发送请求报文所用端口之间的关系R4源IP地址-请求表示某一源IP地址与其所发送的请求报文之间的关系R5源IP地址-应答表示某一源IP地址与其接收的应答报文之间的关系R6目的IP地址-协议表示某一目的IP地址通过某一协议接收请求报文R7目的IP地址-端口号表示某一目的IP地址与其接收请求报文所用端口之间的关系R8目的IP地址-请求表示某一目的IP地址与其所接收的请求报文之间的关系R9目的IP地址-应答表示某一目的IP地址与其发送的应答报文之间的关系R10协议-端口号表示某一协
45、议利用某一端口进行工作图 5流量信息建模的多属性异构图概念示意图2023051-11109TOPIC 专题其中,iY表示真实的“僵尸”主机节点,()Z=HP表示模型预测的“僵尸”主机节点,1hP是输出层的参数矩阵,是输出层的激活函数,i为对应的样本权重,Y代表全部样本的数量。4 系统性能验证4.1 全网设备扫描性能评估本文利用一台DELL-BQT5132台式机,在100 Mbit/s带宽下对比了传统全连接端口扫描算法17与Argus所用的无状态端口扫描算法的性能,实验结果见表7。无状态扫描方法通过提前中断3次握手通信过程,降低了通信双方的会话延迟,并且通信双方不再维护通信状态,节约了系统开销,
46、从而提高了扫描效率。此外,零复制协议栈的引入大幅降低了数据在操作系统内周转的时空消耗,比传统扫描方法整体性能提高86130倍。在部署有2台DELL-BQT5132台式机1.5 Gbit/s带宽的真实环境下,Argus系统采用的无状态极速扫描方法可以在1 h内完成一次全网工控设备扫描。4.2 威胁情报性能评估(1)数据集CVE数据集:本文从截止到2019年图 6基于多属性异构图的可疑访问检测算法流程表 7发包速率对比方法发包速率传统全连接端口扫描17914 kbit/sArgus系统1 0001 200 kbit/s表 6多属性异构图的部分元路径示例对应节点类型解释源IP地址-目的IP地址-源I
47、P地址表示两个源IP地址访问了同一个目的IP地址源IP地址-协议-源IP地址表示两个源IP地址使用了相同的协议源IP地址-端口号-源IP地址表示两个源IP地址使用了相同的端口源IP地址-端口-目的IP地址-端口-源IP地址表示两个源IP地址通过相同的端口访问了同一个目的IP地址源IP地址-目的IP地址-应答-目的IP地址-源IP地址表示两个源IP地址通过访问不同的目的IP地址产生了同一应答2023051-12BIG DATA RESEARCH 大数据1109月的CVE平台上爬取了111 868条与漏洞相关的文本并进行标注,并以8:2的比例进行训练集与测试集的划分。(2)实验结果图7展示了Arg
48、us系统与基线方法Bi-LSTM+CRF分别在工控威胁情报实体抽取与关系抽取任务上的实验对比结果。Argus系统使用威胁情报提取方法在准确率和Micro-F1指标上都取得了最优性能,其性能提升主要归结于以下原因:首先,设计的内嵌规则匹配的实体抽取优化算法能够提升对驳杂无规律的厂商、网址、版本号等实体识别的准确率;其次,提出的上下文扩充感知的关系抽取优化方法,通过引入实体附近更多的上下文信息,可减小上游命名实体识别模型的错判对关系抽取模型带来的误导。综上所述,本文提出的威胁情报抽取优化算法的优势具体可表述为:通过嵌入正则规则来特殊处理部分格式化实体,避免了传统模型的误判,并提高了抽取准确率;通过
49、设计新的上下文采样机制来扩充实体之间的文本序列作为上下文信息,有效提高错判实体的关系抽取精度。与此同时,由于上下文扩充的关系抽取优化需要消耗较多的计算资源和时间,因此本文算法在抽取长距离关系时,算法的性能和效率可能会受到一定程度的影响。(3)工控威胁情报示例在表8中,本文以“Merry X-Mas Ransomware”勒索病毒为例,选择了部分字段,以展示Argus系统在该勒索病毒方面抽取的威胁情报 结果。同时,在表9中,本文选取“Heap-Based Buffer Overflow”缓冲区溢出威胁作为示例,展示了罗克韦尔厂商安装有ThinServer特定版本的部分设备存在的安全威胁。通 过
50、这 些 情报 的正 确提 取,A rg us系统能够针对相关设备、漏洞等发出有效的预警信息。例如,在“Heap-Based Buffer Overflow”威胁情报中,采用“Rockwell”“ThinServer”以及版本号等信息作为关键词进行匹配,就可以在Argus系统的设备库中检索到符合要求的相关设备的数量、IP地址、地理位置分布等信息,并进行可视化,进一步可辅助计算各项安全态势风险指标。4.3 可疑访问检测模型性能评估(1)数据集 CTU-13数据集是美国科罗拉多理工大学(Colorado Technical University,CTU)于2011年发布的一个常用的僵尸网络流量公共基