收藏 分销(赏)

威胁情报提取与知识图谱构建技术研究.pdf

上传人:自信****多点 文档编号:734910 上传时间:2024-02-27 格式:PDF 页数:11 大小:1.97MB
下载 相关 举报
威胁情报提取与知识图谱构建技术研究.pdf_第1页
第1页 / 共11页
威胁情报提取与知识图谱构建技术研究.pdf_第2页
第2页 / 共11页
威胁情报提取与知识图谱构建技术研究.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、收稿日期:网络出版时间:基金项目:国家自然科学基金(,)作者简介:史慧洋(),女,中国科学院大学博士研究生,E m a i l:s h i h u i y a n g u c a s a c c n魏靖烜(),男,中国科学院大学沈阳计算技术研究所博士研究生,E m a i l:w e i j i n g x u a n m a i l s u c a s e d u c n蔡兴业(),男,中国科学院大学沈阳计算技术研究所硕士研究生,E m a i l:c a i x i n g y e m a i l s u c a s a c c n王鹤(),男,西安电子科技大学博士研究生,E m a i

2、l:h e w a n g x i d i a n e d u c n高随祥(),男,中国科学院大学博士生导师,E m a i l:s x g a o u c a s a c c n通信作者:张玉清(),男,教授,E m a i l:z h a n g y q n i p c o r g c n网络出版地址:h t t p s:/k n s c n k i n e t/k c m s/d e t a i l/T N h t m ld o i 敭 j 敭i s s n 敭 敭 敭 威胁情报提取与知识图谱构建技术研究史 慧 洋,魏 靖 烜,蔡 兴 业,王鹤,高 随 祥,张 玉 清,(中国科学院大学

3、 计算机科学与技术学院,北京 ;中国科学院大学 国家计算机网络入侵防范中心,北京 ;中国科学院大学 沈阳计算技术研究所,辽宁 沈阳 ;西安电子科技大学 网络与信息安全学院,陕西 西安 ;中国科学院大学 数学科学学院,北京 ;中关村实验室,北京 )摘要:目前,攻击者使用的基础设施能适应更多的目标环境,成功侵入目标后,使用合法的用户凭证取得信任,并通过不断学习利用新的漏洞达到攻击目的.为了对抗攻击,提高威胁情报的使用价值,提出由情报搜集、信息抽取、本体构建和知识推理构建威胁情报的知识图谱框架,该框架可实现情报中重要指标的搜索和相互关联.然后基于B e r t B i S L TMC R F的失陷指

4、标,识别抽取方法,加以正则匹配机制进行输出限制,用于从文本信息中识别抽取失陷指标信息,并进行结构化威胁信息表达标准格式转换.经过横向和纵向对比,该抽取模型在文本信息抽取中的精度和召回率较高.最后,以A P T 为例,构建出威胁情报实体关系图,结合对抗战术和技术知识库框架将攻击行为转换为结构化格式,建立本体与原子本体知识图谱;通过知识图谱关联分析数据之间潜在的关联,发现具有相似性和相关性的威胁情报潜在的关联信息和攻击主体,进行威胁情报的关联分析,为制定防御策略提供依据.关键词:威胁情报;神经网络;本体;失陷指标抽取;对抗战术和技术知识库存;知识图谱中图分类号:T P 文献标识码:A文章编号:()

5、R e s e a r c ho nt h r e a t i n t e l l i g e n c e e x t r a c t i o na n dk n o w l e d g eg r a p hc o n s t r u c t i o nt e c h n o l o g ySH IH u i y a n g WE IJ i n g x u a n C A IX i n g y e WANG H e G A OS u i x i a n g ZHANGY u q i n g 敭 S c h o o l o fC o m p u t e rS c i e n c ea n dT

6、e c h n o l o g y U n i v e r s i t yo fC h i n e s eA c a d e m yo fS c i e n c e s B e i j i n g C h i n a 敭 N a t i o n a lC o m p u t e rN e t w o r kI n t r u s i o nP r e v e n t i o nC e n t e r U n i v e r s i t yo fC h i n e s eA c a d e m yo fS c i e n c e s B e i j i n g C h i n a 敭 S h e

7、 n y a n gI n s t i t u t eo fC o m p u t i n gT e c h n o l o g y U n i v e r s i t yo fC h i n e s eA c a d e m yo fS c i e n c e s S h e n y a n g C h i n a 敭 S c h o o l o fC y b e rE n g i n e e r i n g X i d i a nU n i v e r s i t y X i a n C h i n a 敭 S c h o o l o fM a t h e m a t i c a lS c

8、 i e n c e s U n i v e r s i t yo fC h i n e s eA c a d e m yo fS c i e n c e s B e i j i n g C h i n a 敭 Z h o n g g u a n c u nL a b o r a t o r y B e i j i n g C h i n a 年月第 卷第期西安电子科技大学学报J OURNA LO FX I D I ANUN I V ER S I TYA u g V o l N o h t t p:/j o u r n a l x i d i a n e d u c n/x d x bA b

9、s t r a c t A tp r e s e n t t h ei n f r a s t r u c t u r eu s e db ya t t a c k e r sc a na d a p tt om o r et a r g e te n v i r o n m e n t s 敭 A f t e rs u c c e s s f u l l y i n v a d i n gt h e t a r g e t t h ea t t a c k e r su s e l e g i t i m a t eu s e rc r e d e n t i a l st og a i n

10、t r u s t a n dc o n t i n u o u s l yl e a r nt oe x p l o i tn e wv u l n e r a b i l i t i e st oa c h i e v et h ep u r p o s eo fa t t a c k s 敭 I no r d e rt oc o m b a ta t t a c k sa n dt oi m p r o v e t h eq u a l i t ya n du t i l i z a t i o ne f f i c i e n c yo ft h et h r e a ti n t e

11、 l l i g e n c e t h i sp a p e rc o n s t r u c t sak n o w l e d g em a p p i n gf r a m e w o r ko ft h r e a ti n t e l l i g e n c et h r o u g ht h ef o l l o w i n gf o u rp r o c e s s e s i n t e l l i g e n c ec o l l e c t i o n i n f o r m a t i o ne x t r a c t i o n o n t o l o g yc o

12、n s t r u c t i o n a n dk n o w l e d g e r e a s o n i n g 敭 T h ep r o p o s e d f r a m e w o r kc a nr e a l i z et h es e a r c hf o ra n dc o r r e l a t i o no fe s s e n t i a l i n d i c a t o r si nt h ei n t e l l i g e n c e 敭 T h e n a ni n d i c a t o ro fc o m p r o m i s e I O C r e

13、 c o g n i t i o ne x t r a c t i o nm e t h o db a s e do n t h eB e r t B I S L TMC R F i sp r o p o s e da n da r e g u l a rm a t c h i n gm e c h a n i s mi sa p p l i e dt ol i m i tt h eo u t p u tf o ri d e n t i f y i n ga n de x t r a c t i n gI O Ci n f o r m a t i o nf r o mt h et e x ti

14、 n f o r m a t i o n f o l l o w e db yp e r f o r m i n gt h es t r u c t u r e dt h r e a t i n f o r m a t i o ne x p r e s s i o n S T I X s t a n d a r df o r m a tc o n v e r s i o n 敭 T h ea c c u r a c ya n dr e c a l lr a t eo ft h i se x t r a c t i o n m o d e lf o rt h et e x ti n f o r

15、m a t i o ne x t r a c t i o na r eh i g h e r t h r o u g hh o r i z o n t a la n dv e r t i c a lc o m p a r i s o n 敭 F i n a l l y b yt a k i n gt h eA P T a sa ne x a m p l e t h i sp a p e rc o n s t r u c t s t h ee n t i t y r e l a t i o n s h i pd i a g r a mo ft h r e a t i n t e l l i g

16、e n c e 敭 T h ea t t a c kb e h a v i o ri st r a n s f o r m e di n t oas t r u c t u r e df o r m a t c o m b i n e dw i t ht h ea d v e r s a r i a l t a c t i c s t e c h n i q u e s a n dc o mm o nk n o w l e d g e A T T&C K f r a m e w o r k 敭 Ak n o w l e d g em a po fo n t o l o g ya n da t

17、o m i co n t o l o g yi se s t a b l i s h e dw h i c hi su s e dt oa n a l y z et h ep o t e n t i a la s s o c i a t i o n sb e t w e e nd a t at h r o u g ht h ek n o w l e d g e m a pa s s o c i a t i o n sa n dt od i s c o v e rp o t e n t i a la s s o c i a t e d i n f o r m a t i o na n da t

18、t a c ka g e n t s i n t h r e a t i n t e l l i g e n c ew i t hs i m i l a r i t ya n dc o r r e l a t i o n 敭 T h e c o r r e l a t i o na n a l y s i so f t h r e a t i n t e l l i g e n c e i s c a r r i e do u t w h i c hp r o v i d e s t h eb a s i s f o r t h e f o r m u l a t i o no f d e f

19、 e n s e s t r a t e g y 敭K e yW o r d s t h r e a t i n t e l l i g e n c e n e u r a ln e t w o r k o n t o l o g y I O Ce x t r a t i o n A T T&C K k n o w l e d g eg r a p h 引言当今网络攻击手段日趋成熟,两方博弈中,如何快速利用威胁情报分析对手的攻击行为,从而弥补自身的不足,由被动防御转为主动进攻.如何从海量的数据中快速提取有效的威胁情报,如何对离散分布的各类威胁情报进行有效收集并有效利用,如何将威胁情报融合分析发

20、挥整体威力,已成为学术界关注的热点.威胁情报经过聚合和标准化、去重去伪,使用混合策略纳什均衡来评估时间威胁等级,从而预测攻击行为.威胁情 报 主 要 包 括 以 下 几 种 标 准 格 式:结 构 化 威 胁 信 息 表 达(S t r u c t u r e d T h r e a tI n f o r m a t i o ne X p r e s s i o n,S T I X)、可信任的指标信息自动变换(T r u s t e dA u t o m a t e de X c h a n g eo fI n d i c a t o rI n f o r m a t i o n,T A X

21、I I)、网络可观察表达(C y b e rO b s e r v a b l ee X p r e s s i o n,C y b O X)和恶意软件 属性举和描 述(M a l w a r eA t t r i b u t eE n u m e r a t i o na n dC h a r a c t e r i z a t i o n,MA E C).文中采用S T I X标准格式,S T I X可以使用对象和描述性关系来表达可疑、攻陷和溯源的所有方面的内容;通过关系连接多个对象可以简化或复杂地表示网络空间威胁情报.其优势在于类型丰富,适用于各类场景,能够获取更为广泛的网络威胁信息,且

22、更加标准化和结构化.随着人工智能以及自然语言处理(N a t u r a lL a n g u a g eP r o c e s s i n g,N L P)技术的发展,出现大量信息抽取工具,如自然语言处理的S t a n f o r dN L P工具和N L T K(N a t u r a lL a n g u a g eT o o l K i t)工具包,还有THUT a g清华关键词抽取工具包等,在这些工具的基础上,结合第三方词库进行数据标记,采用数据库匹配、启发式规则和安全词集种方式对文本数据进行标记,记录B I O(B e g i n,I n s i d e,O u t s i d

23、e)标签.因此,文中使用B I O标签作为特征提取方法,使用神经网络进行非结构化文本中安全信息的提取.本体是同一领域中不同主体之间的交流和联系的语义基础.文中参考威胁情报数据标准S T I X格式提出本体构建,并作为图数据库模式.本体构建的过程是首先将实体和提取的关系构建成知识网络,然后将数据转换为知识,并将知识与应用相结合.通过本体构建可以促进知识的融合,从而发挥数据的实用价值.知识图谱由谷歌提出,作为搜索引擎的辅助存储知识库.知识图谱主要是以多种不同形式分发的信息通过关联融合,形成了统一的高质量知识.文献 根据现有知识推理,挖掘潜在知识,同时,产生新知识.目前,在威胁情报领域中知识图谱的研

24、究和应用还处于起步阶段.文中技术研究的贡献如下:西安电子科技大学学报第 卷h t t p:/j o u r n a l x i d i a n e d u c n/x d x b()提出了一种基于B e r tB i S L TMC R F(C o n d i t i o n a lR a n d o m F i e l d s)的失陷指标(I n d i c a t o rO fC o m p r o m i s e,I O C)识别抽取方法.通过对非结构化文本信息的分析处理,并将其与正则匹配方法相结合,从中抽取出需要的I O C信息并进行标准化输出,得到S T I X标准格式的数据.()构

25、建威胁情报的知识图谱框架,包括情报搜集、信息抽取、本体构建和知识推理个过程.()基于S T I X构建威胁情报本体模型,以知识图谱的形式表示重要指标和威胁情报实体间的关系,设计出威胁情报检索系统.结合AT T&C K描述攻击行为,挖掘出威胁情报潜在关联信息和攻击主体.相关工作失陷指标指在网络或操作系统中观察到的伪像,指示计算机入侵行为并在早期检测到网络攻击,因此,它们在网络安全领域中发挥着重要作用.但是I O C检测系统严重依赖具有网络安全知识的专家的判断结果,因此研究需要大规模的手动注释语料库来训练I O C分类器.何志鹏等总结概述了国际上部分国家(组织)在网络威胁情报领域开展的标准化工作.

26、孙铭鸿等介绍了情报、威胁溯源对国家层面的影响.在威胁情报识别抽取技术中,基于w e b爬虫和邮件解析的技术具有构造方便、模型简单的优点,缺点在于精度很低,对于复杂的场景不能做出很好的处理.随着人工智能和N L P技术的发展,徐留杰等提出了一种多源网络安全威胁情报采集与封装技术,首先针对不同来源的威胁情报进行搜集处理,最后生成J S ON格式的标准化情报库.HUANG等提出了一种基于双向长短期记忆的序列标记模型用于命名实体识别(N a m e dE n t i t yR e c o g n i t i o n,N E R)任务.L ONG等提出了利用基于神经的序列标签从网络安全文章的非结构化文本

27、抽取I O C模型.该模型引入了多头注意力机制和上下文特征,显著提高了I O C识别的性能.L AMP L E等 提出了将L S TM编码器与w o r de m b e d d i n g和神经序列标记模型相结合的方法,在命名实体识别任务和词性标记任务上取得了显著的效果.L AN D AU E R等 从原始日志中提取网络威胁情报,所提方法还利用数据异常检测来揭示可疑日志事件,这些事件用于迭代聚类、模式识别和优化.KUR O G OME等 提出了枚举和优化勒索软件的枚举和推断家族典型示例(E n u m e r a t i n ga n dI n f e r r i n gG e n e a

28、l o g i c a lE x e m p l a r so fR a n s o mw a r e,E I G E R)的方法,通过恶意软件的跟踪自动提取生成可靠的I O C.该方法首先利用T e x t R a n k生成文章的摘要,然后按文章的时间戳对摘要和实体进行排序,生成安全事件链的网络威胁情报(C y b e rT h r e a t I n t e l l i g e n c e,C T I).胡代旺等 使用轻量级预训框架A L B E R T、图卷积网络和负样本学习三元组损失,提出了一种新的实体关系抽取算法.郭渊博等 使用B i L S TM融合F o c a l l o s

29、 s和字符特征就行实体抽取,验证了其有效性.程顺航等 融合自举法与语义角色标注,利用少量样本构建语义实体之间的关系.通过相关研究分析,文中采用从安全文章中提取I O C的方式来获得标准化威胁情报.虽然其获取过程需要更多的工作,但其优势在于可自定义抓取所需时间段内的文本数据,因此时效性较高.此外,安全文章通常是经过专业安全人员审核发表,I O C信息可对应到文章所提到的具体事件,其可信度更高,具有更高的数据价值.在抽取技术方面,现有的研究工作表明,使用深度学习相关的技术会有更好的效果.因此,文中在模型的构建上采用了N E R命名实体识别技术.关于威胁情报的实体有如下信息:p a t t e r

30、n_t y p e(模式类型)、v a l i d_f r o m(有效期)、p a t t e r n_v e r s i o n(模式版本)、n a m e(威胁情报名称)、i n d i c a t o r_t y p e s(指标类型)、c r e a t e d(创建时间)、p a t t e r n(攻击模式)、l a b e l s(情报标签)、s p e c_v e r s i o n(情报规格版本)、m o d i f i e d(情报修改时间)、t y p e(情报类型)、i d(情报编号)、i s_f a m i l y(威胁情报是否相关)、d e s c r i p t

31、 i o n(情报描述)、i p(攻击网络地址)、d o m a i n(域名)等.文中设计的实体之间具有松耦合性,为本体的扩充留下了充足的空间.与此同时,在本体关系及约束规则下,本体之间关联融合,从而丰富和完善了威胁情报领域知识图谱.知识图谱首先通过不同形式分发的信息,关联融合后形成统一的高质量知识.然后根据现有知识推理,挖掘潜在知识,同时产生新知识.因此,设计威胁情报的知识图谱,目的是将知识映射技术引入威胁情报领域.最后,针对开源威胁情报的输入,采用K i l l C h a i n模型、钻石模型或异构信息网络模型,结合现有的开源威胁情第期史慧洋等:威胁情报提取与知识图谱构建技术研究h t

32、 t p:/j o u r n a l x i d i a n e d u c n/x d x b报和实时数据,对威胁情报进行深入关联、碰撞和分析,找到潜在的攻击行为,并通过推理挖掘揭示隐藏的攻击链和其他威胁信息.石波等 验证了基于知识图谱的安全威胁感知方法更适用于对高强度安全威胁的感知.在知识图谱构建的相关研究中,董聪等 提出情报知识图谱构建的框架和关键技术.包括信息抽取、本体构建和知识推理等.WU等 提出了一种创新的基于本体和基于图的方法来进行安全评估,该方法利用本体模型的推理能力生成攻击图和评估网络安全性.刘强等 采用了联合学习的方法,说明了该端到端威胁情报知识图谱构建方法的有效性.对于

33、在线社交网络用户,G ONG等 提出了新的隐私攻击来推断属性,文中的攻击是利用在线社交网络上公开提供的看似无害的用户信息来推断目标用户的缺失属性.GA S C ON等 介绍了一种威胁情报平台,可通过基于属性图的新型类型不可知相似性算法,对不同标准进行统一分析,并对威胁数据进行关联,提高组织的防御能力.XU等 提出了一个新的模型,用于解决二进制代码分析的问题.图知识图谱构建流程图 知识图谱构建框架作威胁情报知识图谱构建的目的是借助知识图谱技术将分散的威胁情报集成在一起,建立和完善威胁情报评估机制.通用知识图谱的构建基于知识的广度,目的是建立一个覆盖所有领域的通用搜索辅助知识库,而威胁情报知识图则

34、需要实现深度知识系统的构建,从而达到使知识系统适应实际应用的目的.因此,威胁情报知识图谱的构建不同于一般知识图谱的构建.文中在前人对知识图谱研究的基础上,提出了知识图谱构建流程图,如图所示.图中数据采集的任务是通过分布式爬虫等方式从网络中威胁情报开放网站获取情报信息.知识抽取包括通过第三方开源包如j i e b a分词工具对实体进行抽取,然后利用深度学习方式抽取出威胁情报实体及其关系,从而获得有用信息.实体指安全活动中的主体信息,例如漏洞病毒、事件等;关系是指安全实体间存在的关联关系,如攻击者与漏洞的关系,病毒和恶意行为的关系等;本体构建过程是在标准威胁情报表达式S T I X格式的基础上,结

35、合获取信息的实际情况,进行图的本体构建.对抽取出的知识进行存储,主要是将获取的知识存入图数据库.文中采用n e o j数据库形成情报知识图谱后,便于知识的增删查询及数据的可视化展示.情报搜集数据采集的任务是通过分布式爬虫等方式从网络中威胁情报开放网站获取情报信息,威胁情报信息分为无结构化数据、半结构化数据和结构化数据.从个安全平台爬取了总计 条安全博客高级持续性威胁(A d v a n c e dP e r s i s t e n tT h r e a t,A P T)攻击报告,情报来源既有国内知名情报厂商,也有访问度较高的情报共享开源平台,包括F e e b u f、G r e e n S

36、n o w、b l o c k l i s t、奇安信、V i r u s T o t a l和 等.爬取过程如下:首先设置反爬虫机制,添加C o o k i e用来伪装身份I D;在各个安全网站中自定义搜索中输入A P T攻击报告,采用广度优先搜索的方式,遍历查询列表,通过检查定位资源,使用爬虫的方式获取文章的统一资源定位符(U n i f o r mR e s o u r c eL o c a t i o n,UR L),再通过UR L获取文章内容信息.通过对文章内容进行人工审查发现,部分报告对于攻击行动的描述过于简单,关于攻击模式、攻击过程等信息的记录不充分.为避免模型训练受到数据的影响

37、并且获取更多的有价值信息,可从文章篇幅、规范程度、描述细节等几个标准进行筛选,尽量选择篇幅较长且具体的介绍了整个攻击流程的文章.最终挑选了爬取的 篇,提取出其正文文本信息,作为本实验的原始数据集,如表所示.西安电子科技大学学报第 卷h t t p:/j o u r n a l x i d i a n e d u c n/x d x b表原始安全报告信息序号标题作者发布时间阅读量评论量正文内容蔓灵花A P T行动攻击报告 安全 /移动平台攻击增加,跨平台攻击渐成趋势.本次捕获的蔓灵花攻击行动中,不仅有针对W i n d o w s目标的攻击,还有针对移动A n d r o i d系统的攻击,黑客

38、通过假冒应用侵入目标的移动设备,上传用户信息,并监控用户操作全球高级持续性威胁(A P T)年报告奇安信威胁雷达 /过去的一年,在网络威胁(C y b e rT h r e a t)领域度过了颇为不平静的一年.网络威胁和攻击似乎更为广泛地应用于地缘政治和军事冲突之下等 识别抽取通过攻击报告发现,报告在正文内容中描述了攻击策略技术、恶意软件和恶意I P等,这些I O C信息在报告中通常以固定的格式标准出现.例如,在沙箱环境中监控恶意软件等动态分析方法,使用S n o r t等网络安全工具来监控网络流量.由此可见,I O C信息提取是一项非常重要的任务,可以帮助安全专家更好了解网络攻击的策略、目标

39、和工具,以及加强系统防御.但是采用正则匹配会存在非恶意I P等信息被误提取和I O C信息被漏报.因此,文中首先考虑利用神经网络建模的方法,引入上下文特征,然后采用正则匹配和命名实体识别相结合的办法识别抽取.识别首先对文 本 信 息 进 行 向 量 化 操 作,将 其 映 射 为 数 字 向 量.文 中 采 用G o o g l e公 司 推 出 的 基 于T r a n s f o r m e r的B e r t模型将文本信息处理为词向量.在输入时,B e r t的编码方式与T r a n s f o r m e r的相同.以固定长度的字符串作为输入,数据从下到上传输,每层都采用自我注意的方

40、式,可表示为A t t e n t i o n(Q,K,V)S o f t m a xQ KT(dk)/V,()多头自注意机可表示为M u l t i H e a d(Q,K,V)h e a d;h e a dh,h e a di A t t e n t i o n(Q WQi,KWKi,VWVi),()其中,Q、K和V对应于输入序列;WQi、WKi和WVi分别表示参数矩阵查询Q、关键字K和值V在其头部的投影.输出是每个位置返回的隐藏层大小向量,定义为B e r t(x).与传统的词向量词w o r d v e c相比,B e r t模型的优点是引入上下文特征,可以有效地捕捉上下文的依赖关系,

41、使向量空间中上下文相似的语料库距离非常近,因此可以产生更准确的特征表示,对I O C的识别、提取和判断是否为恶意信息非常有效.该神经网络模型是基于循环神经网络(R e c u r r e n tN e u r a lN e t w o r k,R NN)的 变体B i L S TM模 型.B i L S TM作为R NN的变体,在处理此类数据上具有更为优秀的表现.B i L S TM由前向L S TM和后向L S TM组成.当输入词向量为 w,w,w,wn时,前向L S TM将得到n个词向量hr,hr,hr,hR n;当输入词向量为 wn,wn,wn,w时,后向L S TM将得到n个词向量hl

42、 n,wl,wl,wl.将前向和后向量拼接在一起后,可以得到H,H,Hn.该向量包含向后信息,即也包含上下文特征,对顺序文本信息的处理有很好的影响.由于该模型采用了B e r t预训练模型来获得单词向量,因此,B i L S TM层的输入是上一层的B e r t层的输出,可表示为B i L S TM(w)SL s t mL(w),L s t mR(w),()其中,SL,R表示l和r拼接的输出,w表示上面B e r t层的输出B e r t(x).在命名实体识别任务中,词向量通过神经网络模型即可输出标签分值,即每个标注词的概率,可以选择一个分值最大的标签作为该字符的标签,但是无法保证概率最大的就

43、是正确的预测结果.因此,在命名实体模型中,在神经网络模型输出后增加一个条件随机场(C o n d i t i o n a lR a d o mF i e l d,C R F)层,C R F在假定随机变量构成马尔科夫随机场的前提下,预测一组随机变量的条件分布.第期史慧洋等:威胁情报提取与知识图谱构建技术研究h t t p:/j o u r n a l x i d i a n e d u c n/x d x b在该模型中,在C R F层充分的引入了文本与标签的对应关系和文本的上下文标注关系,通过对输出标签二元组进行建模,使用动态规划算法找出得分最高的路径作为最优路径进行序列标注.避免出现得到的文本

44、标签出现前后冲突的情况,在最后输出时为最后的预测结果添加一个限制标签,以此来控制提高输出结果的正确性,并预测最有可能的标签序列,即s c o r e(y)niPiyiniTyi,yi,()其中,s c o r e(y)为B i L S TM层的输出,对应于条件下标签y的概率;T矩阵包含两个相邻实体标签的转移概率,表示标签为后标签项的概率.该功能是为了避免文本标签之间的冲突,并在预测结果中添加一个限制标签,以控制和提高输出结果的精度.模型融合通过以上的描述,可得到最终的模型结构的文本表达为R e s u l t R e(B i L S TM(B e r t(x)s c o r e(y).()首先

45、,引入了正则性来提取可能的识别结果集.在词向量层中,使用B e r t预训练模型进行编码;然后将其输入到B i L S TM层得到特征和预测结果,并将该层的结果输入到C R F得到最优解,R e(x)表示一个常规的输出限制.提取采用B e r t B i L S TMC R F的方法进行实体和关系抽取.首先对原始数据进行数据清洗预处理,然后按照以下两个流程进行抽取:一种是定义正则表达式,抽取出文章中的I O C匹配数据;另一种是对标注好的数据进行词向量生成,构建神经网络模型.之后获取模型的抽取结果,将两种结果进行匹配.将正则匹配结果中出现在模型输出结果中的信息直接输出;对于未出现在模型输出结果

46、中的信息将其上下文标注为疑似I O C,重新输入到模型中,用于二次识别抽取,再输出抽取结果,以此来更加准确地抽取出文章中的I O C信息.算法流程如图所示.图 I O C抽取算法流程图以“蔓灵花攻击行动(简报)”为测试样本举例说明抽取流程.首先将测试样本进行数据清洗后,通过定义正则表达式,抽取候选集合:R e q u i r e m e n t L i s t d o c,C:P r o g r a m D a t a M i c r o s o f t D e v i c e S y n c t e m p t x t 作为正则匹配候选集;将样本输入到训练好的B e r t B i L S

47、TM C R F模型中,与正则匹配候选集进行匹配验证,最终输出得到“蔓灵花攻击行动(简报)”抽取结果(为表达直观,采用 框选实体部分).蔓灵花攻击行动(简报)标注结果:研究人员发现,该组织经常使用鱼叉邮件攻击的手法,鱼叉邮件中包含W o r d漏洞文档来诱导用户点击,其使用的漏洞是O f f i c e的经典漏洞C V E .用户点击之后,漏洞文档中的S h e l l c o d e 被执行,调用UR L D o w n l o a d T o F i l e A从指定的网址中下载木马程序,使用CMD命令重命名后执行,实现R AT的下载安装.除了基本的漏洞文档,还有图标伪装成图片文件的e x

48、 e,诱导用户进行点击,e x e执行后释放图片并下载安装R AT程序.漏洞文档的文件名列表如下:R e q u i r e m e n tL i s t d o c C y b e rE s p i o n a g eP r e v e n t i o n d o c N e we m a i l g u i d e l i n e s d o c G a z a l a k e h a s e e n n a g m e d o c 程序首先尝试在C:P r o g r a m D a t a M i c r o s o f t D e v i c e S y n c 下创建名为 t e

49、m p t x t 的文件,创建失西安电子科技大学学报第 卷h t t p:/j o u r n a l x i d i a n e d u c n/x d x b败则调用S HG e t F o l d e r P a t h来获取C S I D L_A P P D AT A的路径.本体构建本体构建过程是在标准威胁情报表达式S T I X格式的基础上,结合获取信息的实际情况,进行图的本体构建.对抽取出的知识进行存储主要是将获取的知识存入图数据库.文中采用n e o j数据库形成情报知识图谱,便于知识的增删改查操作以及数据的可视化展示.入侵集合是攻击活动的组合,由单个威胁源发起;特征指标即威胁

50、情报指标,在攻击过程中产生,常见的I O C指标通常包括:HA S H、UR L、域名和I P值;身份归属于威胁源,与其一一对应;防御策略是针对攻击模式所制定的策略,保护组织应对攻击.通过对威胁情报的原子构建最终实现图谱的架构.以攻击模式和漏洞为例,攻击模式是组织快速理解攻击强弱的途径,从攻击方法来说,分为D D O S攻击、w e b入侵、数据库入侵、系统入侵和病毒植入.其中,w e b入侵有远程入侵和隐秘通道入侵两种方式,系统入侵包括系统提权和W e b s h e l l;攻击过程分为远程漏洞利用、W e b暴力破解登录、本地漏洞利用、X S S攻击、数据库注入、欺骗和f l o o d

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服