1、InformationSecurity信息安全责任编辑赵志远基于多模态数据融合的分布式网络漏洞挖掘方法武警天津总队潘铭睿编者按:提出了基于多模态数据融合的分布式网络漏洞挖掘方法,提取并融合分布式网络漏洞的多模态数据特征,构建了一个深度学习模型,将融合特征应用于模型上,实现分布式网络漏洞的挖掘。步入2 1世纪以来,网络技术得到高速发展,人们的生活与工作对于互联网的依赖性日益增强,但随之而来的网络安全威胁层出不穷,不仅影响到人们的财产安全,甚至对社会稳定和国家安全造成严重威胁。因此,如何减少网络的安全漏洞成为十分重要的问题。一般来说,在网络运行过程中,每千行代码就会有至少一个安全漏洞,通过挖掘漏洞
2、来提前发现并修复漏洞,是提升网络安全壁垒的一个重要手段。有专家通过引入黑盒遗传算法,设计了一种网络安全漏洞挖掘方法,解决了电力系统网络漏洞挖掘误检率较高的问题。还有业内人士利用模糊测试,实现了通用GOOSE协议解析漏洞的有效挖掘,对防范此类漏洞具有重要意义。随着分布式网络功能的不断强大,安全漏洞数量也在不断增加,且漏洞数据的结构形式逐渐复杂,传统的漏洞挖掘方法已经无法保障网络的安全。因此,分布式网络漏洞挖掘方法成为本文重点关注的课题。提取分布式网络漏洞的多模态数据特征为了实现分布式网络漏洞挖掘,首先需要根据网络特性,提取安全漏洞的多模态特征数据。一般来说,分布式网络安全漏洞可以理解为在海量网络
3、代码数据中截然不同的代码,所以可以将分布式网络漏洞数据特征划分为以下几种:内容特征、数据流统计特征以及网络连接行为特征。在实际应用场景中,需要全面、准确地采集分布式网络数据,并针对采集的数据进行安全漏洞多模态特征提取。在提取特征集上,叠加线性判别分析方法进行二次特征提取,在保证对网络漏洞中非线性数据的处理效果的同时,弥补传统特征提取方法只侧重从方差角度对特征进行分析而忽略了特征在均值方面特性的问题,做到了同时考虑数据在均值和方差两个方面的特性,进而对数据特征进行更加全面的分析。本文主要通过主成分分析法进行特征提取,提取流程如下:假设分布式网络安全漏洞的多模态数据特征为x(X1,X2,X n),
4、将原始多模态数据特征2023.9投稿信箱责任编辑赵志远InformationSecurity信息安全转换为向量后,可以得到特征向量矩阵。计算出分布式网络多模态数据特征的协方差矩阵,求解矩阵后得到安全漏洞的特征值与特征向量,按照递减的顺序对特征向量进行排序。排好序后,需要在确保信息量不丢失的情况下,对漏洞的多模态数据特征进行降维,得到原始特征在新特征空间内的投影,公式如下:mxT=XmxnenxTe其中,Xmx代表原始数据在新特征空间内的表达;enx代表特征向量的能量;T代表特征空间的维数。通过以上公式,将原始高维空间的分布式网络漏洞多模态数据特征投影至新的低维空间中,有助于特征可视化及后续的挖
5、掘。融合多模态数据特征在分布式网络漏洞挖掘任务中,利用单模态的数据特征进行安全漏洞挖掘时,易受到特定场景的限制。因此,本文为契合实际分布式网络运行场景千变万化的特点,在开展挖掘任务之前,需要对提取的多模态数据特征进行融合。由上述内容可知,本文提取的分布式网络漏洞的多模态数据特征是处于同一特征空间内的,其维数一致,所以本文采用加权融合方法进行多模态数据融合。本文在进行分布式网络漏洞多模态数据特征的融合时,综合考虑了多模态数据特征的自身特性。通常来说,不同模态下的数据特征,其侧重点也不一致,并且对挖掘准确率的影响程度不同。因此,本文利用多模态数据融合,通过确定不同模态数据特征的贡献占比来保障最终分
6、布式网络漏洞挖掘的效果。挖掘分布式网络漏洞一般情况下,在进行分布式网络漏洞挖掘时,需要在不影响网络正常功能的前提下进行,所以本文引入深度学习来实现分布式网络漏洞的挖掘。深度学习通过模拟人脑神经元来进行分布式网络漏洞多模态数据特征的学习和解释,从而达到漏洞挖掘的目的。以下主要介绍深度学习模型的整体结构及分布式网络漏洞挖掘的流程。该漏洞挖掘模型主要由输入、隐藏及输出层组成。首先是模型的输入,接受待挖掘的分布式网络漏洞数据特征及漏洞特征模板这两个输入。其中,漏洞特征模板主要根据已确定存在的漏洞数据获得,每一个模板代表一个漏洞类型。其次是经过模型的隐藏层进行特征处理及漏洞挖掘。在隐藏层中,需要将漏洞特
7、征向量转换为模型可学习的数字向量,并生成CFG和DFG,然后经过模型的核心算法来求得待检测漏洞特征与模板之间的相似度,从而判定是否存在需要进行挖掘的漏洞。由于分布式网络漏洞类型较多,且每一种漏洞之间存在细微差别,所以漏洞特征模板之间的差别呈递进变化。也就是说,如果待检测漏洞特征和某一模板之间具有较高相似性时,那么该漏洞特征和其他模板也存在一定相似性,但是漏洞数据特征和正常数据之间,在维度上存在不同。在深度学习模型运行过程中,根据分布式网络漏洞挖掘的实际情况,设定一个初始阈值,如果所求相似度超过该阈值,说明该特征为漏洞特征,则生成相应的漏洞报告。将漏洞报告通过模型的输出层输出,即可得到分布式网络
8、漏洞的挖掘结果。投稿信箱2023.9151InformationSecurity信息安全责任编辑赵志远实验分析1.实验准备以下验证基于多模态数据融合的分布式网络漏洞挖掘方法整体运行性能为目的,展开对比实验,选取基于模糊测试的网络漏洞方法以及基于网络爬虫的网络漏洞挖掘方法作为实验对照组。实验过程中,为更接近于真实分布式网络漏洞挖掘场景,采用某分布式网络常见的6 种类型的安全漏洞数据作为实验数据,如表1所示。基于以上实验数据,将实验组与对照组方法分别部署于实验环境的测试端。测试端的软、硬件环境如下:硬件采用CPUInteli7、内存8 GB的Windows10系统;软件使用PythonIDE运行漏
9、洞挖掘方法,通过MATLAB软件展示数据。表1实验数据字节码序号漏洞类型HTTPHeader1注入型2SQL注入型3CRLF注入型4CSRF型5文件上传型6文件下载型987漏洞字节码切片无漏洞字节码切片129420852352276443724989457949262904319237333991本文方法模糊测试网络肥虫62.结果分析5在分别采用上述三种方法对表1中6 种常见漏洞数据进行挖掘之后,本文以误报率为实验指标,对漏洞挖掘方法的性能进行直观分析,得出本次分布式网络漏洞挖掘实验结果,如图1所示。分析图1可知,针对这6 种常见的分布式网络漏洞,本文设计挖掘方法的误报率平均值为2.49%,较
10、对照组方法降低了2.2 9%、3.46%,表明本文设计方法性能更加优越。这主要是因为在本文方法中提取了分布式网络漏洞的多模态数据特征,并进行了数据融合,保障漏洞数据的完整度,无疑增加了多类型安全漏洞准确挖掘的概率。同时,深度学习模型具有较强的鲁棒性,可以大幅降低漏洞挖掘过程中的漏报率。因此,本文基于多模态数据融合设计的分布式网络漏洞挖掘方法具有较高的精度,可以进行实际应用。320结语当前的网络安全漏洞挖掘领域主要依赖专家经验与相关规则进行漏洞挖掘,不仅费时费力,而且难以保障挖掘精度。因此,本文引入多模态数据融合,设计了一种分布式网络漏洞挖掘方法,并通过仿真实验证明了该方法具有更高的准确率,可以满足分布式网络漏洞挖掘需求。在今后的研究中,本文将针对漏洞挖掘方法的效率做进一步优化,以提升该方法的实际应用价值。N21图1分布式网络漏洞挖掘结果对比3漏润序号2023.9投稿信箱