1、InformationSecurity信息安全责任编辑赵志远大数据下的计算机网络安全技术分析辽宁省大数据管理中心(辽宁省信息中心)任成刚编者按:对大数据下的计算机网络安全技术进行了分析和探讨,提出了基于深度学习的网络态势分析与恶意流量识别技术,对于常见网络恶意流量的识别率达到95%以上的准确率。当前,大数据技术的迅猛发展和广泛应用,对计算机网络安全提出了新的挑战和影响。大数据技术下的计算机网络安全具有数据规模扩大、数据价值提升、隐私保护难度增大、安全威胁增多以及实时响应难以满足需求等特征。因此,开发和采用新的安全技术和方法成为当务之急。大数据下计算机网络安全态势感知1.应用场景在网络运维中,常
2、常涉及众多日志的处理,这些日志不仅来源十分复杂,同时数量极大。通过人工的方式分析,不仅人力与时间成本极高,同时效率也较低,无法及时定位并解决问题。因此,本文提出智能化网络态势感知的方法。2.问题建模网络态势感知的本质是通过收集网络日志数据,对当前网络态势进行分类,通过收集安全设备运行日志、操作系统与应用系统日志文件,将日志序列化为二进制文件并转换为灰度图作为基本数据源。3.基于深度学习的态势感知策略(1)特征编码在网络日志中找到网络流量数据,但这些信息存在大量几余信息。因此,需要对流量进行编码,以实现对特征的初步提取。使用源IP地址、源端口、目的IP地址、目的端口和传输层协议等信息来唯一确定一
3、个网络流。每个数据包中包含多个层次的头部和载荷数据,可以截取一定长度的数据包头部来获取关键数据段。为了方便处理,可以截取每个包的前6 4Byte内容。由于一个网络会话流中通常包含多个数据包,而前几个数据包通常包含了整个流的特征,因此以网络会话流作为基本单位进行恶意网络流量的检测。选取每个网络会话流中的前8 个数据包,截取每个数据包的前6 4Byte的数据内容,最终得到每个网络会话流的512 Byte的数据内容。其中,每个字节的取值范围为0 2 55。为了提高特征表示的效率,将这512 Byte的数据内容转化为二维灰度图像。可以将这些数据内容按照一定的规则映射到一个二维的灰度图像中,图像的大小可
4、以根据需要进行调整。将生成的二维灰度图像作为当前网络流的特征表示,作为神经网络的输入。(2)特征聚类具有类似特征的文件其特征灰度图具有相似的分布。因此,对灰度图的纹理分布进行分析,可以 2023.11投稿信箱责任编辑赵志远InformationSecurity信息安全有效划分具有相似特征的数据。使用KMeans聚类图像输入分类特征图,其流程主要分为初始化聚类中心、分配数据点和更新聚类中心三步,通过不断地迭代循环,最终得到K个,每个数据点都被分配到其中之一。它的核心思想是通过迭代的方式,不断优化聚类中心的位置,使得簇内的数据点相似度最大化,而不同簇之间的相似度最小化。聚类中心的选择和更新过程保证
5、了算法的收敛性。特征聚类有效地将海量的数据文件按照类别进行划分,聚类数K与日志种类应保持相同。根据常见的日志文件(相关的Webshell后门脚本上传,SQL注入、XSS、系统命令等注入,CSRF攻击、恶意爬虫攻击、文件包含、目录遍历、信息泄漏攻击,口令暴力破解、弱密码扫描、黑链、终端病毒/恶意软件,失陷主机等攻击行为),将K设置为14。(3)模型建立使用深度学习的方法建立模型,采用卷积神经网络(CNN)作为特征提取网络,其网络结构如图1所示。CNN由卷积层、激活函数和池化层三部分组成。卷积层是CNN的核心组件,它由多个卷积核组成,每个卷积核通过在输入上滑动进行局部感知,计算出特征图。卷积操作可
6、以提取输入数据的局部特征,通过多个卷积核的并行操作来提取多个不同的特征。激活函数通常被应用于卷积层的输出,以引入非线性特性,增加网络的表达能力和非线性拟合能力。池化层用于减少特征图的空间维度,降低模型的参数数量,并提取最重要的特征。常用的池化操作包括最大池化和平均池化,它们可以对输入特征图进行下采样。使用残差连接,加深网络深度。卷积核的大小直接影响神经网络的感受野与特多个残差收缩基本模块RSBUCOV卷积层全局平均批归一化BN池化GAPRELU分类结果O全连接输出层FC图1基于残差深度卷积网络的网络恶意流量检测模型征提取能力,使用1111大小的卷积核,通道数为64;使用最大池化作为池化层计算方
7、式;使用ELU作为特征提取阶段的激活函数,其数学公式如下:f(x)=(ex-1),x0由于该网络的目的是对输入数据进行分类,因此在特征提取层后衔接全连接层,并使用softmax作为输出阶段的激活函数,使输入转换为每一种网络态势的概率分布。softmax的数学表达式如下:f(x)=1+e-x(4)网络训练使用监督学习的方式训练神经网络,使用梯度下降的方法更新神经网络的参数。梯度下降是一种优化算法,用于最小化损失函数,以使神经网络的预测结果与真实标签尽可能接近。CNN使用梯度下降进行训练的基本步骤如图2 所示。在正向传播阶段,将训练样本输入到CNN中,Xx01投稿信箱 2023.11149Info
8、rmationSecurity信息安全责任编辑赵志远通过逐层的计算和激活函数,在网络中进行前向传播,计算出预测值。在计算损失阶段,将预测值与真实标签进行比较,计算损失函数(通常使用交叉熵损失或均方误差损失),衡量网络的预测结果与真实标签之间的差异。在反向传播阶段,通过反向传播算法,从输出层向输入层逐层计算梯度,将损失函数的梯度传递回网络中。在此过程中,使用链式法则计算每一层的梯度。在参数更新阶段,根据计算得到的梯度,使用梯度下降算法,更新网络中的参数。梯度下降算法根据梯度的负方向在参数空间中更新参数值,以减小损失函数。通过反复迭代的梯度下降训练过程,CNN能够逐渐调整网络参数,更好地拟合训练数
9、据,提高预测的准确性和泛化能力。实验与结果分析对目标服务器不定时注入大量恶意流量,使用上述神经网络进行日志分析,以识别网络流量中的攻击行为。根据日志,对网络攻击恶意流量进行分类,以采取针对性的措施。1.数据集的选取选用CICIDS2017数据集作为实验数据。CICIDS2017数据集是一个用于网络流量分类和入侵检测的数据集,该数据集包含了常见的网络攻击类型,并且更符合真实的网络环境。对数据集进行裁剪,去除样本量较少的 Heartbleed和Infiltration两个类别,将剩下的7 个恶意流量类别作为实验类别。2.实验设计作为典型的分类任务,采用精确率、召回率、F1分数与准确率四个评价指标综
10、合评价模型性能。初始化网络攻击种类攻击次数准确率召回率F1分数FTP750SSH750DoS900WebAttack600Bot1200PortScan1200DDoS12003.实验结果与分析由表1可知,该网络对于数据集的7 种恶意流量识别均具有很好的效果,对于FTP、SSH 识别的准确率达到了98%。对于DDoS识别率较低,但也达到了94%的准确率,满足预期需求。结语大数据环境下的计算机网络安全技术是保障信息系统和网络安全的重要组成部分。入侵检测与防御技术可以及时发现和应对网络威胁,行为分析技术可以识别异常行为和威胁模式,威胁情报技术可以提供实时的威胁情报和安全预警,隐私保护技术可以确保用户数据的安全和隐私。随着网络攻击技术的不断演变,网络安全技术也需要不断创新和提升,从而构建高效、安全的网络环境。N正向传播表1基于CICIDS2017的网络预测结构0.980.980.980.950.950.950.940.960.970.970.960.940.96计算损失图2 网络权值训练流程0.98友向传播更新权重参数达到训练轮数N结束训练2023.11投稿信箱