1、2024 年第 1 期43中国高新科技ELECTRONIC INFORMATION|电子信息基于可视化技术的海量数据安全特征提取算法陈宝靖1祝坤一21.甘肃同兴智能科技发展有限责任公司,甘肃 兰州 730030;2.绥化学院,黑龙江 绥化 152001摘要:由于传统算法在海量数据安全特征提取中应用效果不佳,不仅提取误差比较大,而且提取时间比较长,无法达到预期的特征提取效果,提出基于可视化技术的海量数据安全特征提取算法。在网络日志记录集中拾取与数据提取源相关的海量数据,利用聚类分析法对海量数据进行聚类分析,以数据的可靠性对海量数据安全特征进行识别,利用可视化技术对安全特征进行统计提取,以此完成基
2、于可视化技术的海量数据安全特征提取。实验证明,设计方法数据安全特征提取误差小于 1%,提取时间在 1s 以内,可以有效保证海量数据安全特征提取精度和速度。关键词:可视化技术;海量数据;安全特征;网络日志记录集;聚类分析法;可靠性文献标识码:A中图分类号:TP311文章编号:2096-4137(2024)01-43-03DOI:10.13535/ki.10-1507/n.2024.01.07Massive data security feature extraction algorithm based on visualization technologyCHEN Baojing1,ZHU Ku
3、nyi21.Gansu Tongxing Intelligent Technology Development Co.,Ltd.,Lanzhou 730030,China;2.Suihua University,Suihua 152001,ChinaAbstract:Due to the poor application effect of traditional algorithms in the extraction of massive data security features,not only the extraction error is relatively large,but
4、 also the extraction time is relatively long,which cannot achieve the expected feature extraction effect,and a massive data security feature extraction algorithm based on visualization technology is proposed.In the network log record set,the massive data related to the data extraction source is pick
5、ed up,the cluster analysis method is used to cluster and analyze the massive data,the security features of massive data are identified by the reliability of the data,and the security features are statistically extracted by the visualization technology,so as to complete the extraction of massive data
6、 security features based on visualization technology.Experiments have shown that the data security feature extraction error of the design method is less than 1%,and the extraction time is less than 1s,which can effectively ensure the accuracy and speed of extracting the security features of massive
7、data.Keywords:visualization technology;massive data;security features;network logging set;cluster analysis;reliability网络是当今人们生活中不可或缺的组成元素,延伸至生活的各个方面,但是随着互联网覆盖率的不断提升,人们对网络数据安全问题的关注度和重视度呈上升趋势。网络中存在海量的隐私数据,如支付密码、用户身份信息等,这些数据信息一旦遭到非法用户的攻击和破坏,会严重威胁网络用户的财产安全,因此,网络数据安全已经成为国家安全战略的重要组成部分。数据安全特征提取有助于分析网络状况、数据
8、状况,以及发现异常数据。但是由于网络数据数量极大,海量数据安全特征提取成为互联网领域面临的主要难题。经过近 20 年的研究发展,在数据安全特征提取领域,研究人员提出了多种新颖的提取方法,并设计研发了多种交互式的提取工具,海量数据安全特征提取理论得到了极大丰富,为海量数据分析人员的工作带来了新的变革。但是随着社会的不断发展,人们对海量数据安全特征提取的要求不断提高,现行算法仍然存在较大的优化空间,在实际应用中不但误差较大,而且特征提取时间比较长,海量数据安全特征提取效果不够理想,为此提出基于可视化技术的海量数据安全特征提取算法。1海量数据收集海量数据中存在着多源关联性,为了提取数据安全特征,需要
9、从数据源提取海量数据,本文将定义海量数据源为包含所有出现记录的数据源,并且这些记录具有不同的记录时间和目标地址特性,因此,只有同时包含目标地址和时间结构的数据源才能被视为海量数据收集源。海量数据提取需要建立一个包含时间、目标地址及对象的提取对象,在数据提取源搜索海量数据中的相关日志记录集,利用创建的提取对象搜索到与之相关的抽象海量数据,该数据记作:(1)式中,F 表示与提取对象相关的抽象海量数据集;x 表示海量数据类型;i 表示数据提取源中日志记录集数量;g 表示与数据提取源相关的海量数据安全特征参数。在上述基础上,确定海量数据事件位置,其计算公式为:(2)式中,K 表示海量数据位置属性权重;
10、e 表示海量数据安全维度;S 表示海量数据属性数值化参数。根据确定的位置收集到海量数据,以得到当前数据流安全态势,为海量数据安全特征提取提供基础依据。2海量数据安全特征识别数据安全可以用数据的可靠性反映,考虑到收集的海量数据可靠性是不一致的,因此,将数据安全特征定义为数据的可靠性,采用聚类分析法对海量数据进行聚类处理,识别到海量数据的可靠性安全特征。假设收集到的海量数据中的 2024 年第 1 期44中国高新科技电子信息|ELECTRONIC INFORMATION 一组观测值为 y,将海量数据安全特征中的节点中带权重的数据聚类,利用以下公式对观测数据集合中每个观测值进行标记:(3)式中,P
11、表示观测数据集合中每个观测值的标记,即观测值的最小化集合参数;r 表示观测数据集合中观测值的矢量参数;s表示观测数据集合中每个点到聚类中心聚类的函数;D 表示观测数据集合中观测值的聚类参数。根据海量数据聚类分析结果,计算海量数据可靠度。数据的可靠性主要由数据的信誉值决定,其计算公式为:(4)式中,b 表示海量数据的可靠度;h 表示数据可靠度判断参数;L表示数据的信誉值;H表示海量数据中的不可靠数据;u表示计算常数。数据的可靠度越高,表示数据的可靠性越好,数据越安全。通过以上计算识别出海量数据安全特征。3基于可视化技术的数据安全特征统计提取考虑到数据量比较大,为了更加清晰地反映海量数据的安全特征
12、,利用可视化技术对海量数据安全特征进行统计提取。海量数据安全特征可视化提取,实质是将识别到的安全特征值映射到图表中,以表格和图形的形式展示特征。以观测数据编号为列,以数据可靠度值为行,建立海量数据安全特征表格,将观测数据对应的安全特征映射到表格中,生成海量数据安全特征统计表。再利用可视化技术根据特征表生成海量数据安全特征汇总图。将特征表格数据上传到可视化交互软件中,建立二维坐标系,以数据的时间属性为横坐标,以数据的可靠度值作为纵坐标,坐标系的横轴与纵轴的起始值都为“0”。将上传的海量数据安全特征表格中数据映射到安全特征二维坐标系中,生成海量数据安全特征折线图,根据数据安全特征提取需求生成一个特
13、征区分阈值,数据的可靠度值大于阈值,则表示该组数据为安全数据,在折线图中将该组数据对应的点用“绿色”表示;数据的可靠度值小于阈值,则表示该组数据为不安全数据,在折线图中将该组数据对应的点用“红色”表示,从而达到对海量数据安全特征信息明确表达的效果,以此生成海量数据安全特征折线图,进而实现基于可视化技术的海量数据安全特征提取,完成算法设计。4实验论证4.1实验准备与设计完成以上基于可视化技术的海量数据安全特征提取算法设计后,为检验算法的可靠性与可行性,将本文设计算法作为实验对象,选择目前海量数据安全特征提取最为常用的两种算法作为对照对象,设计一组对比实验。为了方便后续实验陈述,实验中将两种现行算
14、法用对照算法 X、Y 表述。选择 7000Byte 数据作为实验数据样本,利用 3 种算法对该数据安全特征提取。按照上述流程对海量数据聚类分析,识别海量数据可靠度值,利用可视化技术将数据安全特征映射到图表中,以下随机选择7个数据样本,其安全特征提取结果见表1。表1海量数据安全特征提取可视化统计结果样本序号数据可靠度实际可靠度19.269.2525.625.6137.157.1646.356.3358.158.1665.625.6674.854.88如表 1 所示,本文设计的算法基本可以完成海量数据安全特征提取任务,以下对具体提取效果进行鉴定。4.2实验结果与讨论对海量数据安全特征进行提取时,选
15、择平均误差作为指标,共设计 7 组实验,每组实验提取 10 个 1000Byte 数据安全特征,利用以下公式计算出提取误差:(5)式中,表示海量数据安全特征提取误差;b0表示实际数据可靠度值。取平均值最为每组实验结果,具体数据见表 2。表2三种算法特征提取误差对比(%)实验组别设计算法对照算法X对照算法Y第一组0.2610.2616.35第二组0.1511.2615.28第三组0.1112.1416.34第四组0.2610.3615.25第五组0.2211.2415.55第六组0.2110.2415.43第七组0.0910.3415.36如表 2 所示,设计算法平均误差为 0.16%,可以将数
16、据安全特征提取误差控制在 1%以内,数值较小,基本可以忽略不计,说明提取特征与实际海量数据安全特征基本一致。相比之下,对照算法 X 平均误差比设计算法高将近 11%,对(下转第52页)2024 年第 1 期52中国高新科技技术应用|TECHNOLOGY APPLICATION减少火电机组的频繁启停,降低磨损和能耗,从而延长设备寿命,降低维护成本。(2)储能系统参与电力市场的交易也为其他电厂带来了经济效益。储能系统可以灵活地根据市场需求进行电能的买卖,实现差价收益最大化。在电力市场高价时段,储能系统将储存的电能卖售,获取收益;在低价时段,可以低价购买电能储存,降低成本。这种市场交易的参与为电厂增
17、加了收益来源。(3)储能联合火电调频技术还有助于电力系统的供电可靠性。当其他电厂的发电机组出现故障时,储能系统可以迅速投入运行,提供备用电力支持,维持电力系统的稳定运行,降低停电风险。3结语储能联合火电调频技术的应用为电力系统带来了显著的社会效益与经济效益。通过储能与火电的协同运行,不仅提升了调频能力和供电可靠性,还降低了运行成本,实现了电力系统的优化和可持续发展。这一技术的成功应用为电力行业探索了新的发展路径,也为实现能源转型、提高能源利用效率做出了积极贡献。未来,随着科技的不断进步和应用经验的积累,储能联合火电调频技术将继续发挥更大的作用,为电力产业的创新发展和绿色能源的普及作出更大贡献。
18、作者简介:张博(1995-),男,河北沧州人,国能陈家港发电有限公司集控副值助理工程师,研究方向:火力发电厂集控运行。参考文献1 谢惠藩,王超,刘湃泓,等南方电网储能联合火电调频技术应用 J电力系统自动化,2021,45(4):172-1792 王斐,梁涛储能系统辅助火电机组联合 AGC 调频技术的应用 J电工电气,2018(9):34-373 牟春华,兀鹏越,孙钢虎,等火电机组与储能系统联合自动发电控制调频技术及应用 J热力发电,2018,47(5):29-34(责任编辑:葛佳)照算法 Y 平均误差比设计算法高将近 16%,证明在提取精度方面设计方法表现更佳。对于海量数据安全特征提取速度,选
19、择提取时间作为指标,以算法输入海量数据时间为开始时间,以算法可视化展示安全特征时间为结束时间,使用电子表格统计不同数据量下安全特征提取时间,见表 3。表33种算法提取时间对比(s)数据量/Byte设计算法对照算法X对照算法Y10000.2610.5611.2620000.2812.3513.4230000.3513.5615.2440000.4215.2417.5450000.4716.5819.3560000.5218.2622.4170000.5520.5625.56如表3所示,设计算法数据安全特征提取时间在1s以内,最快提取时间为 0.26s,说明设计方法可以实现对海量数据安全特征的实时
20、提取。相比之下,当提取样本为 7000Byte 数据时,设计算法特征提取时间比对照算法 X 短缩近 20s,比对照算法 Y 缩短近 25s。因此,以上实验数据和实验结果可以证明,设计算法对海量数据安全特征提取效果更佳,具有良好的可行性与可靠性。5结语数据安全特征提取是数据安全诊断和预警的重要基础,此次结合可视化技术优势,将该项技术应用到海量数据安全特征提取中,设计了一个新的算法,有效减小了数据安全特征提取误差,缩短了数据安全特征提取时间,为海量数据安全特征提取实践提供了理论支撑,同时也为该方面研究提供了参考依据,对可视化技术广泛应用也具有一定的推广意义。作者简介:陈宝靖(1982-),男,湖南
21、株洲人,甘肃同兴智能科技发展有限责任公司高级工程师,研究方向:电子信息与通信。通讯作者:祝坤一(2001-),男,江苏连云港人,供职于绥化学院,研究方向:C 语言应用、数据可视化、芯片架构与编程分析。参考文献1 薛振华基于数据特征融合的多层次网络空间安全防御系统 J信息与电脑(理论版),2023,35(2):242-2442 唐利红基于数据安全可视化技术的大数据安全研究J软件,2022,43(9):32-343 赵思佳,尹婷基于多因素特征分析的网络安全数据处理模型 J中国新技术新产品,2021(21):30-324 焦文斌车载网络安全数据可视化技术探讨 J电子测试,2021(10):137-1385 段汝林可视化技术与数学技术在网络安全中的应用 评基于数据分析的网络安全J电镀与精饰,2020,42(8):47-486 白冰基于可视化和数据融合技术的多元异构网络数据安全防护分析 J电子设计工程,2020,28(13):137-140,1467 赵露基于聚类分析的网络安全数据特征可视化融合研究 J长春工程学院学报(自然科学版),2020,21(2):94-97(责任编辑:葛佳)(上接第44页)
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100