基于有序聚类方程的数据相似性精准识别仿真_张媛.pdf

资源描述

1、基金项目:黑龙江省自然科学基金资助项目(LH2022A023)收稿日期:2022-04-20 第 40 卷第 4 期计算机仿真2023 年 4 月文章编号:1006-9348(2023)04-0402-05基于有序聚类方程的数据相似性精准识别仿真张媛1,张慧钧2(1.黑龙江工业学院现代制造工程学院,黑龙江鸡西 158100;2.延安大学数学与计算机科学学院,陕西延安 716000)摘要:网络环境中海量数据具有明显复杂度,存在着大量结构化、半结构化和非结构化的数据,数据块长度与位置易产生较高相似性。当前已有的相似性数据识别属于密集任务型方法,会占用大量的内存空间。为了进一步提高

2、数据利用率,降低数据冗余度,提出基于有序聚类方程的数据相似性识别建模仿真的方法。利用小波技术和重复数据删除技术对网络数据降噪,通过预设数据集中心,完成网络数据特征向量的优化提取。基于此,从时间、空间双维度分析特征向量的相似度,以点云分类网络和有序聚类方程为基础,构建数据相似性识别模型。实验结果表明,利用研究方法识别数据相似性时,其归一化互信息值为 0.12,说明上述方法的准确度较高,针对不同规模的待识别数据,研究方法可在 0.6s 之内完成全部数据相似性的识别。以上实验所得数据证明了该方法具有较高的应用准确率和效率。关键词:小波技术;重复数据删除技术;特征向量相似度;点云分类网络;有序聚类方程

3、中图分类号:TP391 文献标识码:BAccurate Recognition Simulation of Data SimilarityBased on Ordered Clustering EquationZHANG Yuan1,ZHANG Hui-jun2(1.School of Modern Manufacturing Engineering,Heilongjiang University of Technology,Jixi Heilongjiang 158100,China;2.College of modern Manufacturing Engineering,Yanan Un

4、iversity,Yanan Shannxi 716000,China)ABSTRACT:Massive data in the network environment has obvious complexity.There are many structured,semi-structured and unstructured data.The length and location of data blocks are easy to produce high similarity.At pres-ent,the existing similarity data recognition

5、is task intensive methods,which will occupy a lot of memory space.In or-der to further improve data utilization and reduce data redundancy,a simulation method of data similarity recognitionbased on ordered clustering equation was proposed.First,wavelet technology and data deduplication technology we

6、reused to reduce the noise of network data,and then network data feature vectors were optimized and extracted by pre-setting the data set center.On this basis,the similarity between feature vectors were analyzed from the dimension oftime and space.Based on the point cloud classification network and

7、ordered clustering equation,a model of identif-ying data similarity was constructed in the end.Following conclusions can be drawn from the experimental results.When the proposed method was adopted to identify data similarity,the normalized mutual information value is 0.12,indicating that the accurac

8、y of method is high.For different sizes of data to be identified,the method can completethe identification of all data similarity within 0.6s.These experimental data prove high application accuracy and effi-ciency of method.KEYWORDS:Wavelet technology;Deduplication technology;Eigenvector similarity;

9、Point cloud classification net-work;Ordered clustering equation2041 引言呈现爆炸式增长的网络数据不仅增加了网络中心空间的冗余度,还加重了系统运行负担,加长了网络目标信息的访问时间1。为了优化网络环境,减少网络中实际存储的数据量,降低网络运行成本和能量消耗,研究人员以聚类网络相似数据为目的,展开对数据相似性识别方法的研究。李贺2等人通过 Word2vec 表示学习方法分析数据内容的特征向量,并将特征向量输入以 K-means 聚类算法和 LSA模型为基础构建的数据聚类模型中,该模型通过探索特征向量间的关联度,实现数据相似性识别,

10、该方法存在识别准确率低的问题。陈科山3等人通过典型洞库类目标筛选模型获取海量数据中主要特征表述清晰的样本数据,并将其与局部自适应阈值生成算法结合,使样本数据的灰度特征在目标轮廓识别方面得到全面优化,最后将特征优化成功的样本数据输入目标判别算法中,实现数据相似性识别。洪征4等人通过网络流量截获方法获取应用层协议数据,并根据协议数据负载特征将其划分成多组以关键特征为单位的簇族,通过将各簇族输入 AGNES 层次聚类算法中,实现数据相似性识别,上述两种方法存在识别效率低的问题。相似数据识别方法是对给定的一对数据序列计算两者之间的相似度,从而度量数据之间的相似程度,在信息科学领域具有非常重要的应用价值

11、。为进一步优化此方法应用下的数据存储空间适应能力以及识别的准确性,提出新的基于有序聚类方程的数据相似性识别方法。2 数据预处理2.1 降噪存储于网络中心空间的数字化信息由于受到多种外界因素的干扰,常存在含量较高的高斯白噪声5。高斯白噪声作为数据应用领域常见的污染源,其对数据的恶劣影响并不仅限于降低数据收敛速度,还能通过随机添加或消除频域信息的方式,使数据释放畸形信号。为了优化操作对象,获取可信度更高的数据相似性识别结果,需要首先利用小波技术去除数据噪声。小波技术是结合了改进小波包分解6、小波阈、小波变换的复合型噪声消除技术,其基本降噪思路参考傅里叶变换7,即通过在原数据基础上添加足以重构高斯白

12、噪声的滤波,实现噪声多频域范围内的有效抑制。小波技术消除数据噪声的具体过程可以分为数据分层、数据排序和数据降噪三个步骤。1)数据分层未经量化的数据通常以 IGES 文件格式存储于网络中心空间,且空间内数据拓扑结构混乱,不利于小波降噪处理。在空间边缘投放一条固定轴,且每隔两个坐标间隔扫描一次空间平面,使网络中心空间在非人为因素的作用下转变为坐标间隔统一的分层结构,且各层级数据总和不超过整体含量的 10%。与网络中心空间直接接触的固定轴并不是由某一方向延伸的随机坐标轴,而是在统计数据集中程度的基础上,由X、Y、Z 三个方向延伸并产生交集后,从交集点坐标发出的坐标轴。这种方向累加的方式不仅提高了分层

13、扫描的精确度,还降低了固定轴的误判率。固定轴的数学描述公式如下:T=2sin 2ni=1(yo-yi)+nj=1(xo-xj)(1)式中,2表示 X 轴线运动轨迹方程;sin 表示 Y 轴线运动轨迹;yo表示 Z 轴线运动轨迹;yi表示集中点坐标;xo表示坐标轴延伸时刻;xj表示坐标轴停止时刻。固定轴确定后,空间内数据分层工作正式开始。考虑到单位层级可能存在度量误差,从而影响层级数据总和与整体含量之间的等比关系,需要在固定轴扫描过程中添加一项阈值,起到限制固定轴扫描范围的作用。阈值限制固定轴扫描范围的数学表达式如下L=+0ki-2dk+l(2)式中,ki-2表示数据层数;l 表示固定轴杆长度。

14、2)数据排序在数据分层的基础上排列数据。由于各层级结构无论在数据量方面,还是在层片间拓扑关系方面均表现出真实、统一的趋势,因此任意层级的数据排序规律适用于全部层级。将待排序的层级结构视为三维空间坐标系中一张边界清晰的平面图,而其中数据则坐落于图中各个点状坐标。邻近坐标间的距离是判断数据是否符合顺序化要求的标准。利用准确性判断方法8获取邻近坐标间的距离,若该距离满足顺序化要求,则能够与小波技术结合,实现高斯白噪声消除。准确性判断方法的表达式如下M=Io+sin()(3)式中,Io表示初始拓扑顺序;表示邻近数据点坐标;表示距离测量误差。3)数据降噪数据降噪的具体过程如下:首先利用离散鲁棒滤波器9向

15、分层、排序整齐的原数据中添加足以重构高斯白噪声的滤波,然后将原数据与改进小波包分解结合,诱导滤波抑制噪声释放。整个噪声抑制过程在数据分层、排序的基础上进展高效,能够满足实际工程的硬性需求。离散鲁棒滤波器添加滤波的数学表达式如下K=f 2|-1(4)式中,f 表示滤波频率;表示参与降噪的原数据量。改进小波包分解的表达式如下H=z0,1|si sj|2z(5)式中,si表示小波重构系数;sj表示诱导条件;z 表示粗略信号频率。2.2 重复数据的删除重复数据过于密集导致空间冗余度过高也会威胁数据304相似性识别性能。为了创造良好的数据相似性识别环境,需要借助重复数据删除技术10二次优化空间内数据。重

16、复数据删除技术作为计算机应用领域内扩展数据存储容量,降低数据交叠率和信息冗余度的新兴数据优化技术,主要通过分块索引的方式减小空间数据占用量和网络传送流量负载。在识别相似数据时,庞大的数据规模不仅增加了一次识别过程的吞吐量,还延长了识别对象的访问时间。因此,在以识别数据相似性为任务目标的操作过程中,删除空间内重复数据是十分有必要的。重复数据删除技术的具体操作过程如下:首先根据数据重复定义择选空间中频繁出现的同属性数据,然后利用学习者模型过滤11。数据重复定义的择选条件包括写入与读出的 fid 域相同、RIDI 访问记录相同、chunkID 磁盘检索地址相同等,被判定为同属性的重复数据会在学习者模

17、型的作用下过滤。重复数据过滤模型为:G=1|w|rid(u)-rid(p)2(6)式中,w 表示数据滤重约束条件;u 表示重复数据判定流程的正确性;p 表示重复数据过滤开销。3 数据相似性识别模型通过构建聚类模型的方式实现数据相似性识别,优先提取数据的特征向量。经过降噪和重复删除的网络数据在特征值比重方面较为突出,有利于采取客观可靠的特征提取方法。3.1 提取数据的特征向量为了避免大规模网络数据在特征向量提取时产生误差,通过预设数据集中心,并把控提取范围的方式逐步提取网络数据的特征向量。在数字化信息领域,各种不同属性、不同特征值比重的单标数据由于存在不同的信息熵,因此其面对数据集预设中心时,并

18、不能给出确定、统一的熵衡量度,这就增加了特征提取范围的把控难度。互信息熵12是建立在概率论和信息论基础上的一项度量指标,主要表示不同属性、不同特征值比重的两个任意数据的依赖程度,这种依赖程度既可以是连续性变量条件下,两数据的离散化程度,也可以是随机变量条件下,两数据的熵联合度。利用 EM 算法获取全部数据的互信息熵,并根据数据间的离散化程度和熵联合度重构网络数据的几何关系。EM 算法的表达式如下U=11+|gn(s)-gm(s)|(7)式中,gn表示单位数据的权重;gm表示数据缺失值;s 表示数据稀疏性。数据间离散化程度可以表示为F=1enk=1ij(k)(8)式中,e 表示邻域数据的隐变量;

19、ij表示邻域数据的显变量;k表示离散吸引力。数据间熵联合度可以表示为N=FlgQnm=1i(m)(9)式中,i表示信息熵;m 表示总数据的伪联合比例;Q 表示空间向量差。空间几何关系的重构意味着邻近数据离散化程度和熵联合度的统一,在此基础上把控特征向量的提取范围,能够降低特征向量提取过程的操作难度。视单位数据集预设中心及其把控范围为一个特征向量提取主题,将各主题依次与Jelinek-Mercer 平滑模型结合,模型从拟合数据查询关键词的角度迭代各主题,并输出具有非负性和对称性的数据特征向量。Jelinek-Mercer 平滑模型的计算公式如下B=Nlgq(c)q(x)(10)式中,c表示主题分

20、布特征;x表示迭代次数;q 表示主题内容特性。3.2 基于有序聚类方程的数据相似性识别有序聚类方程又称 Fisher 逐步判别分析方法13,其算法流程简便、聚类结果精确,常被应用于文字、图像、视频等多种格式的数据分类中。有序聚类方程分类数据特征向量包括两个步骤,即计算特征向量相似度和数据相似性识别模型。1)计算特征向量相似度计算特征向量相似度是为了直观感受数据间的相关程度,为后续特征向量的分类奠定基础。从相似性角度来看,两特征向量需要同时满足时间、空间双维度要求,才能符合相似度评定条件。特征向量的时间维度指的是数据所处面板在三维表描述过程中对应的时间序列,由于单位数据的时间序列具有唯一性和可比

21、性,因此通过读取各面板对应序列,并对比序列中各指标的重合率,即可实现数据基于时间维度的相似性评定。读取面板对应序列的计算公式如下V=Ptan(f1)(11)式中,P 表示相似性关联系数;表示时间序列的绝对量;f1表示时间序列的几何结构。各指标在时间序列中具有两项重合特征,一是规范性重合,即组成时间序列的参数在连续时间节点下完全重合;二是对称性重合,即组成时间序列的参数在非连续时间节点下呈现部分重合。因为规范性重合与对称性重合在数据相似性方面表现出同等合理性,因此将这两项不同的重合特征都归类于时间序列。规范性重合满足的数学表达式如下D=(o+1)hs(12)式中,o表示规范性指令;1表示各指标的

22、量化编码;hs表示时间序列的累积能量。对称性重合满足的数学表达式如下S=billstmx2R()(13)式中,x 表示对称性指令;表示各指标的位置梯度;R 表示404非连续时间节点的 Cosine 距离。特征向量的空间维度指的是数据所处面板在三维表描述过程中对应的空间位置。考虑到特征向量关联度并不仅限制在量纲量级相同的条件下,因此空间位置的重叠也能表述特征向量的相似性。采用 Simhash14读取各面板对应空间位置,并匹配空间位置重合率较高的特征向量,即可实现数据基于空间维度的相似性评定。Simhash 的表达式如下J=sin +C()(14)式中,sin 表示低维指标特征变量;C表示高维指标

23、特征变量;表示空间平均转角。空间位置重合率匹配公式如下X=j aJ(15)式中,j 表示一次匹配的特征向量交通量;a 表示特征向量对应点坐标。2)数据相似性识别模型数据相似性识别模型由点云分类网络15和有序聚类方程共同组建,通过向其中添加时间、空间双维度相似性判定清晰的数据特征向量,并将特征向量以脑神经信息处理的方式与神经元结合,即可实现特征向量的有效聚类。有序聚类方程在模型中聚类特征向量的公式如下W=X2EnEm(16)式中,En表示点云分类网络神经元数量;Em表示相似性数据的聚类容错率;2表示邻域神经元的欧氏距离。根据数据相似性识别模型输出的特征向量分类结果,即可实现数据相似性的有效识别。

24、4 实验与分析以型号为 G450 30033 的台式计算机及其网络存储磁盘为实验主体环境,已知数据的总存储容量为 400GB,其中数字化信息已经占用的存储容量为 60GB。实验采用PostgreSQL 数据库中的数据作为识别对象,随机选取与数据存储环境相匹配的数据量,具体实验过程如下:1)准确率对比归一化互信息是通过将所得结果的最大值和最小值归一化,并置于 01 之间,以此评估数据聚类结果相近程度的方法。归一化互信息的值越小,说明聚类结果的相近程度越高,算法对相似性数据的识别准确率越高;归一化互信息的值越大,说明聚类结果的相近程度越低,算法对相似性数据的识别准确率越

25、低。归一化互信息的计算公式如下A=Y(a)/Y(b)(17)式中,Y(a)表示表示联合熵;Y(b)表示个体熵。现分别采用所提方法、文献2提出的基于 Word2vec 表示学习的数据相似性识别方法和文献3提出的基于目标筛选的数据相似性识别方法识别实验对象中的相似性数据,并计算不同方法下识别结果的归一化互信息。不同方法的归一化互信息如下表 1 所示。表 1 不同方法的归一化互信息指标研究方法基于 Word2vec 表示学习的数据相似性识别方法基于目标筛选的数据相似性识别方法归一化互信息0.120.560.77 如表 1 可知,采用所提方法识别实验对象的数据相似性,其归一化互信息的值为 0.12,说

26、明所提方法的聚类结果相近程度较高,即所提方法获取的数据相似性识别结果的准确度较高。这是因为所提方法在识别数据相似性前,优先利用小波技术和重复数据删除技术优化需要识别的网络数据,经过优化的数据在特征值比重方面较为突出,这样根据优化数据获取的相似性识别结果的可信度更高。采用基于Word2vec 表示学习的数据相似性识别方法和基于目标筛选的数据相似性识别方法识别实验对象的数据相似性,二者归一化互信息的值与所提方法存在较大差距,说明文献方法的聚类结果相近程度较低,即获取的数据相似性识别结果的准确度较低。经上述对比,可知所提方法对数据相似性的识别性能明显优于传统方法。2)效率对比为了进一步验证所提方法的

27、实用性,现在实验对象中添加数字化信息,使其占用的存储容量分别提升至 100GB、200GB、300GB 和 400GB。采用所提方法、基于 Word2vec 表示学习的数据相似性识别方法和基于目标筛选的数据相似性识别方法识别不同规模的实验对象的相似性数据,并记录不同方法对存储规模并不统一的数据集的识别时间。不同方法的识别时间如图 1 所示。图 1 不同方法的识别时间504如图 1 可见,文献方法应用下,当数据存储量逐渐增加至 400GB 时,在 1.2s 内仅能完整不到 50%的数据相似性识别。相比之下,采用所提方法识别不同规模的实验对象,完成全部数据相似性识别的耗时均不超过 0.6s,说明所

28、提方法对相似性数据的识别效率较高,受数据量大小影响不大,具有较好的存储环境适应性能。5 结束语近年来,网络数据的泛滥加重了计算机运行负担,为了避免数据冗余度过高问题,提出相似性数据识别方法,能够从时间、空间双维度分析特征向量的相似度,并通过实验验证了该方法具有良好的应用性能。但是,为进一步控制冗余数据的重复存储,在保证数据相似性识别性能的同时对数据相似性识别过程实时监控是日后研究的重点。参考文献:1 谢金凤,严涵琦,邓炳光,等.物联网终端评测体系发展研究J.电信科学,2021,37(2):63-70.2 李贺,谷莹,刘嘉宇.数据驱动下基于语义相似性的产品需求识别研究J.情报理论与实践,2022

29、,45(5):99-106.3 陈科山,贾博然,刘凯,等.基于多特征的洞库类目标识别方法J.北京理工大学学报,2020,40(1):76-824 洪征,龚启缘,冯文博,等.自适应聚类的未知应用层协议识别方法J.计算机工程与应用,2020,56(5):109-117.5 闫景涛,缪立军,毛建峰,等.高斯白噪声相位调制的激光光谱展宽J.光谱学与光谱分析,2022,42(3):665-671.6 马鹏,王泽宇,钟卫东,等.基于改进小波包分解的相关功耗攻击降噪方法J.计算机工程,2020,46(7):129-135,142.7 郭玲玲,赵其昌,杨勇,等.星载傅里叶变换红外光谱仪的脉冲噪声抑制方法J.光

30、学学报,2020,40(8):205-212.8 戴志辉,邱小强,耿宏贤,等.基于相似度匹配的智能站虚端子连接准确性判断方法J.华北电力大学学报(自然科学版),2021,48(3):32-38,56.9 凌荣耀,冯宇.有限信息约束下的离散鲁棒滤波器设计J.小型微型计算机系统,2022,43(1):173-178.10 贺秦禄,边根庆,邵必林,等.移动闪存的重复数据删除技术J.西安电子科技大学学报,2020,47(1):128-134.11 刘芳,田枫,李欣,等.融入学习者模型在线学习资源协同过滤推荐方法J.智能系统学报,2021,16(6):1117-1125.12 石祥滨,耿凯,刘翠微.融合

31、显著特征和互信息熵的 SLAM 闭环检测算法J.小型微型计算机系统,2020,41(1):171-176.13 黄利文.基于变量择优的 Fisher 逐步判别分析方法J.系统科学与数学,2021,41(8):2338-2348.14 曹卫东,胡炜,王家亮,等.基于 SimHash 和混合相似度的多模式匹配方法J.计算机应用研究,2020,37(1):198-202.15 薛豆豆,程英蕾,文沛,等.MLMS-Net:多层次多尺度点云分类网络J.西安交通大学学报,2020,54(12):70-78.作者简介张媛(1971-),女(汉族),辽宁省辽阳市人,副研究员,研究方向:应用数学。张慧钧(19

32、94-),女(汉族),陕西吴起人,硕士,讲师,研究方向:信息科学与技术。(上接第 345 页)11 V K Moffaert,et al.Multi-Objective Reinforcement Learningusing Sets of Pareto Dominating PoliciesJ.Journal of MachineLearning Research,2014,15:3483-3512.12 陶海成,卜湛,曹杰.基于多目标强化学习的社区隐藏框架J.中国科学(信息科学),2021,51(7):1131-1145.13 Ruiz-Montiel M,Mandow L,Perez-D

33、e-La-Cruz J L.ATemporal Difference Method for Multi-Objective ReinforcementLearningJ.Neurocomputing,2017,263(nov.8):15-25.14 Vamplew P,Dazeley R,Berry A,wba et al.Empirical evaluationmethods for multiobjective reinforcement learning algorithmsJ.Machine Learning,2011,84(1-2):51-80.15郑金华,邹娟.多目标进化优化M.北

34、京:科学出版社,2017:291.16 Bentz Tozer,Thomas Mazzuchi,Shahram Sarkani.Many-objective stochastic path finding using reinforcement learningJ.Expert Systems with Applications,2017,72.作者简介王立佳(1996-),男(汉族),江苏省连云港市人,硕士研究生,主要研究领域为机器学习。朱正伟(1963-),男(汉族),江苏省常州市人,教授,硕士研究生导师,主要研究领域为智能检测技术及应用。诸燕平(1979-),女(汉族),江苏省常州市人,副教授,主要研究领域为数值优化。朱晨阳(1990-),男(汉族),江苏省常州市人,讲师,主要研究领域为机器学习。604

展开阅读全文