基于信息熵更新权重的数据自适应聚类研究.pdf

资源描述

1、电子设计工程Electronic Design Engineering第31卷Vol.31第16期No.162023年8月Aug.2023收稿日期：2022-05-13稿件编号：202205103基金项目：国家电网安徽电力有限公司科技项目（521207220002）作者简介：张福华（1987），男，陕西汉中人，助理工程师。研究方向：大数据、数据管理、数据治理。近年来，信息技术不断发展，互联网信息技术、工业信息技术、通信信息技术等行业迅速崛起，这些行业产生了大量的数据。在当前阶段，主要是通过自适应聚类对数据进行整合。数据通常以静态的形式存放在数据库中，以便随时提取。但由于信息产生方式、性质以及数

2、据库的存储量是有限的，数据的存放只能是短暂性的，并不能长期存放在数据库中，而在应对大量的数据产生时，数据库无法永久保存所有数据，因此数据的自适应聚类便成为解决该问题的方式。为了解决上述问题，一些学者进行了数据自适应聚类相关研究。文献1提出了基于信息熵加权的空间聚类算法，通过引入信息熵权重约束模式，完成对数据的自适应聚类，但此方式只适用于少量信息的多次自适应聚类，在应对大量数据时仍无法很好基于信息熵更新权重的数据自适应聚类研究张福华，刘丽，朱俊东，朱再新，余大权（安徽明生恒卓科技有限公司，安徽合肥 230000）摘要：数据聚类过程不稳定且容易出现概念漂移等问题，降低了聚类的准确性。针对当前聚

3、类方法存在的漂移点筛选能力和抗干扰能力较弱的问题，设计了一种基于信息熵更新权重的数据自适应聚类方法。采用IEWU算法求得信息熵值，将信息熵分为数值型与分类型，分别对不同类型的信息熵进行属性加权。设计基础聚类器，分别更新基础聚类器以及信息熵权重，利用聚类决策完成了数据自适应聚类。实验结果表明，所提方法具有较强的漂移点筛选能力和抗干扰能力，聚类准确率始终高于90%，聚类效果更好。关键词：信息熵更新；更新权重；数据自适应；自适应聚类；IEWU算法；基础聚类器中图分类号：TN911文献标识码：A文章编号：1674-6236（2023）16-0176-04DOI：10.14022/j.issn1674-

4、6236.2023.16.037Research on data adaptive clustering based on information entropy update weightZHANG Fuhua，LIU Li，ZHU Jundong，ZHU Zaixin，YU Daquan（AnHui Mingsheng Hengzhuo Technology Co.，Ltd.，Hefei 230000，China）Abstract:Because the data clustering process is unstable and prone to concept drift，the a

5、ccuracy ofclustering is reduced.Aiming at the weak ability of filtering drift points and antiinterference in currentclustering methods，a data adaptive clustering method based on information entropy updating weight isdesigned.The information entropy is obtained by IEWU algorithm.The information entro

6、py is dividedinto numerical type and type，and the attribute weights of different types of information entropy arecarried out respectively.The basic cluster is designed，the basic cluster and the information entropyweight are updated respectively，and the data adaptive clustering is completed by cluste

7、ring decision.The experimental results show that the proposed method has strong drift point screening ability and antiinterference ability，the clustering accuracy is always higher than 90%，and the clustering effect is better.Keywords:information entropy updating；update weight；data adaptation；adaptiv

8、e clustering；IEWUalgorithm；basic cluster-176地进行聚类，导致聚类准确性变差。文献2提出了基于信息流加权的集成分类算法，通过引入集成分类算法赋予数据更高的权重，并根据每个数据类别特征构建分类器，以此完成数据的自适应聚类，但此方式对于大量杂乱的数据无法做到精准聚类，实际应用效果并不好。针对目前聚类方法的漂移点筛选能力和抗干扰能力较弱的问题，设计了一种基于信息熵更新权重的数据自适应聚类方法，并通过实验对该方法的有效性进行了验证。1基于信息熵的数据属性加权利用信息熵的加权对混乱数据进行自适应聚类，在构建信息熵的加权机制前，设计一种混乱数据相异性度量方式3-4

9、。由于所研究的数据为混乱数据，因此采用 K-P算法统计当前数据集中相似数据出现的频率，并设定模糊类中心，以此能够更加直观地度量数据之间的相异性。根据信息熵权重建立模糊类中心，计算公式如式（1）所示：C=i=1nxi（1）其中，xi表示第i个数据集；C表示数据集数据的所属类别。而数据集中的单一对象也可表示为模糊类中心的形式，该式为模糊类中心一种特殊的表示形式5-6。信息熵具有两种形式，分别为数值型与分类型，针对数值型的数据属性进行加权时，需应用到二阶Renyi熵，Renyi熵具有良好的计算特性7-8。假设X是由独立分布的N个数据对象组成的数据集合，计算熵值f(X)如式（2）所示：f(X)=1Ni

10、=1NWi（2）其中，Wi为 parzen 窗口函数，通常为高斯核函数。通过 parzen 窗口估计法得到的熵通常为正数，上述定义给出的类内熵值反映了在聚类分化结果中某一类的值在不同属性数据情况下的分布状态，即一个类的类内熵越小，聚类过程的数据属性权重越大9-10。互补信息熵计算公式如式（3）所示：f1(x)=1N1i=1NtWi（3）根据以上分析可知，通过信息匹配得到数据熵，在完成数据聚类之后确定信息的不同属性，根据不同属性实现数据分离，从而实现数据属性加权。2基于信息熵更新权重的数据自适应聚类在完成基于信息熵的数据属性加权后，对数据进行自适应聚类，聚类流程如图1所示。图1基于信息熵更新权重

11、的数据自适应聚类流程根据图 1 可知，聚类过程首先构建一个数据自适应聚类器，然后完成聚类模型更新，同时进行基础聚类器更新和权重更新实现数据自适应聚类。构造一个数据自适应聚类器流程，假设E为一个由k个基础聚类器y组成的自适应聚类器，设S表示数据总量，将S平均分成大小相等的数据块B，此时自适应聚类器开始初始化，当一个新的数据块到达时。若数据块中的所有数据都能够被识别，则可将该数据块转变为一个基础聚类器，当基础聚类器的个数未达到阈值k时，将不断转化可识别的数据块为基础聚类器，直到基础聚类器的数量达到k个11-12。自适应聚类器由多个基础聚类器组成，若要建立一个性能完好的自适应聚类器，则需要保证基础聚

12、类器具有多样性与准确性。满足基础聚类器的多样性条件是数据块都建立在不同维度的子空间中，因此每个数据块的维度与空间特征都是随机的。为了解决数据不稳定的问题，需要使用 IEWU算法对自适应聚类器进行更新，更新分为基础聚类器的更新以及基础聚类器权重的更新两部分。由于 IEWU算法的中心思想与自适应聚类器的构建过程相似，因此在相似数据的数量达到一定程度时便可组建一个数据块，通过数据块得到一个基张福华，等基于信息熵更新权重的数据自适应聚类研究-177电子设计工程 2023年第16期础聚类器。基础聚类器的权重随着数据块属性与性能的变化而变化，以此解决数据不稳定问题。数据块的大小决定了基础聚类器的性能。较大

13、的数据块可以组建成性能更好的基础聚类器，分类性能更佳。因此在基础聚类器更新过程中，需要筛选出较大的数据块来提升基础聚类器的性能13-14。由于使用 IEWU算法构建了一个混合类型的自适应聚类器，因此在 IEWU算法应用过程中，需要不利用新的基础聚类器来替换旧的基础聚类器，并需要对已有的基础聚类器进行学习，结合信息熵对每个基础聚类器的权重进行更新。通过此方式可以筛选出性能更好的基础聚类器，提高整个自适应聚类器在面对不稳定数据时的处理能力15。信息熵为此次研究的重要参数，利用 IEWU 算法计算信息熵的计算公式如下：H=E(-lgP)（4）式中，H表示信息熵；P表示聚类器参数。采用 IEWU 算法

14、可求得当前数据属性的信息熵值，由于信息熵能够表示聚类结果的不确定性，因此信息熵越大，聚类结果的不确定性越强。当利用 IEWU算法所求得的信息熵足够小时，即可判定当前聚类结果准确。由于不同数据的信息熵都不相同，因此采用动态自适应的方式对信息熵进行更新，信息熵更新阈值计算公式如下：em=et-2(et-en)3（5）式中，em为信息熵更新阈值；et为信息熵的平均值；en为信息熵的最小值，et与en的值会随着数据属性的不断变化而发生改变。当 IEWU算法所求得的信息熵值小于em时，则信息熵更新停止。通常基础聚类器刚建立时会被赋予最高的权重值，随着更多数据块的到来，每个基础聚类器会根据信息熵的阈值判断

15、自身是否处于性能较好的基础聚类器，并实时调整自身权重，使得性能较好的基础聚类器能够被识别出，不断淘汰性能较差的基础聚类器16。自适应聚类器的聚类结果由所有列举出的聚类器进行加权投票，其中 IEWU 算法还使用了抛弃策略，由于基础聚类器的性能有好坏之分，性能较差的基础聚类器由于其不稳定性，参与投票后更容易导致聚类结果更加不准确，因此参与投票的基础聚类器都是性能较优的。给予一个固定的权重阈值，该算法只将性能在权重阈值以上的基础聚类器加入投票的排列之中，以此实现数据的自适应聚类17。3实验研究为了验证所提出的基于信息熵更新权重的数据自适应聚类方法的实际应用效果，进行了相关实验测试。在实验过程中，选用

16、此次研究的自适应聚类方法和传统的基于人工合成的自适应聚类方法、基于数据分析的数据自适应聚类方法进行实验对比。为了更好地保证实验效果，同时选用 RanTree、SEAg、poker三个不同的数据块进行实验对比，探究不同数据块下的聚类准确性。得到的实验结果如图 2-图4所示。图2RanTree数据块下聚类准确率图3SEAg数据块下聚类准确率图4poker数据块下聚类准确率根据图 2可知，由于 RanTree数据块的信息环境极其不稳定，因此三种聚类方法的聚类准确率存在明显差异。对于RanTree数据块，与实验对比方法相比较，所提出的聚类方法始终保持着较高的聚类准-178确性。此次提出的聚类方法通过引

17、入信息熵进行数据聚类，在不平稳的环境下也能够很好地适应外界变化，而传统的聚类方法在聚类过程中，容易受到外界因素影响，在不稳定的环境下可能出现准确率上升或下降的问题，难以完成快速适应，甚至会出现数据漂移，导致聚类准确率下降。与RanTree数据块相比，SEAg数据块更加稳定，通过分析图 3 可以发现，三种聚类方法的准确率都相对较高，但是在遇见漂移点时，三种聚类方法的准确率都有所下降，此次提出的聚类方法聚类准确率仅有 2%5%的下降，而传统的基于人工合成的自适应聚类方法准确率下降超过 20%，基于数据分析的数据自适应聚类方法准确率下降超过 50%，由此可见，所提出的聚类方法抗干扰能力更强。根据图4

18、可知，poker数据块存在的漂移点极少，但是聚类过程容易受到外界干扰因素影响，因此三种聚类方法在前期的聚类准确率都相对较低，但是随着聚类时间的增加，此次所提出的聚类方法通过信息熵更新权重消除外界干扰，聚类准确率大大增加，而传统方法依旧难以满足精准聚类要求，导致聚类质量下降。在上述基础上，为了进一步验证三种方法的聚类性能，比较了三种方法的数据聚类时间，比较结果如表1所示。表1数据聚类时间比较实验数据量/GB102030405060708090100平均值数据聚类时间/s信息熵更新权重聚类法0.230.340.480.560.680.750.860.931.011.250.71人工合成聚类法0.5

19、60.750.860.981.211.351.631.751.861.911.29数据分析聚类法0.690.850.971.351.421.631.852.032.472.561.58分析表 1 中的数据可知，随着实验数据量的增加，不同方法的数据聚类耗时均呈现上升趋势，当实验数据量达到 100 GB的情况下，三种方法的聚类时间均达到最大值。其中信息熵更新权重聚类法的聚类时间最大值为1.25 s，平均值为0.71 s；人工合成聚类法的聚类时间最大值为1.91 s，平均值为1.29 s；数据分析聚类法的聚类时间最大值为2.56 s，平均值为1.58 s；基于信息熵更新权重的数据自适应聚类方法的聚类

20、时间更短，效率更高。4结束语该文以解决当前聚类方法的漂移点筛选能力和抗干扰能力较弱的问题作为研究目标，设计了一种基于信息熵更新权重的数据自适应聚类方法。通过混乱数据相异性度量完成数据属性加权，构建基础聚类器，利用多个基础聚类器构建自适应聚类器，以此达到自适应聚类数据的最终目标。实验表明，此次提出的基于信息熵更新权重的自适应聚类方法解决了当前方法中存在的问题，能够在数据自适应聚类领域得到广泛应用，以此提升数据的聚类质量。参考文献：1 龙咏红,邓秀勤,王卓薇,等.基于信息熵的加权块稀疏子空间聚类算法J.数据采集与处理,2021,36(3):544-555.2 夏源,赵蕴龙,范其林.基于信息熵更新权

21、重的数据流集成分类算法J.计算机科学,2022,49(3):92-98.3 李顺勇,崔文秀,荆鹏霏.一种基于信息熵的加权聚类算法J.云南民族大学学报(自然科学版),2020,29(6):568-576.4 谢妙,林泳昌,朱晓姝.一种基于信息熵的自适应k值KNN二分类方法J.合肥工业大学学报(自然科学版),2021,44(11):1483-1486.5 赵军,朱荽,杨雯璟,等.一种基于密度峰值聚类的图像分割算法J.计算机工程,2020,46(2):274-278,285.6 涂佩文,周金和.基于节点合并信息熵的社团结构检测J.微电子学与计算机,2020,37(7):42-46.7 张羽,郭春,申

22、国伟,等.一种基于信息熵的 IDS告警预处理方法J.计算机与现代化,2020(5):111-119.8 曾维佳,秦放,李琳,等.基于信息熵的粗糙集属性应急数据去重挖掘算法研究J.计算技术与自动化,2021,40(4):64-68.9 胡健,徐锴滨,毛伊敏.基于加权网格和信息熵的并行密度聚类算法J.计算机科学与探索,2020,14(12):2094-2107.（下转第186页）张福华，等基于信息熵更新权重的数据自适应聚类研究-179电子设计工程 2023年第16期究J.电力电容器与无功补偿,2018,39(3):128-133.2 葛少云,孙昊,刘洪,等.考虑可靠性与故障后负荷响应的主动配电网供

23、电能力评估J.电力系统自动化,2019,43(6):77-84,91.3 Tebbi A,Chan T H,Sung C W.Multi-rack distributeddatastoragenetworksJ.IEEETransactionsonInformation Theory,2019,65(10):6072-6088.4 甄国栋,高新智,于树刚,等.配电网的剩余供电能力实用模型J.电网技术,2018,42(10):3420-3432.5 张稳,盛万兴,杜松怀,等.基于海量数据的配电网运行分析系统架构与技术实现J.电力系统自动化,2020,44(3):147-153.6 柯强,陈志华,

24、胡经伟,等.基于改进决策树的配电网多源数据快速检索J.计算机系统应用,2021,30(2):97-102.7 宋亚奇.云平台下电力设备监测大数据存储优化与并行处理技术研究D.保定:华北电力大学,2016.8 Deng J X,Deng Y.Information volume of fuzzymembershipfunctionJ.InternationalJournalofComputers Communications&Control,2021,16(1):1-15.9 高鹏翔.基于多源数据融合的配电网运行故障特征信息提取技术研究D.保定:华北电力大学,2019.10管荑,郭伟琪,沈涛,等

25、.基于多数据源校验的配电网数据质量在线监控方法与实现J.微型电脑应用,2020,36(1):30-32.11Pires V F,Lopes R,Costa D.Integration of storagesystems in distribution networks through multi-objectiveoptimizationJ.ElectricalEngineering,2018,100(3):1939-1948.12曾麒杰,符晓洪,柳羿,等.基于Hadoop的智能配用电数据存储处理的设计研究J.电子设计工程,2021,29(11):136-139.13蒋斌,梁小安,高杨军,等.

26、基于可靠度确定属性权重的三角模糊数多属性决策方法J.模糊系统与数学,2021,35(4):113-123.14邱宁佳,胡小娟,王鹏,等.一致性哈希的数据集群存储优化策略研究J.信息与控制,2016,45(6):747-752.15张开琦,刘晓燕,王信,等.基于动态权重的一致性哈希微服务负载均衡优化J.计算机工程与科学,2020,42(8):1339-1344.16戴志辉,李川,焦彦军.IIDG低压穿越模型及其在配网故障分析中的应用J.电力系统及其自动化学报,2018,30(7):20-27.17王聪,周熠,温子巍,等.光伏组件用双组分有机硅结构胶的研制J.有机硅材料,2022,36(6):14

27、-18.18黄艳岩,朱斌,谷泓杰,等.基于V2G技术的微电网最优运营规划策略J.智慧电力,2021,49(3):26-31,45.（上接第179页）10孙鹏.基于聚类分析和信息熵的灰色关联分析在便携式呼吸机采购决策中的应用研究J.医疗卫生装备,2021,42(9):69-93,103.11王冬梅,谢鑫.基于信息熵的自适应高斯金字塔的LSD 算法改进J.吉林大学学报(信息科学版),2020,38(6):647-655.12任禹丞,徐超,赵磊,等.基于自适应特征权重聚类算法的用电问题分析J.计算机系统应用,2020,29(1):29-39.13费丹雄,严思唯,芦金雨,等.基于混合高斯模型的用电量计量数据聚类算法研究J.电子设计工程,2020,28(20):106-110.14唐风扬,覃仁超,熊健.基于局部密度信息熵均值的密度峰值聚类算法J.计算机测量与控制,2022,30(3):192-197,203.15田丰,杨洋.基于模糊聚类算法的智能电子档案自动分类方法J.微型电脑应用,2021,37(2):87-90.16王治和,常筱卿,杜辉.基于万有引力的自适应近邻传播聚类算法J.计算机应用,2021,41(5):1337-1342.17邬浩泽,朱晨烜,张贻山,等.一种基于改进模糊聚类算法的自适应典型日选取方法J.智慧电力,2022,50(1):60-67.-186

展开阅读全文