收藏 分销(赏)

基于BIRCH算法的配电网设备多源数据融合存储技术研究.pdf

上传人:自信****多点 文档编号:574257 上传时间:2024-01-02 格式:PDF 页数:7 大小:1.56MB
下载 相关 举报
基于BIRCH算法的配电网设备多源数据融合存储技术研究.pdf_第1页
第1页 / 共7页
基于BIRCH算法的配电网设备多源数据融合存储技术研究.pdf_第2页
第2页 / 共7页
基于BIRCH算法的配电网设备多源数据融合存储技术研究.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、电子设计工程Electronic Design Engineering第31卷Vol.31第16期No.162023年8月Aug.2023收稿日期:2021-12-21稿件编号:202112139基金项目:国网江苏省电力有限公司科技项目(K776G0453J4S)作者简介:张 军(1974),男,江苏高邮人,硕士,高级工程师。研究方向:运检技术管理。基于BIRCH算法的配电网设备多源数据融合存储技术研究张 军1,陈 霄1,何 育1,张 旺2,姜英涵3(1.国网江苏省电力有限公司,江苏 南京 210000;2.国网江苏省电力有限公司 经济技术研究院,江苏 南京210000;3.国网经济技术研究院

2、有限公司,北京 100000)摘要:针对智能配电网设备量剧增导致的数据上传速率慢、数据存储性能较差等问题,提出了基于海量信息处理的配电网设备数据存储模型研究。利用 Hadoop分布式平台搭建配电网设备数据存储模型架构,以此获取配电网设备海量数据。且应用 CMCH 算法并行关联配电网设备的多源数据,并采用了 BIRCH算法融合设备并行关联数据库,以此获取配电网设备多源数据融合结果。再通过一致性哈希算法存储配电网设备数据,实现配电网设备数据存储模型的运行。同时搭建了Hadoop分布式平台,准备实验数据集来进行设备数据存储仿真实验。实验结果显示,与传统模型相比,所构建模型的数据上传速率较高、数据压缩

3、也比较大,充分说明了该模型设备数据的存储性能较好。关键词:海量信息处理;配电网;BIRCH算法;数据存储中图分类号:TN-9文献标识码:A文章编号:1674-6236(2023)16-0180-07DOI:10.14022/j.issn1674-6236.2023.16.038Research on multisource data fusion storage technology for distribution networkequipment based on BIRCH algorithmZHANG Jun1,CHEN Xiao1,HE Yu1,ZHANG Wang2,JIANG Y

4、inghan3(1.State Grid Jiangsu Electric Power Suppy Co.,Ltd.,Nanjing 210000,China;2.State Grid JiangsuElectric Power Company Economic&Technological Research Institute,Nanjing 210000,China;3.StateGrid Economic and Technological Research Institute Co.,Ltd.,Beijing 100000,China)Abstract:Aiming at the pro

5、blems of slow data upload rate and poor data storage performance caused bythe sharp increase of intelligent distribution network equipment,a data storage model of distributionnetwork equipment based on massive information processing is proposed.Based on Hadoop distributedplatform,the data storage mo

6、del architecture of distribution network equipment is built to obtain themassive data of distribution network equipment.The CMCH algorithm is applied to parallel associate themultisource data of distribution network equipment.The BIRCH algorithm is used to fuse the equipmentparallel association data

7、base to obtain the multi source data fusion results of distribution networkequipment,and the consistency hash algorithm is used to store the data of distribution networkequipment to realize the distribution network The operation of device data storage model.Build Hadoopdistributed platform,prepare e

8、xperimental data set,and carry out equipment data storage simulationexperiment.The experimental results show that compared with the traditional model,the data upload rate-180近几年,全球不可再生能源含量加速减少,加之工业、贸易等多个行业的迅速崛起,导致对电能的需求逐渐攀升1-2。为满足电能需求,我国不断扩大电网建设规模。而对于电网而言,配电网是关键部分之一,其能够起到输电网与用户之间的“桥梁”作用。配电网在输电网接收电能,

9、通过配电设备将电能合理分配至用户,其由架空线路、杆塔、电缆、配电电压器、无功补偿器、隔离开关及附属设施等构成,在电网中承担着分配电能的关键功效。配电网设备在长期运行过程中会受到电、热、负荷与自然环境等因素的影响,导致设备出现磨损、腐蚀及老化等现象,进而致使设备性能与可靠性下降。此外,长期在高温度与高电压的环境下工作,配电网设备绝缘材料性能也会随之出现一定程度的变化,导致绝缘性能下降甚至消失。为了保障配电网的顺利运行,国内外相关学者对配电网设备数据存储模型做了研究,并取得了一定的研究成果。文献3提出一种多机构分布式数据存储网络设计,其将相同存储节点的数据集合至一个简单的网络模型中,并融合多机构分

10、布式数据存储网络,设计该模型的代码框架,以此得到配电网设备数据存储模型。文献4提出配电网剩余供电能力实用模型,通过 RSC(Residual Supply Capacity)模型改进配电网供电数据模型,并考虑网络重构,进而提出适用于分段开关的剩余供电能力模型。上述方法能够及时对设备运行状态进行了解,力争最快速度地维修或更换配电网设备,避免安全事故的发生。但随着配电网规模的扩大及设备复杂程度的提升,配电网设备数据呈现海量化特性,这就对配电网设备数据存储提出了更高的要求。智能配电网环境下,设备运行数据量剧增,远超出传统配电网设备数据存储模型的范畴,为此该文提出了一种新的配电网设备数据存储模型。对电

11、网设备数据进行预处理,并引入 CMCH(Copies Multiple ConsistentHashing)算法对配电网设备多源数据进行并行关联处理,实现同类型数据的归类融合;再通过 BIRCH(Balanced Iterative Reducing and Clustering UsingHierarchies)算法计算各配电网设备并行关联数据库的质心;且利用证据理论完成各数据库代表性信息的组合,从而实现配电网设备多源数据的融合。同时通过 Hadoop 分布式平台构建配电网设备数据存储模型的整体架构,并利用 Hbase 数据管理实现电网数据的关联融合、管理与查询。通过海量信息处理降低配电网设

12、备数据存储的压力,以满足现今智能配电网设备数据的存储需求,且保障配电网及电力系统正常、稳定及可靠地运行,进而为用户提供更加优质的电能供给。1配电网设备数据存储模型构建配电网设备数据存储模型,首先需要搭建配电网设备数据存储架构。基于 Hadoop 分布式平台及 Hbase数据处理方案对设备数据进行有效的管理;针对设备多源数据,先利用CMCH算法过滤无用信息,再通过设置组建和标记对多源数据进行关联输出,并对多源数据进行融合处理,以此提升配电网设备海量数据的存储性能。1.1配电网设备数据存储架构搭建为满足现今智能配电网设备数据存储需求,基于 Hadoop 分布式平台搭建配电网设备数据存储模型架构,如

13、图1所示。图1配电网设备数据存储模型架构由图可知,配电网设备数据存储模型架构中,利用可扩展采集模块获取配电网设备数据,并将全部of the model is higher and the data compression ratio is larger,which fully indicates that the data storageperformance of the model equipment is better.Keywords:mass information processing;distribution network;BIRCH algorithm;data storag

14、e张 军,等基于BIRCH算法的配电网设备多源数据融合存储技术研究-181电子设计工程 2023年第16期数据上传至 Hadoop云计算模块;再利用 Hbase对设备数据进行有效管理与查询;同时,通过数据分析与存储模块对设备数据进行预处理、并行关联及融合;最终,对设备数据进行分布式存储。1.2配电网设备海量数据处理依据上述搭建的配电网设备数据存储模型架构,获取配电网设备海量数据5。设备数据获取过程中,受电力干扰、恶劣环境、设备自身脆弱性等多种因素的影响,设备数据中存在海量的干扰、重复数据等。因此,为降低设备数据存储压力,需对配电网设备海量数据加以处理。1.2.1配电网设备多源数据并行关联配电网

15、设备数据包含设备标识、数据采集时间、环境微气象数据等,为方便设备数据的存储与读取,对设备多源数据实现并行关联,构建关系数据库6。基于 CMCH 算法并行关联配电网设备多源数据,具体流程如图2所示。图2并行关联设备多源数据流程依据图2所示流程,以电缆、配电电压器、无功补偿器与隔离开关等设备为例,展示配电网设备海量数据并行关联流程7。配电网设备并行关联数据库主要包含设备标识文件表、数据采集时间文件表与环境微气象数据文件表三部分,具体如表1-3所示。将上述 3 个文件表数据进行并行关联,以降低设备数据存储的文件数量,获得设备数据并行关联结果如表4所示。1.2.2配电网设备多源数据融合根据上述配电网设

16、备多源数据并行关联结果,表1设备标识文件表配电网设备ID1234设备名称电缆配电电压器无功补偿器隔离开关安装地点A线-A1B线-B1C线-C1D线-D1运行时间2019.092019.102019.112019.12-182利用 BIRCH 算法对设备多源数据进行融合处理。BIRCH算法计算出各配电网设备并行关联数据库的质心。并以此为代表,利用模糊隶属度函数对融合目标涉及的质心信息与属性的基本概率进行赋值,形成各数据库的代表性信息8。最后,利用证据理论完成各数据库代表性信息的组合,实现配电网设备多源数据的融合9。基于 BIRCH算法的配电网设备多源数据融合主要步骤如下。步骤1:依据采集配电网设

17、备多源数据的特征10,确定融合目标涉及全部属性,记为A1,A2,An;步骤 2:依据步骤 1 确定的融合目标属性A1,A2,An,结合配电网设备多源数据规模及特征来确定 BIRCH算法的分支因子B与阈值T,并设置分支因子与阈值初始值分别为B=10与T=1;步骤3:加载上节生成的配电网设备并行关联数据库,将其记为C1,C2,Cr;步 骤 4:计 算 配 电 网 设 备 并 行 关 联 数 据 库C1,C2,Cr的质心信息,记为Q1,Q2,Qr;步骤5:根据实际配电网设备数据存储需求11-12,明确辨识框架为:H1,H2,Hk;步骤6:构建模糊模型标记,依据:H1,H2,Hk的样本数据,针对样本数

18、据的某个属性Ai,确定该属性下的最小值、最大值及平均值,并以此为基础构建一个三角形模糊数13,描述命题Hj,其所对应的隶属函数为AiHj(x),i=1,2,n;j=1,2,k。步骤7:针对属性Ai,计算每个配电网设备并行关联数据库的平均方差,以此为基础,将实际采集设备数据扩展为能够表示的三角模糊数,从而获取观测函数,记为gAi(x);步骤8:计算采集设备数据与模糊模型标记间的似然度,即观测函数gAi(x)与模糊模型标记AiHj(x)曲线相交部分纵坐标最大值,记为AiHj(x);步骤 9:依据步骤 8 生成基本概率指派,具体流 程 为:1)初 始 化 BPA,令mAi(Hj)=AiHj(x);2

19、)令Un=maxj=1,2,kAiHj(x);3)设置全集辨识框架初始 BPA:mAi()=1-Un;4)对mAi(Hj)与mAi()进行归一化处理,以此为依据获取属性Ai设备数据相应的基本概率指派mAi(Hj)与mAi();步骤 10:针对步骤 4得到的质心信息,基于选定的属性A1,A2,An,重复步骤 6-9,生成每个质心信息所对应的n条证据;步骤 11:依据证据理论组合公式,并融合步骤10获得的n条证据,构成反映配电网设备并行关联数据库Ci对融合目标支持程度的合成证据cmj(Hj);步骤12:计算cmj(Hj)的权重数值,计算公式为:i=第i个数据库包含数据量r个数据库总数据量(1)步骤

20、13:依据证据理论组合公式与权重数据,融合处理步骤 11合成证据cmj(Hj),获取最终配电网设备多源数据融合结果。对基于BIRCH算法的配电网设备多源数据融合方法进行算法计算代价分析,算法时间复杂度O(n)的计算公式为:O(n)=ninji(2)式中,ni为算法迭代总次数,nji为每次迭代中基本操作执行次数。由此得到算法计算代价分析,如图3所示。由图可知,随着迭代次数的增加,时间复杂度数值增长的趋势也逐步变大。这表明算法基本操作所执行的次数较多,可行性较好。1.3配电网设备数据存储以上述获取配电网设备海量数据处理结果为基表2数据采集时间文件表配电网设备ID1234N个采样值30 177,30

21、 566,31 07030 406,30 630,31 80430 881,30 936,30 72030 802,30 354,30 624采集时间20190901201910012019110120191201表3环境微气象数据文件表配电网设备ID1234温度/oC4554湿度(%RH)58545655采集时间20190901201910012019110120191201表4设备数据并行关联结果配电网设备ID1234设备名称电缆配电电压器无功补偿器隔离开关安装地点A线-A1B线-B1C线-C1D线-D1温度/4554湿度(%RH)58545655张 军,等基于BIRCH算法的配电网设备多

22、源数据融合存储技术研究-183电子设计工程 2023年第16期础,在 Hadoop 分布式平台上采用一致性哈希算法(consistent Hashing)来存储配电网设备数据,并实现其数据存储模型的运行。一致性哈希算法的基本思想为:依据数据关联性,应用该算法将关联数据映射并存储在相同节点上,进而实现设备数据的存储14。此种设备数据存储模型在数据查询时,极大地减少了 Map 节点与Reduce节点间的通信开销,从而提升了模型的整体存储性能。基于一致性哈希算法15的配电网设备数据存储流程描述如下:步骤 1:加载配电网设备海量数据融合结果,通过配置文件定义数据副本数量;步骤 2:计算 Hadoop

23、分布式平台各个数据节点的哈希值,并依据规则将其配置到一个 0232的哈希环区间上,再应用 MD5 散列算法(Message DigestAlgorithm 5)形成 128 bit 散列值,并选取其中的 32bit作为哈希值;步骤 3:依据配电网设备数据采集时间属性、关联数据属性计算设备数据的哈希值,并将其依次映射到哈希环上;步骤4:依据步骤2-3获取的数据节点及数据哈希值确定设备数据的存储位置,并按照逆时针方向将设备数据映射至最小距离的数据节点上;步骤5:若设备数据存储节点出现失效或异常等现象,此时需将失效或异常数据节点上的设备数据进行重新映射与分布,直至设备数据全部存储结束。基于上述过程,

24、构建配电网设备数据存储模型,如图4所示。通过上述过程实现了配电网设备数据存储模型的运行,为配电网设备故障预防提供了精准的数据支撑,且保证了配电网稳定运行16。2实验结果与分析为证实构建模型与传统模型的性能差异,采用Matlab软件设计仿真对比实验,具体实验过程如下。2.1Hadoop分布式平台搭建仿真实验 Hadoop 分布式平台包含一个主控节点,19个数据节点,共计20个节点的集群。其中,主控节点与数据节点配置相同,具体配置数据如表 5所示。表5主控节点与数据节点配置表配置参数CPU内存硬盘网络操作系统数值4核4 GB1 TB以太网Ubuntu-12.04依据表 5数据搭建 Hadoop分布

25、式平台,示意图如图5所示。图5Hadoop分布式平台示意图2.2实验数据集准备为验证构建模型的存储性能,选取了不同大小图3算法计算代价分析图4配电网设备数据存储模型-184的实验数据集,其规格如表6所示。表6实验数据集数据集1248163264128256dat文件数/GB501002004008001 6003 2006 40012 800csv/GB0.901.753.507.0014.0028.0056.00112.00224.00dat/GB0.310.611.222.444.889.7619.5239.0478.08如表 4所示,csv表示的是文本格式文件;dat表示的是二进制文件。

26、2.3数据分析依据上述所搭建的 Hadoop分布式平台,选取实验数据集并进行仿真对比实验。通过数据上传速率与数据压缩比来反映模型性能,实验结果分析过程如下17。2.3.1数据上传速率分析通过仿真实验获取数据的上传速率,如表7所示。表7数据上传速率数据表数据集1248163264128256数据上传速率(kB/s)构建模型3 1453 4523 0113 2213 4423 2783 3063 4983 285传统模型2 5412 6102 4132 9542 8993 0123 0012 7042 564从表 7 中可以看出,构建模型数据上传速率范围为 3 0113 498 kB/s,传统模型

27、数据上传速率范围为 2 4133 012 kB/s。通过对比发现,构建模型的数据上传速率远高于传统模型。2.3.2数据压缩比分析通过仿真实验获取压缩比数据,如表8所示。如表 8 中数据显示,构建模型数据压缩比范围为 4.2584.784,传统模型数据压缩比范围为 3.0103.945。通过对比发现,构建模型的数据压缩比远高于传统模型。上述实验结果表明,与传统模型相比,该文构建模型的数据上传速率较高、数据压缩比更大,验证了该模型设备数据存储性能更优。2.4实例验证选取某省市内家供电公司管辖的配电网,来对基于海量信息处理的配电网设备数据存储模型进行实证研究。统计选取2019年10-12月8家供电公

28、司的电力数据共1 000 MB,包括正常运行信息500 MB、停电检修信息 300 MB 及装置故障信息 200 MB,对1 000 MB电力数据进行分类整理,得到数据存储结果如表9所示18。表9数据存储结果数据正常运行信息停电检修信息装置故障信息数据分类存储结果/MB原始数据500300200构建模型500300200传统模型487322191分析表 9 可知,采用所构建的模型对电力数据的分类结果与实际数据一致,而传统模型的数据分类结果与实际值差别较大。通过实证分析可知,所设计模型的数据分类存储效果较好,能够实现配电网设备数据的准确存储。3结束语为提升智能配电网设备数据的存储效率及安全性,此

29、研究构建配电网设备数据存储模型,并将海量信息处理引入至该存储模型中,实现数据的安全存储。实验结果表明,应用所设计的模型后,极大地提升了模型的数据上传速率与数据压缩比,节省了海量的存储空间,并有效提升了电网数据的存储性能,从而为配电网设备数据存储提供了新的手段支撑。参考文献:1 黄燕.基于模型预测控制的电能需求负荷转移研表8数据压缩比数据表数据集1248163264128256数据压缩比构建模型4.4214.5964.4144.5814.5014.7844.6854.4204.258传统模型3.2513.4573.0213.0203.0103.4583.5973.9453.850张 军,等基于B

30、IRCH算法的配电网设备多源数据融合存储技术研究-185电子设计工程 2023年第16期究J.电力电容器与无功补偿,2018,39(3):128-133.2 葛少云,孙昊,刘洪,等.考虑可靠性与故障后负荷响应的主动配电网供电能力评估J.电力系统自动化,2019,43(6):77-84,91.3 Tebbi A,Chan T H,Sung C W.Multi-rack distributeddatastoragenetworksJ.IEEETransactionsonInformation Theory,2019,65(10):6072-6088.4 甄国栋,高新智,于树刚,等.配电网的剩余供电

31、能力实用模型J.电网技术,2018,42(10):3420-3432.5 张稳,盛万兴,杜松怀,等.基于海量数据的配电网运行分析系统架构与技术实现J.电力系统自动化,2020,44(3):147-153.6 柯强,陈志华,胡经伟,等.基于改进决策树的配电网多源数据快速检索J.计算机系统应用,2021,30(2):97-102.7 宋亚奇.云平台下电力设备监测大数据存储优化与并行处理技术研究D.保定:华北电力大学,2016.8 Deng J X,Deng Y.Information volume of fuzzymembershipfunctionJ.InternationalJournalof

32、Computers Communications&Control,2021,16(1):1-15.9 高鹏翔.基于多源数据融合的配电网运行故障特征信息提取技术研究D.保定:华北电力大学,2019.10管荑,郭伟琪,沈涛,等.基于多数据源校验的配电网数据质量在线监控方法与实现J.微型电脑应用,2020,36(1):30-32.11Pires V F,Lopes R,Costa D.Integration of storagesystems in distribution networks through multi-objectiveoptimizationJ.ElectricalEnginee

33、ring,2018,100(3):1939-1948.12曾麒杰,符晓洪,柳羿,等.基于Hadoop的智能配用电数据存储处理的设计研究J.电子设计工程,2021,29(11):136-139.13蒋斌,梁小安,高杨军,等.基于可靠度确定属性权重的三角模糊数多属性决策方法J.模糊系统与数学,2021,35(4):113-123.14邱宁佳,胡小娟,王鹏,等.一致性哈希的数据集群存储优化策略研究J.信息与控制,2016,45(6):747-752.15张开琦,刘晓燕,王信,等.基于动态权重的一致性哈希微服务负载均衡优化J.计算机工程与科学,2020,42(8):1339-1344.16戴志辉,李川

34、,焦彦军.IIDG低压穿越模型及其在配网故障分析中的应用J.电力系统及其自动化学报,2018,30(7):20-27.17王聪,周熠,温子巍,等.光伏组件用双组分有机硅结构胶的研制J.有机硅材料,2022,36(6):14-18.18黄艳岩,朱斌,谷泓杰,等.基于V2G技术的微电网最优运营规划策略J.智慧电力,2021,49(3):26-31,45.(上接第179页)10孙鹏.基于聚类分析和信息熵的灰色关联分析在便携式呼吸机采购决策中的应用研究J.医疗卫生装备,2021,42(9):69-93,103.11王冬梅,谢鑫.基于信息熵的自适应高斯金字塔的LSD 算法改进J.吉林大学学报(信息科学版

35、),2020,38(6):647-655.12任禹丞,徐超,赵磊,等.基于自适应特征权重聚类算法的用电问题分析J.计算机系统应用,2020,29(1):29-39.13费丹雄,严思唯,芦金雨,等.基于混合高斯模型的用电量计量数据聚类算法研究J.电子设计工程,2020,28(20):106-110.14唐风扬,覃仁超,熊健.基于局部密度信息熵均值的密度峰值聚类算法J.计算机测量与控制,2022,30(3):192-197,203.15田丰,杨洋.基于模糊聚类算法的智能电子档案自动分类方法J.微型电脑应用,2021,37(2):87-90.16王治和,常筱卿,杜辉.基于万有引力的自适应近邻传播聚类算法J.计算机应用,2021,41(5):1337-1342.17邬浩泽,朱晨烜,张贻山,等.一种基于改进模糊聚类算法的自适应典型日选取方法J.智慧电力,2022,50(1):60-67.-186

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服