收藏 分销(赏)

基于粗糙集的电网业务营销时序数据关联规则挖掘模型.pdf

上传人:自信****多点 文档编号:2197720 上传时间:2024-05-22 格式:PDF 页数:4 大小:2.23MB
下载 相关 举报
基于粗糙集的电网业务营销时序数据关联规则挖掘模型.pdf_第1页
第1页 / 共4页
基于粗糙集的电网业务营销时序数据关联规则挖掘模型.pdf_第2页
第2页 / 共4页
基于粗糙集的电网业务营销时序数据关联规则挖掘模型.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、Microcomputer Applications Vol.39,No.9,2023文章编号:10 0 7-7 57 X2023)09-0121-04基于粗糙集的电网业务营销时序数据关联规则挖掘模型陈非,杨永娇,周辰南(广东电力信科科技有限公司,广东,广州510 0 30)摘要:针对挖掘出的数据关联规则存在数目少、执行时间长、置信度低问题,提出基于粗糙集的电网业务营销时序数据关联规则挖掘模型。建立电网业务营销数据四元组,通过清洗、集成、转换、消减四步预处理电网业务营销时序数据;依据粗糙集理论设定的时序数据属性约简定义,约简电网业务营销时序数据属性;通过电网业务营销数据存在的时序关系,定义关联

2、规则,采用压缩矩阵生成时序数据的频繁项集树,得到电网业务营销时序数据关联规则,完成关联规则挖掘模型建立。实验结果证明,应用该模型后,时序数据关联规则平均数目分别高4条和10 条,平均执行时间分别减少4s和2 5s,平均置信度分别高出0.2 和0.2 2。关键词:粗糙集;电网业务;业务营销;时序数据;关联规则;挖掘模型中图分类号:TP301.6研究与设计文献标志码:A微型电脑应用2 0 2 3年第39 卷第9 期Association Rule Mining Modelof Power Grid Business Marketing Time Series Data Based on Rough

3、 SetCHEN Fei,YANG Yongjiao,ZHOU Chennan(Guangdong Electric Power Information Technology Co.,Ltd.,Guangzhou 51o030,China)Abstract:Aiming at the problems of small number,long execution time and low confidence of the mined data association rules,a mining model of power grid business marketing time seri

4、es data association rules based on rough set is proposed.We establisha quad of power grid business marketing data,and preprocess the power grid business marketing timing data through foursteps:cleaning,integration,conversion and reduction.The time series data attributes of power grid business market

5、ing are re-duced.Through the time series relationship of power grid business marketing data,the association rules are defined,the fre-quent itemset tree of time series data is generated by compressed matrix,the association rules of power grid business marketingtime series data are obtained,and the a

6、ssociation rule mining model is established.Experimental results show that under theapplication of the model,the average numbers of temporal data association rules are 4 and lo higher,the average executiontimes are 4 s and 25 s lower,and the average confidences are 0.2 and 0.22 higher than before,re

7、spectively.Key words:rough set;power grid business;business marketing;time series data;association rules;mining model0引言电网是电力系统的基础设施,保障着居民及社会用电安全。受我国国情影响,电力企业一直以卖家的身份,垄断着电力市场1,但随着我国经济发展,2 1世纪的电力企业受到政府政策、经济发展形势、互联网技术发展等多重因素的影响,打破了电力行业的垄断模式,增强了电力市场的竞争力2 。电力企业需要改变企业电网营销模式,制定适合企业可持续发展的营销策略,是以,相关学者研究出电网业

8、务营销系统,帮助电力企业营销区域内电力调控、调度计划、运行方式等电网业务3。随着信息技术的发展,已经研究出财务、生产管理、计划、电力调度等众多电网业务营销相关系统,且在电力领域广泛应用4。但是,这些电力系统之间的数据都被单独存储在数据存储模块,导致电网业务营销出现业务沟通困难问题,影响电网业务营销效果5。因此,需要作者简介:陈非(198 6 一),男,硕士,高级工程师,研究方向为计算机应用技术;杨永娇(1990 一),女,硕士,工程师,研究方向为计算机技术及信息安全;周辰南(1993一),男,硕士,工程师,研究方向为计算机应用技术。.121设计电网业务营销数据关联规则挖掘技术,寻找不同系统数据

9、之间存在的关联规则,为电网业务营销数据整合提供依据。目前已经研究出基于数字曲线、时间区间合并、日历、神经元网络、SFVS、模糊集、Aprior算法、滑动窗口聚类、模糊发现、FFT、交易数据顺序、规则和决策树、交易数据生命周期等数据关联规则挖掘技术6。在已有的研究成果基础上,相关学者提出如下观点,文献7 针对挖掘方法存在的规则余问题,引入主属性判断技术约简关联规则,实现数据关联规则挖掘;文献8 针对关联规则挖掘方法挖掘的关联规则存在余、相似规则问题,引人改进k-means算法挖掘数据关联规则。上述的数据关联规则挖掘方法,在挖掘电网业务营销时序数据关联规则时,存在挖掘关联规则数目少、所需执行时间长

10、、置信度低的问题,为此提出基于粗糙集的电网业务营销时序数据关联规则挖掘模型,将决策表的决策属Microcomputer Applications Vol.39,No.9,2023性定义为单一决策、等价关系,可以被替代,即生成的时序数据的频繁项集树可以随时转置,遍历过程是同步的,表示约简过程和电网业务营销时序数据关联规则挖掘过程是同步的,减少执行时间,增加置信度。1基于粗糙集的电网业务营销时序数据关联规则挖掘模型此次研究将在时序数据的时间间隔、数据属性、时序关联规则的基础上,通过预处理、粗糙集、压缩矩阵和频繁项集树等技术,按照电网业务营销时序数据预处理、粗糙集约简时序数据属性、生成电网业务营销时

11、序数据规则这一流程,建立电网业务营销时序数据关联规则挖掘模型。1.1预处理电网业务营销时序数据由于此次研究选择的电网业务营销时序数据,多来自电力企业不同系统数据库,具有多时间序列、数据格式不一致等特征,极易出现缺失、几余等问题数据9。所以,通过清洗、集成、转换、消减四步预处理电网业务营销时序数据。假设电网业务营销数据为一个论域U、属性集合A、信息函数F、值域V组成的四元组?:9=U,A,V,F)U=(ui,u2,un)A=AUA,AnA=Q,A+QV=UV.,F:U*AVaEAuEU,aEA,F(u,a)EVa式(1)中,A表示决策属性集,A表示条件属性集,表示空集,F:U*A-V项表示指定对

12、象u属性a的值的,V。表示属性a的值域,u表示U中的第i个对象,n表示U中对象数量。从式(1)中可以看出,此次研究建立的电网业务营销数据四元组属于一个决策表,表中的每一个u都代表了一条基本的决策规则,若A中的第i个条件属性为ai,A 中的第i个决策属性为,则有:aiEA,aEAA=(ai,a2,.,am)A=(ai,a2,at)uEU,u|AA式(2)中,m表示A的数量,k表示A的数据10。根据式(2)所示的决策规则,对数据进行清洗、集成、消减处理。基于式(2),判断U中的数据对象及其属性值是否满足下式所示的条件:ui,u,EU,u;|=A-A,uj|=AAVa=式(3)中,uivu;分别表示

13、第i个对象和第j个对象,且ij。当数据对象及其属性值满足式(2)所示的条件时,电网业务营销数据存在穴余、缺失等问题,需要采用删除、填充等方式清洗、集成、消减数据。数据转换则需要将清洗、集成、消减后的数据进行标准化和规约处理,将数据转换为同一单位、格式的电网业务营销数据,同时,保留数据中原有信息,则有:(4)n=(i-1)+1研究与设计式(4)中,N表示时间序列长度,u表示标准化后的数据,n(i=1,2,N)表示第i项时间序列数据均值,u表示元数据,umin表示u的最小值,U;表示第i项时间序列数据,umax表示u的最大值1。按照式(1)式(4)所示的计算过程,完成电网业务营销时序数据预处理。基

14、于数据预处理结果,采用粗糙集约简时序数据属性,在不影响时序数据关联规则挖掘效果的条件下,条规则挖掘计算效率。1.2基于粗糙集约简时序数据属性时序数据属性约简是在保持数据集原本含义的基础上,去除数据集条件属性中不必要的属性,以此来减少时序数据关联规则生成的时间复杂度、计算量和允余规则的产生。基于此,依据粗糙集设定的时序数据属性约简定义如下。定义一:决策表中的决策属性分为单一决策和多决策两种,由于电网业务营销时序数据多是电力的运行、调控、调度等类别的数据,所得到的运行、调控、调度等结果均是单一的12 1。因此,将决策表的决策属性定义为单一决策。定义二:A对A的依赖程度及A对A的重要程度定义如下PR

15、-()(A)=pr(A)Ra(A)=cLe(A(1)c(U)Wa(A)=Ra(A)-RA-(a)(A)式(5)中,R表示依赖关系,p表示换算符号,c表示元素集合的基数,w表示重要程度,rER表示R中的某一等价关系。若式(5)所示的计算公式成立,则条件属性集中的第r个等价关系是可以被替代的,即r相对于决策属性可以省略,则有:R=R-r C RR=(R)c(R)=n(R)式(6)中,R表示R的约简,表示约简的交集。将式(6)代人式(5),判断a(A )值是否为零。若wa(A )=0,则属性a不影响A决策结果,可以约简;若(2)wa(A )0,则属性属于U的核A,不能对属性a进行约简13。按照定义一

16、和定义二,通过式(5)和式(6)约简时序数据属性,针对约简属性后的时序数据,进行时序数据关联规则挖掘。1.3挖掘电网业务营销时序数据关联规则通过电网业务营销数据存在的时序关系,定义关联规则(3)推理前件为,后件为,若与在同一时间t内同步,则两者称为同步规则,记为;反之,与之间存在l个单位时间t的延迟,则两者称为异步规则,记为y。根据上述内容设定的定义,采用压缩矩阵生成时序数据的频繁项集树,来挖掘电网业务营销时序数据关联规则。为此,假设电网业务营销数据原始时间序列为T(qt),其中,q表示时序数据属性个数,t表示时序数据采集时刻数量。u-umin_此时,针对T(qXt)进行符号化处理,则有:Um

17、axx一umin兴微型电脑应用2 0 2 3年第39 卷第9 期(5)(6)(H.H.H=:H,:HlH式(7)中,H表示符号化的时序数据,w表示数据分段数目,122(7)Microcomputer Applications Vol.39,No.9,2023H,表示第i个属性在,(i+1)二内的符号模式,一表示分段后数据的压缩率,i表示第i个属性14。依据(7)式所示的符号处理矩阵,对其进行时间分区,构建时间分区内的事务数据库。所以,令i二=Ti,(i 十1)二=T,其对应(7)-将上述式中第e1,2 列内的符号序列,其中,1=合表不满1kV110kV不满1KV值代人式(7),并对式(7)进行

18、转置,可以得到|2 一1|行、q110kV工制35kV以上列的数据库表:商两110kV(H()1Ha4Hr(2-1/,q)=:Hc21Ha2式(8)中,j表示第i个属性时间分区,Hc);表示第i个属性在,一,(,十1)内所的符号模式。基于上述计算过程,采用频繁项集树生成数据频繁项集,遍历数据库 TqXt),则有:hi()1HT-A=:hl/2-1(2)1式(9)中,Hr-表示数据频繁项集矩阵,h表示Hr-中的一个元素,g表示遍历数据库T(qt)次数,hg-c),表示第g次遍历的数据项h(c,)i。依据式(9)所示的频繁项集矩阵,判断hg-(,);是否存在于式(8)的行中,则有:hg-(gjlo

19、,4H.,式(10)中,表示符号模式,1表示存在,0 表示不存在15。12二11统计HT-n中的列向量计数hhg-(),并判断其是否满足g-1下式条件:12二11g=1式(11)中,e表示最小界限。若ha-))满足式(11)所示的条件,按照式(9)所示的数据频繁项集矩阵,构建频繁项集树,此时,建立的频繁项集树,即为电网业务营销时序数据关联规则。综合上述电网业务营销时序数据预处理粗糙集约简时序数据属性生成电网业务营销时序数据规则三个步骤,完成电网业务营销时序数据关联规则挖掘模型建立,实现电网业务营销时序数据关联规则挖掘。2实验模拟选择基于主属性的挖掘模型和基于k-means算法的挖掘模型作为此次

20、实验的对比模型,将电网业务营销时序数据作为此次实验研究对象,在四核8 线程的锐龙R7-3700U型CPU、16 G B内存、应用WinXP操作系统的计算机上,运行MATLAB7.0仿真软件,验证此次研究的基于粗糙集的电网业务营销时序数据关联规则挖掘模型。2.1实验数据此次实验选择的电网业务营销时序数据如图1所示。研究与设计用电分电压等级(8:0011:00类18:0021:00,22:0024:00)不第一档满第档居民用电户1kV第三档W表11OkV第二楼档第三档业品制35110kV110kV220kV以上(8)从图1中可以看出,此次实验选择的数据,是根据国家电网公布的电网业务营销电价,选取的

21、电网业务营销时序数据。针对图1所示的电网业务营销时序数据,包括用电用户基本信息、执行合同信息、执行结算合约信息以及用电数据、结算结果等,并自动与计量信息、购电结算凭证、用户用电结算凭证等信息进行关联。经过清洗、集成、转换、消减四步预处理后,去除用户的电费计算信息,包括电费计算结果、偏差hg-(gi:1,EH.12二1g=1微型电脑应用2 0 2 3年第39 卷第9 期电网业务营销二二电价表电度电价(元/千瓦时)平段尖峰(11:0012:00,16:0017:00,21:0022:00)0.520.570.820.470.520.770.530.480.580.570.560.530.510.5

22、00.49图1电网业务营销时序数据(9)考核费用、违约金,以及套餐信息、售电合约等与用户本身有关的营销信息,剩余仅涉及业务侧的电网业务营销数据,并突出时序属性。2.2实验步骤基于此次实验选择的实验数据,设计的实验步骤如下。(1)预处理图1所示的实验数据;(2)采用此次实验选择的三组实验模型,分别挖掘预处(10)理后的实验数据关联规则;(3)在MATLAB7.0仿真软件上,设置三组挖掘模型挖掘数据关联规则参数;(4)统计三组模型挖掘数据关联规则数目随支持度变化值、执行时间随支持度变化值和置信度随时间变化值,并在Visio软件上绘制成图;(11)(5)分析三组挖掘模型挖掘时序关联规则效果。2.3支

23、持度和置信度支持程度和置信度都是关联规则挖掘中最关键的衡量指标。支持度的大小可以决定规则的有效性,因此,其值越高,规则的效用越高;置信度则用于反映规则的可靠性程度,其值越大,所挖掘的数据关联规则可靠性度就越高。其计算公式如下:Z(a b)=m(a U b)Z(a b)=m(a Ub)m(a)式(12)中,Z表示支持度,Z表示置信度,(a,6)表示时序数据项集,ab表示由条件a推出规则b,m 表示(a,b)里(aUb)出现次数,M表示时序数据数量。依据式(12)将最小支持度阈值和最小置信度阈值作为此次实验选择的3组挖掘模型挖掘时序数据关联规则时的强规则。2.4实验结果与分析2.4.1关联规则数目

24、随支持度变化关联规则数目随支持度变化曲线如图2 所示。.123高峰(12:0016:0017:0018:00)0.550.600.850.500.550.800.570.520.920.800.890.780.880.770.830.730.810.710.790.690.780.68M低谷(00:008:00)0.300.350.600.270.320.570.310.280.360.350.340.330.320.310.30备注(12)Microcomputer Applications Vol.39,No.9,20230.250.400.550.700.850.10支持度图2 关联规则

25、数目随支持度变化曲线从图2 中可以看出,随着支持度值的增加,3组挖掘模型挖掘到的关联数目随之减少。但是,本文模型相较基于主属性的挖掘模型和基于k-means算法的挖掘模型挖掘出的时序数据关联规则平均数目分别高4条和10 条。可见,此次研究模型可以挖掘出支持度更高的关联规则。2.4.2执行时间随支持度变化执行时间随支持度变化曲线如图3所示。30025020015010050F00.250.400.550.700.850.10支持度图3执行时间随支持度变化曲线从图3中可以看出,三组挖掘模型挖掘关联规则执行时间变化趋势相似。但是,本文模型相较基于主属性的挖掘模型和基于k-means算法的挖掘模型挖掘

26、数据关联规则的平均执行时间分别减少4s和2 5s。可见,此次研究模型挖掘时序数据关联规则时的效率更高。2.4.3置信度随时间变化置信度随时间变化曲线如图4所示。-薰-基于k-means算法的挖掘模型+本文模型0.75基于主属性的挖掘模型0.650.55F0.450.350.250.15%4812162024时间/h图4置信度随时间变化曲线从图4中可以看出,本文模型挖掘不同时间段数据的平均置信度为0.6 0,基于主属性的挖掘模型的平均置信度为0.40,基于k-means算法的挖掘模型的平均置信度为0.38。可见,本文模型相较此次实验选择的对比模型平均置信度分别高0.2 和0.2 2,挖掘出的关联

27、规则可靠性高。研究与设计3000本文模型2500基于羔属性的挖掘模型2000蒸于k-means算法的1500挖掘模型1000500F微型电脑应用2 0 2 3年第39 卷第9 期3总结本文研究电网业务营销时序数据关联规则挖掘模型,充分利用粗糙集技术约简时序数据属性,降低时序数据关联规则挖掘难度,以此来提高时序数据关联规则挖掘数目的支持度和置信度,以及关联规则挖掘效率。但是此次研究未曾考虑电网业务营销时序数据中存在的潜在关联规则。在今后的研究中,还需深入研究挖掘时序数据关联规则的强规则,进一步提高时序数据关联规则挖掘深度。1李东升,何远成,彭翔,等.CNN入侵检测算法在电力营销系统中的应用J.计

28、算机工程与设计,2 0 2 1,42(6):1585-1591.2 李李英,汤庸.基于关联规则与相似度的数据挖掘算法研究J.华南师范大学学报(自然科学版),2 0 2 1,53(5):121-127.3毛伊敏,邓千虎,邓小鸿,等.改进的并行关联规则增量挖掘算法J.计算机应用研究,2 0 2 1,38(10):本文模型2974-2980.基于主属性的挖掘模型基于k-means.算法的挖掘模型参考文献4吴爱华,陈出新.分布式数据库中关系数据正负关联规则挖掘J.计算机仿真,2 0 2 1,38(9):344-347.5李成严,辛雪,赵帅,等.Sp-IEclat:一种大数据并行关联规则挖掘算法J.哈尔

29、滨理工大学学报,2 0 2 1,2 6(4):109-118.6 程江洲,聂玮瑶,张赞宁,等.基于FP-network关联规则挖掘算法的配电网薄弱点分析研究J.电测与仪表,2 0 2 1,58(3):47-53.7 熊中敏,汪博,陶然,等.一种基于主属性判定的关联规则挖掘约简算法J.计算机工程与科学,2 0 2 1,43(4):738-745.8 李珺,刘鹤,朱良宽.基于改进的k-means算法的关联规则数据挖掘研究J.小型微型计算机系统,2 0 2 1,42(1):15-19.9赵丹枫,黄雁玲,黄冬梅,等.基于AR_TSM的时间序列motif关联规则挖掘方法研究J.计算机应用研究,2 0 2

30、 1,38(2):40 3-40 8.10王雪平,林甲祥,巫建伟,等.基于可决系数的自适应关联规则挖掘算法J.智能系统学报,2 0 2 0,15(2):352-359.11张勇,李树青,程永上.基于频次有效长度的加权关联规则挖掘算法研究J.数据分析与知识发现,2 0 19,3(7):85-93.12陆鑫赞,王兴芬.基于领域关联余的教务数据关联规则挖掘J.计算机科学,2 0 19,46(S1):42 7-430.13曾子贤,巩青歌,张俊.改进的关联规则挖掘算法:MIFP-Apriori算法J.科学技术与工程,2 0 19,19(16):216-220.14王桌芳,赵会军,李聪,等.基于兴趣度度量的多类差异数据关联规则挖掘J.计算机应用与软件,2 0 19,36(12):60-65.15黄彦璐,张震,张喆,等.基于非侵入式负荷辨识和关联规则挖掘的用户柔性负荷区间预测J.南方电网技术,2 0 19,13(4):6 0-6 6.(收稿日期:2 0 2 1-12-0 7).124

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服