1、针对电力用户异常用电的检测问题,提出了一种基于无监督组合算法的异常用电模式辨识方法。所提辨识方法由数据处理、特征提取、离群检测三部分组成。文中先获取用户的用电量及相关数据,进行数据清洗和缺失数值补全;再对数据进行特征提取,得到相应的异常用电识别特征量;通过k均值聚类将用户聚为两组,并分别对每组进行主成分分析优化特征空间,计算离群邻近度,通过2 sigma原则实现异常用电用户辨识。该方法通过聚类、优化特征空间、离群检测组合算法,提高了辨识效率。文中采用真实用电数据进行了异常用电用户辨识仿真实验,辨识结果验证了该方法的有效性。关键词:异常用电;k均值聚类;主成分分析;离群邻近度;欧几里得距离;2
2、sigma原则D0I:10.19753/j.issn1001-1390.2023.06.023中图分类号:TM933Identification of abnormal power consumption mode based on combination algorithm2.Beijing Information Science and Technology University,Beijing 100192,China)Abstract:In a bid to detect abnormal electricity consumption of power users,a method
3、for identifying abnormal electricityconsumption mode based on unsupervised combination algorithm is proposed in this paper.The proposed identification meth-od consists of three parts of data processing,feature extraction and outlier detection.The power consumption and related da-ta of the users are
4、obtained,and the data is cleaned and the missing value is supplemented,feature extraction is carried outon the data to obtain the corresponding features for abnormal electricity consumption recognition.Afterwards,k-means isused to cluster the users into two groups,and principal component analysis is
5、 performed on each group to optimize the fea-ture space,the outlier proximity is calculated,and abnormal power consumption users are identified by 2 sigma principle.This method improves the identification efficiency by combining clustering,optimization of feature space and outlier detec-tion.The sim
6、ulation experiment of abnormal power consumption user identification is carried out with real power consump-tion data,and the identification results verify the effectiveness of the proposed method.Keywords:abnormal power consumption,k-means clustering,principal component analysis,outlier proximity,E
7、uclideandistance,2 sigma principle0引言近几年,智能电网成为当今世界的一个关键问题,并吸引了能源用户、政策制定者和工程师的日益关注。而智能电网的运行过程中会出现一定量的能量损失,其中可以用线路损失解释的部分称为技术性损失;不能被技术损失所解释的部分称为非技术性损失。非技术性损失指剔除技术损失后无法用技术解释的电网输基金项目:国家电网有限公司总部科技项目(5442 JL170007)一16 0 一文献标识码:BYuan Xiangyu,Zhang Penghe,Xiong Suqin,Zhao Bo”,Li Qiuyang(1.China Electric Po
8、wer Research Institute Co.,Ltd.,Beijing 100192,China.文章编号:10 0 1-13 90(2 0 2 3)0 6-0 16 0-0 7配电损失部分。电力用户的异常用电行为,比如窃电,则是造成非技术性损失的主要原因异常用电行为日益增加,这不仅增加了电力公司的经济损失,也严重影响了经济建设和社会稳定。据不完全统计,中国福建省每年因异常用电行为造成的电费损失可达1亿人民币2 。所以应当对异常用电行为进行检测打击,对异常用电用户进行严惩。目前的反异常用电技术不够完善,对于较为常见的异常用电第6 0 卷第6 期2023年6 月15日手段,无法做出准确的
9、判断。异常用电监测包括硬件监测和数据处理分析两方面的技术。硬件监测技术主要有智能表检测异常用电3 和电量计量采集系统4。数据分析主要分为有监督学习58 和无监督学习9-5 两类。有监督算法条件较为苛刻,无法在没有数据和数据缺失的条件下使用。无监督学习对数据量的要求并不是很高,适用面更加广泛。文献11 提出了一种融合聚类和异常点检测的算法;为了提高算法的查准率,文献12 提出了一种基于方形邻域和裁剪因子的离群点检测算法;文献13 采用基于密度的聚类算法检测电力用户异常用电;文献14提出一种基于高斯核的离群点检测方法对电力用户进行分类。文献15 提出了一种基于距离的离群点检测法判断窃电。为了进一步
10、提高识别准确率,文中提出了一种新型无监督的异常用电检测算法,主要包括特征提取、聚类分析、主成分分析,优化特征空间和离群点检测。首先提取部分地区用电量及线路相关数据,进行数据处理,然后从数据集中提取出电量下降趋势指标、线损指标和告警类指标作为异常用电评判体系,再进行聚类分析、主成分分析和离群邻近度的计算,最后通过离群点检测辨识异常用电用户。1异常用电辨识流程文中所提异常用电辨识方法主要有以下几个部分:数据处理、特征提取和离群检测。异常用电用户辨识流程,主要包括以下步骤:(1)数据处理:考虑到部分用户是不存在发生窃电行为和部分数据存在缺失,所以对这些数据进行清洗和缺失数值处理;(2)特征提取:提取
11、电量下降趋势指标、线损指标和告警类指标三个指标;(3)离群检测:先使用改进的k均值聚类算法将数据聚为两组。然后分别进行主成分分析,优化特征空间。然后对每组数据进行离群邻近度求解,采用2 sig-ma原则对离群用户进行筛选。2基基于组合算法的异常用电辨识2.1数据处理从电力计量装置中提取用户的用电负荷和客户端电能表终端报警次数等原始信息数据。异常用电用户在用电用户中只占有很小的一部分,即大部分用户是不可能发生窃电,比如说:银行、学校、税务、工商等非居民类别的用户数据。所以需要对这些用户数据进行清洗,即剔除这些用户的数据。电测与仪表Electrical Measurement&Instru
12、mentation由于智能电能表故障、测量数据传输不可靠、系统维护不定时、存储问题等多种原因16 ,导致存在部分缺失数值,直接舍去会减少数据的真实性,所以采用拉格朗日插值方法进行补全。公式如下:L.(x)=Zl.(x)y;n=0nX-x1()=Ij=0.i+i;-x;其中为缺失数值对应的下标序号;L,(x)为缺失数值的插值后的结果;x;为非缺失数值y;的下标序号,n为10,即采用缺失数据前后各5个数据,共10 个数据,进行插值补全。对于所有含有缺失数据的用户依次进行插补,直到不存在缺失为止。2.2特征提取经过插值处理后,所获取的用电量数据已不存在缺失数据。但作为用电特征,这组数据并不充分,所以
13、文中对数据进行了相应地分析。对用户的用电量信息进行分析后,发现大部分正常用电用户的用电量变化较为平稳,而窃电用户的用电量往往短期内呈下降趋势,后期趋于稳定;同时对用户的供电线路损失电量进行分析,发现窃电用户线路损失明显高于正常用户;最后统计用户的电能表故障情况,同样发现窃电用户的电能表故障次数偏高。基于以上分析,文中采用相关的异常用电评判体系对补全后的数据进行特征提取,得到电量下降趋势指标、线损指标和告警类指标17 2.2.1电量下降趋势指标如果用户的用电量正常,则用电量数据具有一定的规律性。通常用户开始发生窃电行为,用电量就会降低或波动。为了描述这个过程,文中采用电量下降趋势指标作为衡量标准
14、。对于某天的电量下降趋势指标,设置该天前5天、后5天以及该天作为统计窗口期。先计算11天中每天的用电量趋势,其中第i天的用电量趋势k,的计算公式如下:i+5Z(fi-j(l-i)i5k=i+5=i-5i+5=11,25其中k,为第i天的用电量趋势;f为第l天的用电量。如果电量趋势不断下降,则认为该用户有可能窃一16 1 一Vol.60 No.6Jun.15,2023(1)(2)(3)(4)第6 0 卷第6 期2023年6 月15日电。然后统计用户11天内,当天比前一天用电递减的天数,即令:1,k;1%VE(i)V-V1,1%V2.2.3告警类指标以用电用户为单位,统计某段时间内电流异常、电压异
15、常、功率因素异常和有功异常等发生次数。由于这类情况发生时会发生终端报警,所以选取终端报警次数作为告警类指标。2.3基于组合算法的离群检测该算法为无监督算法,由聚类、主成分分析优化特征空间和离群检测三个部分组成。先用聚类算法将用户数据聚为两组,再进行主成分分析优化特征空间,然后计算离群邻近度,最后用2 sigma原则进行离群检测。2.3.1 k均值聚类k均值算法,是一种聚类算法。首先确定聚类数目k,再从样本集中随机选择k个样本作为“簇中心”,并计算所有样本与这k个“簇中心”的欧几里得距离。然后对于剩余的每一个样本,都将被划分到与其最近“簇中心”的那一簇中。然后对于每个簇,文中重新计算“簇中心”1
16、8 2 0 。如果计算的“簇中心”与初始“簇中一16 2 一电测与仪表Electrical Measurement&Instrumentation心”相等,则聚类完成。反之,则重新随机生成k个“簇中心”,重复步骤,直到相等。改进的k均值算法,则对k均值生成“簇中心”的(5)方式做了一定的改进。为了减少“簇中心”的生成次数,当已经生成了n个初始“簇中心”后,则第n+1个“簇中心”应该要尽可能远离前n个“簇中心”。所以(6)改进后的k均值算法的设计步骤为:步骤1;从数据集中随机选取一个样本(样本具有三个特征,电量下降趋势指标、线损指标和告警类指标)作为初始化“簇中心”;步骤2:计算每一个样
17、本与已有的“簇中心”的最短距离,并用D()表示;100%(7)(8)Vol.60 No.6Jun.15,2023步骤3:通过式(9)计算每个样本作为下一个“簇中心”的概率,并选择概率最大的样本作为下一个“簇中心”;D?()p()ZD(x)步骤4:重复步骤2 和步骤3,直到生成k个“簇中心”;步骤5:对于每个簇,重新计算新的“簇中心”。如果计算的“簇中心”与初始“簇中心”相等,则聚类完成。反之,则返回步骤1。文中选择两个“簇中心”,聚类运算后,将用电用户分为两簇,然后进行后续处理。2.3.2特征空间优化为了更好地对数据进行处理,文中采用主成分分析,来优化特征空间。主成分分析(Principal
18、ComponentAnalysis,简称PCA)是一种分析、简化数据集的方式,常用来降低数据的维度,突出协方差贡献最大的特征量。PCA的思想是将n维空间特征映射到k维(kn)空间中,得到样本集的新的k维特征,从而达到优化特征空间的目的。算法步骤如下:步骤1:将样本矩阵中心化;步骤2:采用中心化后的样本矩阵,构建协方差矩阵;步骤3:计算协方差矩阵的特征值、特征向量以及特征量的贡献率;步骤4:据特征值贡献率,绘制贡献率条形图;步骤5:取累计贡献率达到8 5%以上最少数目的特征量作为主成分,利用其特征向量对样本矩阵进行变换,得到新的样本数据。(9)第6 0 卷第6 期2023年6 月15日通过上述主
19、成分分析,得到新特征空间,再在新的特征空间里对数据进行后续处理。文中通过对电量下降趋势指标、线损指标和告警类指标进行主成分处理后,得到两个新特征量作为新的特征空间。2.3.3离群邻近度分析经过主成分分析后,得到了两组数据的新特征量。将得到的新的两组数据分别进行离群检测。离群邻近度是一个衡量离群程度的参量,多用来辨识一组用户中的部分异常用户。2sigma原则:数值分布在满足(-2,+2)的区间内的概率为0.9544。小概率事件通常指发生概率小于5%的事件,认为是不可能发生事件。即此处离群程度不满足2 sigma原则的用户为用电异常用户,将该类用户判断为异常用电用户。算法步骤如下:步骤1:计算每组
20、数据中各个样本之间的距离,记作D(i,j),即第i个样本与第j个样本之间的距离;步骤2:计算每组用户之间的所有距离的平均值作为邻域半径r_d;1ZD(i.j)r_d=(n-1)台+)步骤3:统计每一个样本的邻域半径内样本的数量,作为离群邻近度N_dist,计算如下:J1,D(i,j)F2,组合算法的分类效果更好。分析对比表明,在进行异常用电模式检测时,基于无监督组合算法的检测方法比直接离群检测的方法识别效果更好。4结束语针对异常用电的检测问题,提出了一种基于无监督组合算法的异常用电模式辨识方法。该方法辨识异常用电模式的步骤包括数据处理、特征提取、离群检测。先获取用户的用电量及相关数据,进行数据
21、清洗和缺失数值补全;再进行特征提取,得到相应的异常用电识别特征量;然后通过聚类将用户聚为两组,并分别对每组进行主成分分析优化特征空间;最后通过离群特征3检测实现异常用电用户辨识。对真实用电数据进行了异常用电用户辨识仿真实验,辨识结果验证了该方法的有效性。相较于直接进行离群点检测,所提方法通过聚类、优化特征空间、离群检测组合算法,提高了辨识效率。2191.5%7.5%8.5%16165.7%5.7%0.5Vol.60 No.6Jun.15,2023考虑到不同的算法之间的组合效果不一,后续研究不同算法之间的组合,希望进一步提高异常用电模式辨50.0%50.0%1识方法的识别率以及应用范围。参考文献
22、1 Jiang R,LuR,Wang Y,et al.Energy-theft detection issues for ad-vanced metering infrastructure in smart grid J.Tsinghua Science andTechnology,2014,19(2):105-120.2陈启鑫,郑可迪,康重庆,等异常用电的检测方法:评述与展望J.电力系统自动化,2 0 18,42(17):18 9-19 9.Chen Qixin,Zheng Kedi,Kang Chongqing,et al.Detection methods ofabnormal elec
23、tricity consumption behaviors:review and prospect J.Automation of Electric Power Systems,2018,42(17):189-199.3 熊德智,陈向群,陈奕蕾,等.智能用电监控装置的研制J电测与仪表,2 0 19,56(5):143-147,152.Xiong Dezhi,Chen Xiangqun,Chen Yilei,et al.Development of intel-ligent electricity monitoring deviceJ.Electrical Measurement&In-
24、strumentation,2019,56(5):143-147,152.【4胡圣尧,关静,杨子立,等基于嵌人式的电量计量采集系统研究J现代电子技术,2 0 16,(2 2):16 3-16 6,17 0.Hu Shengyao,Guan Jing,Yang Liping,et al.Research on the embed-ded power metering and collection systemJ.Modern Electronics Tech-nique,2016,(22):163-166,170.5周明,宋旭帆,涂京,等基于非侵人式负荷监测的居民用电行为分析J.电网技术,2 0
25、 18,42(10):3 2 6 8-3 2 7 6.Zhou Ming,Song Xufan,Tu Jing,et al.Residential Electricity Con-sumption Behavior Analysis Based on Non-Intrusive Load MonitoringJ.Power System Technology,2018,42(10):3268-3276.一16 5一第6 0 卷第6 期2023年6 月15日6于希娟,孙宏伟基于图像处理和半监督学习的变电设备故障诊断J电网与清洁能源,2 0 2 2,3 8(8):6 0-6 8.Yu Xijuan
26、,Sun Hongwei.Fault Diagnosis of Substation EquipmentBased on Image Processing and Semi-Supervised Learning J.PowerSystem and Clean Energy,2022,38(8):60-68.7白浩,潘姝慧,邵向潮,等。基于小波去噪与随机森林的配电网高阻接地故障半监督识别方法J电力系统保护与控制,2 0 2 2,50(20):79-87.Bai Hao,Pan Zhuhui,Shao Xiangchao,et al.A high impedancegrounding fault
27、 semi-supervised identification method based on waveletdenoising and random forest J.Power System Protection and Control,2022,50(20):79-87.【8 卢克斌,殷守林一种端到端弱监督学习网络模型的中国画情感识别J哈尔滨理工大学学报,2 0 2 2,2 7(1):6 9-7 8.Lu Kebin,Yin Shoulin.Chinese Paintings Emotion Recognition Basedon End-to-end Weakly Supervised
28、 Learning Network Model J.Journalof Harbin University of Science and Technology,2022,27(1):69-78.【9】王毅,丁力,侯兴哲,等基于层次分析法的加权力线异常用电检测方法J.科学技术与工程,2 0 17,17(3 3):96-10 3.Wang Yi,Ding Li,Hou Xingzhe,et al.Weighted LOF stealing detec-tion method based on analytic hierarchy process J.Science Technolo-gy and
29、Engineering,2017,17(33):96-103.10庄池杰,张斌,胡军,等。基于无监督学习的电力用户异常用电模式检测J.中国电机工程学报,2 0 16,3 6(2):3 7 9-3 8 7.Zhuang Chijie,Zhang Bin,Hu Jun,et al.Anomaly detection for powerconsumption patterns based on unsupervised learning J.Proceedingsof the CSEE,2016,36(2):379-387.11张彼德,洪锡文,刘俊,等基于无监督学习的MMC子模块开路故障诊断方法J电
30、力系统保护与控制,2 0 2 1,49(12):98-10 5.Zhang Bide,Hong Xiwen,Liu Jun,et al.Diagnosis method for sub-module open-circuit fault in modular multilevel converter based on unsu-pervised learning J.Power System Protection and Control,2021,49(12):98-105.12涂晓敏,石鸿雁基于方形邻域和裁剪因子的离群点检测方法J.小型微型计算机系统,2 0 19,40(1):18 6-18
31、 9.Tu Xiaomin,Shi Hongyan.Square neighborhood and pruning factorbased outlier detection algorithm J.Journal of Chinese Computer Sys-tems,2019,40(1):186-189.13田力,向敏.基于密度聚类技术的电力系统用电量异常分析算法J.电力系统自动化,2 0 17,41(5):6 4-7 0.Tian Li,Xiang Min.Abnormal power consumption analysis based ondensity-based spatial
32、 clustering of applications with noise in power sys-temsJ.Automation of Electric Power Systems,2017,41(5):64-70.14孙毅,李世豪,崔灿,等。基于高斯核函数改进的电力用户用电数据离群点检测方法J电网技术,2 0 18,42(5):1595-16 0 6.Sun Yi,Li Shihao,Cui Can,et al.Improved outlier detection methodof power consumer data based on gaussian kernel functi
33、on J.PowerSystem Technology,2018,42(5):1595-1606.电测与仪表Electrical Measurement&Instrumentation15程超,张汉敬,景志敏,等基于离群点算法和用电信息采集系统的反窃电研究J电力系统保护与控制,2 0 15,43(17):6 9-7 4.Cheng Chao,Zhang Hanjing,Jing Zhimin,et al.Study on the anti-elec-tricity stealing based on outlier algorithm and the electricity infor
34、mationacquisition systemJ.Power System Protection and Control,2015,43(17):69-74.16ZHENG Z B,YANG Y T,NIU X D,et al.Wide and Deep Convolu-tional Neural Networks for Electricity-Theft Detection to Secure SmartGridsJ.IEEE Transactions on Industrial Informatics,2018,14(4):1606-15.17张良均,杨坦,肖刚,等MATLAB数据分析
35、与数据挖掘实战M 北京:机械工程出版社,2 0 15:140-159.18孙毅,冯云,崔灿,等基于动态自适应K均值聚类的电力用户负荷编码与行为分析J电力科学与技术学报,2 0 17,3 2(3):3-8.Sun Yi,Feng Yun,Cui Can,et al.Power user load code and behavioranalysis based on dynamic adaptive k-means clustering J.Journal ofElectric Power Science and Technology,2017,32(3):3-8.19姚黄金,雷霞,付鑫权,等.基
36、于改进自适应密度峰值算法的日负荷曲线聚类分析J.电力系统保护与控制,2 0 2 2,50(3):12 1-13 0.Yao Huangjin,Lei Xia,Fu Xinquan,et al.Cluster analysis of daily loadcurves based on an improved self-adaptive density peak clustering algorithmJ.Power System Protection and Control,2022,50(3):121-130.20张朝龙,赵筛筛,章博基于因子分析与K-means聚类的退役动力电池快速分选方法J
37、.电力系统保护与控制,2 0 2 1,49(12):41-47.Zhang Chaolong,Zhao Shaishai,Zhang Bo.A fast classification methodbased on factor analysis and K-means clustering for retired electric vehi-cle batteries J.Power System Protection and Control,2021,49(12):41-47.作者简介:张蓬鹤(197 8 一),女,教授级高级工程师,博士,主要从事电测量技术、电能表及元器件性能分析研究。熊素琴(197 9一),女,高级工程师,硕士,主要从事电测量技术和电能质量研究。赵波(197 7 一),男,教授,博士,主要从事电能质量与电力电子技术研究。李求洋(198 8 一),女,工程师,博士,主要从事智能传感技术研究。收稿日期:2 0 2 0-0 5-14;修回日期:2 0 2 2-12-2 7(田春雨编发)Vol.60 No.6Jun.15,2023袁翔宇(198 8 一),男,工程师,硕士,主要从事电测量技术、智能传感和检测设备自动化研究。Email:yuanxiangyu 一16 6 一