收藏 分销(赏)

基于改进孤立森林算法的异常用电行为识别方法.pdf

上传人:自信****多点 文档编号:2344648 上传时间:2024-05-28 格式:PDF 页数:6 大小:992.79KB
下载 相关 举报
基于改进孤立森林算法的异常用电行为识别方法.pdf_第1页
第1页 / 共6页
基于改进孤立森林算法的异常用电行为识别方法.pdf_第2页
第2页 / 共6页
基于改进孤立森林算法的异常用电行为识别方法.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、书书书第 卷 第 期 年 月沈阳工业大学学报 收稿日期:基金项目:国家自然科学基金项目()。作者简介:钱旭盛(),男,江苏苏州人,高级工程师,硕士,主要从事电力系统管理、电子服务渠道运营等方面的研究。檪檪檪檪檪檪檪檪檪檪殏殏殏殏电气工程 :基于改进孤立森林算法的异常用电行为识别方法钱旭盛,朱萌,翟千惠,张轩城,陈可(哈尔滨工业大学 电气工程及自动化学院,黑龙江 哈尔滨 ;国网江苏省电力有限公司 营销服务中心,江苏 南京 )摘要:针对传统异常用电行为识别方法准确率低、时效性差且人工消耗较高等问题,提出了一种基于粒子群算法的改进孤立森林识别方法。该方法通过总结异常用电行为规律,重构相关行为的特征指

2、标,并侧重于对异常样本的学习与训练,进而在集成算法套袋思想的基础上构建了孤立森林。同时利用粒子群算法的群集寻优能力选择出精准度较高、差异度较大的孤立树形成子集,进一步优化了异常用电行为的识别效果。实验结果表明,改进方法的 值和识别效率均高于聚类算法及孤立森林算法,能够对异常用电行为进行准确识别。关键词:异常用电行为;异常识别;粒子群算法;孤立森林;集成算法;群集寻优;聚类算法;值中图分类号:;文献标志码:文章编号:(),(,;,):,:;异常用电行为会造成电网的电能损失,该损失通常分为技术性和非技术性两种 ,后者通常是由于电力用户的窃电行为所造成的 而窃电则普遍通过私下篡改计量装置与电力线路等

3、方式实现,该行为不仅会给电网造成经济损失,还存在严重的安全隐患。当前,异常用电行为主要依靠人工定期现场巡检来进行识别,虽然消耗了大量的人、物及财力,但其覆盖面窄且识别效率仍较低 。因此,利用现代数据挖掘技术实现异常用电行为的高效识别,对于电网的稳定运行及智能建设具有重要意义 。现阶段国内外应用于异常用电行为识别的数据挖掘方法分为有监督和无监督学习两类。有监督学习需要人工对样本数据进行类别标签的标记,其主观性较强且工作量较大。而无监督学习则不需要标签标记即可识别更多数据之间的映射关系。等 采用基于距离的聚类算法 对电力用户的负荷数据进行聚合,以得到特征曲线,再根据两者的偏离程度实现对异常用户的识

4、别;田力等 采用基于密度的聚类方法分析电力用户的异常行为,并通过簇的异常程度得分来进行排序。庄池杰等 基于主成分分析(,)法进行特征降维,并采用优化离群算法结合阈值设定识别出异常用电用户。上述文献所提方法均需要计算有关距离和密度的指标,因此对用电行为高维度数据的计算效率偏低,且精准度也会受到影响。本文提出一种基于孤立森林算法(,)的异常用电行为识别方法,该方法无须对距离与密度进行计算便可大幅提升速度并减少系统的开销,同时文中还引入粒子群优化算法(,)进一步增强了异常识别的检测精度。异常用电行为特征电力负荷曲线虽然能在一定程度上反映异常用户的某些规律,但其作为识别模型的特征并不明显,因此需要进行

5、数据探索,总结异常用户的行为规律,再从相关数据中提取出描述异常用户的特征指标,如图 所示。提取的特征指标包括:电量下降趋势、线损率以及告警类指标。图 异常用电行为特征分类及其指标 正常用户的用电量在一个周期内较为平稳,而异常用户的用电量则存在持续下降的情况。首先统计一个时间窗口内的电量下降趋势,将时间窗口设定为当日的前后 日,并用斜率 表示这 日中第 日的电量趋势,即 (珔)()()()式中:为时间窗口日期;为第 天的用电量;珔 。若 ,则累计加 。线损率用于衡量供电线路的损失比例,若用户用电异常、存在窃漏电行为,则当日的线损率便会增加,第 日线损率 可表示为()式中:为线路供电量;为线路上

6、个用户总用电量。由于用户每日用电量具有一定的周期性波动,以日作为线损率统计单位会存在误差风险,所以采用前后 天的线损率平均值进行评价,若该值大于,则记为 ;否则为 。而告警类指标是与窃漏电相关的终端告警数,由于终端告警存在较多的误报、漏报,因此仅将该指标作为特征指标放入识别模型中,统计与窃漏电相关的告警总次数。孤立森林算法理论目前,异常用电行为识别方法主要使用正常样本进行学习与训练,并在特征空间中划分出一个正常样本区域,对于不属于该区域的样本,则判断其为异常样本。该方法的主要问题在于训练过程中仅会对正常样本的学习加以优化,由此可能出现大量误报和漏报的情况。而孤立森林算法 并未学习正常的样本,其

7、利用二叉搜索树结构以递归的形式随机分割数据集,从而对异常样本进行孤立。由于异常样本具有数量较少且与大部分样本疏离的特点,因此该样本会被更早地孤立出来,其相比传统聚类算法有更良好的鲁棒性。孤立森林的分割示意图如图 所示。从图 中可以较为直观看到,正常样本点 经过 次分割才从整体中分离出来,而异常样本 仅需 次即可完成分割。单棵孤立树的构建流程如图 所示。重复 次即可得到 棵孤立树并生成孤立森林,随后将每个样本点 带入孤立森林,计算异常得分,即(,)()()()式中:()为样本 在孤立树中的高度;()为路径长度的平均值,需要进行标准化处理。若沈阳工业大学学报第 卷图 孤立森林示意图 图 单棵孤立树

8、的构建流程 ()异常得分接近 ,则为异常样本;若 ()异常得分远小于 ,则为正常样本;若 ()异常得分约为 ,则表示不存在异常样本。基于粒子群的改进孤立森林算法孤立森林的本质是一种基于套袋思想的集成算法,因此选择精准度较高、差异度偏大的孤立树子集有利于对异常用电行为的识别。通过粒子群算法寻找最优孤立树子集,在降低孤立树数量并提升运行效率的同时,还提高了异常用电行为的识别精度。粒子群算法粒子群算法 通过模拟鸟群飞行觅食的行为,将每只鸟均作为寻优的问题解,并利用群集智慧的思想,共同协作实现群体最优。每只鸟即一个粒子,在一个 维空间内进行个体和群体的寻优搜索,假设有 个粒子,粒子 的位置为(,)()

9、每个粒子是否处于最佳位置,需要通过适应度函数 ()进行判断。对粒子赋予记忆功能,并记录历史搜索的最佳位置为 (,)()其中,种群所经历的最优位置为 (,)()在飞行搜索中每个粒子均具有一个速度(,),该速度决定了飞行搜索的距离和方向。根据自身及群体的飞行搜索情况对其速度进行动态调整,则粒子 的第 维速度与位置更新表达式为 ()()()()式中:和 分别为个体及群体的调节学习最大步长;和 为随机数,通常取值范围为 ,;为惯性权重。改进孤立森林算法根据选择性集成思想,通过粒子群算法在孤立森林中选择出精准度高、差异度大的孤立树子集。做出上述选择的原因在于:识别异常用电行为是一种基于投票的分类集成思想

10、,低精度的孤立树可能会对结果产生误导;而差异度较大的孤立树能够互补不同个体间的学习信息,进一步增加孤立森林的泛化能力。为了平衡精准度和差异度的需求,建立适应度函数为()珋 珔()式中:珋 和 珔分别为参与集成孤立树子集的平均精准度与差异度;、为精准度和差异度的权重。精准度采用 曲线面积即 值指标进行评价,如图 所示,其中横坐标假正率表示实际为负,预测为正的样本概率;纵坐标真正率表示实际为正,预测为负的样本概率。异常用电行为识别本质上是一个二分类问题,且异常用户为正例,正常用户为负例。由于用电行为数据中正负样本的比例严重不平衡,正样本的占比远低于负样本,但实际情况应识别出正样本,因此需关注真正率

11、和假正率这两个指标。通过 曲线将二者进行结合,形成一个性能良好的识别分类器,其真正率应远大于假正率,理想状态如图中红线所示,真正率等于 且假正率等于 。而实际情况通常如图中蓝线所示,利用 值表示 曲线与横纵轴的合围区域面积,该值越接近于 ,则表示识别精准度越高。第 期钱旭盛,等:基于改进孤立森林算法的异常用电行为识别方法图 曲线 差异度采用汉明距离 进行评价,即比较两个孤立树集合之间对于相同样本不同标记的个数,不同标记的个数越多,两棵孤立树之间的差异度就越大。为了消除量纲的影响,将评价指标映射到 ,范围内,则有 (,)()()式中:为样本数量,且 ,;或 ,和 分别表示识别正确及错误的样本;(

12、,)为孤立树 与 的汉明距离。越接近 表示差异度越大。通过适应度函数计算粒子的适应度值,并更新粒子群的位置。将每个粒子维度对应到孤立森林的孤立树中,并将孤立树进行二进制编码,表示选择该孤立树,表示未选择。基于粒子群的改进孤立森林算法流程如图 所示。最终输出最优的孤立树子集,其能够同时满足较高的精准度及差异度,可以直接用于用电行为数据的异常分析计算。实验验证分析本实验抽取某市近一个月的窃漏电用户数据和部分正常用户数据,两类用户共计 户,其中异常的有 户,占比 。数据中包含用户电力负荷、线损率及终端报警等信息。同时,实验集成开发环境则采用 的 。由于在用户负荷抽取中存在缺失值,因此本实验采用拉格朗

13、日插值法对该值填充,填充表达式为 ()图 改进孤立森林算法流程 填充完数据后便可进行特征提取,样本示例如表 所示。表 特征提取后的样本示例 用户编号电量下降趋势线损率告警类指标是否异常 构建孤立森林模型有两个重要参数:孤立树棵数和采样数。采用学习曲线的方法进行参数确认,结果如图、所示。由图可知,孤立树的棵数大于 之后,值均较为接近,且在 上下波动;而采样数在大于 时,值约为 ,之后则随着采样数的增加略有下降。因此,本文两参数取值分别为 和 。接着再确定适应度函数 和 的值,由于精准度与差异度同等重要,故和 均取值 。采用网格搜索的方法对粒子群进行调参,参数结果如表 所示。对改进孤立森林、传统孤

14、立森林和 聚类算法的精准度进行对比,结果如图 所示。从图 中可以看出,在 户异常用户中,种算法分沈阳工业大学学报第 卷图 不同孤立树棵数的 值 图 不同采样数的 值 表 粒子群参数 参数取值粒子群规模 迭代次数 最大步长、随函数、惯性权重 别识别出了 户、户和 户异常用户,且改进孤立森林算法的真正率高达 ,从而大幅降低漏检的风险性。而在 户正常用户中,种算法识别出的异常用户分别为 户、户及 户,且改进孤立森立算法假正率仅为 ,有效地降低了误检的可能性。由此说明,改进孤立森林算法的 值高于孤立森林及 聚类算法,能够更为精准地识别出异常用户。图 不同算法的 值对比 种算法的执行效率对比情况如表 所

15、示。其中孤立森林类算法由于省去了计算距离、密度指标所带来的时间消耗,故其执行效率远高于 聚类算法。而改进孤立森林则在原始孤立森林的基础上,进一步采用粒子群算法选出了精准度高且差异度较大的最优孤立树子集,从而减少了孤立森林的规模,且其执行效率约为传统孤立森林的 倍。由此证实了改进孤立森林在异常用电行为识别上的优越性。表 种算法的计算时间 算法时间 改进孤立森林 孤立森林 聚类 结论本文提出了一种基于粒子群算法的改进孤立森林识别模型。通过提取样本特征反映异常用户的用电行为,并平衡精准度和差异度建立适应度函数,再结合学习曲线与网格搜索方法优化了模型参数。实验结果表明,改进孤立森林算法在异常用电行为识

16、别上的真正率及假正率均优于对比算法,故其漏检和误检率更低,而且执行效率更高,因此具有更为理想的识别效果。未来将考虑通过其他的优化算法对孤立森林进行改进,以期进一步提升对异常用电行为的识别精度。参考文献():胡昌斌,张亚,李迎丽,等 基于朴素贝叶斯的电网用户行为分析 沈阳工业大学学报,():(,():)王鹏,刘长江,刘攸坚,等 基于高维随机矩阵的异常用电行为识别方法 广东电力,():(,():)张承智,肖先勇,郑子萱 基于实值深度置信网络的用户侧窃电行为检测 电网技术,():(,():)第 期钱旭盛,等:基于改进孤立森林算法的异常用电行为识别方法 边海源,刘晓,张东平,等 基于数据挖掘的异常用电

17、行为诊断方法研究 电子设计工程,():(,():)柳林溪,陈泰屹 在智能电网中进行用户异常用电行为辨识的研究 信息技术,():(,():),():田力,向敏 基于密度聚类技术的电力系统用电量异常分析算法 电力系统自动化,():(,():)庄池杰,张斌,胡军,等 基于无监督学习的电力用户异常用电模式检测 中国电机工程学报,():(,():)王诚,狄萱 孤立森林算法研究及并行化实现 计算机技术与发展,():(,():)黄福兴,周广山,丁宏,等 基于孤立森林算法的电能量异常数据检测 华东师范大学学报(自然科学版),():(,(),():)张宇献,董放 基于粒子群优化分段聚合近似的负荷分类 沈阳工业大学学报,():(,():)杜美君,张伟,谢亚莲 基于粒子群算法的 控制器参数优化 电子科技,():(,():)谢国民,张佳琪 采用改进粒子群算法的异步电机参数辨识 辽宁工程技术大学学报(自然科学版),():(,(),():)马敏耀,徐艺,刘卓 隐私保护 序列汉明距离计算问题 计算机应用,():(,():),():陈梦涵,郭躬德,林崧 基于汉明距离的量子推荐算法 量子电子学报,():(,():)(责任编辑:景勇英文审校:尹淑英)沈阳工业大学学报第 卷

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服