收藏 分销(赏)

基于流聚类的PMU异常数据辨识算法.pdf

上传人:自信****多点 文档编号:577820 上传时间:2024-01-02 格式:PDF 页数:8 大小:1.61MB
下载 相关 举报
基于流聚类的PMU异常数据辨识算法.pdf_第1页
第1页 / 共8页
基于流聚类的PMU异常数据辨识算法.pdf_第2页
第2页 / 共8页
基于流聚类的PMU异常数据辨识算法.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 :年 月 第 卷第 期基于流聚类的 异常数据辨识算法邓小玉,王向兵,曹华珍,王流火,严洪峰,王宏宇(广东电网有限责任公司,广东 广州 ;江苏金智科技股份有限公司,江苏 南京 )摘要:为保证同步相量测量装置(,)采集数据的准确应用,须排除其量测值中的异常数据。现有 异常数据辨识算法存在算法复杂度高、难以在线更新、多源数据难以校准、依赖多源数据应用难度大等不足。为此,文中从 事件数据和异常数据模型及 异常数据判别信息熵定义出发,提出基于该信息熵的异常数据辨识框架。在此框架基础上,基于利用层次方法的平衡迭代规约和聚类(,)算法提出 异常数据辨识算法;然后,对所提出的算法进行原型实现,并针对某变电站

2、的 采集数据集进行算法实验验证。实验结果表明,与一类支持向量机(,)算法与间隙统计算法相比,文中算法的准确度及实时性均具有较强的优势。关键词:同步相量测量装置();异常数据;事件数据;辨识框架;信息熵;流聚类中图分类号:文献标志码:文章编号:()收稿日期:;修回日期:基金项目:中国南方电网有限责任公司科技项目()引言目前,电网中大量应用的动态数据采集设备为同步 相 量 测 量 装 置(,)。量测在电力系统内部状态切换时可能产生跳变的事件数据,也会因互感器误差、设备故障、时间同步异常、通信系统中断等诸多因素 产生异常跳变,即量测值中出现异常数据。智能电网的电网安全评估、预防控制和运行分析均以准确

3、的电力系统状态估计为基础,若量测值中存在误差较大的异常数据,将导致系统状态估计准确度降低,影响系统实时监测及控制 。而基于异常数据所作的决策判断可能威胁到整个电网安全。因此,为保障电网安全可靠运行,研究 异常数据及其辨识方法有重要意义。国内外学者已经针对 异常数据辨识方法展开了深入研究 。文献 提出了一种基于谱聚类的 异常数据检测算法,采用决策树方法分辨出事件数据,再通过谱聚类进行正常数据与异常数据的辨识,但其决策依赖异常数据维持的时间长度定义,易将事件数据误辨识为异常数据;文献 提出了基于核心微簇与离群微簇的异常数据辨识算法,先在线更新潜在核心微簇和离群微簇,再通过基于密度的噪声应用空间聚类

4、(,)算法重新对所有微簇进行离线聚类,更新核心微簇,算法复杂度较高;文献 提出了一种基于 和数据采集与监视控制系统的单一点互校核算法,其准确率高,速度较快;文献 提出了一种基于多维特征向量和阈值的异常数据辨识算法。上述算法应用时都要先训练模式分类器再进行异常数据区分,无法实现在线更新,应用难度大。为了降低辨识算法的复杂度,可以采用流聚类 算法进行数据的在线训练和聚类。该算法通过提取有效的聚类特征(,),动态地对数据进行聚类分析,依据少量的特征数据集存储对新数据进行快速处理和分类,因此具有良好的在线更新和实时应用特性,适用于连续采集等具有大数据特征的应用场景。目前,尚未有相关工作将流聚类算法应用

5、于 异常数据辨识。信息熵 是信息论的基本概念,可描述信息源各可能事件发生的不确定性。采用信息熵对 量测值进行筛选,可以减少训练集的样本数以用于配电网安全态势感知要素分析 。文献 通过小波熵对故障状态下的电气量相角特征进行分析,从而获得准确的故障元件。信息熵同样也可用于聚类算法以获得更加准确的分类结果。文献 将信息熵作为加权依据,在聚类过程中弱化低质量的簇,使聚类结果更加准确;文献 将信息熵应用于混合数据类型的聚类算法研究中,以确定不同数据类型的数据权重;文献 在计算聚类距离时引入信息熵对距离进行加权,提升了分类的准确性。文献 提出了样本稳定性的概念,利用信息熵描述二元信源的确定性,优先筛选稳定

6、性高的样本簇,提升后续的聚类准确度。综上所述,信息熵用于流聚类主要是从度量和聚类距离方面对聚类进行良性的干预,使算法更为准确。文中基于信息熵理论,研究 事件数据和异常数据描述,定义 异常数据判别熵(,),提出基于信息熵的 异常数据和事件数据描述和辨识框架;将 与流聚类算法相结合,提出基于流聚类的在线 异常数据辨识算法。该算法实现了对异常数据与事件数据的在线、准确、实时辨识。基于文中理论研究所实现的变电站 数据校核装置可以在站内实时、就地完成 异常数据识别,改进了传统 数据上送主站后要从海量数据中依赖多源数据校核识别出异常数据的方法,提升了 异常数据识别的实时性,降低了运算量,为变电站内保护、测

7、控各装置准确实时应用 数据提供了更好的技术支撑。基于信息熵的 异常数据辨识框架 事件数据是指由于电力系统内部状态切换导致的 量测值跳变;异常数据是指电力系统内部状态并未发生变化,而是由于数据采集误差、通信异常等导致的 量测值跳变。异常数据和事件数据定义文中参考了文献 和 中对异常数据的定义。异常数据在偏离正常值后会回到正常值,即其值围绕正常值上下波动;事件数据在偏离正常值后不会回到正常值或需要较长时间再回到正常值。定义 为偏离因子;为发生数据偏离前的时刻,为该时刻的 数据;为发生数据偏离后恢复到正常数据的时刻,为该时刻的 数据;为 时刻()跳变过程中的 数据;、分别为、和 时刻的正常值;为事件

8、判断时长阈值。当 满足式()时为异常数据。()事件数据的特性满足:()由式()可知,当发生数据偏离正常值后超过时间仍未恢复到正常值时,该数据为事件数据。异常数据判别信息熵定义信息熵用于描述事件发生的不确定性,定义如式()所示。()()()()式中:为整个数据集;()为数据集 的信息熵;为数据集 中的类别个数;为数据集 中第 个分类;()为数据集 中第 个分类的占比。在异常数据辨识中引入信息熵的概念,定义 ,用于描述一段数据中出现异常数据后的数据不确定度。首先对 数据的信息进行定义。定义一个样本 如下:,()式中:为 数据;为样本中数据的个数。假如该样本中存在 个异常数据,定义 为样本中异常数据

9、的占比,如式()所示。()定义 为样本中正常数据的占比。基于 数据信息 和 ,采用信息熵公式构造样本 的 值 ():()()()()()式中:、为权重系数。基于 异常数据判别信息熵的辨识框架 反映了 数据异常的不确定性。按照事件判断时长阈值 内 数据点的数量进行样本 的选取。假如 和 取值相同:()当 时,跳变数据与正常数据比例相同,数据源的不确定度最大。()当 时,越接近 ,()越接近 ,样本 的不确定度越小;当 为 时,不确定度为,样本 中均为正常数据。()当 时,越接近 ,()越接近 ,样本 的不确定度越小;当 为 时,不确定度为,样本 中数据偏离持续时间超过了,所以样本中均为事件数据。

10、因此,结合 与 ()可对数据进行正常数据、异常数据与事件数据的判断。定义连续的样本、,对应的异常数据占比为 、,信息熵为 ()、()、()。当 ()时,若 ,则样本 均为正常数据;若 ,则样 本 均 为 事 件 数 据。当()时,若下一个样本 的 ()且(),即样本 为事件数据,则说明事件是在样本 的时间内发生的,所以 中的跳变值也为事件数据,否则 中的跳变值为异常数据。异常数据辨识算法文中将 值作为度量,结合流聚类算法实现 异常数据辨识。流聚类算法通过对数据序列迭代处理,不断更新 ,并对不断更新的窗口数据进行迭代聚类,从而实现对连续数据流的快速聚类。与传统聚类方法相比,流聚类方法更适用于动态

11、扩展的数据集,其通过 维护和窗口定义降低了聚类处理的计算性能要求,且不再需要存储全部样本数据,提升了算法的实时性。异常数据判别信息熵计算 计算中首先要找出 数据中的跳变值。按照式()和式()计算跳变值时,采用滑窗求取均值的方式计算。假设滑窗的样本数量为,则在 时刻 的计算公式如式()和式()所示,其中 为权重系数。式()用于设置数据点的上下限。()()()()()()()()得到正常值后,根据式()式()即可完成对 异常数据判别信息熵的计算。目标函数定义聚类的优化准则为组内距离最小化,组间距离最大化。以信息熵为 ,对样本及对应的簇内、簇间距离进行定义,定义如下。将聚类特征簇作为数据集 进行信息

12、熵的计算。设、为聚类特征簇 中的 个样本,对应的信息熵指标分别为 ()、(),反映 个样本内数据类型的不确定度,两者之间的距离可定义为:(,)()()()簇 的质心 为:()()任意样本 到簇 的距离定义为样本 到簇的质心的距离:(,)()()设、分别为 个聚类特征簇 和 的样本个数,簇 和簇 之间的距离定义为:(,)()()()若存在样本空间瓗,有 个簇,每个簇内有 个样本,令、瓗,则对、,有:,(),(,)()式中:,为簇 的质心;为簇 的样本个数。基于 的 异常数据辨识算法文中采用利用层次方法的平衡迭代规约和聚类(,)算法实现流聚类。对数据建立分层结构 树,其中每个节点包含一组 。这些

13、包含了描述数据集中一组点的充分统计信息以及子节点指向的 的所有信息。该 树的规模由参数 (每个中间节点最大的 数)、(每个叶子节点最大的 数)、(每个 的聚类半径)决定。具体 树的结构如图 所示。图 树 结构是一个三元组(,),用于存储一组点的充分统计信息,其中 为 个样本特征维度的向量和;为 个样本特征维度的平方和。三元组满足线性关系,因此可以高效地更新 树。每插入一个样本时,从根开始向下遍历当前树,计算与新样本最近的叶子 ,新样本到簇的距离以及簇间的距离通过式()和式()进行计算。找到合适的叶子 后,基于 树中三元组的线性可加特性,可快速更新 值,完成实时在线聚类。邓小玉 等:基于流聚类的

14、 异常数据辨识算法完成聚类后,每个样本可以根据聚类结果实现对正常数据、异常数据与事件数据的辨识。基于流聚类的 异常数据辨识的具体流程如图 所示。以样本 ,为例,首先计算样本的 值 (),然后计算样本的 ,再按照 参数 、进行聚类,得到其聚类的类别标识 (),最后根据聚类结果完成对正常数据、异常数据与事件数据的辨识。图 基于流聚类的 异常数据辨识流程 算法实验与结果分析文中采用站域多态数据融合测控原型系统实现基于流聚类的 异常数据辨识算法。中央处理器(,)采用 处理器(主频 ),其通过以太网口按照 协议接收同步相量数据集中器的 数据,然后进行异常数据辨识。异常数据辨识实验某变电站的 数据的传输频

15、率为 点 ,每个波形持续时间为 ,每个波形总计 个点。对 个采集对象的 万个 采集数据进行统计分析,选取图 与图 为典型波形进行说明。图 为采样传感器受到干扰后引起 数据异常突变与波动的典型波形,图 为典型的由负荷切换引起的事件数据波形。图 异常数据特征为:短时突降,维持片刻,随后恢复;短时突升,维持片刻,随后恢复;数据异常波动。图 事件数据特性为:偏离正常值后不再图 现场采集的 异常数据波形 图 现场采集的 事件数据波形 返回。针对以上 数据样本,采用基于流聚类的 异常数据辨识算法,其参数取值如下:式()和式()中的 取 ,取 ,即正常数据的偏差不超过 ,的取值与实际应用中被辨识数据的正常波

16、动范围有关;式()中的 取 ;式()的和 均取 ,因为文中同时关注正常数据与异常数据,如果取 ,则正常数据的比例对信息熵影响更大,因此 和 的取值原则是根据应用对正常数据和异常数据的关注程度取值,两者幅值大小只影响聚类时半径的取值;式()中的 取 ,即以 为窗口计算参考正常值,如果增大 ,则滑窗数据更为平滑,但响应速度更慢,因此 的取值原则是根据辨识数据的变化速率与应用的响应速度要求取值;式()中的 取 ,即正常值计算时上下限偏差为 。算法中 取 ,取 ,半径 取 。由于 为 时信息熵达到峰值,对 取中间值 时,计算(即 与 )的信息熵的差值为 ,所以在半径 取 时,的样本都会单独分为一类,而

17、 的样本则会逐渐合并。对图 中 种典型 异常数据波形进行归一化处理后,得到异常数据辨识结果,如图 图 所示,纵坐标“聚类结果”是指各样本的信息熵通过流聚类分类后的类别编号,其中类别 是质心为 ,即 ()为 的点,其他类别是 ()大于 的点。按照 节,可通过 ()与 对正常数据、异常数据与事件数据进行判别。图 短时突降辨识结果 图 短时突升辨识结果 图 数据波动辨识结果 图 图 的聚类结果中未出现聚类类别为 且 为 的事件数据样本,可知图中聚类类别不为 的样本中的跳变值均为异常数据。对图 的 事件数据波形进行归一化处理后,得到的异常数据辨识结果如图 所示。图 事件数据辨识结果 图 中样本 的聚类

18、类别均为 ,且 为,因此均为正常数据;样本 的聚类类别均为,且 为 ,因此均为事件数据;由于样本 聚类类别为 ,但样本 为事件数据,说明事件是在样本 的时间内发生,所以样本 中的跳变值为事件数据。基于流聚类的异常数据辨识结果如表 所示。辨识结果中“”为正常数据,“”为异常数据,“”为事件数据。该方法对以上样本的异常数据和事件数据的辨识准确率为 。表 基于流聚类的异常数据辨识结果 数据类型类别质心样本分布辨识结果异常数据短时突降()、短时突升()、异常波动()、事件数据()()原型系统中基于流聚类的异常数据辨识算法由 架构 实现。由于 为 或 时进行信息熵计算均无须计算对数,因此按照计算最复杂情

19、况,即 时统计计算耗时与算法总耗时。信息熵计算包括加减 次,乘法 次,除法 次,对数 次,比较 次;流聚类计算包括加减 次,乘法 次,除法 次,平方 次,比较 次;共计时钟周期 个,耗时 ,实测计算耗时 。实验结果表明,对于每个 数据通过 的时间即可计算完成,满足实时性要求。个 数据作为 组实验数据,从 万个 数据中提取异常数据 组,事件数据 组,经文中算法辨识后,异常数据辨识准确率为 。对比某变电站 年采集实际数据的波动特性与文献 中其他同行所获取的 年的实际数据,发现其波动特性基本一致。可见在电网运行数据波动特征不发生剧烈变化的前提下,文中算法具有较好的适用性。同类算法对比采用一类支持向量

20、机 (,)算法与间隙统计算法 (,)对 异常数据进行辨识。算法设置为:使用高斯核,训练数据的异常邓小玉 等:基于流聚类的 异常数据辨识算法点比例为 ,训练停止的公差标准为 。辨识结果为 表明 数据点为正常数据,辨识结果为 表明 数据点为异常数据。设置聚类参数 的遍历范围为 。辨识结果为 表明 数据点为正常数据,为其他值表明 数据点为异常数据。对图 中的异常数据波形进行归一化处理,采用 种算法所得的辨识结果如图 图 所示。图 算法和 的短时突降辨识结果 图 算法和 的短时突升辨识结果 图 算法和 的数据波动辨识结果 文中算法与 算法和 的比较结果如表 所示。其中 为异常数据辨识率;为误辨识率。和

21、 的计算分别见式()、式()。()表 与同类算法辨识指标的比较 算法异常数据类型 辨识 个 数据最大耗时 文中算法短时突降短时突升异常波动 算法短时突降短时突升异常波动 短时突降短时突升异常波动 ()式中:为辨识出的异常数据点数;为异常数据总数;为将正常数据误辨识为异常数据的点数;为正常数据总数。文中 组异常数据中短时突降、短时突升和数据波动 种异常数据类型占比为 ,与文献 中的统计数据相当,将 种异常数据类型的辨识结果按照发生比率加权后得到 算法的 、;的 、;文中算法的 、。根据以上实验结果可知,算法辨识耗时较低,但是辨识准确度不够:部分样本辨识时 指标能达到 ,但 指标不稳定,异常波动样

22、本辨识的 和 指标均较差。耗时长,辨识准确度不够:部分样本辨识时 指标能达到 ,但 指标较差,异常波动样本辨识的 指标虽然达到 ,但 指标较差。文中算法对于不同样本类型均实现了 指标达到 ,指标达到 的辨识效果,且可实现事件数据与异常数据的区分。文中算法的最大耗时也仅比 算法大 。结语文中针对 异常数据辨识问题,从信息熵理论出发,研究提出 定义和基于该信息熵的 异常数据辨识框架。将 和流聚类算法结合,提出一种基于流聚类的 异常数据辨识算法。结合原型实现,对从实际运行电网中所获取的 量测值数据集进行了所提出辨识算法的实验,实验结果表明文中算法的辨识率和误辨识率均优于同类算法。文中研究可为今后 异

23、常数据的修正、异常数据溯源与智能告警等应用提供参考。如何优化异常数据信息熵的聚类效果和进一步对异常数据进行修复、溯源和告警,是未来要继续研究的方向。参考文献:黄子蒙,余娟,向明旭,等 基于改进动态时间弯曲的 频率异常检测及类型识别 电力系统自动化,():,():徐飞阳,薛安成,常乃超,等 电力系统同步相量异常数据检测与修复研究现状与展望 中国电机工程学报,():,():周婧怡,李红娇 针对 测量的虚假数据注入攻击检测方法 信息网络安全,():,():常鹏,吴泽群,孙文仲,等 基于 优化部署的电网 线下攻击保护 智慧电力,():,():王海波,吴升涛,周文海,等 基于不同量测数据融合的配电网状态

24、估计研究 机电信息,():,():,():曹鹏,刘敏,杭鲁庆 基于改进磷虾群算法的配电网 优化配置研究 电网与清洁能源,():,():王磊 配电网同步相量与电能质量同步监测一体机 济南:山东大学,:,朱志敏 基于 的广域测量系统相量数据集中器的研发 合肥:合肥工业大学,:,(),:张江南,雷江龙,贺勇,等 基于 误差校正的输电线路参数在线辨识方法 电力系统保护与控制,():,():,():,:,刘雯静,杨军,袁文,等 一种基于 和 单节点互校核的前端数据辨识框架 电力系统保护与控制,():,():万楚林,陈皓勇,郭曼兰 基于模式识别的 有功功率错误数据处理 电网技术,():,():,:?,:,

25、():,:,():,:,():田书欣,李昆鹏,魏书荣,等 基于同步相量测量装置的配电网安全态势感知方法 中国电机工程学报,():,():杨欢 基于 数据的配电网故障分析方法 沈阳:东北大学,邓小玉 等:基于流聚类的 异常数据辨识算法 :,邵长龙,孙统风,丁世飞 基于信息熵加权的聚类集成算法 南京大学学报(自然科学),():,(),():崔文秀 基于信息熵定义属性权重的混合数据聚类算法研究 太原:山西大学,:,张安勤,吴蕊,张挺 基于信息熵的异常检测算法 上海电力大学学报,():,():李飞江,钱宇华,王婕婷,等 基于样本稳定性的聚类方法 中国科学:信息科学,():,(),():闫梦秋,杨轶俊,赵舫 基于改进 的智能变电站数据流异常检测方法研究 电力系统保护与控制,():,():?,():作者简介:邓小玉邓小玉(),女,学士,高级工程师,从事电力系统及自动化工作(:);王向兵(),男,硕士,高级工程师,从事电力系统及自动化工作;曹华珍(),女,硕士,高级工程师,从事电力系统及自动化工作。,(,;,):(),(),():();(编辑陆海霞)

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服