基于方差变化率判据-四分位的风电场功率异常数据识别.pdf

资源描述

1、：年月第卷第期基于方差变化率判据四分位的风电场功率异常数据识别吴永斌，张建忠，邓富金，黄树帮（东南大学电气工程学院，江苏南京；浙江医学电子与数字健康重点实验室，浙江嘉兴；江苏金风软件技术有限公司，江苏无锡）摘要：风电场运行中产生了数量巨大的历史数据，而提升历史数据的质量是实现风电场高效智能运维的前提。为此，文中分析了风电场风功率数据的分布特征和形成机理，提出基于方差变化率判据四分位法组合的风电场风功率异常数据识别方法。首先，利用物理规则对原始风功率曲线进行预处理，剔除明显异常的数据；然后，利用风功率方差变化率判据法识别并清洗风功率曲线的堆积型异常功率数据点，判据的阈值

2、借助箱型图自动获取；同时，利用四分位法识别并清洗剩余的离散型异常数据点；最后，通过算例验证了所提算法的可行性。研究结果表明所提算法具有易实现、效率高和通用性强的优点，其异常识别效果优于局部离群因子（，）算法和四分位算法，其耗时比和四分位算法分别减少和，且在个不同位置的风电场验证了所提算法的通用性。关键词：风电场；风功率数据；异常识别；方差变化率判据；四分位；智能运维中图分类号：文献标志码：文章编号：（）收稿日期：；修回日期：基金项目：国家自然科学基金资助项目（）引言?随着碳达峰和碳中和目标的提出，大规模发展新能源已成为世界范围内的共识。作为重要的绿色资源，风电的发展尤为迅速，但也

3、带来大量的运维成本。风电机组和风电场配置的运行监测和数据采集系统可以积累大量的运行数据，这些风电大数据常被用于状态监测、风功率预测和风功率曲线建模等。然而，风电机组的工作环境极其恶劣，导致风电大数据中往往包含大量异常数据。异常数据的存在将使风电智能运维的效果大打折扣，因此，对风电大数据进行异常识别和清洗成为一项重要的工作。风功率数据作为风力发电运行的核心数据，对其进行有效的异常识别和清洗引起国内外学者的广泛关注。目前，针对风电机组风功率的异常数据识别研究较为普遍，大体可以分为三种方法：第一种异常识别算法是基于统计规律，如、四分位、方差和方差变化率等方法来识别异常数据，其仅在离散型和

4、堆积型数据之一有明显优势；第二种异常识别算法是基于各个数据点之间的距离和密度来识别异常数据，常用算法有基于距离的局部离群因子（，）算法、和基于密度的噪声应用空间聚类（，）算法等，其异常识别速度慢，参数设置困难；第三种异常数据识别算法是基于风功率曲线的数据模型，常用的算法有函数等，其对大量异常值识别效果不佳。此外，文献提出一种基于四分位的风电功率异常数据识别方法，但容易造成正常数据误识别现象。文献利用图像分割和边缘检测等图像处理技术识别风电机组的异常数据，但需要专家经验构建标准的风功率曲线。文献利用风机机组原理对异常数据识别，结合四分位法清洗叶尖速比和风功率散点。文献针

5、对风功率曲线的不同异常数据类型，提出相应的异常数据清洗算法。然而，风电场内部往往拥有数十台独立运行的风电机组，受风电机组地理位置和高度差异性的影响，叠加各风电机组之间的聚合效应，风电场的风功率数据分布相对于单台风电机组更加复杂和混乱，故对风电场风功率异常数据识别的难度更大。目前，针对风电场风功率数据的异常检测工作相对较少。文献利用四分位法对风电场的输出功率异常数据进行识别，但当异常数据比例较大时，清洗效果不好。文献提出利用四分位和组合的方法去识别风电场风功率的异常数据，其中四分位法用来识别离散型异常数据，用来识别堆积型异常数据，但清洗结果受的取值影响比较大。文献分析风电场在弃风限电情

6、况下的时序数据，提出分段判定方法识别，但爬坡率阈值的选取直接影响限风数据的识别效果。文献利用对风电场的风功率异常数据进行识别，但在大量堆积型异常点情况下，算法的异常识别效果有待提高。文献基于理论，提出一种基于概率风电场功率曲线和典型异常值特征的异常值识别方法，但大量异常值会对联合概率密度函数的拟合产生影响。文献提出一种基于的半监督异常检测方法，利用有限量的标记数据来监督指导风电场异常数据的检测过程，但识别密度较高的堆积型数据能力较差。文献提出四分位的异常识别方法，四分位法被用于剔除稀疏异常点，被用于剔除堆积型异常点，但因每个风速区间共享相同的参数值，致使不同风速区间的清洗效果

7、有待进一步优化。特别需要指出，对风电场风功率异常数据进行识别并有效清洗，有助于提高风电场功率预测精度，提升电网安全稳定和经济运行水平。针对传统的基于方差相关的异常识别算法存在人为设置阈值过程漫长和整个风速区间采用固定阈值效果不佳等问题，文中提出基于方差变化率判据四分位的组合方法实现风电场风功率异常数据的识别。通过该方法的研究，证明了组合方法更加有利于风电异常数据识别的观点。文中首先对个风电场的运行数据质量进行简要分析，并对号风电场的风功率异常数据分布和产生机理进行阐述；其次利用规则对风电场的风功率数据进行预处理，识别明显异常的数据点；接着利用方差变化率判据识别风功率曲线上下两侧的堆积型异

8、常数据点；再利用四分位法识别剩余的离散型异常数据点；最后，通过宁夏风电场的实际算例验证所提异常数据识别方法的优越性和通用性。风电场站运行数据分析由于停机检修、弃风限电和风电机组发生故障等原因，风电场的运行大数据不可避免地存在着数据重复、数据缺失和数据异常等问题。文中以宁夏不同区域的个风电场为研究对象，针对年的实际运行功率数据开展异常数据识别研究。图给出了个风电场功率数据质量总体分析结果，由图可见缺失数据和死数据（长时间不变的物理量）平均所占比率分别达到和，而正常数据平均所占比率仅为。因此有必要对风电场开展功率数据异常识别工作。图为号风电场的风功率散点图，考虑到号风电场由台

9、同型号风电机组组成且轮毂高度图风电场运行数据质量分析均为，故采用风电场测风塔高度的风速数据和风电场实际输出功率绘制图。图号风电场风功率散点由图可知，号风电场风功率曲线中存在大量的离散型和堆积型异常数据点。根据异常数据点的形态分布和产生机理，可将异常数据可分为四类。（）停机数据点。停机数据点一般分布在曲线最底部，易形成大量堆积点。其主要特征为：风速大于或者等于，而风电的实际运行功率一般小于或者等于某阈值（阈值通常选取），偶尔会出现负功率现象。分析其原因主要有计划检修而停机、极端气候、风电机组故障、通信系统故障和测量装置故障等。（）弃风限电数据点。该数据点一般分布在曲线中部的堆

10、积数据点，其主要特征为：风速大于且发生变化，而实际风功率在连续内，基本维持在一个恒定功率值附近。分析其主要原因有：本地负荷或者计划调度功率远小于风电场站实际可发功率，只有进行弃风限电才能保证电网的调峰调频；同时网架结构的输出能力不足也会引发弃风限电。（）曲线左上部的堆积型数据点。该数据点的主要特征为：风速为，而风电的实际运行功率大于。其产生的主要原因有风速仪异常或者通信系统故障。（）曲线周围的其他异常数据点。该数据点一般分布在曲线的周围，离散或者堆积出现。其主要特征为：一般无规律，离曲线距离较远或者密度较低。其产生的原因主要有通信系统故障、测量装置故障和极端气候。风功率的异常数据识别算法

11、基于风电场运行数据质量和风功率散点图的异常数据分布与形成原理分析，文中提出一种结合风功率方差变化率判据和四分位法的风电场风功率异常数据识别算法，主要步骤包括物理规则预处理、风功率方差变化率判据法、四分位法三个处理过程。其中，物理规则用于剔除一些明显异常的数据点，风功率方差变化率判据法针对大量的堆积型异常数据进行识别，四分位法对剩余的离散型异常数据进行识别。物理规则的数据预处理考虑原始的风电场风功率数据集会存在缺失值和重复值。对缺失值的识别，一般判断数据是否含有。针对缺失值，可根据缺失值占总数据比例的大小选择处理方法，若缺失值占比较大，一般通过均值和三次样条插值对数据进行填充；若缺失值所占比例

12、较小，通常会直接删除缺失值所在行的数据。对于重复值的识别，一般判断前后数据是否保持一致。针对重复值，一般只保留最后一组数据。在识别并处理缺失值和重复值之后，首先寻找风速的数据位置，删除含有负风速的数据行。然后，寻找风速大于，但功率小于接近的某个值（该值一般取），将该数据点标记为停机点并删除；其次，寻找功率大于，但风速却小于接近的某个值（一般取），将其标记为风速仪异常点并剔除；最后将风速大于切出风速或功率大于风电场站额定功率的数据点进行剔除。对图所示的号风电场的原始风功率数据，经过删除缺失值、保留最后一组重复值和删除负风速数据行等预处理后，利用物理规则剔除停机点和风速仪异常点等

13、明显异常数据点，得到如图所示的预处理结果。图中还存在大量的离散型和堆积型的异常数据点，还应进一步利用其他算法对异常数据进行识别和清洗。风功率方差变化率判据法在数理统计中，若数据分布存在大量的堆积型异常数据点，统计量中的均值、方差、标准差、方差变化率和标准差变化率会发生突变。文中以风功率的方差变化率作为区分正常数据点和异常数据点的依据，当方差变化率小于阈值，数据点标记为正常值；而当方差变化率大于阈值，数据点标记为图基于物理规则的异常数据识别异常值。利用风功率方差变化率判据识别异常数据的流程如下：首先，对经预处理后的风电场风功率数据集按照风速区间划分数据子集，风速区间的划分间距一般取，

14、如式（）所示。（），（），（）（）式中：，其中为风速总分区个数。记某一个风速区间内的样本集合（），其表达如式（）所示。（）（，），（，），（，）（）式中：为风速区间内的样本总数；为第个数据样本的风速；为第个数据样本的功率。然后，针对每个子风速区间的功率数据，按照功率顺序从大到小排序，使得功率满足式（）。（）接着计算滑动差，实质是先计算风速每个区间内各个功率点的方差，如式（）所示。（）（）式中：为第个数据样本点的功率值；为个数据样本点的功率的平均值。与该数据样本点之前所有功率数据的离散程度可以利用来评估。在此基础上，方差一次变化率可用来判断方差是否发生明显变化，如式（）所示。，（

15、）式中：为风速区间的划分间距。将图的风功率数据分为低、中、高三个风速段，低风速段风速为，中风速段风速为，高风速段风速为。取风速区间的划分间距为，得到如图所示的不同风速区间风功率散点图和方差变化率曲线，图中第、第吴永斌等：基于方差变化率判据四分位的风电场功率异常数据识别、第风速区间分别对应低、中和高风速段。图不同风速区间的风功率及其方差变化率在图（）中，第风速区间风功率散点图的异常点在功率集合的上侧，当数据点序号在，其对应的方差一次变化率先增加再减小直至趋于。而当数据点序号在，其对应的方差一次变化率基本保持在以下。在图（）中，第风速区间风功率散点图的异常

16、点在功率集合的上侧和下侧；当数据点序号在，其对应的方差一次变化率先增加至，再减小至。当数据点序号在，其对应的方差一次变化率基本维持附近，当数据点序号在，其对应的方差一次变化率从增加至。在图（）中，第风速区间风功率散点图的异常点在功率集合的下侧，当数据点序号在，其对应的方差一次变化率基本维持在以下，而当数据点序号在，其对应的方差变化率从增加至。通过上述对风电场的低、中和高风速段的风功率方差一次变化率的分析，可以人为地计算每个风功率数据点所对应的，并设置合适的方差变化率阈值。通过对和进行比较，可以识别出第个风速区间内风功率数据中的正常值（）和异常值（），如式（）

17、和式（）所示。（）（，）（，）（），（）（）（，）（，）（），（）最后，按照上述操作流程，对风电场每个风速子区间的正常数据和异常数据处理结果进行归类整理，可以得到整个风电场站总的正常数据集和异常数据集，如式（）和式（）所示。（），（），（）（）（），（），（）（）式中：为正常区间数。在基于物理规则对原始数据处理的基础上，利用风功率方差变化率判据对风功率异常数据的识别结果如图所示。相比图的基于物理规则的识别结果，基于方差变化率判据的异常数据识别方法清洗了风功率曲线下方的大部分异常数据和风功率曲线上方的小部分异常数据。图基于方差变化率的异常数据识别图（）和（）分别是方差变化率阈值和

18、情况下的识别结果。在图（）中，风功率曲线上方仅存在少数异常点，但风功率曲线的下方存在过度识别；在图（）中，风功率曲线下部的异常点基本被完全识别，但风功率曲线上方的异常效果不及图（）。考虑人为选取风功率方差变化率阈值的过程较为漫长，且整个风速区间采用固定阈值效果不佳，因此文中进一步对方差变化率取差分，图中个风速区间所对应的方差二次变化率如图所示，风功率方差二次变化率曲线平缓部分对应风功率正常点，而风功率方差二次变化率曲线非平稳区段对应风功率异常点。为了识别风功率异常点，文中利用箱型图（四分位法的原理），根据每个风速区间的风功率数据整体分布来识别出风功率方差二次变化率曲线非平稳区段。

19、值得一提的是，文中只将方差二次变化率大于箱型图的外限所对应的数据识别为异常数据，因此可得式（）。（）（，）（，）（），（）图（）、（）和（）中的红色虚线是箱型图自动选取的方差二次变换率阈值，可见该方法能够较好地将各个风速区间的风功率方差二次变化率曲线平缓段和非平稳段区分出来。图（）、（）和（）是利用箱型图自动选取的阈值对各个风速图风功率方差二次变化率曲线及异常识别结果区间的识别结果，可见对堆积型异常点识别效果较好。四分位法在对风电场的风功率数据进行物理规则预处理和方差变化率判据处理之后，可利用四分位法对剩余的风功率数据集进一步处理。如图所示四分位法的原理，将按照升序进行排列的

20、数据样本，进行四分位法异常识别，流程如下：首先计算第一四分位数和第三四分位数；然后计算与之差作为四分位距；近一步计算四分位的上限和下限，其中为与之和，为与之差；最后，四分位法把处于，之间的数据识别为正常数据，而把处于，之外的数据识别为异常数据。图四分位法示意风功率异常数据识别流程经过对风功率方差变化率判据法及四分位法进行异常值识别过程分析，建立基于风功率方差变化率判据四分位法进行风电场风功率异常数据识别。其详细流程如图所示，输入的风电场风功率数据经过物理规则处理后，将风速数据按照从小到大顺序排序，并将最小风速与最大风速之间的数据按某区间宽度（通常取）等分成若干

21、个风速区间；然后依次对每个风速区间的功率数据利用风功率方差变化率判据法识别出堆积异常点，利用四分位法识别离散异常点；重复风功率方差变化率判据法和四分位法的步骤，直到识别出整个风电场的风功率异常数据点。图风电场风功率异常数据识别流程异常数据识别算例分析考虑所提的风功率方差变化率判据的异常数据识别算法可以有效自动识别出大部分堆积型异常数据点，而四分位法的异常数据识别算法可以有效自动识别出大部分离散型异常数据点，因此将两种方法进行组合。组合算法对号风电场的识别效果如图所示，图中蓝色的风功率数据点为识别出吴永斌等：基于方差变化率判据四分位的风电场功率异常数据识别异常数据点，而绿色的风功率数

22、据点为正常数据点，图（）是方差变化率判据四分位的识别效果，可见基于方差变化率判据四分位基本对经过物理规则预处理后风功率数据的异常数据高效识别，说明所提算法可以有效识别风电场的离散型和堆积型异常数据点。为了说明文中所提算法对风电场风功率数据识别的优越性，对号风电场的数据集采用基于和四分位算法进行异常数据识别，异常识别结果如图（）和（）所示。考虑方差变化率判据四分位法对异常数据的识别率，故的样本中异常点的比例设为，选择的领域点个数为。对比图（）与图（），在原始数据总量和异常数据识别率近似的情况下，算法对堆积型数据的识别效果不佳。图（）是基于四分位对号风电场的识别效果

23、，其在风功率曲线上侧存在过识别，而在风功率曲线的尾部存在离散型数据未有效识别。图号风电场风功率的异常数据识别为了有效量化风功率数据异常识别的效果，常采用均方根误差来表征风功率曲线建模时的误差，并对比异常数据剔除前后的误差大小，。风功率的均方根误差，如式（）所示。（）槡（）式中：为功率数据的个数；为与相同的风速下在“”方法建模曲线上对应的功率值。由于使用“”方法建模的风功率曲线是离散的，因此应用三次样条插值来获得连续的功率曲线。异常识别率定义为异常剔除的数据量与剔除前数据点数量之比，如式（）所示。（）式中：为异常剔除之前数据点的数量；为异常剔除之后数据点的数量。对比各种识别算法的效果

24、如表所示，各种算法都是基于和台式机（）（）上运行实现的，表中耗时为连续运行次算法的平均时间。识别算法耗时最长，四分位法的识别率最高，大量正常数据被误识别，方差变化率判据四分位的识别算法耗时最短。对于一个好的异常识别算法，其所对应的风功率曲线建模的均方根误差和异常识别率应尽可能小。综合从异常识别率、均方根误差和耗时等角度去对比无操作、四分位和方差变化率判据四分位等异常识别算法，文中所提的算法不论从定性还是定量的角度，其异常数据识别的性能皆优于其他几种异常识别算法。表不同算法的识别效果对比算法数据总量正常数据量耗时无操作四分位方差变化率判据四分位为了进一步验证文中

25、所提算法的有效性，对其他个风电场的风功率数据进行异常数据识别，识别结果如图所示。图号、号、号和号风电场的数据识别效果，个风电场皆实现了风功率数据的正常数据和异常数据的有效区分。个风电场的风功率数据的数据分布、异常数据占比和异常数据形态都不一致，而识别结果却皆与理想的风功率曲线相似，说明此方法针对不同风电场均有效。结论文中针对风电场的风功率运行数据，先利用物理规则对数据集进行预处理，剔除一些明显异常的数据点。在此基础上，利用风功率方差变化率判据和四分位的组合方法来自动识别剩余的堆积型和离散型异常数据点，主要结论如下：（）所提出的基于方差变化率判据四分位的风功率异常数据识别算法可以同时

26、识别风电场的停机、弃风限电、风功率曲线左上方的堆积型和周围的其他离散型等异常点。（）基于方差变化率判据四分位法的风功率异常数据识别算法的异常数据识别效果优于已有和四分位方案，同时通过多个风电场的应用验证了所提方法的有效性。（）所提的基于方差变化率判据四分位的风功率异常识别算法利用箱型图自动选取每个风速子区间的判据阈值，克服了人为设置阈值过程漫长和整个风速区间采用固定阈值效果不佳等问题。在文中风电场风功率异常数据识别的基础上，下一步着重研究风电场风功率数据异常数据清洗算法，对缺失数据和误剔除数据进行高效重构研究。参考文献：姚钢，杨浩猛，周荔丹，等大容量海上风电机组发展现状及关键技术电

27、力系统自动化，（）：，（）：向东，陈松，季益俊，等智能化含风电配电网多目标协同调度模型电网与清洁能源，（）：，（）：，禹海峰，黄婧杰，蒋诗谣，等计及储能使用年寿命的风电场整体性储能配置电力科学与技术学报，（）：，（）：孙蓉，李强，罗海峰，等基于自适应移动平滑与时间卷积网络误差修正的风电功率预测全球能源互联网，（）：，（）：，（）：，（）：武佳卉，邵振国，杨少华，等数据清洗在新能源功率预测中的研究综述和展望电气技术，（）：，（）：，：，：杨茂，杨春霖，杨琼琼，等计及风向信息的风电功率异常数据识别研究太阳能学报，（）：，（）：，（）：，：，：马然，栗文义，齐咏生风电机组健康状

28、态预测中异常数据在线清洗电工技术学报，（）：，（）：邹同华，高云鹏，伊慧娟，等基于四分位和多点插值的风电功率异常数据处理电力系统自动化，（）：，（）：，（）：，：梅勇，李霄，胡在春，等基于风电机组控制原理的风功率数据识别与清洗方法动力工程学报，（）：吴永斌等：基于方差变化率判据四分位的风电场功率异常数据识别，（）：，（）：朱倩雯，叶林，赵永宁，等风电场输出功率异常数据识别与重构方法研究电力系统保护与控制，（）：，（）：赵永宁，叶林，朱倩雯风电场弃风异常数据簇的特征及处理方法电力系统自动化，（）：，（）：张东英，李伟花，刘燕华，等风电场有功功率异常运行数据重构方法电力系统自动化，（）：，（）：，：，（）：，（）：，：，（）：作者简介：吴永斌吴永斌（），男，博士在读，研究方向为永磁同步电机和高压断路器故障诊断、风功率异常数据识别与清洗、新能源惯量阻尼控制等；张建忠（），男，博士，教授，通信作者，研究方向为新能源发电和电力电子技术（：）；邓富金（），男，博士，教授，研究方向为模块化多电平技术。，（，；，；，）：，（），：；（编辑李栋）

展开阅读全文