1、发电机作为风机核心部件,其温度过热往往是发电机故障的综合表现,业界和学术界对风机发电机温度预测做了很多的研究。该文在前人研究的基础上,对发电机温度时序预测模型构建中的多个环节进行了深入优化:通过数据集转换将时间序列数据集转换为有监督学习数据集,进而采用有监督学习算法;风机的实时测量值有数百个之多,通过量化自变量和因变量之间的非线性关系,进行更合理的特征筛选,剔除与预测目标弱相关或不相关的特征;基于无监督学习算法,实现了训练集中异常数据的自动过滤,并通过对数十个风场数据质量的统计分析,剔除影响建模精度约 5%的脏数据;最后构建多个算法模型,并通过在相同计算环境上的横向对比实验,以均方误差、解释方
2、差、R2 score 作为衡量模型精度的指标,从各种建模算法中选择精度较高的算法。提出的一系列改进措施为提高风力发电机温度时序预测模型精度提供了参考。关键词:风力发电机;时序预测;数据变换;特征优选;孤立森林;XGBoost中图分类号:TP181;TK83摇 摇 摇 摇 文献标识码:A摇 摇 摇 摇 摇 摇 文章编号:1673-629X(2023)09-0215-06doi:10.3969/j.issn.1673-629X.2023.09.032Optimization of Wind Turbine Generator Temperature Time SeriesPrediction Me
3、thodWANG Yan-guo1,QIN Guan-jun1,LAN Jin-jiang2(1.NR Electric Co.,Ltd.,Nanjing 211101,China;2.China Three Gorges Renewables(Group)Co.,Ltd.,Beijing 100032,China)Abstract:As the core component of the wind turbine generator,the overheating of the generator is often the comprehensive performanceof the ge
4、nerator fault.The industry and academia have done a lot of research on the temperature prediction of the wind turbine generator.Based on previous research,we have deeply optimized several links in the construction of the generator temperature time series predictionmodel:the time series dataset is co
5、nverted into a supervised learning dataset through dataset conversion,and the supervised learningalgorithm is used.There are hundreds of real-time measured values of generator.Through quantifying the nonlinear relationship betweenindependent variables and dependent variables,more reasonable feature
6、screening is carried out to eliminate the features that are weaklyrelated or unrelated to the prediction target.Based on the unsupervised learning algorithm,the automatic filtering of abnormal data in thetraining set is realized,and through the statistical analysis of the data quality of tens of win
7、d farms,the dirty data that affects the modelingaccuracy by about 5%is eliminated.Finally,several algorithm models are constructed.Through horizontal comparison experiments inthe same computing environment,mean square error,explanatory variance and R2 score are used as indicators to measure the accu
8、racy ofthe model,and algorithms with higher accuracy are selected from various modeling algorithms.A series of improvement measuresproposed provide a reference for improving the accuracy of wind turbine generator temperature time series prediction model.Key words:wind turbine generator;time series p
9、rediction;data conversion;feature optimization;isolation forest;XGBoost0摇 引摇 言近年来,国内风电行业发展迅速,随着风电装机容量的增加和精细化运维要求的提升,风机故障成为业主越来越关注的问题。发电机作为核心部件,其温度过热往往是发电机故障的综合表现1。目前学术界已开展了发电机温升故障预警和风机主轴承故障预测的研究1-5、风机齿轮箱故障预测的研究6-8。上述研究在筛选智能算法的自变量时,尚未交代自变量筛选的第 33 卷摇 第 9 期2023 年 9 月摇 摇 摇 摇 摇 摇 摇 摇 摇 摇计 算 机 技 术 与 发 展CO
10、MPUTER TECHNOLOGY AND DEVELOPMENT摇 摇 摇 摇 摇 摇 摇 摇 摇 摇Vol.33摇 No.9Sep.摇 2023原则。同时,工程中正常的风机 scada 样本数据本身存在着数据缺失、数据异常等各种情况9,这些异常数据会对机器学习算法的精度产生很大的影响,但实际生产环境下,又无法仅靠人工和固定规则做数据剔除,而上述文献也尚未给出剔除异常数据的自动化手段。除了风机本体部件健康状况外,环境因素(如风速、气压、环境温度等)是决定 风机运行工 况的重要原因2,10,而环境因素的变化趋势在小时级时间粒度上是随机性的,ARIMA(差分整合移动平均自回归模型,Autoreg
11、ressive Integrated Moving Average model)等单维度的时序预测算法很难收到预期的效果,风力发电机温度时序预测的研究中必须考虑多维度的影响因素。该文基于业务场景明确了自变量和因变量的非线性关系,并在此基础上采用合适的算法做特征筛选;分析了多维时序数据集到有监督学习数据集变换的可行性,从而把多维时序预测转化为回归算法模型;随着风机的老化、环境的变化等影响,风机发电机温度与其特征变量之间的对应关系也在发生变化,工程中需要定期基于近期数据自动更新预测模型,面对庞大的样本集和多样的异常数据,该文把 iForest(孤立森林,Isolation Forest)算法11-
12、12引入模型训练流程,实现了异常数据剔除的自动化;最后通过多种算法的对比,明确了 2 阶 Ridge 回 归、XGBoost(极 端 梯 度 提 升,eXtreme Gradient Boosting)算法13-14在本场景中的优越性。1摇 基本理论1.1摇 数据集变换本场景的原始数据为时间序列数据集,时序预测是根据前 k 步的数据来预测第 k+1 步至第 k+h 步的值。对此,可以把前 k 步的数据视为自变量 X,第 k+1 第 k+h 步的数据视为因变量 Y,转化为有监督学习数据集,进而使用有监督学习算法。首先,根据业务规律和预测需求确定参数 k 和 h(为简化说明,该文以 h=1 为例做
13、说明)。对于时间序列数据集中相邻的 k+1 个 向量 Xt,Xt+1,Xt+k-1,Xt+k,构建 Xt,Xt+1,Xt+k-1与 Xt+k的子集Yt+k之间的对应关系矩阵,如公式(1)。则对于样本数量为 n 的时间序列数据集,构建出的有监督学习数据集样本数量为 n-k。X1XkX2Xk+1左Xn-kXn-1寅Yk+1Yk+2左Yn摇(1)其中,左侧自变量矩阵中每个 X 元素为 r 维向量(r 逸1),整个矩阵为(n-k)*k*r 的 3D 张量,在利用回归算法构建预测模型时,自变量矩阵需进一步转化为(n-k)*(k*r)的 2D 张量。实际使用中,可根据需要舍弃第 2 k 列,以便简化自变量
14、矩阵;右侧因变量矩阵中每个 Y 元素为 s 维向量(r 逸 s 逸1),整个矩阵为(n-k)*s 的 2D 张量。1.2摇 特征优选算法风机的实时测量值有数百个之多,若把这些数据全用于模型输入,会大大增加建模计算的复杂度,并极易引起过拟合问题。对此需要特征优选,剔除与预测目标弱相关或不相关的特征。考虑到线性关系是非线性关系的特例,该文以风机发电机温度与其特征向量之间为非线性关系为前提,使用 spearman 相关系数15-17和随机森林平均不纯度减少算法18-20为特征优选工具。spearman 相关系数是一种无参数检验方法,用于度量变量之间联系的强弱。在没有重复数据的情况下,如果一个变量是另
15、外一个变量的严格单调函数,则 spearman 秩相关系数就是+1 或-1,称变量完全 spearman 秩相关。对原始数据 xi,yi按从大到小排序,记 xi,yi为原始 xi,yi在排序后列表中的位置,xi,yi称为 xi,yi的秩次,秩次差 di=xi-yi,spearman 秩相关系数公式见公式(2)。随机森林平均不纯度减少方法也可用于特征优选,随机森林由多个决策树构成,决策树中的每一个节点都是关于某个特征的条件,为的是将数据集按不同的响应变量一分为二。利用不纯度可以确定节点(最优条件),对于回归算法,通常采用方差或最小二乘拟合。当训练决策树时,可以计算出每个特征减少了多少树的不纯度。
16、对于一个决策树组成的森林来说,可以算出每个特征平均减少了多少不纯度,并把它平均减少的不纯度作为特征选择的指标。籽=1-6移d2in(n2-1)摇(2)其中,n 为样本数量。1.3摇 iForest 数据过滤算法iForest 算法11-12是基于集成学习的快速异常检测方法,属于无监督学习,由多个 iTree(isolation Tree,孤立树)分类器组成,每个 iTree 是一个二叉树结构。在构建 iTree 时,先对数据集 D 随机选取一个特征 f,并在该特征的取值范围内随机选取一个分割点 p,按特征 f 把 D 分割为左右两部分,若 di(f)p,则数据di 被划分在右子树,反之则划分在
17、左子树,循环递归直到每个数据与其他数据完全分割开或达到最大树层次。风电 scada 数据中,异常数据要远少于正常数据,则异常数据会更靠近树的根节点,根据实际数据集中612摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷异常数据的出现机率实现数据过滤。2摇 风力发电机温度时序预测所述优化方法的完整流程如图 1 所示。本节选用风电集控系统中某风场某风机 2021 年 10 月的 125 个遥测量每 10 分钟采样的共计 4 464 条记录为样本数据集,以未来 30
18、 分钟的最高发电机温度最大值为预测目标进行建模。图 1摇 风力发电机温度时序预测方法优化流程2.1摇 原始样本数据集变换先从业务角度出发,选择 2021 年 10 月 1 日到10 日之间的“最高发电机温度最大值冶以及与此紧密相关的“平均风速冶“平均有功功率冶“平均发电机转速冶4 个数据每个整 30 分钟 1 条记录,共计 480 条记录进行数据透视(见图 2,横轴为测点记录序号)和ADF 检验(见表 1)21-22,可知除发电机转速外,其他数据本身非平稳序列,即:本数据集中选取 k 大于 1 的连续多步自变量数据,对因变量的预测精度提升并没有帮助,该文选取 k=1。表 1摇 样本集关键数据
19、ADF 检验时序向量ADF检验值非平稳概率Pvalue 值拒绝原假设ADF 参考值最高发电机温度最大值-2.484 40.119 31%:-3.4465%:-2.86810%:-2.57平均风速-2.6050.091 971%:-3.445 65%:-2.868 310%:-2.570 4平均有功功率-2.055 70.262 71%:-3.445 65%:-2.868 310%:-2.57平均发电机转速-3.2180.019 01%:-3.445 65%:-2.86810%:-2.5702?0001?5001?0005000图 2摇 关键量测值曲线摇 摇 首先,从 125 个遥测特征向量中基
20、于业务背景去除明显与目标无关的特征,比如风向角度、故障累积时长初值等;然后做数据重采样,基于 10 分钟数据集构建 30 分钟数据集,再按照 1.1 节所述的数据集变换方法以 k=1 把 2021 年 10 月 1 日 0 点 0 分 2021 年 10月 31 日 23 点 0 分时间序列样本数据集转换为包含1 487条记录的有监督学习样本数据集。2.2摇 特征优选把数据变换得到的有监督学习样本数据集经spearman 相关系数算法15-17得到特征向量与目标向量之间的相关性见表 2,经随机森林算法得到的特征权重见表 3。712摇 第 9 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 王言国
21、等:风力发电机温度时序预测方法优化表 2摇 各特征与目标向量的 spearman 相关系数序号特征spearman相关系数1最高发电机温度最大值(30 分钟前)0.862平均发电机温度 10.843平均风速0.784平均有功功率0.785平均发电机转速0.776平均发电机前轴承温度 10.617平均发电机前轴承温度 20.618平均变桨柜 2 温度0.419平均变桨柜 1 温度0.4010平均变桨柜 3 温度0.3911平均变桨电机 1 温度0.3212平均变桨电机 2 温度0.3213平均变桨电机 3 温度0.3214平均变桨电容 1 温度0.3215平均变桨逆变器 1 温度0.3216平均
22、变桨电容 2 温度0.3117平均变桨电容 3 温度0.3118平均变桨逆变器 2 温度0.3119平均变桨逆变器 3 温度0.3120平均水冷出阀压力0.2521平均水冷进阀压力0.2422平均环境温度-0.2323最高机舱温度-0.1924平均发电机后轴承温度 10.1125平均发电机后轴承温度 20.1026最高 Topbox 温度0.07表 3摇 基于随机森林平均不纯度减少方法的特征权重序号特征权重1最高发电机温度最大值0.642 22平均发电机温度 10.278 93平均有功功率0.024 94平均发电机转速0.011 55平均风速0.011 46平均变桨电机 3 温度0.005 5
23、7最高机舱温度0.003 68平均环境温度0.002 69平均变桨逆变器 1 温度0.001 610平均发电机前轴承温度 10.001 611平均水冷出阀压力0.001 512平均变桨电容 1 温度0.001 513平均发电机后轴承温度 20.001 414平均发电机前轴承温度 20.001 415最高 Topbox 温度0.001 316平均变桨电机 2 温度0.001 217平均变桨逆变器 3 温度0.00118平均变桨柜 3 温度0.001续表 3序号特征权重19平均发电机后轴承温度 10.00120平均水冷进阀压力0.000 921平均变桨柜 2 温度0.000 922平均变桨电机 1
24、 温度0.000 823平均变桨逆变器 2 温度0.000 724平均变桨柜 1 温度0.000 725平均变桨电容 3 温度0.000 526平均变桨电容 2 温度0.000 4摇 摇 在随机森林平均不纯度减少方法中,对于相关联的多个特征,其中任意一个都可以作为指示器(优秀的特征),并且一旦某个特征被选择之后,其他相关联特征的重要度就会急剧下降,因为不纯度已经被选中的那个特征降下来了,其他的特征就很难再降低更多不纯度,这样一来只有先被选中的那个特征重要度很高,其他的关联特征重要度往往较低,比如“平均变桨电容 2 温度冶在表 2 中排第 16 位,而在表 3 中排在第26 位,即为此原因。综合
25、表 2、3 的特征权重量化数据,兼顾“减少特征向量中相关联的多个特征冶和“去除权重小的特征冶两个原则,最终剔除“平均变桨电容2 温度冶“平均变桨电容 3 温度冶“平均变桨逆变器2 温度冶“最高 Topbox 温度冶“平均发电机后轴承温度 1冶共计 5 个向量,特征个数缩小为 21 个。2.3摇 异常数据过滤风场 scada 系统中的数据质量受到以下因素的影响:(1)作为数据源头的风机主控送出的数据本身存在小概率的错误,比如在诸多风机型号上都发现过的发电量数据跳变问题。(2)数据以风机主控为源头,经过风机能量管理系统、风场网关机、集控通信服务器等多个数据传输环节,中间难免出现通信中断等异常情况,
26、造成最终的数据失真或错误。经过对多个风电集控项目中数十个风场数据质量的研究统计,得到风电集控 scada 中坏数据出现的机率一般在 3%5%之间,该文的场景可用数据充足,以脏数据过滤比例为 5%做 iForest 模型训练和预测,做脏数据的剔除。2.4摇 时序预测模型优选以 4 颐 1 的比例把上述数据集切分为训练集和测试集,分别构建 2 阶多项式 ridge 回归23、多层感知机(MLP)回归24、XGBoost 回归13-14、基于 LSTM 构建深度学习多维时序预测网络模型25-27,在同一计算环境下进行横向对比实验,以均方误差、解释方差、R2score 作为衡量模型精度的指标。以上 4
27、 种预测模型812摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷超参数全部经网格搜索得到近似最优模型,最终各模型精度见表 4。模型精度指标中,均方误差 MSE 是Mean Squared Error 的简写,是预测数据偏离真实值差值的平方和的平均数,值越小代表模型预测越准确,算法见公式(3)。可解释方差 Evar 是 Explained Variance的简写,衡量的是所有预测值和样本之间的差的分散程度与样本本身的分散程度的相近程度,值越接近 1表示预测值和
28、样本值的分散分布程度越相近,模型预测越准确,算法见公式(4)。R2 score 又名决定系数,算法见公式(5),值可以为负值,值越接近 1,代表模型预测效果越好。分析可知在该场景下深度学习模型比MLP 简单神经网络要好,但 2 阶 Ridge 回归、XGBoost回归在更少的计算资源消耗下,取得了更好的效果。图 3 展示了对 1 487 条样本按 1/5 的比例取得的 297条测试集用 4 种方法建模预测数据与实际数据的对比。表 4摇 各模型预测精度预测方法均方误差可解释方差R2 score同等硬件资源训练耗时/sMLP 回归15.6610.8570.8540.922LSTM13.8100.8
29、820.87642.3772 阶 Ridge 回归12.7010.8890.8860.790XGBoost 回归8.6520.9200.92018.660图 3摇 测试实际数据与各模型预测数据曲线对比摇 摇MSE=1n移ni=1(yi-yi)2(3)其中,n 为样本数量,yi为第 i 个样本的实际值,yi为第 i 个样本的预测值。摇 摇Evar=1-移ni=1(yi-yi)-E(yi-yi)2移ni=1(yi-軃y)2(4)其中,n 为样本数量,yi为第 i 个样本的实际值,yi为第 i 个样本的预测值,軃y 为样本集平均值,E 表示求均值。摇 摇R2=1-MSE1n移ni=1(yi-軃y)2
30、(5)其中,n 为样本数量,yi为第 i 个样本的实际值,軃y 为样本集平均值,MSE 即公式(3)所示的均方误差。3摇 验证分析以单纯 spearman 做特征优选过滤掉最后 5 个特征、不做脏数据过滤,以 2 阶 Ridge 回归、XGBoost 回归构建预测模型,在同一计算环境下进行横向对比实验,其模型精度见表 5 优化前后的对比。表 5摇 优化前后各模型预测精度预测方法均方误差可解释方差R2 score同等硬件资源训练耗时/s2 阶 Ridge 回归(优化前)13.5000.8750.8740.8302 阶 Ridge 回归(优化后)12.7010.8890.8860.790XGBoo
31、st 回归(优化前)9.4680.9100.91119.230XGBoost 回归(优化后)8.6520.9200.92018.660912摇 第 9 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 王言国等:风力发电机温度时序预测方法优化摇 摇 由表 5 可知,优化后 2 阶 Ridge 回归模型的均方误差降低了 0.8,可解释方差、R2 score 在 0.870 精度基础上分别提高了 0.014、0.012,计算耗时降低了 5%左右。XGBoost 回归模型的均方误差降低了 0.8,可解释方差、R2 score 在 0.910 精度基础上分别提高了0.010、0.009,计算耗时降低了 3
32、%左右。4摇 结束语该文在前人研究的基础上对风力发电机温度时序预测建模过程进行了多环节的优化,通过数据集转换将时间序列数据集转换为有监督学习数据集,通过量化自变量和因变量之间的非线性关系进行更合理的特征筛选,基于无监督学习算法实现了异常数据剔除的自动化,通过多种回归模型的对比优选出精度更高的预测算法。本研究成果已应用于多个新能源集控工程项目,实现了风力发电机温度超限提前预警,预测效果良好。同时,作者把该优化方法应用于风机轴承温度超限提前预警、风力发电机机舱温度超限提前预警等多个类似的场景,同样提高了预测精度。该数据转换案例是以时间步数 k=1、预测步数 h=1 来组织数据集的,未来可结合不同应
33、用场景,研究更长时间步数的数据集转换应用效果。参考文献:1摇 刘摇 轩,孙建平.风力发电机温升故障预警方法研究J.电力科学与工程,2016,32(6):38-43.2摇 于建国,岳占岐,边摇辉,等.基于 BP 神经网络的风力发电机温升故障诊断研究J.微电机,2020,53(2):32-36.3摇 王桂兰,赵洪山,米增强.XGBoost 算法在风机主轴承故障预测中的应用J.电力自动化设备,2019,39(1):73-77.4摇 GUO Peng,INFIELD D,YANG Xiyun.Wind turbine gener鄄ator condition monitoring using temp
34、erature trend analysisJ.IEEE Transactions on Sustainable Energy,2012,3(1):124-133.5摇PEYMAN M,MIAN D,BERTLING T L,et al.A healthcondition model for wind turbine monitoring through neuralnetworks and proportional hazard modelsJ.Proceedings ofthe Institution of Mechanical Engineers,Part O.Journal ofRis
35、k and Reliability,2017,231(5):481-494.6摇FU J,CHU J,GUO P,et al.Condition monitoring of windturbine gearbox bearing based on deep learning modelJ.IEEE Access,2019,7(1):57078-57087.7摇 刘跃飞,黄细霞,宋摇虎,等.风力发电系统的风机齿轮箱故障预测研究J.计算机仿真,2019,36(3):124-127.8摇 姚摇 亮,郭摇 刚.数据驱动的风机齿轮箱油路系统故障诊断方法J.新型工业化,2019,9(4):6-11.9摇
36、遇摇 茜,钱摇 政,聂志鹏.风机异常及缺失数据的填补方法研究术J.电测与仪表,2020,57(23):1-8.10 MAIK R,JULIO J M,NURSEDA Y Y.Data-driven learningframework for associating weather conditions and wind tur鄄bine failuresJ.Reliability Engineering&System Safety,2018,169:554-569.11 王摇 诚,狄摇 萱.孤立森林算法研究及并行化实现J.计算机技术与发展,2021,31(6):13-18.12 吴志强
37、,张摇 胜,包晓玲,等.针对 WSN 异常数据检测改进的孤立森林方法J.小型微型计算机系统,2021,42(1):127-131.13 赵洪山,闫西慧,王桂兰,等.应用深度自编码网络和 XG鄄Boost 的风电机组发电机故障诊断J.电力系统自动化,2019,43(1):81-86.14 刘摇 波,秦摇 川,鞠摇平,等.基于 XGBoost 与 Stacking 模型融合的短期母线负荷预测J.电力自动化设备,2020,40(3):147-153.15 贾摇 科,杨摇 哲,魏摇超,等.基于斯皮尔曼等级相关系数的新能源送出线路纵联保护J.电力系统自动化,2020,44(15):103-111.16
38、王开军,黄添强.基于趋势秩的 Spearman 相关方法J.福建师范大学学报:自然科学版,2010,26(1):38-41.17 金摇 林,李摇 研.几种相关系数辨析及其在 R 语言中的实现J.统计与信息论坛,2019,34(4):3-11.18 冯晓荣,瞿国庆.基于深度学习与随机森林的高维数据特征选择J.计算机工程与设计,2019,40(9):2494-2501.19 李光华,李俊清,张摇亮,等.一种融合蚁群算法和随机森林的特征选择方法J.计算机科学,2019,46(z2):212-215.20 SUN Wenqing,DENG Aidong,DENG Minqiang,et al.Mult
39、i-view feature fusion for rolling bearing fault diagnosis usingrandom forest and autoencoderJ.Journal of Southeast Uni鄄versity:English Edition,2019,35(3):302-309.21 管河山,邹清明,罗智超.时间序列平稳性分类识别研究J.统计与信息论坛,2016,31(4):3-8.22 于寄语,向镜洁.LSTAR 框架下一类针对单位根原假设的F 检验J.统计与信息论坛,2018,33(1):29-35.23 王俊迪,许蕴山,彭摇芳,等.基于岭回归的
40、红外协同定位优化算法J.北京航空航天大学学报,2020,46(3):563-570.24 余摇 辉,陈志聪,郑摇 巧,等.利用多层感知机和 I-V 特性的光伏组件建模方法J.福州大学学报:自然科学版,2021,49(3):336-342.25 柯摇 铭,刘摇 凯,赵摇 宏.基于 LSTM 的滚动预测风机发电量研究J.计算机应用与软件,2020,37(5):67-71.26 曹渝昆,巢俊乙,王晓飞.基于 LSTM 神经网络的风机齿轮带断裂故障预测J.测量与检测技术,2019,41(4):92-95.27 王摇炜,刘宏伟,陈永杰,等.基于 LSTM 循环神经网络的风力发电预测J.可再生能源,2020,38(9):1187-1191.022摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷