1、2023 年 29 期创新前沿科技创新与应用Technology Innovation and Application基于 TCN-MHA 的短期光伏功率预测孙永叡1,任晓颖1,2*,张飞1,2,高鹭1,郝斌1(1.内蒙古科技大学 信息工程学院,内蒙古 包头 014000;2.华北电力大学 新能源学院,北京 100000)据国家能源局统计,2022 年 16 月光伏新增并网容量 3 087.8 万 kW,累计并网容量约 3.4 亿 kW,同比增长 26%1。随着光伏并网容量规模的增加,光伏发电的随机性、周期性对电网会产生更大的冲击。准确的光伏功率预测有利于光伏电站及电网合理调度,增加电网消纳光
2、电能力,提高电网稳定性2。光伏功率预测实际上是对非平稳数据流的预判,预测方法可以根据不同的尺度进行分类3。如按照预测过程、预测空间尺度、预测时间尺度,若按照不同的预测形式,可分为点预测、区间预测和概率预测。本研究属于点预测,主要分为物理法、统计法、元启发式学习法等。物理法虽不需详细的历史数据训练模型,但依赖详细的电站地理信息和准确气象数据,且物理公式存在一定的误差,模型抗干扰能力差,鲁棒性不强。统计法相较于物理法,具有建模简单等优势,但该方法由于对早期和近期数据重要性不加区分,所以不能较好地反映特征当前发展趋势,且当有新的数据点出现时,所建模型需要重新确定,不能自行延续。元启发式学习法采用算法
3、对样本数据进行训练得到输入量与输出量的关系,属于人工智能的范畴。常见的元启发式法有深度学习及机器学习法等。许多学者利用经典的循环神经网络(Recurrent Neural Networks,RNN)4-6、长短期记基金项目:内蒙古自治区重点研发和成果转化项目(2022YFSJ0033);内蒙古自治区应用技术研究与开发资金项目(2021GG0046)第一作者简介:孙永叡(1998-),男,硕士。研究方向为深度学习在光伏功率预测领域的应用。*通信作者:任晓颖(1979-),女,博士,副教授。研究方向为可再生能源与清洁能源、控制工程。摘要:光伏发电的波动性和随机性对电力系统安全稳定运行具有不良影响,
4、为提高日前短期光伏功率预测精度进而提升光伏电站运营及电网调度效率,提出一种基于时间卷积神经网络(TCN)结合多头注意力机制(MHA)的光伏功率预测方法。首先 TCN接收数据,利用膨胀卷积的结构改变感受野范围,利用因果卷积的设置提取光伏数据的时序特征;经过升维后输入 MHA 中,选择合适的多头个数,得到多个子空间,将输入特征进行不同维度的空间映射,进一步分配注意力权重;最后降维输入全连接层结合得到的特征信息对次日 24 h 的光伏功率进行预测。实验在实际光伏场站数据上进行,结果表明,所提模型的预测精度优于对比模型。关键词:光伏发电;短期功率预测;深度学习;时间卷积神经网络;注意力机制中图分类号院
5、TM615文献标志码院A文章编号院2095-2945渊2023冤29-0008-05Abstract:The volatility and randomness of photovoltaic power generation have adverse effects on the safe and stable operationof power system.In order to improve the accuracy of short-term photovoltaic power prediction and improve the efficiency ofphotovoltai
6、c power station operation and power grid dispatching,a photovoltaic power prediction method based on temporalconvolutional network(TCN)and multi-head attention(MHA)mechanism is proposed.First,TCN receives the data,uses thestructure of inflated convolution to change the range of receptive field,and u
7、ses the setting of causal convolution to extract thetime series features of photovoltaic data;after upgrading,input into MHA,select the appropriate number of multiple heads,getmultiple subspaces,map the input features in different dimensions,and further assign attention weights.Finally,the character
8、isticinformation obtained from the reduced-dimensional input full connection layer is used to predict the photovoltaic power for 24hours the next day.The experiment is carried out on the actual photovoltaic field station data,and the results show that theprediction accuracy of the proposed model is
9、better than that of the comparison model.Keywords:photovoltaic power generation;short-term power prediction;deep learning;temporal convolutional network(TCN);attention mechanismDOI:10.19981/j.CN23-1581/G3.2023.29.0028-创新前沿科技创新与应用Technology Innovation and Application2023 年 29 期忆网络(Long Short-Term Mem
10、ory,LSTM)7-9和门控循环单元(Gated Recurrent Unit,GRU)10-12取得了大量成果,这些预测模型能够有效提取深层次的数据特征,体现时间序列前后的关联性,被认为是功率预测的首要选择。而 Bai 等13提出了基于卷积神经网络(Convolutional Neural Networks,CNN)的时间卷积神经网络(Temporal Convolutional Networks,TCN),表明了卷积架构在多种任务和数据集上的表现优于典型的循环网络,灵活的感受野展现更长的有效记忆,得出了如今应同时将卷积神经网络作为序列建模任务自然起点的结论,因此,近年来越来越多的学者在时
11、间序列预测任务中使用卷积神经网络及其变体作为首要预测模型。为克服 TCN 在多步预测输出与固定输入之间的不同非线性映射关系难以建立14的不足,本研究基于TCN 建立了深度学习混合模型对日前短期光伏功率进行预测。首先,对数据进行处理,包括数据清洗、数据转换及特征选择;然后对 TCN 和 MHA 进行相关介绍,并对所提深度学习混合模型 TCN-MHA 及预测步骤进行阐述;最后通过算例分析将所提模型与CNN、TCN 及 CNN-LSTM 进行对比,验证所提模型的有效性。1数据处理1.1数据预处理本研究数据集为 DKASC 澳大利亚中部爱丽丝温泉光伏系统 2 号站点 20122015 年数据15,场站
12、装机容量为 26.52 kW,采样周期为 1 h,共 35 064 组数据。首先,对光伏数据中的异常值及缺失值进行处理。通过箱型图检测异常值,采用前值填充法填充异常值及缺失值;数据集中 90%为训练集,10%为测试集,训练集中的 20%为验证集;由于不同特征的量纲不同,为了方便模型训练,使用 Tensorflow 中 MinMaxScaler 方法对数据进行归一化处理,其数学式见式(1)。式中:Xnorm为归一化结果;X 为输入值;Xmax为数据集中对应特征的最大值;Xmin为数据集中对应特征的最小值。1.2数据转换深度学习网络输入数据需要三维,对于光伏数据这类时间序列数据,需要将数据经过滑动
13、窗口。一来可以将数据划分为输入特征和目标特征,转换为有监督学习;二来可以将输入数据转化为三维,实现动态预测。本研究对经滑动窗口的数据进一步遍历筛选,对输入输出数据进行每 24 个样本重新采样,拉长相邻样本数据的间隔,得到无重复的输出数据,方便后续日前功率预测及评估。图 1 为经过滑动窗口前后的数据。图 2 为遍历筛选前后的数据,处理后输出数据(Y)可以获得 1 311 d 独立数据。1.3特征选择由于深度学习算法会挖掘数据潜在特征,本研究结合相关性分析及预测实验进行特征选择。表 1 为各特征与光伏功率的 Pearson 及 Spearman 相关性分析结果。根据相关性分析可以看出两种相关性有相
14、似的趋势,结合以上结果创建 3 组特征,分别为:淤电流相位平均值、有功功率、全球水平辐射和扩散水平辐射。于电流相位平均值、有功功率、全球水平辐射、扩散水平辐射、风速、温度和相对湿度。盂电流相位平均值、有功功率、全球水平辐射、扩散水平辐射、风速、温度、相对湿度、风向和日降雨量。下面基于 3 组特征使用 TCN-MHA 模型进行实验,实验结果见表 2。minnormmaxmin=XXXXX,(1)图 1滑动窗口处理前后数据变化9-2023 年 29 期创新前沿科技创新与应用Technology Innovation and Application表 1相关性分析结果渊保留 4 位小数冤表 2各特征
15、组合实验结果结合表 2 可以看出组合 3 的预测效果最好,因此最终选择电流相位平均值、有功功率、全球水平辐射、扩散水平辐射、风速、温度、相对湿度、风向和日降雨量作为输入特征,将特征进行筛选有利于提升模型预测精度和训练速度。2预测模型2.1时间卷积神经网络渊TCN冤TCN 由因果卷积、膨胀卷积及残差连接组成,不仅具有并行性、因果性等特点,还具有灵活的感受野,所以适合处理时间序列数据。图 3 为 TCN 中因果膨胀卷积示意图。图 3TCN 中因果膨胀卷积对于输入序列 X=(x1,x2,xn),其中 xi为列向量,i沂1,n;过滤器 F=(f1,f2,fK);下式给出 x 在 t 时刻的膨胀卷积计算
16、公式式中:d 为膨胀系数;k 为过滤器个数。卷积运算过程多数据可同时与卷积核做内积,加快模型处理数据的速度。TCN 感受野可以灵活调整,其大小可以根据卷积核尺寸 Ksize、膨胀系数 d 及残差块数量 Nstack进行调整。下式给出感受野的计算过程,(3)式中:撞di为残差块中堆叠的卷积层数。由于 TCN 可灵活调整感受野,因此深层 TCN 训练稳定性需要重视。深层网络容易出现梯度消失和梯度爆炸的问题而残差连接被证明是训练深层网络的有效方法。因此,研究者设计 TCN 模型时,使用了一个残差块来代替一层卷积。一个残差块为经过一系列变换 F 的输出与块的输入相加,如式(4),(4)式中:O 为残差
17、块输出;Activation 为激活函数;x 为残差块的输入;F为非线性变换。综上所述 TCN 网络适合处理时间序列数据,但TCN 在提取输入序列的多尺度时空特征及挖掘多步预测输出和固定输入之间的不同非线性映射关系方面面临困难14,因此,基于 TCN 构建深度学习混合模型可能会使预测精度进一步提升。2.2多头注意力机制渊MHA冤给定相同的查询、键和值的集合时,若想要模型能基于相同注意力机制学习到不同的行为,然后将不同的行为组合起来,例如捕获序列内各种范围的依赖关系,那么允许注意力机制组合使用查询、键和值的不同的子空间表示是一种有效的方法。MHA 与使用单独的一个注意力池化不同,其可以独立学习得
18、到 h 组不同图 2筛选前后数据变化项目 相关系数(Pearson)相关系数(Spearman)电流相位平均值 0.999 7 0.910 2 有功功率 1.000 0 1.000 0 全球水平辐射 0.919 0 0.838 2 扩散水平辐射 0.512 2 0.781 5 风速 0.402 4 0.480 4 温度 0.365 9 0.360 1 相对湿度-0.399 4-0.371 0 风向-0.052 9-0.151 3 日降雨量-0.053 8-0.042 1 特征组合 实验结果 MAE RMSE 组合 1 0.691 1.662 组合 2 0.700 1.698 组合 3 0.66
19、1 1.651 fieldsizestack12(1)iRKNd Activation()Ox+F x*()1()()()Ktdtktd KkkF xXFxfx,(2)X0X1X2Xt-2Xt-1XtY赞0Y赞1Y赞2Y赞t-2Y赞t-1Y赞t10-创新前沿科技创新与应用Technology Innovation and Application2023 年 29 期的线性投影来变换查询、键和值;然后,h 组变换后的查询、键和值将并行地进行注意力池化;最后,将这 h个注意力池化的输出拼接在一起,通过另一个可学习线性投影进行变换,以产生最终输出。h 个注意力池化输出中每一个输出都被称作一个头。图
20、4 为多头注意力模型。图 4多头注意力机制模型用数学语言描述该模型:给定查询 q沂dq,键 k沂dk和值 v沂dv,每个注意力头 hi,i沂1,h的计算方法为,(5)式中:wi(q),wi(k),wi(v)为可学习参数;f 为注意力池化函数。多头注意力的输出需要经过另一个线性转换,对应 h个头拼接结果,如式(6),其可学习参数是 wo。基于这种设计,每个头可能会关注输入的不同部分,因此,MHA可表示比简单加权平均更复杂的函数。(6)2.3所提模型 TCN-MHA所提模型由 TCN、MHA 及全连接等部分组成。首先 TCN 接收光伏数据后进行第一次的特征提取,调整感受野,以提取当前时刻光伏功率对
21、多特征长期历史数据的依赖关系,同时 TCN 中的残差块解决了梯度消失及梯度爆炸等问题。经过 RepeatVector 层将 TCN 提取到的特征信息进行复制以进行升维。之后输入 MHA中,找寻不同维度下的相互依赖关系,使用缩放点积公式计算注意力,对特征信息赋权。经过 Flatten 层融合特征信息进行降维。最后经过两层全连接,第一层结合以上信息,进行第二次特征提取,而后输入到第二层,经过第二层训练得到光伏功率预测序列。图 5 为所提模型结构框图。图 5TCN-MHA 模型结构框图3算例分析3.1算例介绍本研究使用 Tensorflow 深度学习框架。为验证所提模型的有效性,本研究将 CNN、T
22、CN 及 CNN-LSTM作为对比模型。历史窗口长度为 72,预测窗口长度为24,即用过去 3 d 数据预测未来 1 d 光伏功率。经调参确定各模型参数,具体见表 3(未列出参数为默认值)。表 3各模型参数设置3.2评估指标为评估各模型预测性能,使用均方根误差(RMSE)和平均绝对误差(MAE)两种评估指标。其表达式见式(7)及式(8)v(q)()(v)p(q,)kiiiihfkvwww?o1pohhhw?网络层 参数设置 CNN:CNN:Conv1D filters=128,kernel_size=7,activation=relu MaxPooling1D Conv1D filters=6
23、4,kernel_size=5,activation=relu MaxPooling1D Flatten Dense units=64 LeakyReLU alpha=0.01 Dropout Rate=0.3 Dense units=24 TCN:TCN:TCN nb_filters=128,kernel_size=13,nb_stacks=1 Dense units=120 LeakyReLU alpha=0.01 Dropout Rate=0.4 Dense units=24 CNN-LSTM:CNN-LSTM:Conv1D filters=128,kernel_size=7,activ
24、ation=relu MaxPooling1D LSTM units=128,activation=relu Dense units=120 LeakyReLU alpha=0.01 Dropout Rate=0.4 Dense units=24 TCN-MHA:TCN-MHA:TCN nb_filters=128,kernel_size=13,nb_stacks=1 RepeatVector n=3 MultiHeadAttention head_num=32 Flatten Dense units=120 LeakyReLU alpha=0.01 Dropout Rate=0.4 Dens
25、e units=24?211()niRMSEiinyy?11niiiMAEnyy,(7),(8)Scaled Dot-Product Attention11-2023 年 29 期创新前沿科技创新与应用Technology Innovation and Application式中:yi为光伏功率实际值,y赞i为光伏功率预测值,n 为样本数量。两种评价指标均为回归任务中常用的评价指标。RMSE 放大了误差之间的差距,易受到极端值的影响,MAE 对异常值的敏感度较低,能较好地反映预测值与真实值之间误差的实际情况。3.3预测结果分析各模型预测评价结果见表 4。从表 4 可以看出所提模型具有最佳预测精
26、度,TCN的预测精度优于 CNN。具体来讲所提模型相较于CNN,MAE 和 RMSE 指标分别提升了 8.79%及 6.52%;相较于 TCN,分别提升了 3.95%及 5.29%;相较于CNN-LSTM 分别提升了 1.25%及 2.05%。TCN 作为基于 CNN 的模型,预测表现优于 CNN,而深度学习混合模型 CNN-LSTM 优于 TCN,TCN-MHA 优于其他模型,可以看出合理的模型组合有利于提升模型预测精度。表 4各模型评价结果各模型连续 3 天功率预测曲线见如图 6 所示。图 6预测曲线从图 6 可以看出所提模型对光伏功率真实值曲线的拟合最优,其次是 CNN-LSTM,TCN
27、 优于 CNN,该图直观地体现了各模型的预测效果。4结束语本研究针对日前短期光伏功率预测建立了深度学习混合模型 TCN-MHA。将数据通过滑动窗口后进行筛选;结合实验及相关性分析进行特征选择;使用 TCN及 MHA 提取数据特征并将输入的特征信息进行不同维度的空间映射,找寻不同维度下的相互依赖关系,进而使用全连接层充分学习,建立多特征输入与光伏功率的非线性映射,从而实现日前短期光伏功率的动态预测。最终通过实验证明了所提模型在本数据集中预测精度相较于 CNN、TCN 及 CNN-LSTM 均有提升。参考文献院1 2022 年上半年光伏发电建设运行情况EB/OL.http:/ 张翼鹏援电力调度 可
28、以预测J.中国战略新兴产业,2021(3):14-16.3 赖昌伟,黎静华,陈博,等援光伏发电出力预测技术研究综述J.电工技术学报,2019,34(6):17.4 刘敬,高志建.应用神经网络法预测光伏系统发电功率J.大功率变流技术,2010,405(3):28-32.5 AKHTER M N,MEKHILEF S,MOKHLIS H,et al.Anhour-aheadPVpowerforecastingmethodbasedonanRNN-LSTMmodelforthreedifferentPVplants J.Energies,2022,15(6):2243.6 LATEKO A A H,
29、YANG H T,HUANG C M,et al.Stackingensemble method with the RNN meta-learner for short-termPV power forecastingJ.Energies,2021,14(16):4733.7 QINGX,NIUY.Hourlyday-aheadsolarirradiancepredictionusingweatherforecastsbyLSTM J.Energy,2018,148(APR.1):461-468.8 CHENH,CHANGX.PhotovoltaicpowerpredictionofLSTM
30、model based on Pearson feature selection J.EnergyReports,2021(7):1047-1054.9 ZHEN H,NIU D,WANG K,et al.Photovoltaic powerforecasting based on GA improved Bi-LSTM in microgrid withoutmeteorological informationJ.Energy,2021(231):120908.10 LAGO,JESUS,DE,et al.Forecasting spot electricity prices:Deeplea
31、rningapproachesandempiricalcomparisonoftraditionalalgorithmsJ.APPLIEDENERGY-BARKINGTHEN OXFORD-,2018.11 DAI Y,WANG Y,LENG M,et al.LOWESS smoothingandRandomForestbasedGRUmodel:Ashort-termphotovoltaic power generation forecasting methodJ.Energy,2022(256):124661.12 GUOHAI L,WENQING S,ZHENFEI W,et al.Sh
32、ort-term photovoltaic power forecasting based on attention-grumodelJ.Acta Energiae Solaris Sinica,2022,43(2):226.13 BAI S,KOLTER J Z,KOLTUN V.An empirical evaluationof generic convolutional and recurrent networks for sequencemodelingJ.arXiv preprint arXiv:1803.01271,2018.14 LUO H,DOU X,SUN R,et al.A
33、 multi-step predictionmethod for wind power based on improved TCN to correctcumulative errorJ.Frontiers in Energy Research,2021(9):723319.15 DKA 太阳能中心EB/OL.https:/.au/source/alice-springs/dka-m11-3-phase.CNN TCN CNN-LSTM TCN-MHA MAE 0.694 0.659 0.641 0.633 RMSE 1.686 1.664 1.609 1.576 1218243036424854606672601614121086420测试样本/h真实值CNNTCNCNN-LSTMTCN-WHA12-