收藏 分销(赏)

结合注意力机制与深度强化学习的超短期光伏功率预测_丁正凯.pdf

上传人:自信****多点 文档编号:284598 上传时间:2023-06-30 格式:PDF 页数:8 大小:2.36MB
下载 相关 举报
结合注意力机制与深度强化学习的超短期光伏功率预测_丁正凯.pdf_第1页
第1页 / 共8页
结合注意力机制与深度强化学习的超短期光伏功率预测_丁正凯.pdf_第2页
第2页 / 共8页
结合注意力机制与深度强化学习的超短期光伏功率预测_丁正凯.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1647-1654ISSN 1001-9081CODEN JYIIDUhttp:/结合注意力机制与深度强化学习的超短期光伏功率预测丁正凯1,2,傅启明1,2*,陈建平2,3,4,陆悠1,2,吴宏杰1,方能炜4,邢镔4(1.苏州科技大学 电子与信息工程学院,江苏 苏州 215009;2.江苏省建筑智慧节能重点实验室(苏州科技大学),江苏 苏州 215009;3.苏州科技大学 建筑与城市规划学院,江苏 苏州 215009;4.重庆工业大数据创新中心有限公司,重庆 400707)(通

2、信作者电子邮箱fqm_)摘要:针对传统光伏(PV)功率预测模型受功率随机波动性影响以及易忽略重要信息导致预测精度低的问题,将注意力机制分别与深度确定性策略梯度(DDPG)和循环确定性策略梯度(RDPG)相结合提出了ADDPG和ARDPG模型,并在此基础上提出一个PV功率预测框架。首先,将原始PV功率数据以及气象数据标准化,并将PV功率预测问题建模为马尔可夫决策过程(MDP),历史功率数据和当前气象数据则作为MDP的状态;然后,将注意力机制加入DDPG和RDPG的Actor网络,赋予状态中各个分量不同的权重来突出重要且关键的信息,并通过深度强化学习智能体和历史数据的交互来学习数据中的关键信息;最

3、后,求解MDP问题得到最优的策略,作出准确的预测。在DKASC、Alice Springs光伏系统数据上的实验结果表明,ADDPG和ARDPG在均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R2)上均取得了最优结果。可见,所提模型能够有效提高PV功率的预测精度,也可以推广到其他预测领域如电网预测、风力发电预测等。关键词:深度强化学习;注意力机制;光伏功率预测;深度确定性策略梯度;循环确定性策略梯度中图分类号:TP183;TP391 文献标志码:AUltra-short-term photovoltaic power prediction by deep reinforcement

4、learning based on attention mechanismDING Zhengkai1,2,FU Qiming1,2*,CHEN Jianping2,3,4,LU You1,2,WU Hongjie1,FANG Nengwei4,XING Bin4(1.School of Electronic and Information Engineering,Suzhou University of Science and Technology,Suzhou Jiangsu 215009,China;2.Jiangsu Key Laboratory of Intelligent Buil

5、ding Energy Efficiency(Suzhou University of Science and Technology),Suzhou Jiangsu 215009,China;3.School of Architecture and Urban Planning,Suzhou University of Science and Technology,Suzhou Jiangsu 215009,China;4.Chongqing Industrial Big Data Innovation Center Company Limited,Chongqing 400707,China

6、)Abstract:To address the problem that traditional PhotoVoltaic(PV)power prediction models are affected by random power fluctuation and tend to ignore important information,resulting in low prediction accuracy,ADDPG and ARDPG models were proposed by combining the attention mechanism with Deep Determi

7、nistic Policy Gradient(DDPG)and Recurrent Deterministic Policy Gradient(RDPG),respectively,and a PV power prediction framework was proposed on this basis.Firstly,the original PV power data and meteorological data were normalized,and the PV power prediction problem was modeled as a Markov Decision Pr

8、ocess(MDP),where the historical power data and current meteorological data were used as the states of MDP.Then the attention mechanism was added to the Actor networks of DDPG and RDPG,giving different weights to different components of the state to highlight important and critical information,and le

9、arning critical information in the data through the interaction of Deep Reinforcement Learning(DRL)agents and historical data.Finally,the MDP problem was solved to obtain the optimal strategy and make accurate prediction.Experimental results on DKASC and Alice Springs PV system data show that ADDPG

10、and ARDPG achieve the best results in Root Mean Square Error(RMSE),Mean Absolute Error(MAE)and R2.It can be seen that the proposed models can effectively improve the prediction accuracy of PV power,and can also be extended to other prediction fields such as grid prediction and wind power generation

11、prediction.文章编号:1001-9081(2023)05-1647-08DOI:10.11772/j.issn.1001-9081.2022040542收稿日期:2022-04-21;修回日期:2022-06-13;录用日期:2022-06-15。基金项目:国家重点研发计划项目(2020YFC2006602);国家自然科学基金资助项目(62102278,62072324,61876217,61876121,61772357);江苏省高校自然科学基金资助项目(21KJA520005);江苏省重点研发计划项目(BE2020026);江苏省自然科学基金资助项目(BK20190942)。作者

12、简介:丁正凯(1996),男,江苏盐城人,硕士研究生,主要研究方向:深度强化学习、建筑智能化;傅启明(1985),男,江苏淮安人,副教授,博士,CCF会员,主要研究方向:强化学习、模式识别、建筑节能;陈建平(1963),男,江苏南京人,教授,博士,主要研究方向:建筑节能、智能信息处理;陆悠(1977),男,江苏苏州人,副教授,博士,主要研究方向:下一代网络体系结构、云计算与大数据、区块链;吴宏杰(1977),男,江苏苏州人,教授,博士,主要研究方向:人工智能、数据挖掘、生物信息、工业互联网;方能炜(1980),男,北京人,硕士,主要研究方向:工业大数据;邢镔(1962),男,北京人,博士,主要

13、研究方向:工业大数据分析、智能制造、工业机制模型、人工智能。第 43 卷计算机应用Key words:deep reinforcement learning;attention mechanism;PhotoVoltaic(PV)power prediction;Deep Deterministic Policy Gradient(DDPG);Recurrent Deterministic Policy Gradient(RDPG)0 引言 太阳能作为最受欢迎的可再生能源之一,具有无污染、价格低、易获取和无运输等特点1。随着全球“碳达峰和碳中和”目标的提出,清洁能源得到进一步重视,其中太阳能便

14、是备受关注的能源。太阳能发电主要是光伏(PhotoVoltaic,PV)发电,它能为世界提供清洁能源,在经济社会发展过程中减少对化石燃料的依赖,因此,光伏发电在全球范围内快速增长。太阳能虽然来源广泛,但它极易受光照随机性和昼夜周期性的影响,所以光伏发电系统发电具有不稳定性和不可控性。以上问题均可能会在电力系统的运行、调度和规划中造成严重的混乱,因此,需要对光伏发电功率进行精准预测。而精确度高的光伏功率预测同样会提高光伏电能的有效利用率以及电网运转效率,为减少经济损失提供帮助。光伏预测研究可以通过不同的预测方法实现,包括物理方法、统计方法和深度学习。物理预测方法通常不需要历史数据,而是依赖地理信

15、息、精确的气象数据和完整的光伏电池物理模型信息2;然而由于地理数据分辨率低,很难得到准确的光伏组件的物理模型以及操作参数,导致物理预测方法的精确度不高。统计方法通过建立一种映射关系,使用历史数据来预测未来的功率3;但由于光伏功率的波动性大,导致统计方法的泛化能力不强。近年来,深度学习由于有足够的特征提取和转换能力,得到了大量研究者的关注。文献4 中提出了一种基于人工神经网络的太阳能功率预测模型,并选择气象数据作为模型的输入,但模型精度较低。光伏发电功率的预测属于时间序列预测的范畴,因此文献 5中提出了使用基于长短时记忆(Long Short-Term Memory,LSTM)网络的深度学习方法

16、捕捉太阳辐照度行为,利用日前天气预报数据作为预测输入;然后,利用物理理论建立了辐照度与光伏功率之间的数学模型,实现了间接预测。为进一步提高预测精度,文献 6 中提出Attention-LSTM模型预测超短期光伏功率,利用注意力(attention)机制通过对LSTM的输入特征赋予合理的权重来提高准确率;而且文献 7 中同样利用Attention-LSTM模型预测短期风力发电功率。文献 8中使用模态分解来分解序列,然后利用LSTM预测光伏系统短期发电量。文献 9 中则利用多个深度学习模型预测多个结果,然后利用强化学习(Reinforcement Learning,RL)寻找多个预测模型的最优权重

17、,以此来预测光伏功率值(并未直接使用强化学习预测光伏功率值)。虽然深度学习在光伏功率预测方面取得了大量的研究成果,但受光伏功率波动性以及复杂天气因素等的影响,上述模型仍具有一定的预测误差,得到准确预测结果以及泛化能力强的模型仍然非常困难。深度强化学习(Deep Reinforcement Learning,DRL)作为深度学习和强化学习交叉的一个领域,它整合了深度学习的非线性拟合能力以及强化学习的决策能力,同样活跃在人工智能领域。DRL 在游戏10、机器人11以及其他控制决策领域得到了大量的研究及应用。在PV领域,最近的一些研究工作已经开发了基于 DRL 的模型应用于 PV 系统的优化控制,并

18、取得良好的性能。文献 12 中利用 DRL 方法调度光伏电池储能系统容量,能够在连续动作空间确定具体的充电/放电量,以此确保系统的安全和经济运行。文献 13 提出的基于DRL的光伏系统控制方法能够在部分阴影条件下获取PV系统的最大功率点,使PV系统高效运行,获得最大化效益。综上所述,DRL技术已经应用于PV系统决策控制领域,但在光伏功率预测领域的研究还不多。针对上述问题,本文提出两种基于attention机制的DRL模 型 基 于 attention 机 制 的 深 度 确 定 性 策 略 梯 度(Attention mechanism based Deep Deterministic Pol

19、icy Gradient,ADDPG)模型和基于attention机制的循环确定性策略 梯 度(Attention mechanism based Recurrent Deterministic Policy Gradient,ARDPG)模型来预测光伏功率,将光伏功率预测问题建模成强化学习问题,即将预测问题转化为决策问题。本文系统地研究了 DRL 算法在光伏功率预测中的潜力,对ADDPG和ARDPG模型和其他深度学习模型进行了详细的比较与分析,验证了DRL在PV预测领域的可行性与可靠性。1 相关研究 1.1强化学习强化学习(RL)14是一种通过与环境互动进行的试错学习,目标是使agent在环

20、境互动中获得最大的累积奖励。RL问 题 可 以 建 模 为 马 尔 可 夫 决 策 过 程(Markov Decision Process,MDP),如图1所示。MDP是五元组S,A,r,p1,P:1)S代表状态空间。st S表示智能体(agent)在时刻t的状态。2)A代表示动作空间。at A表示智能体在时刻t选取的动作。3)r:S A R表示奖赏函数。4)p1表示状态的初始分布。5)P:S A S 0,1表示状态迁移概率分布函数。在强化学习中,通常使用:S A 0,1表示策略。()at|st表示在st下选取at的概率。从开始时刻t到情节结束时刻T为止,假设将来每次的奖励乘以折扣因子,回报定

21、义为Gt=k=tTk-trt。状态价值函数和状态-动作价值函数分别定义为:V(s)=|Gtst;和Q(s,a)=|Gtst,at;。agent的目标是找到一个策略来最大化J()=G1|。经典强化学习算法如Q学习便是将Q值存入Q表中,但当环境过于复杂,导致空间维度过大时,经典算法便很难处理这类问题。深度强化学习(DRL)的提出,能够一定程度上解决以上问题。1.2深度确定性策略梯度Lillicrap 等15提出了基于 Actor-Critic 框架的策略梯度DRL 算 法 深 度 确 定 性 策 略 梯 度(Deep Deterministic Policy Gradient,DDPG),主要用于

22、解决连续动作空间的问题。在强化学习中,策略梯度(Policy Gradient,PG)被用来处理连续动作空间问题,PG直接参数化策略(a|s)(Rn),图1MDP示意图Fig.1Schematic diagram of MDP1648第 5 期丁正凯等:结合注意力机制与深度强化学习的超短期光伏功率预测则目标函数变为J()=G1|。Sutton等16提出了如下的随机策略梯度定理:J()=s,aln(s,a)Q(s,a)(1)在随机问题中,由于状态空间和动作空间的整合,随机策略梯度(Stochastic Policy Gradient,SPG)可能需要更多的样本,这也增加了计算成本。Silver等

23、17提出了确定性策略梯度(Deterministic Policy Gradient,DPG)算法,使用确定性策略:S A(Rn),目标函数变为J()=|G1。确定性策略梯度理论如下:J()=s|(s,a)Q(s,a)a=(2)在 DDPG 中,Actor 网络用于评估状态s下选择的动作,Critic 网络用于评估Q(s,a)。DDPG 中有一对 Actor 网络和Critic网络,如图2所示。在线Actor网络和目标Actor网络分别被定义为(|s)和(|s),在线 Critic 网络和目标 Critic网络分别由Q(s,|a Q)和Q(s,|a Q)表示,其中、Q以及Q都是网络参数。如图

24、2所示,agent观察到当前状态s,通过在线 Actor网络执行动作a,动作a继而影响环境,从而agent观察到下一个状态s以及从环境中根据奖赏函数得到奖赏r,从而得到经验样本(s,a,r,s),再将样本存储到经验池中。当经验池达到了一定的容量,agent便开始学习。在线Actor网络则根据在线Critic网络输出的Q值,继而使用确定性策略梯度定理来更新网络参数,并不断接近最优策略来作出最优的动作,目标函数为J()=Q(s,()|s|Q),它的梯度如下:J()=aQ(s,|a Q)a=(s)(|s )(3)Critic网络是用来评估Q值的神经网络,用yi=r(s,a)+Q()s,(|s)|Q定

25、义在线 Critic 网络的目标,yi通过奖赏以及目标 Critic 网络输出的Q值得出。在线 Critic 网络使用以下梯度更新:QL(Q)=(yi-Q(s,|a Q)QQ(s,|a Q)(4)目标 Actor 网络和目标 Critic 网络的参数都采用软更新方法来保证算法的稳定性,如下所示:Q Q+(1-)Q +(1-)(5)其中:是一个远小于1的正数。1.3循环确定性策略梯度在 传 统 的 DDPG 方 法 中,多 层 感 知 器(Multi-Layer Perceptron,MLP)由多层全连接层组成,用于 Actor 网络和Critic网络。但简单的全连接层都是前向传播,并没有记忆的

26、功能,为改善这一问题,将 Actor 网络全连接层替换为LSTM 网络。LSTM 网络18是一种改进的循环神经网络(Recurrent Neural Network,RNN)。由于梯度消失和梯度爆炸的问题,传统RNN的学习能力仍然有限,实际效果往往不理想。LSTM在对有价值信息进行相对长时间记忆的优势使它在时间序列预测中得到广泛应用。LSTM的改进在于引入三个门的概念,结构如图3所示。LSTM模型含有3个输入,分别是当前时刻输入样本xt、上一时刻的短期记忆信息ht-1以及上一时刻的长期记忆信息Ct-1;结构内部有3个门来控制记忆信息与当前信息的遗留与舍弃,分别为遗忘门ft、输入门it和输出门O

27、t:|ft=()wfht-1,xt+bfit=()wiht-1,xt+biOt=()woht-1,xt+bo(6)其中:w、b为控制门的权重矩阵与偏置向量;为 Sigmoid激活函数。由式(6)计算得到 3个控制门的输出后,可以进一步计算得到长期记忆信息Ct、短期记忆信息ht与单元最终输出qt:|Ct=tanh()wcht-1,xt+bcCt=ftCt-1+itCtht=Ottanh()Ctqt=wyht+by(7)其中:tanh()为双曲正切函数;*为Hadamard积。循 环 确 定 性 策 略 梯 度(Recurrent Deterministic Policy Gradient,RDP

28、G)的 Actor 网络由全连接层替换为 LSTM 网络,增加了记忆功能,但 LSTM 的模型参数远大于全连接层的参数,会导致训练时间过长。RDPG与 DDPG唯一不同的地方在于Actor网络的全连接网络替换为LSTM网络,具体模型结构可参考图2。1.4attention机制attention机制19模拟人类大脑如何处理信息,提高了神经网络处理信息的能力。它的本质在于学习出一个对输入特征的权重分布,再把这个权重分布施加在原来的特征上,使任务主要关注一些重点特征,忽略不重要特征,提高任务效率。在输入的序列后加入attention网络,设输入序列向量为E=e1,e2,et,则attention机制

29、的计算公式如下:E=Softmax(WE)E(8)其中:W是权重矩阵,与输入序列E作矩阵运算再经过Softmax激活函数,最后和输入序列相乘得出新序列E。attention机制能突出重要影响的特征,减小无用的特征影响,使模型作出更优的选择,提高预测的准确度。图2DDPG模型Fig.2DDPG model图3LSTM模型结构Fig.3LSTM model structure1649第 43 卷计算机应用1.5基于attention机制的DRL在预测领域中,深度学习凭借强大的非线性能力以及特征提取能力表现出不错的性能。DDPG和RDPG作为深度学习和强化学习的结合体,同时具有这两者的优势。将预测问

30、题建模为一个MDP问题,即将预测问题转化为决策问题,便可通过 DRL 来求解最优问题。DRL 不需要样本标签,而且是动态学习的过程。DRL能够在一个未知的环境中,通过与环境的不断交互学习到其中的关键信息,作出最有利的决策。在光伏功率预测问题中,可以将已有的历史数据建模为一个环境,DRL便可以在该环境中进行训练,在观察到一个未知状态后,DRL agent能够利用所学到的经验知识作出准确的预测。DDPG 和 DRPG 模型都采用 Actor-Critic 架构,其中 Actor网络通过观察当前状态来执行动作,Critic网络则评估当前状态-动作的价值函数,Critic 网络通过更新近似最优的状态-

31、动作价值函数来指导 Actor网络执行动作,同样 Actor网络执行更优的动作使Critic网络学到更加准确的状态-动作价值函数,Actor网络与 Critic 网络互相影响与指导,最终来作出最优的选择。在PV预测问题中,输入量通常为前几个时刻的历史功率数据以及当前的天气数据,其中存在对下一时刻功率影响较大的量,同样也会存在影响较小的量。传统 DDPG 和RDPG中的Actor网络由全连接网络和LSTM网络构成,它们很容易忽略其中的关键信息,从而导致预测精度下降。文献6,8 的研究工作说明,attention机制能够提高模型的光伏功率预测精度,因此,本文考虑将 attention 机制加入 D

32、DPG 和RDPG中的Actor网络中,Actor网络利用attention机制捕捉状态中的重要信息,帮助Actor网络作出最优的动作预测,即给出最准确的光伏功率预测值。2 光伏功率预测模型建模 传统的深度学习模型如卷积神经网络(Convolutional Neural Network,CNN)和 LSTM 虽然有很强的非线性拟合能力,但它们还是缺乏DRL的决策能力,易受功率随机波动性影响,对于某些时刻不能作出准确的光伏功率预测,导致精度下降。而将 attention 机制加入 DRL,使得 DRL agent 能够从当前观察的状态中捕捉到影响光伏功率的关键因素,从而作出准确的光伏功率预测。本

33、章将详细介绍基于 attention 机制的 DRL 的模型ADDPG 和 ARDPG。图 4是本文的研究框架。首先,从案例光伏系统收集功率数据,分辨率为5 min。此外,还引入了影响光伏功率的一些相关的气象数据,以提高预测精度和稳健性。然后,建立数据集,对数据进行预处理。最后输入ADDPG和ARDPG模型进行预测。2.1数据预处理数据预处理过程主要包括两个任务,即异常值检测和数据标准化。模型开发前应移除数据中的异常值,因为这些异常值和低质量的数据会对模型产生负面影响,因此剔除明显不符合实际情况的值后,用线性插值法来完成代替。在数据标准化方面,采用如式(9)的最大最小值归一化,目的是使每个输入

34、特征处于相似的尺度上,有助于在应用预测技术时通过Adam算法找到全局最优。Xnorm=(X-Xmin)(Xmax-Xmin)(9)其中:X为样本值,Xmin为样本中的最小值,Xmax为样本中的最大值,Xnorm即为归一化后的值。2.2MDP建模使用强化学习解决问题,需要先将本次预测问题建模成MDP。在本次研究中,所有的模型预测都是单步预测,即使用前1 h内的所有功率数据以及当前时刻的气候数据作为输入,输出即为当前时刻的预测功率。状态、动作和奖赏定义如下:1)状态空间。状态空间如表 1所示。agent在每个时间步 上 所 观 察 到 的 状 态 向 量 为WSt,TEt,RHt,GHRt,DHR

35、t,WDt,RGTt,RDTt,APt-1,APt-2,APt-13,包括当前时刻的天气和气候状况及前1 h内的功率数据,以此来预测当前时刻的功率输出。状态空间由每个时间步的状态组成。2)动作空间。动作空间由0到22.2的连续功率值组成(该范围根据历史数据设定)。在训练过程中,agent根据观察到的状态输出 0,22.2 中的功率值,输出值即为功率预测值。3)奖赏函数。奖励函数设置如下:rt=-|at-APt(10)其中:APt表示时间步t的实际功率值;at表示agent在时间步t执行的动作即预测功率值。如果输出动作接近实际输出功率,则奖励将接近于零,否则奖励会变小。2.3算法实施一旦光伏功率

36、预测问题转化为决策问题,就可以应用DRL 技术来解决。基于 attention 机制的 DRL 的预测模型的训练框图如图 5所示。在模型中,都是使用前 1 h内的所有功率数据以及当前时刻的气候数据来预测当前时刻的功率。首先将历史光伏数据以及气象数据建立成一个供DRL agent学习的环境;然后agent观察到当前状态s,通过在线Actor网络执行动作a即光伏功率预测值,动作a继而影响环境,从而使agent观察到下一个状态s以及从环境中根据奖赏函数得到的奖赏r,得到经验样本(s,a,r,s)后存储到经验池中。在线Critic网络从经验池中随机选取一小批样本利用式(4)更图4本文研究框架Fig.4

37、Research framework of this paper表1状态空间Tab.1State space参数Wind Speed(WS)Temperature(TE)Relative Humidity(RH)Global Horizontal Radiation(GHR)Diffuse Horizontal Radiation(DHR)Wind Direction(WD)Radiation Global Tilted(RGT)Radiation Diffuse Tilted(RDT)Active Power(AP)时间步长/min555555555单位m/s%w/m2 srw/m2 srA

38、?w/m2 srw/m2 srkW1650第 5 期丁正凯等:结合注意力机制与深度强化学习的超短期光伏功率预测新网络参数,从而逼近最优的Q值;目标Critic网络则通过式(5)软更新网络参数。在线Actor网络根据在线Critic网络输出的Q值,利用确定性策略梯度即式(3)来更新网络参数;目标Actor网络则同样通过式(5)软更新网络参数。最终Actor网络能够观察当前状态并作出最优的动作,即最准确的光伏功率预测。2.3.1 ADDPG 图 6 的 attention 网络由一个全连接层以及 Softmax 激活函数组成。首先,输入向量经过第一个全连接层,然后经过Softmax激活函数得出输入

39、向量中各个分量的权重Wi,再与输入向量作乘法得出新的向量。ADDPG 中的 Actor 网络使用 attention 网络代替全连接层,结构如图 7 所示。使用attention网络结构来代替图中虚线框中的结构,输入向量为观察到的状态st,经过 attention 网络对状态中的各个分量施以不同的权重以捕捉其中重要的信息,从attention网络输出经过一个全连接层再经过 Sigmoid 激活函数得出功率预测值。接着便可使用ADDPG进行光伏功率预测。首先根据式(9)将训练数据归一化,使数据都变换到相似的尺度上。然后,根据算法 1训练模型,详细训练过程描述如下:首先,随机初始化在线Critic

40、网络和在线Actor网络,并将它们的参数复制给相关的目标 Critic 网络和目标 Actor网络;经验池D初始化为空集。对于每一次迭代,状态都会初始化为s0;在每一个时间步长上,动作at基于在线Actor网络选取并在其中添加噪声Nt来增强算法的探索性能,然后从环境中观察到下一个状态st+1,并根据式(8)从环境中得到奖赏rt;将经验样本(st,at,rt,st+1)存储到经验池D中供算法训练;当经验池D中收集到足够多的样本后,便会从中随机选取一小批样本来更新在线 Critic网络和在线 Actor网络的网络参数。其中,在线 Critic 网络的损失函数L是目标 Q值yi和当前 Q 值Q()|

41、si,aiQ的均方误差;在线 Actor 网络则利用采样的确定性策略梯度来更新网络参数。最后,目标Critic网络和目标Actor网络的参数都通过软更新即式(5)以保证算法训练的稳定性。算法1 用于光伏功率预测的ADDPG算法。输入 随机初始化在线 Critic 网络Q(s,|a Q)和在线Actor 网络(|s );将Q(s,|a Q)和(|s )的参数复制给目标 Critic网络Q(s,|a Q)和目标网络Actor(|s );初始化经验池D。输出 光伏功率预测值。For episode=1,2,M doagent观察到初始状态s0,即WS13,TE13,RH13,GHR13,DHR13,

42、WD13,RGT13,RDT13,AP12,AP11,AP0 For t=1,2,T do根据当前策略和探索噪声来选取动作at=()|st+Nt,其中Nt N(0,0.1)根据式(8)得出当前奖赏rt,st+1从环境中观察得到存储transition(st,at,rt,st+1)到经验池D随机从D中选取一小批即n个transition(si,ai,ri,si+1),使yi=r(s,a)+Q()s,()|s|Q通过最小化损失函数L=1ni()yi-Q()si,|aiQ2更新在线Critic网络Q(s,|a Q)通过采样的策略梯度来更新在线Actor网络(|s ):J 1nia|Q()s,|a Q

43、s=si,a=(si)|()|s si利用式(5)软更新目标Critic网络和目标Actor网络end Forend For2.3.2 ARDPG ARDPG 的 Actor 网络使用 attention 网络来代替 LSTM 层后面的全连接层,详细结构如图8所示。输入观察到的状态st经过LSTM层,使用attention网络结构来代替图中虚线框中的结构即全连接层,再经过 Sigmoid激活函数得出功率预测值。通过 attention 机制,LSTM 网络能够筛选出更具有价值的信息,以此来提高预测精度。综上所述,attention网络能够捕捉到状态之间的依赖关系,并且能够给出各个分量的权重以及

44、降低功率的非稳定性,以此来作出准确的预测。然 后 便 可 使 用 ARDPG 来 进 行 光 伏 功 率 预 测。与ADDPG 类似,同样将训练数据根据式(9)归一化,将数据都变换到相似的尺度上;然后,便可根据算法 1来进行训练模图5基于attention机制的DRL的训练框图Fig.5Training block diagram of DRL based on attention mechanism图6Attention网络结构Fig.6Attention network structure图7ADDPG的Actor网络结构Fig.7Network structure of Actor in

45、 ADDPG图8ARDPG的Actor网络结构Fig.8Network structure of Actor in ARDPG1651第 43 卷计算机应用型。ADDPG和ARDPG的唯一区别在ARDPG在Actor网络中使用LSTM网络,其余的训练方式和ADDPG都相同。3 实验与结果分析 本文选用 1B DKASC、Alice Springs 光伏系统数据21,选取2016年4月1日至2016年6月1日的数据进行实验。原始数据的分辨率为 5 min,由于光伏组件在早上和晚上的功率输出明显较低,即大部分时间为0或接近0。因此,只考虑在 6:5518:30的功率,数据被标准化,去掉离群值,使用

46、插值算法根据上下时刻信息对缺失值进行填充。图 9显示了案例数据中连续几天的历史数据。可以看出,中午时的功率最大,上午和下午的功率相对较小,而晚上趋于 0。下载的数据主要包括当前有功功率、风速、天气温度摄氏度、天气相对湿度、水平面总辐射、水平面漫射辐射、风向等。数据集被分成两部分,比例为 8 2,分别用于模型训练和测试。3.1参数设置通过不断的参数调整、组合与寻优,DDPG、RDPG、ADDPG和ARDPG的参数设置如下:学习率为0.001,由于更加关注当前的奖赏,所以折扣因子设为0.1,为0.005,DDPG网络的隐藏层为2个全连接网络,分别有64个神经元和32个神经元,RDPG的LSTM为5

47、0个神经元,attention网络的神经元为 21 个,优化算法均为 Adam,经验池大小均为10 000,采样大小均为 64,强化学习里的超参数为常用参数设置。基于相同的输入变量,本文基于图4的框架还开发了基于 CNN、LSTM、BP 神 经 网 络(Back Propagation Neural Network,BPNN)、DDPG、RDPG、CNN+attention 和 LSTM+attention 的预测模型。LSTM、CNN 和 BPNN 的参数设置如下:LSTM网络有50个神经元;CNN有30个过滤器,卷积核的尺寸为22,步长为2;BPNN为2个全连接网络,分别有64个神经元和3

48、2个神经元,深度学习模型的学习率、优化算法都与DRL模型相同。3.2评估指标本文使用均方根误差(Root Mean Square Error,RMSE)、平均绝对误差(Mean Absolute Error,MAE)和决定系数(R2)评估所提出模型的预测精度。MAE用绝对误差表示实际值和预测值之间的平均偏差,而RMSE表示实际值和预测值残差的标准偏差。MAE和RMSE都是与尺度相关的指数,并在其原始尺度中描述预测误差,值越小代表模型预测越精确。回归模型中通常使用R2来评估回归模型的预测值和实际值之间的拟合度,值越接近1代表模型越精确。上述指标的计算公式如下:RMAE=1Ni=1N|pi-zi(

49、11)RRMSE=1Ni=1N(zi-pi)2(12)RR2=1-i=1N(pi-zi)2 i=1N(z -zi)2(13)其中:zi是时间点i的实际值;pi是时间点i的预测值;z 表示N个实际光伏功率值的平均值;N表示样本数。3.3对比分析3.3.1ADDPG、ARDPG与DDPG、RDPG的比较光伏功率数据和气象数据都是连续数据,这4个模型都能够处理连续问题,它们的奖赏如图 10所示。可以看出在前 10个 episode 内 ADDPG 的奖赏还在上升阶段但最终会收敛,其他三个模型的奖赏在前10个episode内都几乎已经趋于稳定,最终 ADDPG 的奖赏略高于对比模型;ADDPG 和AR

50、DPG的奖赏都要比未加入attention机制的DDPG和RDPG的奖赏要高。这表明attention机制能够提高模型的性能。在开始的几个episode内奖赏都很低,这是由于前期存储经验池随机选取,一旦开始学习,这4个模型很快便能学到数据的关键知识,并能根据当前观察到的状态来选取最优动作,即功率预测值,以得到最大的奖赏,从而作出准确的预测。图 11 显示了单步预测中 9 个模型(包括 CNN、LSTM、BPNN、DDPG、RDPG、CNN+attention、LSTM+attention、ADDPG和 ARDPG)的预测结果。其中:实线表示理想拟合线,表示预测值与真实值相等;两条虚线代表20%

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 医学/化学论文

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服