收藏 分销(赏)

基于具有强化学习思想的集成学习自动发电控制算法.pdf

上传人:自信****多点 文档编号:639114 上传时间:2024-01-22 格式:PDF 页数:9 大小:3.12MB
下载 相关 举报
基于具有强化学习思想的集成学习自动发电控制算法.pdf_第1页
第1页 / 共9页
基于具有强化学习思想的集成学习自动发电控制算法.pdf_第2页
第2页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 17 卷 第 7 期2023 年 7 月南方电网技术SOUTHERN POWER SYSTEM TECHNOLOGYVol.17,No.7Jul.2023基于具有强化学习思想的集成学习自动发电控制算法席磊,杜雄,李彦营,李浩恺(三峡大学电气与新能源学院,湖北 宜昌 443002)摘要:“碳达峰、碳中和”加速以新能源为主体的新型电力系统快速发展,大规模新能源的接入将使电力系统的控制性能变差。从自动发电控制角度提出了一种新颖的基于集成学习的EBQ(,)算法来获得全局最优解,进而提高电网差的控制性能指标。所提算法不仅能够通过降低下一状态Q值的均方误差来解决传统强化学习估值偏差问题,且所引入的采样

2、参数可对提高算法效率及更好的训练样本进行权衡,同时,资格迹的引入,可以解决时间信分度问题。通过对改进的IEEE标准两区LFC模型和广东电网模型进行仿真,结果显示,相较于传统算法,所提算法具有更优的控制性能指标,并且可减少碳排放。关键词:集成学习;自动发电控制;强化学习;控制性能指标Automatic Generation Control Algorithm Based on Ensemble Learning with the Idea of Reinforcement LearningXI Lei,DU Xiong,LI Yanying,LI Haokai(College of Electr

3、ical Engineering and New Energy,China Three Gorges University,Yichang,Hubei 443002,China)Abstract:Carbon Peak,Carbon Neutralization accelerates the rapid development of new energy-based power systems.With the access large-scale new energy,it will make the control performance worse.In this paper,a no

4、vel EBQ(,)algorithm based on ensemble learning is proposed to obtain global optimal solution from the perspective of automatic generation control,which can improve the poor control performance standard(CPS)of the grid effectively.The proposed algorithm can not only solve the problem of traditional r

5、einforcement learning estimation bias by reducing the mean squared error of Q value in the next state,but also the introduced sampling parameter can weigh between improving the efficiency and better training samples.Meanwhile,the application of eligibility trace can solve the problem of time credit.

6、Ultimately,the proposed algorithm is simulated to be effective in the improved IEEE standard two-area LFC power system model and the Guangdong power grid model.The results show that compared with the traditional algorithm,the proposed method is characterized with exceptional CPS and less carbon emis

7、sion.Key words:ensemble learning;automatic generation control;reinforcement learning;control performance standard0引言“双碳”目标加速以新能源为主体的新型电力系统快速发展。然而具有极强的间歇性和不确定性的大规模新能源的接入将给电网带来强的随机扰动。同时,随着越来越多的插入式电动汽车(plug-in electric vehicles,PEV)在不同时间、不同地点通过充电桩并网,其动态变化的过程会造成电网的控制性能指标(control performance standard,CPS

8、)变差。学者们试图从自动发电控制(automatic generation control,AGC)1-3角度探索新的控制方法使系统在高强随机扰动下安全稳定运行。AGC 发展至今已形成了两类方法体系,即传统解析式法4-5和机器学习法6-9。传统解析式法主要依靠区域控制误差(area control error,ACE)单一指标确定总的调节功率,从而确定AGC机组的出文章编号:1674-0629(2023)07-0074-09 中图分类号:TM732文献标志码:ADOI:10.13648/ki.issn1674-0629.2023.07.009基金项目:国家自然科学基金资助项目(51707102

9、)。Foundation item:Supported by the National Natural Science Foundation of China(51707102).第 7 期席磊,等:基于具有强化学习思想的集成学习自动发电控制算法力,其中最具普适性的控制方法为PID(proportion integral derivative)算法及其改进算法。文献 4 提出了一种滑模PI法,该法通过解决PI控制的控制模式的单一问题,从而保证系统的渐进稳定。文献5 提出了一种带有微分算子的模糊 PID 控制法,在多区域互联电力系统中,该控制法能对负荷的扰动问题作出更快的反应,从而有效降低暂态频

10、率振荡。然而,随着新能源以及规模化PEV的接入,传统解析式法难以获得合格的CPS性能。又因机器学习能在环境中不断探索试错,累计经验以获取最优控制策略,基于机器学习的 AGC 算法应运而生,其中基于马尔科夫过程的强化学习法6被学者们研究得最为广泛。文献 7 提出了具有多步回溯资格迹的Q()算法,有效地处理了火电机组中出现的大时滞环节,从而解决了Q表更新时回报延时的问题。文献 8 提出了基于平均奖励模型的多步R()算法,能够在复杂扰动环境下具有较强的在线适应性和动态优化能力。文献 9 提出了结合狼爬山策略算法和具有时间隧道思想的PDWoLF-PHC()算法,通过引入变学习率,可获取多智能体系统整体

11、学习的效率最大化。然而上述的以Q学习为框架体系所衍生的强化学习方法皆通过迭代最大化自举过程来获得最优控制策略,从而导致正估值偏差。文献 10 通过引入双估计值,提出了去耦“动作选择”和“动作评估”相结合的双重Q学习,避免了正估值偏差。然而该算法又不可避免地导致负估值偏差问题,正、负估值偏差都不利于算法探索至最佳策略。文献11通 过 使 用 集 成 估 计 值 的 集 成 自 举 Q 学 习(ensemble bootstrapped Q learning,EBQL)算法,基于降低估值偏差本身的思想,通过降低下一状态Q值的均方误差,很好地解决了估值偏差问题。学者们在强化学习长期探索过程中试图寻求

12、一种算法,既可以有效减少采样数据以提高算法的效率,又可以更好地训练样本,以快速收敛到局部最优解。文献 12 通过引入采样参数,在偏向于提高算法效率的属于在轨策略的TD-Sarsa算法和偏向于更好训练样本的属于离轨策略的 Expected-Sarsa算法之间进行权衡,提出了Q()算法来解决上述问题。因此,本文基于集成学习的EBQL引入采样参数,同时引入可以解决时间信分度问题的资格迹来加速算法收敛,进而提出能够获得全局最优解的EBQ(,)(ensemble bootstrapped Q(,)learning)算法,来提高强随机扰动所导致电网差的CPS性能。通过在改进IEEE标准两区域负载频率控制(

13、load frequency control,LFC)模型和广东电网模型中进行仿真,验证了所提算法的有效性。1EBQ(,)算法1.1EBQL算法Q学习是一类基于马尔可夫决策过程的无模型强化学习算法,Q学习中使用贝尔曼最优方程13不断去迭代计算状态和行动的价值函数继而得到每个状态的值函数Q。Qt+1(st,at)=(1-)Qt(st,at)+(r+maxaQt(st+1,a)(1)式中:为学习率,要求01;为折扣因子,同样要求01;st为状态量的第t次迭代值;at为动作量第t次迭代值;a为下一时刻最大动作值;Qt+1(st,at)为在处于状态st执行动作at的Q值;r为智能体在转移过程中环境的立

14、即奖励值。Q学习根据Q值函数直接选择最优动作会使Q值过高,进而会导致较差的控制效果。为此,学者们通过引入双估计值,提出了双重Q学习 14(double Q learning,DQL)算法来避免正估值偏差。算法中将样本值平均分成两个互不相关的子集,其中一个子集中的样本用来动作选择,另一个用来样本评估,并选择两个值函数Q(1)和Q(2)进行随机迭代更新,更新方式如下。Q(1)t+1(st,at)=(1-)Q(1)t(st,at)+(r+maxaQ(2)t(st+1,a)(2)Q(2)t+1(st,at)=(1-)Q(2)t(st,at)+(r+maxaQ(1)t(st+1,a)(3)虽然 DQL能

15、有效解决 Q值高估问题,但是由于DQL将样本平均分成两个子集,故当用于动作评估的样本过多时,动作选择的样本自然相应减少,最终会导致Q值低估,从而影响智能体的探索学习,同样会导致较差的控制效果。为此,文献 15 提出了EBQL来解决Q值高估以及低估的问题。EBQL 巧妙地运用了集成学习法,创新性地将将样本平均分成K组互不相关的子集,在实际应用中发现当样本偏向于进行动作选择75南方电网技术第 17 卷时而非动作评估时,EBQL在下一个状态的Q值更新中产生了更小的均方误差,能有效地平衡动作选择和动作评估过程中产生的误差,最终获得更佳的控制效果,故 EBQL 用 1 组样本进行动作评估,(K-1)组进

16、行动作选择,并使用K个值函数进行随机迭代更新,其更新方式如下。Q(k)t+1(st,at)=Q(k)t(st,at)+(r+Q(ave)t-Q(k)t(st,at)(4)Qavet=1K-1 (maxai 1,2,3k-1,k+1K-1,K Q(i)t(st+1,a)(5)式中Qtave为下一状态动作对的Q值。EBQL可通过改变K的大小来控制该算法的性能,从而避免 Q 学习中 Q 值高估的同时,避免了DQL中Q值低估,进而获得最优的控制效果。1.2EBQ(,)算法TD-Sarsa是一种常见的一步在轨策略时序差分学习16(temporal difference learning,TD)算法,其更

17、新值函数只采取-贪婪(-Greedy)策略,更新方式如下。Qt+1(st,at)=Qt(st,at)+(r+Qt(st+1,at+1)-Qt(st,at)(6)式中:r+Qt(st+1,at+1)称为TD目标,奖励值加下一状态动作对的折扣值组成。属于离轨策略的 Expected-Sarsa样本采集时使用-贪婪策略,评估与优化时使用贪婪策略,Expected-Sarsa的值函数更新方式如下。Qt+1(st,at)=Qt(st,at)+(r+a(a|st+1)Qt(st+1,a)-Qt(st,at)(7)式中(a|st+1)表示在下一状态选择最大动作值时的策略。在轨策略由于策略的一致性可有效提高算

18、法的效率;离轨策略的不一致性会破坏样本之间的联系,但能更好地训练样本。文献 12 通过引入采样参数 将 TD-Sarsa 和 Expected-Sarsa 相结合以平衡“提高效率”和“训练样本”,提出了 Q()算法,Q()对 TD-Sarsa 和 Expected-Sarsa 中的 TD 目标进行加权平均,通过参数来控制权重,其值函数更新方式如下。Qt+1(st,at)=Qt(st,at)+(r+-Qt(st,at)(8)=Qt(st+1,at+1)+(1-)a(a|st+1)Qt(st+1,a)(9)式中:r+为加权平均后的TD目标;为加权后的下一状态动作对。然而,Q()在值函数迭代更新时仅

19、仅只考虑往前探索一步,虽然可以达到局部最优,但由于无法兼顾到下一步之后的所有情况,往往无法达到全局最优,从而产生较大的均方差。因此本文试图引入了可以探索 步的 Q(),其值函数更新方式如下。Qt+1(st,at)=Qt(st,at)+(rt+-Qt(st,at)(10)rt=rt+1+rt+2+2rt+3+-1rt+(11)式中:rt为奖励值;为折扣因子。上述的向前探索步的Q()需要等到走完一个循环才能更新值函数,无法做到实时更新。因此本文通过引入资格迹策略来解决Q()时间信分度问题,使向前看步的Q()同时拥有了“向后看”的能力,资格迹的更新方式如下。Et+1(st,at)=Et(st,at)

20、(+(1-)(at+1|st+1)+1,Qt(st+1,at+1)=maxaQt(st+1,a)Et(st,at)(+(1-)(at+1|st+1),其他(12)式中 Et+1(st,at)为处于状态 st执行动作 at的资格迹值。那么,Q(,)算法的值函数更新方式如下:Qt+1(st,at)=Qt(st,at)+(rt+-Qt(st,at)Et+1(st,at)(13)因此,本文基于EBQL引入采样参数和资格迹,提出了EBQ(,)算法。其值函数更新的方式如下。Q(k)t+1(st,at)=Q(k)t(st,at)+(rt+(k)-Q(k)t(st,at)Et+1(st,at)(14)(k)=

21、Qavet(st+1,at+1)+(1-)a(a|st+1)Qavet(st+1,a)(15)式中上标k为第k个值函数更新时的值。76第 7 期席磊,等:基于具有强化学习思想的集成学习自动发电控制算法2基于EBQ(,)算法的AGC设计基于EBQ(,)的分布式AGC系统架构如图1所示,Pord-i为EBQ(,)控制器总功率调节指令,对于图 1联络线和频率偏差模式下的 AGC 系统,常用北美电力可靠性委员会提出的 CPS 标准17来进行评估。2.1奖励函数的设计为了满足CPS的长期稳定以及长期收益的最大化,同时考虑到大气污染问题,将ACE和碳排放(carbon emission,CE)作为综合目标

22、函数。故奖励函数如下。r=-(E2ACE(t)+(1-)i=1j(BiPi(t)1000)Pmini Pi(t)Pmaxi (16)式中:为奖励权重系数,本文中取=0.5;EACE(t)、Pi(t)分别为第t次迭代时ACE和输出功率的瞬时值;Pimin和Pimax分别为输出功率瞬时值的最大值和最小值;j为机组数;Bi为第i个机组的CE系数,t/kWh,对于火电机组,当 Pi600 MW时,Bi取 0.87,当 300 MWPi600 MW 时,Bi取 0.89,当 Pi300 MW 时,Bi取 0.99,对于水电机组,Bi取0;区域电网的CE值等于机组输出功率乘以CE强度系数。2.2参数设置要

23、得到最优的控制效果,需要对AGC控制器的参数进行合理的设置。1)学习率(01),表示算法在迭代时稳定性和收敛速度之间的权衡,接近1则趋于快速收敛,接近0则趋于稳定,为了保证稳定的同时具有较快的学习速度,并通过仿真试错,故取为0.5。2)折扣因子 (01),表示算法奖励的未来衰减值,接近1则趋于考虑长期奖励,接近0则趋于考虑即时奖励,为了保证长期奖励,并通过仿真试错,故取为0.9。3)混合策略(01),表示算法中所用-贪婪策略中采取贪婪策略和随机选择的概率,-贪婪策略以的概率采取贪婪策略,以1-概率采取随机选择,为了在预学习阶段通过较高随机性进行探索,在在线运行阶段通过低随机性打破局部最优,并通

24、过仿真试错,在两个阶段分别取0.45和0.9。4)采样权重(01),表示算法中TD目标是TD-Sarsa和Expected-Sarsa的权重系数,接近1则TD目标趋于选择Expected-Sarsa,接近0则趋于选择TD-Sarsa,通过仿真试错,具有中等的效果最好,故取0.5。5)资格迹衰减因子(01),表示算法在状态动作对间分配信誉,接近1则趋于分配更多信誉给历史状态动作对,接近0则趋于分配更少,通过仿真试错,取为0.95。6)样本分组数K(K为自然数),K一般大于2,考虑较大的K会影响算法效率,通过仿真试错,本文取K为4。2.3算法流程EBQ(,)的算法流程如表1所示。图1基于EBQ(,

25、)的分布式AGC系统架构Fig.1Distributed AGC system architecture based on EBQ(,)表1EBQ(,)算法流程Tab.1Algorithm flow of EBQ(,)Input:不同负荷扰动Output:总功率指令Pord-iInitialize:状态-动作对、状态集、动作值、K个值函数、奖励函数、资格迹更新函数,设置参数:,K,令t=0。Repeat:(1)基于-贪婪策略选择并执行动作at;(2)观察下一时刻的状态st+1;(3)根据式(16)计算奖励值;(4)从Q(1)+Q(2)+Q(K)选择动作选取策略,并执行;(5)取mU(1,K+1

26、),令s=m;(6)当s=k时,根据式(14)和式(15)随机更新第k个值函数;(7)由式(12)更新资格迹;(8)更新状态集以及动作集;(9)令t=t+1,返回步骤(1);End77南方电网技术第 17 卷3仿真研究3.1改进的IEEE标准两区域LFC模型本文对IEEE标准两区域LFC模型18进行改进,模型中火电机组和小水电机组作为电网调频的主要机组,飞轮储能作为辅助调频机组,改进IEEE标准两区域LFC模型中装机容量如表2所示(由于两个区域机组参数一样,故只列出一个区域的参数)。由于光伏发电、风电、电动汽车的随机性和不可控性,作为随机负荷接入,其中光伏发电由模拟全天光照强度的变化建立出力模

27、型,风电使用白噪声模拟的随机风作为输入,电动汽车采用方波信号模拟其出力 19-21。改进的IEEE标准两区域LFC模型如图2所示,参数如表3所示,其中Pkmax、Pkmin分别为机组装机容量的最大值和最小值。3.1.1正弦预学习预学习过程中,控制器需要进行大量探索试错之后才能直接投入到真实环境中。本文引入周期为1 200 s、幅值为1 000 MW的正弦信号进行预学习训练,图3为A区域EBQ(,)预学习和正式运行效果。图 3(a)为控制器的输出,EBQ(,)在1 000 s就可稳定地跟踪上正弦负荷扰动;图4(b)为10-min ACE变化曲线图,由该图可知EBQ(,)在经历了短暂的波动之后,其

28、预学习10-min ACE在3 000 s附近趋近于0,且稳定在3 MW以内;由图3(c)可知,EBQ(,)的频率能很快地到达合格范围且波动很小;同样地,由图3(d)可得,EBQ(,)能让 CPS1 指标快速收敛且小幅波动。综上所述,在正弦预学习阶段,本文所提算法在多方面表现出了优异的性能,从而提高了系统运行时的稳定性。3.1.2随机阶跃和白噪声扰动经过预学习之后就可以投入系统中进行正式运行。目前新能源大量运用于现代电力系统中,当未知新能源突然接入电网或者与电网断开时,会引起电网多次突变,因此分别在1 000、4 000、7 000 s时引入随机阶跃扰动,进行20 000 s(图中仅截了前10

29、 000 s)考核,以模拟大规模新能源突然接入或者表2IEEE标准两区域LFC模型机组相关参数Tab.2Parameters of the generators in the improved IEEE standard two-area LFC model区域A机组类型火电水电机组编号G1G2G3G4G5G6G7G8G9G10Pkmax/MW500330125125150150150280120120Pkmin/MW-500-330-125-125-150-150-150-280-120-120图2IEEE标准两区域LFC系统Fig.2IEEE standard two-area LFC s

30、ystem表3改进IEEE标准两区域LFC模型相关参数Tab.3Parameters of the improved IEEE standard two area LFC model机组类型火电机组小水电机组参数调速器时间常数 Tg/s发动机时间常数 Tt/s二次延时时间 TSH/s伺机电动机时间常数 TWP/s伺机增益 KS永态转差系数 RT复位时间TR/s暂态转差系数RP机组启动时间TWH/s频率响应等效函数系数KP频率响应等效函数时间常数TP/s联络线时间常数T12/s数值0.080.330.04510.3110.00012202.478第 7 期席磊,等:基于具有强化学习思想的集成学习

31、自动发电控制算法断开电网的情况,来评估 EBQ(,)、PDWoLF-PHC()、DQL、Q 4种算法的性能,图4为4种算法在随机阶跃扰动下的输出及控制性能对比图。由图 4(a)可知,相比于其他 3 种算法,EBQ(,)输出的更加平滑和稳定,说明其能更加有效地保证机组在遭遇突变后恢复至稳定的运行状态。由图 4(b)中联络线的交换功率偏差变化曲线可发现,当系统发生突变时,EBQ(,)产生的偏差时间更短、波动更小。由图 4(c)(d)可得,EBQ(,)算法控制下的系统20 000 s平均CPS1值相比其 他 3 种 算 法 分 别 提 高 了 0.005%、0.023%、0.246%,|ACE|平

32、均 值 分 别 降 低 2.324%、18.841%、67.051%,这些数据表明 EBQ(,)算法具有很好的性能。引入白噪声作为负荷扰动,模拟接入未知新能源的随机负荷扰动情况,以20 000 s(图中仅截取了前10 000 s)的负荷扰动为考核指标。4种算法的指标如图5所示,由图5(a)可知,与其他算法相比,图3A区正弦负荷扰动下预学习和正式运行效果Fig.3Pre-learning and online operating effects under sinusoidal load disturbance of Area A图4A区随机阶跃负荷扰动下不同算法的性能指标Fig.4Perfor

33、mance indexs under random step load disturbance of area A79南方电网技术第 17 卷EBQ(,)的波动时间和波动幅度最小,CPS1值能快速稳定到最优水平(200%);由图 5(b)(c)可得,EBQ(,)可 降 低 频 率 均 方 差 38.462%、92.793%、36.000%,减少CE值57.319%、61.581%、61.846%,有效地提高系统控制性能,减少了CE值。3.2广东电网仿真模型近年来,随着大量电动汽车入网,由于PEV并网规模的扩大,其移动的充电模式不仅给电网稳定带来波动20,还可利用其数量庞大、广泛分散的储能电池参

34、与到电网的调频中来21-23。在文献 24 模型基础上,本文搭建了新增PEV参与调频的广东电网模型,如图 6所示,PEV 调频模型如图 7所示,参数如表4所示。施加幅值不超过5 000 MW的随机负荷扰动来模拟未知大规模新能源随机接入电网的情况,进行24 h 仿 真,EBQ(,)、PDWoLF-PHC()、DQL、Q 4种算法的输出效果对比如图8所示(选粤西区域做仿真对比,仅取前6 h),由图8可明显看到,4种算法控制下虽然最后机组出力都可以跟踪扰动,但EBQ(,)能更加准确且快速地响应负荷变化,同时能一直维持平稳跟踪。在模型中引入随机脉冲扰动(振幅1 000 MW,周期1 200 s),进一

35、步模拟未知大规模新能源连续随机性突增突减的情况,进行24 h仿真,仿真结果如表5所示,对比其他算法,EBQ(,)的24 h平均 CPS 合格率提高了 0.479%4.377%,24 h 平均|ACE|值降低了 31.941%67.733%,24 h平均频率偏差|f|值降低了20.859%80.365%,24 h平均CE图5A区白噪声扰动下不同算法的控制性能Fig.5Performance indexs under the white noise load disturbances of area A图6广东电网仿真模型Fig.6Simulation model of Guangdong pow

36、er grid图7PEV调频模型Fig.7Frequency regulation model of PEV80第 7 期席磊,等:基于具有强化学习思想的集成学习自动发电控制算法值减少了 24%38.211%,结果表明,本文所提算法可有效提高系统的性能。4结论本文提出了一种面向AGC系统的EBQ(,)算法,以解决大规模新能源并网所带来的强随机扰动以至于AGC差的控制性能。所提算法是在一种新颖的基于集成学习并结合强化学习的算法,通过引入采样参数来对“提高算法效率”及“更好的训练样本”进行权衡以快速获得局部最优解,同时引入可以解决时间信分度问题的资格迹来加速算法收敛,进而能够快速获得全局最优解。通

37、过在所搭建的两区域和四区域模型中分别引入正弦波、随机阶跃等多种形式的负荷扰动来进行实时仿真,通过与传统的强化学习算法进行比较,EBQ(,)都表现出了更强的适应性,能更加有效地应对各种强随机扰动,有效地提高了电网的CPS性能并降低CE。但是本文所用的EBQ(,)仅用于获取系统总功率指令,在功率分配时仍然采用可调容量等比例分配法,未实现全局智能化,因此将在下一步研究中引入智能算法来分配功率,实现真正意义的智能化。参考文献1BORBA B S M C,SZKLO A,SCHAEFFER R.Plug-in hybrid electric vehicles as a way to maximize t

38、he integration of variable renewable energy in power systems:the case of wind generation in northeastern BrazilJ.Energy,2012,37(1):469-481.2LUND H.Large-scale integration of wind power into different energy systems J.Energy,2005,30(13):2402-2412.3SUH J,YOON D H,CHO Y S,et al.Flexible frequency opera

39、tion strategy of power system with high renewable penetrationJ.IEEE Transactions on Sustainable Energy,2016,8(1):192-199.4MOHANTY P K,SAHU B K,PATI T K,et al.Design and analysis of fuzzy PID controller with derivative filter for AGC in multi-area interconnected power system J.IET Generation,Transmis

40、sion&Distribution,2016,10(15):3764-3776.5赵熙临,林震宇,付波,等.预测优化 PID 方法在含风电电力系统 AGC 中的应用 J.电力系统及其自动化学报,2019,31(3):16-22.ZHAO Xilin,LIN Zhenyu,FU Bo,et alApplication of predictive optimization PID method to AGC of power system with wind power J Proceedings of the CSU-EPSA,2019,31(3):16-22.6WANG P,TANG H,LV

41、 K.Simulation model for the AGC system of isolated microgrid based on Q-learning method C/2018 IEEE 7th Data Driven Control and Learning Systems Conference(DDCLS),May 25-27,2018,Enshi,China.表4PEV仿真参数Tab.4Simulation parameters of PEV参数下垂控制增益Kp时间常数Tc/sPEV额定容量Er/AhPEV充电电流Ich/APEV初始储能SOC值/%PEV电池内阻RP/PEV

42、电池极化电阻Rt/PEV电池极化电容Ct/F数值0.0480.0566.2150150.0740.047703.6图8不同算法输出对比Fig.8Comparison of outputs of different algorithms表5随机脉冲扰动下仿真性能指标对比(粤东)Tab.5 Comparison of simulation performance indexes under the impulsive perturbations(Eastern Guangdong)算法EBQ(,)PDWoLF-PHC()DQLQCPS1值/%197.138188.508198.115197.092

43、CPS2值/%100.00094.44597.22299.306CPS合格率/%100.00095.80799.49199.523|ACE|值/MW21.78167.50332.00339.797|f|值/Hz0.012 90.034 80.016 30.065 7频率合格率/%99.88299.80099.87499.703CE值/(tkWh-1)0.1520.2460.2120.20081南方电网技术第 17 卷New York:IEEE,2018:1213-1217.7XI L,LI Y,HUANG Y,et al.A novel automatic generation control

44、 method based on the ecological population cooperative control for the islanded smart gridJ.Complexity,2018:1-17.8吴新,史军,马伟哲,等.基于极限 Q 学习算法的微电网自动发电控制 J.新型工业化,2019,9(4):22-26.WU Xin,SHI Jun,MA Weizhe,et al.Automatic generation control of micro grid based on extreme Q-learning algorithmJ.The Journal of

45、New Industrialization,2019,9(4):22-26.9XI L,CHEN J F,HUANG Y H,et al Smart generation control based on multi-agent reinforcement learning with the idea of the time tunnel J Energy,2018(153):977-98710席磊,周礼鹏.分布式多区域多能微网群协同 AGC 算法 J.自动化学报,2020,46(9):1818-1830.XI Lei,ZHOU Lipeng.Coordinated AGC algorithm

46、 for distributed multi-region multi-energy micro-network group J Acta Automatica Sinica,2020,46(9):1818-1830.11LEE K,LASKIN M,SRINIVAS A,et al.Sunrise:a simple unified framework for ensemble learning in deep reinforcement learning R.arXiv preprint arXiv:2007.04938,2020.12SUTTON R S,BARTO A G.Reinfor

47、cement learning:an introduction M.USA:MIT Press,2018.13BELLMAN R.A Markovian decision processJ.Journal of Mathematics and Mechanics,1957:679-684.14WANG Z,SCHAUL T,HESSEL M,et al.Dueling network architectures for deep reinforcement learning C/International Conference on Machine Learning,May 2-4,2016,

48、Tokyo,Japan.New York:PMLR,2016:1995-2003.15PEER O,TESSLER C,MERLIS N,et al.Ensemble bootstrapping for Q-Learning C/International Conference on Machine Learning,July 18-24,2021,Washington.New York:PMLR,2021:8454-8463.16SUTTON R S.Learning to predict by the methods of temporal differences J.Machine Le

49、arning,1988,3(1):9-44.17JALEELI N,VANSLYCK L S.NERCs new control performance standards J.IEEE Transactions on Power Systems,1999,14(3):1092-1099.18RAY G,PRASAD A N,PRASAD G D.A new approach to the design of robust load-frequency controller for large scale power systems J.Electric Power Systems Resea

50、rch,1999,51(1):13-22.19伍双喜,谭嫣,刘思宁,等.风电机组参与调频的系统频率响应模型 J.南方电网技术,2022,16(10):48-56.WU Shuangxi,TAN Yan,LIU Sining,et al.System frequency response model with wind turbines participating in frequency regulation J.Southern Power System Technology,2022,16(10):48-56.20闫威,李南,沈月秀,等.基于CNN-GAN与半监督回归的电动汽车充电负荷预测

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服