收藏 分销(赏)

基于MATSAC-LSTM的综合能源系统自动发电控制算法研究.pdf

上传人:自信****多点 文档编号:1978830 上传时间:2024-05-13 格式:PDF 页数:8 大小:3.71MB
下载 相关 举报
基于MATSAC-LSTM的综合能源系统自动发电控制算法研究.pdf_第1页
第1页 / 共8页
基于MATSAC-LSTM的综合能源系统自动发电控制算法研究.pdf_第2页
第2页 / 共8页
基于MATSAC-LSTM的综合能源系统自动发电控制算法研究.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 卷 第 期 智 能 计 算 机 与 应 用 年 月 文章编号:()中图分类号:文献标志码:基于 的综合能源系统自动发电控制算法研究李 昊,荣 娜,邓棋宸(贵州大学 电气工程学院,贵阳)摘 要:为提高综合能源系统自动发电控制(,)的控制性能和算法收敛速度,本文提出了一种基于多智能体迁移柔性行动器批判器与长短时记忆网络(,)的 控制法。首先,用 网络将采集的区域控制误差等环境状态量进行时序特征提取,并作为 算法的输入,使智能体能结合历史信息进行快速的有功功率分配决策;其次,采用集中训练分散执行框架,将一个智能体观察的环境状态量以及其他智能体的动作信息作为相应智能体 网络的输入,以便训练时能够让

2、多智能体之间共享信息;最后,通过迁移学习将旧任务训练的 和 网络模型参数转移到新任务相应模型参数中,以提高智能体的训练效率。算例分析在一个修改的 标准两区域负荷频率控制系统模型和一个五区域综合能源系统模型展开,仿真结果表明,与比例积分微分、学习、双延迟深度确定性策略梯度、基于动态策略的赢或快速学习爬坡策略、柔性行动器批判器等传统算法相比,本文所提 算法提高了 控制性能标准和算法收敛速度,降低了系统的区域控制误差和频率偏差。关键词:综合能源系统;迁移学习;柔性行动器批判器;集中训练分散执行 ,(,)【】(),(),【】;?哈尔滨工业大学主办系统开发与应用基金项目:贵州省科学技术基金();贵州省优

3、秀青年科技人才项目资助()。作者简介:李 昊(),男,硕士研究生,主要研究方向:综合能源与自动发电控制;荣 娜(),女,博士,讲师,硕士生导师,主要研究方向:电力系统与综合能源、电力电子装备与系统。通讯作者:荣 娜 :收稿日期:引 言随着全球能源转型,新能源大规模分散式接入电网,致使电力系统随机性、间歇性不断增强,传统自动发电控制()策略已经不满足电网需求。因此,从 策略的角度,寻找一种在综合能源系统背景下有效提高系统安全稳定运行的控制策略具有重要意义。控制策略实际上是根据电网实时运行工况在线计算出最优决策。目前,控制策略可以分为传统 控制策略和智能 动态优化策略。传统 控制策略有模糊控制、自

4、适应控制、鲁棒 控 制、比 例 积 分 微 分(,)控制等方法。文献使用自适应乌鸦搜索算法提出了一个最优模糊 控制器,将其应用于非线性两区域和三区域再热系统的,减少频率偏差。随着大规模新能源接入电网,数据维度变大,传统 控制方法控制难度急剧增大。伴随人工智能的进步与发展,有关 的智能算法也相继应用,试图解决传统控制方法暴露的问题。由于强化学习具有实时性和自适应性,智能体可以与环境交互收集信息,不断试错和探索,从而可以在综合能源系统获得最优控制策略。文献将 学习算法应用于,依靠 值函数和控制性能标准(,)控制动作形成闭环反馈来形成最优控制策略,增强了算法的适应性和控制性能;文献提出多经验池概率回

5、放的 双 延 迟 深 度 确 定 性 策 略 梯 度(,)算法,采用不同概率从不同经验池采样,提高最优策略的质量;文献 引 入 卷 积 神 经 网 络(,),解决了传统强化学习算法中维数灾难的问题,但缺乏考虑历史状态变化,造成局部最优的问题;文献提出一种基于动态策略的赢或快速学习爬坡策略(,)算法,通过改变学习率在各种复杂的电力系统环境中得到最优策略,解决了新能源和分布式能源接入电网时产生的强随机扰动问题,但由于采样复杂度较高,算法收敛速度较慢。为解决复杂综合能源系统背景下 算法收敛速度慢、控制性能差的问题,本文提出了一种基于多智能体迁移柔性行动器批判器与长短时记忆网络(,)的算法,该算法具有

6、更强鲁棒性,最大熵政策可以使智能体具有更强的探索能力,能够得到全局最优解,融合迁移学习使得算法的收敛速度变快。在一个修改的 标准两区域负荷频率控制系统模型和一个五区域综合能源系统进行了算例分析。结果表明,该方法能有效提高系统的控制性能指标和收敛速度,降低了系统的区域控制误差和频率偏差。算法传统强化学习算法在 应用上收敛速度慢,控制性能差,因此本文在柔性行动器批判器(,)算法的基础上,用 网络将采集的区域控制误差等环境状态量进行时序特征提取,作为 算法的输入,多智能体框架使得智能体之间信息共享,并通过迁移学习来解决收敛速度慢的问题,进而提出 算法来提高收敛速度和控制性能。本文提出 算法架构如图

7、所示。本文所研究的 系统是动态随机环境,算法根据系统所处的状态计算出相应的 奖 励 值,将 当 前 系 统 环 境 的 状 态 量 作 为 算法的输入,智能体在每个控制周期中,给出最优功率发电指令。环境:五区域综合能源系统状态动作智能体1M A T S A C智能体2T D 3-L S T M智能体5T D 3-L S T M离线训练t i m et i m et i m ea1a2a3r1s1r2s2r5s5奖励A C E ff f在线应用环境信息迁移学习后的S A C 网络输入层隐藏层知能体输出光伏火电机组储能输出层H6 43H23H13H1 61H21H11H3 22H22H12I3I2

8、I1全连接层1全连接层2全连接层3S A C 网络自动发电控制发电单元 Pm P2 P1图 算法架构 第 期李昊,等:基于 的综合能源系统自动发电控制算法研究 柔性行动器批判器算法深度强化学习具有处理高维连续状态动作空间的特点,而柔性行动器批判器()算法是最好异策略深度强化学习算法之一,相较于双延迟深 度 确 定 性 策 略 梯 度(,)算法和近端策略优化(,)算法,该算法可以使政策的熵值和预期收益最大化,从而使样本学习的效率得到提高,算法框架如图 所示。环境值网络Q网络策略网络V(st)V(st)ii?(atst)q i(St,At)i=1,2,S A C 算法J(?)=Es t DDK L

9、(?st+1)e x p(Q(st,?)z(st)?JQ()=E(s,a)D12(Q(st,at)-Q(st,at)2JV()=Es Dt12t t(V(st)-Ea-Q(st,at)-l o g?(at st)2t?图 算法框架 在 算法中,概率策略的熵可以描述为式():()()()()其中,代表当前智能体的状态,代表当前智能体的动作。在强化学习算法框架中的最大熵值函数,可以描述为式():(,)(),()其中,代表数学期望;为智能体和环境交互的时间步数;代表智能体在时间 执行的动作。在 算法中,有 个神经网络,分别是:网络,网络和策略网络。网络()由损失函数的均方误差更新,式():()()(

10、,)()()其中,是训练样本的经验回放池,是网络的学习速率。策略网络()可以由 散度损失公式更新,式():()()(,)()()()其中,代表 网络的学习速率。网络(,)通过贝尔曼误差公式进行更新,式()和式():()(,)(,)(,)()(,)(,)()()其中,(,)代表智能体执行动作时获得的奖励,()代表目标网络。多智能体迁移柔性行动器批判器算法与 算法相比,多智能体迁移柔性行动器批判器算法是将单智能体采用集中训练分散执行(,)框架拓展到多智能体。在训练阶段,本文在每个区域设置一个智能体,智能体的 网络和目标 网络采集当前状态的环境信息和下一状态的环境信息,然后生成智能体的当前动作和目标

11、动作。将一个智能体观察的环境状态量,以及其他智能体的动作信息作为相应智能体 网络的输入,网络输出当前动作的 值。此外,每个智能体都有一个自己的经验回放池,以提高 算法的稳定性。在智能体收集足够经验回放池中的数据后,每个智能体从经验回放池中随机取样来训练自己。当经验回放池中有足够的数据时,智能体随机抽样得到的数据接近于独立的相同分布,设置经验回放池可以打破序列之间关联性,避免模型陷入局部最优。基于 网络的 框架构建长短时记忆网络(,)网络是在循环神经网络(,)基础上改进的,每个 都是一组捕获数据的单元,这些单元从一个模块连接到另一个模块,传输过去的数据,并收集当前的数据。模型示意图如图 所示。智

12、 能 计 算 机 与 应 用 第 卷t a n ht a n ht a n ht a n ht a n ht a n hht-1htht+1输入门输出门遗忘门遗忘门输入门输出门Xt-1XtT i m e s t e p:t-1T i m e s t e p:tXt+1T i m e s t e p:t+1遗忘门输入门输出门双曲正切函数激活函数L S T M模块在时间t 时候的输入在时间t 时候的输出t a n hXtht输入层输出层图 模型示意图 网络包括 个门:输入门、输出门和遗忘门,帮助 处理顺序数据。遗忘门、输入门、输出门 由式()式()计算得出。()()()()()()其中,分别代表输

13、入层和输出层;,是隐藏层输入映射到个门的权重矩阵;,是关于 个门与输入单元状态之间连接相关的权重矩阵;,是偏差向量;是门激活函数。计算得到的 个门的输出后,由式()和式()更新输出:()()()其中,代表长期记忆信息,代表短期记忆信息。在模型训练时,网络将已经输出的记忆信息与电力系统的当前状态连接,传递给 网络和 网络作为输入,使得智能体输入的信息更加完整。迁移学习迁移学习涉及源领域和目标领域,从源领域学习到的知识可以转移到目标领域,源领域和目标领域相似,则知识转移的过程相对容易,从而不考虑在两者之间分布和适应性方面的差异。不同综合能源系统由于其机组不同、结构不同,所以其控制策略也有差异。因此

14、,迁移学习可以与 算法相结合,从而使 算法在 中学习效率得到提高。在迁移学习中,通常采用两种策略,一种是传递学习模型的参数;另一种是共享由以前训练过的智能体。本文采用第一种方法,即在源领域训练后的智能体向目标领域智能体进行参数传递。基于 的 设计基于 算法的自动发电控制是通过各个区域的智能体实时感知综合能源系统中的环境信息,智能体通过收集当前系统的环境信息状态量作为 算法的输入,以奖励函数作为目标函数,计算出相应奖励值,算法在每个控制周期中,智能体输出最优动作作为实际电网调度端所有机组最优的总发电调节指令。综合能源的控制性能可以通过区域控制偏差(,)和 来衡量。计算,式():()其中,代表电网

15、实际频率与计划频率之差;代表联络线上实际交换功率与计划交换功率之差;代表区域定义的频率偏差系数。指标,式():()()其中,是互联电网对全年 频率平均偏差均方根的控制目标值,代表相应变量在 内的平均值。智能体设计()状态空间:对于任何时刻,代表智能体在 时刻当前的状态,可以用式()表示:,()第 期李昊,等:基于 的综合能源系统自动发电控制算法研究 其中,是第 区域的区域控制误差的瞬时值,是第 区域频率偏差的瞬时值。()动作空间:对于任何时刻,包括所有智能体的动作,代表智能体在 时刻当前的动作,可以用式()表示:()其中,是第 区域实际电网调度端所有机组的总发电调节指令。()奖励函数:将 作为

16、目标函数,能够使 指标保持高水平稳定且功率限制在小范围内波动。而系统控制性能也能由频率偏差的绝对值 的大小直接反应。本文将 和 作为算法的奖励函数,并且对 和 的量纲进行归一化处理,奖励函数式():()()()其中,()是 时刻 的绝对值;()是 时刻频率偏差的绝对值;和 是()和 的权重,且 。神经网络结构本文智能体模型的 网络和 网络的输入是 网络的输出,相较于其他神经网络,神经网络能够更好的将历史信息和目前的状态信息结合起来,生成最优策略。网络设置 个全连接层,激活函数层,激活函数层,其结构示意图如图 所示。神经网络的隐藏神经元分别是:、;网络的输入为环境状态和动作的合集,也含 个全连接

17、层,激活函数层,激活函数层,最后输出最优策略,个全连接层的神经元的个数分别是:、。A1,A2,A3,A4,A5,AtS1,S2,S3,S4,S5,St动作集合T a n h 激活层1 个神经元全连接层3R e L U激活层6 4 神经元全连接层2R e L U激活层1 2 8 神经元全连接层1L S T M网络状态合集图 网络结构示意图 算例分析为验证本文所提的 算法的有效性和适用性,在一个修改的 标准两区域负荷频率控制系统模型上采用多智能体柔性行动器批判器与长短时记忆网络算法验证 网络和多智能体结合 算法在 中的控制效果,并通过迁移学习在一个五区域综合能源系统模型上采用 算法进行仿真实验。模

18、型中的一些参数的选择将影响算法在自动发电控制中的应用效果。这些参数按照以下原则选取:()折扣因子:代表知识矩阵在更新过程中对过去奖励值的折扣。如果累计的奖励值对实际问题的求解影响大,则折扣因子选择较大的值。对于自动发电控制而言,目前环境所得到的奖励的瞬时值更为重要,所以折扣因子选择较小的值。()学习率:如果设置太小,则算法收敛缓慢,但容易找到全局最优解。设置越大,算法的收敛速度越快,但可能导致算法无法收敛。本文在引入迁移学习的方法后,算法已经具有较好的先验知识,所以学习率选择较小的值。()经验池长度:如果经验池过大,则会导致无用的经验加入到抽样过程中;如果经验池过小,则会导致算法不能通过经验池

19、的抽样获得最优解。本文通过大量实验,选取 。():如果过大则会影响算法的拟合能力;如果过小,则会导致数据样本不足而过拟合。本文在自动发电过程中,会获得大量样本,所以 选择较小的值。()批次大小:在一定范围内,批次越大,引起训练震荡越小,收敛精度越高。但如果过大,则会增加训练时间,且收敛精度也不会提高。本文进行了大量的实验,选取批次大小为 最为有效。通常,在不同环境下综合能源系统的运行工况会实时变化,需要设置不同的最优参数才能寻求到不同环境下自动发电控制的最优解,但是这将耗费大量时间,本文根据参数选取的原则和大量的实验仿真得到一组最优的参数见表。一个修改的 标准两区域负荷频率控制系统模型本文在

20、标准两区域负荷频率控制系统模型基础上融入电池储能、风电、光伏。智 能 计 算 机 与 应 用 第 卷表 模型参数 参数数值折扣因子()学习率()经验池长度()正则化因子()批次大小()目标平滑因子()输出层激活函数()隐藏层激活函数()智能体训练 算法分为离线训练和在线测试两个阶段。离线训练阶段,智能体的学习步长为 系统的控制周期,该标准算例中取 ,不断更新智能体的策略,使控制器的控制效果达到最优。最终对修改的 标准两区域负荷频率控制系统模型的第一个区域施加一个 周 期 ,幅 值 ,时间 的正弦负荷扰动。各种算法智能体学习过程如图 所示。与、算法相比,算法在 后,已经能够稳定地跟踪负载扰动变化

21、,能够更准确的跟踪负荷扰动,收敛速度最快。由 于 算 法 可 以 通 过网络将采集的区域控制误差等环境状态量进行时序特征提取,并作为 算法的输入,使得智能体能够结合历史信息做出更优的决策,因此使得奖励值震荡次数减少,具有更好的动态性能。1 0 0 05 0 00-5 0 0-1 0 0 01 0 0 09 0 08 0 08 4 09 6 01 0 8 01 2 0 002 0 0 04 0 0 06 0 0 08 0 0 0时间/s输出/M W图 智能体学习过程 阶跃扰动为了评估 算法的可靠性和鲁棒性,引入振幅为 阶跃扰动。基于、算法的在线测试结果如图 所示。可以看出,算法在两个区域的 和

22、的峰值明显小于其他 种算法,说明 算法有效地减小了 的偏差,在 内 算法可以使各区域达到稳定。区域联络线功率偏差 可以直接看出区域之间数据的共享程度以及多个区域之间协同控制的配合程度,算法采用了多智能体集中训练分散执行框架,使智能体之间信息共享,有效实现多个区 域之间的最优协同控制。P I DT D 3S A CQP D Wo L F-P H CM A S A C-L S T M0.0 30.0 20.0 10-0.0 1-0.0 2-0.0 301 0 0 2 0 03 0 0 4 0 05 0 0 6 0 0时间/s f1/H z()曲线波动图P I DT D 3S A CQP D Wo

23、L F-P H CM A S A C-L S T M3 02 01 00-1 0-2 0-3 0-4 0-5 0-6 0-7 001 0 0 2 0 03 0 0 4 0 05 0 0 6 0 0时间/sA C E1/M W()曲线波动图P I DT D 3S A CQP D Wo L F-P H CM A S A C-L S T M0.0 20.0 10-0.0 1-0.0 2-0.0 301 0 0 2 0 03 0 0 4 0 05 0 0 6 0 0时间/s f2/H z()曲线波动图P I DT D 3S A CQP D Wo L F-P H CM A S A C-L S T M4

24、03 02 01 00-1 0-2 0-3 001 0 0 2 0 03 0 0 4 0 05 0 0 6 0 0时间/sA C E2/M W()曲线波动图图 阶跃扰动曲线 第 期李昊,等:基于 的综合能源系统自动发电控制算法研究 方波扰动引入考核周期为 ,幅值在 以内的方波负荷扰动,种算法的控制性能见表。可以看出,的 的平均值降低,的平均值降低,的平均值增加。表 不同算法的控制性能 算法 一个五区域综合能源系统模型随着电网新能源占比提高,为了考虑大量分布能源并入电网造成的影响,本文构建五区域综合能源模型。此模型在一个 标准两区域负荷频率控制系统模型上加入了电池储能、风电、光伏、热电联产、柴油

25、发电、核能水电等机组,每个区域设置独立的智能体,实现多智能体协同控制。因为 算法需要智能体与环境长时间进行交互,收集数据从而获得最佳策略,本文对修改的 标准两区域负荷频率控制系统模型的智能体向五区域综合能源系统模型的智能体传递参数,从而缩短智能体的训练时间。第一组实验采用 算法在构建的五区域综合能源系统模型上训练 轮;第二组实验采用迁移学习的方法,将修改的 标准两区域负荷频率控制系统模型的 网络和 网络的第一层全连接层参数转移到五区域综合能源系统模型参数中;第三组实验将修改的 标准两区域负荷频率控制系统模型的训练模型 网络和 网络的第一层和第二层全连接层转移到五区域综合能源系统模型参数中;第二

26、组实验和第三组实验的 网络和 网络的输出层都被重置,且将回放缓冲区清空,训练 轮。迁移学习训练曲线如图 所示。由图 可见,第一组实验的起始奖励为,第二组实验为,第三组实验为,说明 算法使智能体能更好地收集经验;在 轮时,第三组实验奖励已经达到,而第一组实验的奖励还在缓慢上升,算法通过迁移学习可以使奖励增长率变大;第一组实验最后奖励稳定在,第二组实验为,第三组实验为,说明通过迁移学习 算法在求解质量方面得到提高。实验结果说明通过迁移学习将旧任务训练的 和 网络模型参数转移到新任务相应模型参数中,可以减少整个算法的训练时间,而对于转移模型参数的选择,在重置输入层和输出层的基础上,转移的神经网络参数

27、越多,训练的收敛速度越快,且寻优结果也更好。-5-1 0-1 5-2 0-2 5-3 005 01 0 0 1 5 0 2 0 0 2 5 0 3 0 0转移第一层和第二层转移第一层M A S A C剧集平均奖励图 迁移学习训练 考虑到综合能源系统的随机性和间歇性,在五区域综合能源系统中引入幅值为 ,持续时间为 的随机扰动,扰动曲线如图 所示。1 0 0 05 0 00-5 0 0-1 0 0 002 0 0 0 4 0 0 0 6 0 0 0 8 0 0 0 1 0 0 0 0时间/s输出/M W图 随机扰动曲线 、种算法在随机扰动下的控制性能如图 所示。相较于其他算法,本文所提算法的 、稳

28、态误差、超调量有所降低,有所提高。P I DQT D 3P D Wo L F-P H CS A CM A S A C-L S T MM A T S A C=L S T M稳态误差/%超调量/%C P S/%A C E/M W f/H z图 随机扰动下算法的控制性能 (下转第 页)智 能 计 算 机 与 应 用 第 卷,():,():,:,:,():,:,():彭爱东,黎欢,王洋 基于专利引文网络的技术演进路径研究 以激光显示技术领域为例 情报理论与实践,():孙冰,徐晓菲,苏晓 技术扩散主路径及核心企业的识别研究 以手机芯片专利引文网络为例 情报学报,():,():王斌,郭清琳 孵化器“内网络

29、”中知识扩散效率影响机制的实证研究 贵州商学院学报,():王亮,张庆普,于光,等 基于引文网络的知识扩散速度测度研究 情报学报,():段利忠,刘思峰 技术扩散场技术扩散速度模型的理论研究 西北农林科技大学学报(社会科学版),():杨宁,张志强 科学数据集知识扩散特征探析 以基因表达数据集为例 图书情报工作,():贵淑婷,彭爱东 基于专利引文网络的技术扩散速度研究情报理论与实践,():,:,():乔铮,黄鲁成,吴菲菲,等 跨领域视角的新技术扩散特征研究以石墨烯技术为例 情报学报,():(上接第 页)结束语本文提出了一种基于 的综合能源系统自动发电控制算法。一个修改的 标准两区域负荷频率控制系统模

30、型和一个五区域综合能源系统模型的仿真结果表明,与传统、算法相比,本文算法在,稳态误差,超调量等控制性能指标均表现较优。此外,有以下几点发现:()本文用 网络将采集的区域控制误差等环境状态量进行时序特征提取,并作为 算法的输入,使智能体能结合历史信息进行快速的有功功率分配决策;()本文采用集中训练分散执行框架,将一个智能体和环境的交互信息,以及其他智能体的动作信息作为相应智能体 网络的输入,实现了多智能体之间的信息共享;()通过迁移学习将旧任务训练的 和 网络模型参数转移到新任务相应模型参数中,可以提高智能体的训练效率。参考文献 ,:陈庆超,韩松,毛钧毅 采用多层次特征融合 的暂态稳定多任务预测

31、 控制与决策,():马喜平,沈渭程,甄文喜,等 基于低碳目标的电气综合能源系统优化调度策略研究 电网与清洁能源,():席磊,孙梦梦,陈宋宋,等 面向分布式电网的多区域协同控制方法研究 电机与控制学报,():胡亚平,聂涌泉,何宇斌,等 基于 预测模型的高比例新能源电网改进频率控制策略 电网与清洁能源,():,:余涛,周斌,陈家荣 基于 学习的互联电网动态最优 控制 中国电机工程学报,():李嘉文,余涛,张孝顺,等 基于改进深度确定性梯度算法的 发电功率指令分配方法 中国电机工程学报,():范士雄,李立新,王松岩,等 人工智能技术在电网调控中的应用研究 电网技术,():,:智 能 计 算 机 与 应 用 第 卷

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服