收藏 分销(赏)

基于TD3算法的热管堆功率控制算法优化研究.pdf

上传人:自信****多点 文档编号:2077277 上传时间:2024-05-15 格式:PDF 页数:6 大小:1.51MB
下载 相关 举报
基于TD3算法的热管堆功率控制算法优化研究.pdf_第1页
第1页 / 共6页
基于TD3算法的热管堆功率控制算法优化研究.pdf_第2页
第2页 / 共6页
基于TD3算法的热管堆功率控制算法优化研究.pdf_第3页
第3页 / 共6页
基于TD3算法的热管堆功率控制算法优化研究.pdf_第4页
第4页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、总第350期1引言热管冷却核反应堆的设计理念最早于 20 世纪 60 年代提出,是通过将热管和燃料棒交替排列,通过热管非能动的将堆芯热量传递给二回路的固态反应堆12。因其模块化的设计思想、简化的反应堆结构设计、良好的固有安全特性与瞬态响应特性等特点,迅速受到核科学家的关注3。目前核动力装置采用的功率控制技术仍然是以经典控制理论为基础的传统控制技术。建立在经典控制理论基础上的PI(D)控制方法,因其易于设计和实现,并具有良好的鲁棒性,是核动力装置功率控制中常用的方法。但是传统的PI(D)控制方法也存在一些缺点,如PI(D)控制器的参数一般是固定的且难以在线整定,难以在整个运行工况范围内始终保持最

2、优的控制效果。随着计算机技术和控制理论的发展,在传统的PI(D)控制方法的基础上,研究设计了多种新型PI(D)控制方法,如模糊 PI 控制45、自适应 PI 控制6、神经网络 PI 控制7、变参数PID控制算法8等。这些新型PI(D)控制方法在一定程度上弥补了传统PI(D)控制方法的不足。为实现热管冷却核反应堆在全工况范围收稿日期:2023年2月7日,修回日期:2023年3月17日作者简介:宋霄森,男,硕士研究生,研究方向:舰船核动力控制与运行。余刃,男,博士,教授,研究方向:舰船核动力控制与运行。毛伟,男,博士,讲师,研究方向:舰船核动力控制与运行。殷少轩,男,硕士研究生,研究方向:舰船核动

3、力控制与运行。基于 TD3 算法的热管堆功率控制算法优化研究宋霄森余刃毛伟殷少轩(海军工程大学武汉430033)摘要核反应堆功率控制仍多采用PID控制算法,但其控制参数往往难以选择,也难以在不同功率水平下均保持最优的控制效果。论文针对热管冷却核反应堆的功率控制设计PID控制算法,并基于深度强化学习TD3算法来实现对PID控制器的参数寻优。对比基于试凑法和参数寻优选取的PID参数的控制效果,采用深度强化学习TD3算法寻优参数可以获得更快速稳定的控制效果。关键词热管冷却核反应堆;深度强化学习;TD3算法;功率控制中图分类号TL362+.5DOI:10.3969/j.issn.1672-9730.2

4、023.08.020Optimization Reserach of Heat Pipe Reactor Power ControlAlgorithm Based on TD3 AlgorithmSONG XiaosenYU RenMAO WeiYIN Shaoxuan(Naval University of Engineering,Wuhan430033)AbstractPID control algorithm is still used in power control of nuclear reactors,but it is difficult to select the contr

5、ol parameters,and it is difficult to maintain the optimal control effect under different power levels.In this paper,the PID control algorithm isdesigned for the power control of heat pipe cooled nuclear reactor,and the parameters of the PID controller are optimized based onthe deep reinforcement lea

6、rning TD3 algorithm.Compared with the control effect of PID parameters selected based on trial and errormethod and parameter optimization,the deep reinforcement learning TD3 algorithm for parameter optimization can obtain more rapid and stable control effect.Key Wordsheat pipe cooling nuclear reacto

7、r,deep reinforcement learning,TD3 algorithm,power controlClass NumberTL362+.5舰 船 电 子 工 程Ship Electronic Engineering总第 350 期2023 年第 8 期Vol.43 No.8104舰 船 电 子 工 程2023 年第 8 期内的功率优化控制,本文研究了采用深度强化学习TD3(Twin delayed deep deterministic policy gradient)算法进行PID控制器参数寻优的方法。2热管冷却核反应堆堆芯建模2.1堆芯核动力学模型假设堆内的中子分布不随空间的

8、变化而变化,堆内各处的中子密度分布是均匀的,采用点堆方程建立堆芯的中子动力学模型。将六组缓发中子点堆方程简化为单组后得到的方程为式(1)所示9:dnrdt=lnr+crdcrdt=lnrcr(1)式中:nr为相对中子通量密度,即相对功率;为缓发中子总份额;为衰变常数;l为快中子一代平均寿命;为堆芯引入总反应性。2.2堆芯传热模型堆芯中的传热过程包括两部分:1)燃料芯块产热,加热自身并向气隙传热;2)基体接收气隙传递的热量,加热自身并向热管传热。依据热平衡原理,建立堆芯热动力学模型如式(2)所示:dTfdt=P0(mc)fnr12(mc)fRgTf+12(mc)fRgTmdTmdt=Tf(mc)

9、mRgRp+Rg(mc)mRpRgTm1(mc)mRpRgTg_av(2)式中:Tf为燃料温度;Tm为基体温度;Tg_av为布雷顿循环冷却气体平均温度;Rg为热管冷凝段与冷却气体间的传热热阻;Rp为热管总热阻;单根燃料的稳态初始功率。2.3反应性反馈模型热管冷却核反应堆的反应性反馈主要考虑燃料和基体的多普勒效应以及燃料和基体的膨胀效应。忽略热管内部的空泡效应产生的反应性反馈,以及反射层膨胀产生的反应性反馈。使用f与m分别表示燃料和基体的总反馈系数,它们均包含了多普勒效应和膨胀效应,反应性反馈方程如式(3)所示:=r+f+mf=f(TfTf0)m=m(TmTm0)(3)式中:r表示外部控制鼓转动

10、输入的反应性,f表示燃料反馈的反应性,m表示基体反馈的反应性;Tf0表示燃料初始温度,Tm0表示基体初始温度。2.4控制鼓模型热管冷却核反应堆在堆芯外围布置有控制鼓,控制鼓可在0180范围内水平转动,向反应堆引入反应性,控制反应堆功率变化。控制鼓引入反应性的速率与控制鼓转动的角速度及其控制鼓微分价值有关,控制鼓引入反应性的微分表达式为drdt=GrWr(4)式中:Gr为控制鼓微分价值,Wr为控制鼓转动角速度。2.5状态空间模型结合上述式(1)(4),得到堆芯热动力学模型的方程组,如式(5)所示:dnrdt=lnr+crdcrdt=lnrcrdTfdt=P0(mc)fnr12(mc)fRgTf+

11、12(mc)fRgTmdTmdt=1(mc)mRgTfRp+Rg(mc)mRpRgTm1(mc)mRpRgTg_av=r+f(TfTf0)+m(TmTm0)(5)对式(5)采用微扰法进行线性处理后的系统表达式如式(6)所示:dnrdt=lnr+cr+fnr0lTf+mnr0lTm+nr0lrdcrdt=lnrcrdTfdt=P0(mc)fnr12(mc)fRgTf+12(mc)fRgTmdTmdt=1(mc)mRgTfRp+Rg(mc)mRpRgTmdrdt=GrWr(6)通过状态空间法来描述该模型如式(7)所示:x=Ax+Buy=Cx+Du(7)设状态向量x、输入向量u和输出向量y分别:x=

12、nrcrTfTmrTy=nrT105总第350期u=Wr状态矩阵A、输入矩阵B、输出矩阵C和前馈矩阵D分别为A=lfnr0lmnr0lnr0ll000P0(mc)f012(mc)fRg12(mc)fRg0001(mc)mRgRp+Rg(mc)mRpRg000000B=0000GrTC=10000D=03基于TD3算法的PID控制器参数寻优3.1PID控制器设计PID控制器由比例单元、积分单元、微分单元三部分组成,如式(8)所示10,e(t)一般选取被控量与设定量的差值作为输入信号。u(t)=KPe(t)+KI0te(t)dt+KDde(t)dt(8)热管冷却核反应堆的输出值和需求值得偏差值作为

13、PID控制器的输入,PID控制器输出控制鼓的转动角速度,控制鼓转动,从而实现反应堆功率的闭环控制,如图1所示。图1PID控制流程图PID控制器的性能取决于KP、KI、KD的选取。从所建立的热管冷却核反应堆堆芯模型可以看出,反应堆功率随反应性变化的特性与反应堆所处的初始功率水平是密切相关的,采用一套固定的PID参数通常难以在整个运行工况范围内始终保持最优的控制效果。3.2PID控制器参数寻优设计深度强化学习TD3算法是基于Actor-Critic框架来实现的,学习流程如图2所示。演员网络和评论家网络都是由两部分组成:1)演员网络分为Actor网络()S|和Target Actor网络()S|;2

14、)评论家网络由Critic网络-1Q1()S,A|Q1、Critic网络-2Q2()S,A|Q2、Target Critic 网 络-1Q1()S,A|Q1和Target Critic网络-2Q2()S,A|Q2组成1112。其中,S为系统状态向量、A为动作向量。、Q1、Q2、Q1和Q2分别为上述六个神经网络的参数值。基于TD3算法的强化学习步骤如下。图2TD3算法学习流程图1)神经网络参数初始化:首先分别初始化Actor 网络、Critic 网络-1 和 Critic 网络-2 的初值为、Q1和Q2,参数值分别为、1和2;然后对Target Actor 网 络、Target Critic 网

15、 络-1 和 TargetCritic网络-2三个神经网络进行初始化,此时将参数、1和2复制给、1和2,以完成 TargetActor网络和Target Critic网络参数的初始化。2)初始化动作-状态经验回放池(Replay Buffer),该回放池作为一个集合()S、A、R、S、done存放历史信息。其中,经验回放池的目的是为了消除强化学习前后动作的相关性,从训练池中选取状态可以加强对模型的训练效果。3)Critic网络-1 和 Critic网络-2 更新:在训练过 程 中,从 Replay Buffer 选 取 一 组 数 据 为()S、A、R、S、done,利用 Target Act

16、or 网络计算宋霄森等:基于TD3算法的热管堆功率控制算法优化研究106舰 船 电 子 工 程2023 年第 8 期出状态S下的动作如式(9)所示。A=()S|(9)在迭代过程中,为了平滑策略期望值,对Target Actor 网络中获得的目标动作A加上一个噪声,如式(10)所示。A=A+clip(N(0,),c,c)(10)在TD3算法中,由于采用基于双Critic神经网络的思想,计算目标值时需要选取Target Critic神经网络中的最小值,如式(11)所示。y=R+mini=1,2Qi(S,A|iQ)(11)针对 Critic网络-1和 Critic网络-2的更新,利用 Critic网

17、络的评估值和 Target Critic的目标值之间的误差Lci,基于梯度下降算法求取最小化误差,此时可得到更新的Critic网络参数,如式(12)所示。Lci=(Qi(SA|Qi)-y)2(i=12)(12)4)Actor网络更新:Actor网络采取延迟更新策略,即当Critic进行多次更新后,完成一次对Actor网络的更新(常采用Critic更新两次,Actor更新一次)。基于当前状态S通过Actor网络可得到状态S对应的新动作 A,如式(13)所示。通过 Critic网络计算基于当前状态及动作(S,Anew)的评估值qnew,如式(14)所示。采用梯度上升算法使得qnew最大化,从而完成

18、对Actor网络的更新。在更新qnew值过程中,基于Actor网络目标在于最大化累计期望价值,所以无需选取最小的评估值 Q,即任意选取两个Critic 网络获得的 Q 值即可,此处选取了 Critic 网络-1。Anew=(S|)(13)qnew=Q1(SAnew|Q1)(14)5)Target Actor 和 Target Critic 网络更新:在网络初始化时,通过复制Actor和Critic神经网络的参数值进行Target Actor和Target Critic网络参数的初始化。在训练过程中,则通过软更新的方法代替通过直接复制网络参数进行目标网络的更新。通过引入一定的学习率,通过将旧的

19、Target Actor和Target Critic网络参数和对应时刻Actor和Critic网络参数进行加权平均,并将求解的值赋予 TargetActor和Target Critic,如式(15)和(16)所示。=+()1(15)i=i+(1)i(i=1,2)(16)通过Simulink中的强化学习(RL)模块来完成对Actor和Critic网络的搭建,Actor和Critic网络均由输入层、输出层和一层全连接层构成,全连接层包含128个神经元。在RL神经网络模块外部还需要设计奖励函数、终止函数、观测器模块。奖励函数模块是Critic网络根据当前状态选取对应价值最大的动作,使得相对功率输出可

20、以跟踪输入的阶跃信号变化,并且使得相对功率和阶跃信号的偏差值尽可能的小或者为零,因此选取相对功率偏差值e(t)和控制鼓转动角速度W(t-1)作为奖励函数模块的输入,设计的奖励函数如式(17)所示。Rt=0.01e()t2+W()t12(17)终止函数模块是为了信号终止训练,可以用来终止一段进展顺利或者不顺利的训练过程。针对该模型基于在阶跃信号下进行训练,在Q值得以收敛的区域并具有较好的控制效果来决定训练终止信号。观测器模块是为了选取系统模型合适的状态输入到Actor网络中。为了使TD3算法模型训练结束后可以输出PID控制器的三个最优控制参数KP、KI、KD,系统选取相对功率偏差值e的比例、积分

21、、微分三个值作为观测状态向量输入到Actor网络中,Actor 网络执行的动作输出为控制鼓的转动角速度,并将其作为堆芯模型的输入,由此构建了可以替代PID控制器的具有观测误差、误差积分、误差微分的全连接层Actor神经网络。神经网络的权重值则为PID控制器的控制参数KP、KI、KD。4仿真验证以热管冷却核反应堆在相对功率从0.4阶跃到0.5的运行工况为例,对比通过试凑法选取的 PID控制参数和基于TD3进行PID参数寻优后的PID控制器控制效果。0102030405060708090100时间t/s0.520.50.480.460.440.420.4相对功率输出值设定值图3基于试凑法选取的PI

22、D参数的控制效果图图3是通过试凑法选取PID控制参数的控制效果,仿真总时间为t=100s,在相对功率从0.4阶跃到0.5过程中,控制器使反应堆功率在28s后重新到达107总第350期稳态,上升时间为5s,达到峰值时间为10s,超调的持续时间为23s,超调量为3.8%。图4是基于TD3算法的控制参数寻优的模型训练图,相对功率从0.4阶跃到0.5运行工况下,模型训练了将近325个时间步后停止,此时基于每一步动作的价值和平均价值以及Q0均完成收敛,表明针对0.40.5阶跃工况的模型训练完成。如图5所示,为通过参数寻优后的PID控制器控制效果,仿真时间共计200s,在相对功率从0.4阶跃到0.5过程中

23、,采用参数寻优设计的PID控制器使反应堆系统在22s后重新到达稳态,系统上升时间为2s,达到峰值时间为4s,产生超调的时间为20s,超调量为0.93%。050100150200250300350时间步长0-200-400-600-800-1000-1200-1400-1600-1800-2000行为价值行为价值平均价值Q0值图4基于TD3算法在0.40.5阶跃工况下的模型训练图020406080100120140160180200时间t/s0.520.50.480.460.440.420.4相对功率输出值设定值图5基于TD3参数寻优的控制效果图为验证通过参数寻优设计的PID控制器具有全工况最优

24、控制,本文对热管冷却核反应堆的四种不同运行工况进行了PID参数寻优,并和基于试凑法选取的在满功率运行工况下具有较好控制效果的传统PID控制器的控制效果作对比,控制效果对比如表1所示。由表1可知,基于参数寻优设计的PID控制器相较于传统PID控制器,在相同运行工况下具有更优秀的控制效果,且在全工况范围内均可实现优化控制。表1控制效果对比表PIDTD3参数寻优0.10.20.40.50.70.80.90.70.10.20.40.50.70.80.90.7上升时间/s65442243峰值时间/s1210984466超调时间/s3423222020201719超调量9.1%3.8%1.5%1.3%1.

25、9%0.93%0.51%0.43%特性参数控制方法5结语本文针对热管冷却核反应堆的功率控制设计PID控制器,并提出了一种基于TD3算法的PID参数寻优控制。由仿真结果可知,基于TD3参数寻优设计的PID控制器具有更快的响应速度,更小的超调量。该算法可以有效避免通过试凑法选取PID控制参数存在的偶然性,实现热管冷却核反应堆全工况运行范围内的优化控制。参 考 文 献1RANKEN W A,HOUTS M G.Heat pipe cooledreactorsfor multi-kilowatt space powersupplies C/InternationalHeat Pipe Conferen

26、ce.Albuquerque,New Mexico:Presented at the 9th International Heat Pipe Conference,1995.2HOUTS M G,POSTON D I,RANKEN W A.Heatpipespace power and propulsion systems J.Office of Scientific&Technical Information Technical Reports,1995,361(1):1155-11603GROOVER G M,COTTER T P,ERICKSON G F.Structures of ve

27、ry high thermal conductance J.Journal of Applied Physics,1964,35(6):1990-19914MARCHLEUBAC,ABDALLAM,FORD CE,et al.A hybrid fuzzy-PI adaptive control of U-tube steam generatorsJ.Control Theory and Advanced Technology,1992,8(3):567-575.5KM D Y,SEONG P H.Fuzzy gain scheduling of velocityPI controller wi

28、th intelligent learing algorithm for reactorcontrolJ.Annals of Nuclear Energy,1997,24(10):819-827.6Park M G,Cho N Z.Time-optimal control of nuclear reactor power with adaptive prodortional-integral-feed forwardgains J.IEEE Transactions on Nuclear Science,1993,40(3):266-270.宋霄森等:基于TD3算法的热管堆功率控制算法优化研究

29、108舰 船 电 子 工 程2023 年第 8 期7KIM D H.Nuclear steam generator level control by a neural network-tuning2-DOF PIDcontroller C/InternationalSymposium an Computational Intelligence for Measurements and Applications.Boston,USA:s.n.,2004:169-173.8陈玉昇,余刃,刘洋,等.核反应堆功率变参数控制系统控制算法研究 J.四川兵工学报,2015,36(12):39-42.9Far

30、rokh Khoshahval,Abdol Aziz.Ahdavi.Determinationof the maximum speed of WWER-1000 nuclear reactorcontrol rodsJ.Annals of Nuclear Energy,2016(87):58-68.10谭加加,刘鸿宇,黄武,等.PID控制算法综述 J.电子世界,2015(16):78-79.11刘启仁.基于TD3的无人机超低空平视目标跟踪技术研究 D.成都:电子科技大学,2022.12李茹.基于TD3的AUV智能控制方法研究 D.济南:山东大学,2021.本文所提出改进模型仅适用于提高航空器处

31、于普通航路飞行阶段时的碰撞风险模型精度,对处于交叉航路、进近阶段或自由飞行状态下的航空器,因未做考虑,其适应性不如球体、椭球体等19,因此后续研究可针对特殊应用情形进行模型精度提升研究。参 考 文 献1REICH P G.Analysis of long-Range air traffic systems:separation standards I J.Journal of the Institute of Navigation,1966,19(1):88-98.2REICH P G.Analysis of long-Range air traffic systems:separation

32、standards II J.Journal of the Institute of Navigation,1966,19(2):169-186.3REICH P G.Analysis of long-Range air traffic systems:separation standards III J.Journal of the Institute of Navigation,1966,19(3):331-347.4BROOKER P.Lateral collision risk in air traffic systems:aPost-Reich event mode lJ.Journ

33、al of Navigation,2003,56(3):399-409.5徐肖豪,王振宇,赵鸿盛.基于Event的侧向碰撞风险改进模型 J.中国民航大学学报,2008,26(3):1-6.6徐肖豪,李冬宾,李雄,等.基于EVENT模型的垂直间隔碰撞风险研究 J.中国民航大学学报,2008,26(4):1-5,17.7戴福青,周启.基于 Event的垂直碰撞风险改进模型研究J.中国民航大学学报,2011,29(6):4-7.8曹兴武,张兆宁.基于Event改进模型的交叉航路碰撞风险评估 J.中国民航大学学报,2015,33(3):1-4.9郑浩然.基于改进EVENT模型的配对进近碰撞风险研究 J

34、.综合运输,2021(12):84-90.10岳睿媛,苏彬,朱新平,等.基于改进Event模型的航路飞行过程垂直碰撞风险研究 J.航空工程进展,2022,1(13):129-134.11BROOKER P.Longitudinal collision risk for ATC tracksystems:a hazardous Event model J.Journal of Navigation,2006,59(1):55-70.12BREWER-DOUGHERTY T,COLAMOSCA B,CHRISTINE G F,et al.Collision risk modeling in the

35、 northern pacific airspace under separation reduction and improvements in navigational performance J.Air Traffic ControlQuarterly,2016,14(4):257-279.13姚登凯,马嘉呈,赵顾颢.军民航空域安全评估中的碰撞 风 险 研 究J.安 全 与 环 境 报,2017,17(05):1637-1641.14李涵,姚登凯,赵顾颢.基于Event模型的跨高度层军民航碰撞风险分析 J.火力与指挥控制,2018,43(11):4852,57.15KIM K,HWANG

36、 I.Intent-based detection and characterization of aircraft maneuvers in en route airspace J.Journal of Aerospace Information Systems,2018,15(2):72-90.16王莉莉,鲁胜男.基于 Event 模型的冲突风险新算法J.安全与环境学报,2019,19(1):61-64.17王莉莉,鲁胜男.平行进近偏航下Event碰撞风险模型J.中国安全科学学报,2019,29(11):8-13.18谢春生,梁献匀,卢飞.基于统计分布的近距平行跑道配对进近纵向碰撞风险评估 J.科学技术与工程,2021,21(10):4284-4288.19张兆宁,刘计民.基于CNS性能的垂直间隔碰撞风险评估 J.中国民航大学学报,2010,28(01):5-8,37.20张晓燕,潘卫军.RVSM 空域内垂直间隔的安全评估J.航空计算技术,2009,39(05):5-8.21张兆宁,时瑞军.自由飞行下改进的Event碰撞风险计算模型 J.中国安全科学学报,2015,25(07):35-40.(上接第93页)109

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服