收藏 分销(赏)

基于深度强化学习的混合动力汽车能量管理策略.pdf

上传人:自信****多点 文档编号:578646 上传时间:2024-01-02 格式:PDF 页数:4 大小:2.48MB
下载 相关 举报
基于深度强化学习的混合动力汽车能量管理策略.pdf_第1页
第1页 / 共4页
基于深度强化学习的混合动力汽车能量管理策略.pdf_第2页
第2页 / 共4页
基于深度强化学习的混合动力汽车能量管理策略.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、ElectricalAutomation115Electric VehicleTechnology电动汽车技术电气自动化2 0 2 3年第45卷第4期基于深度强化学习的混合动力汽车能量管理策略苏明亮,姚方(山西大学电力与建筑学院,山西太原0 30 0 13)摘要:混合动力汽车作为新能源汽车在现阶段过渡状态的发展主力,其电池效率和经济性至关重要。为了实现实时优化并且改善混动汽车的部分参数,提出了基于深度强化学习的能量管理策略,并在仿真过程中引人神经网络对工况进行预测。以混合动力汽车模型以及参数作为支撑,搭建了混合动力汽车仿真环境,与建立的能量管理模型进行迭代交互。应用深度强化学习中的不同算法对电

2、池功率进行控制和改善,得到了不同算法下的优化结果,验证了所建立模型的有效性和可靠性,对电池的优化以及功率调控具有一定的实际意义。关键词:混合动力汽车;深度强化学习;能量管理策略;电池荷电状态;工况预测D0I:10.3969/j.issn.1000-3886.2023.04.036中图分类号 U469.72文献标志码A文章编号10 0 0-38 8 6(2 0 2 3)0 4-0 115-0 4Energy Management Strategy of Hybrid Electric VehicleBased on Deep Reinforcement LearningSu Mingliang,

3、Yao Fang(School of Electric Power Civil Engineering&Architecture,Shanxi University,Taiyuan Shanxi 030013,ChinoAbstract:Hybrid electric vehicles,as new energy vehicles,are the main force in the development of the transitional state at this stage,and theirbattery efficiency and economy are crucial.In

4、order to realize real-time optimization and improve some parameters of hybrid vehicles,an energy management strategy based on deep reinforcement learning was proposed,and a neural network was introduced in thesimulation process to predict operating conditions.Based on the hybrid vehicle model and pa

5、rameters,a hybrid vehicle simulationenvironment was built,and then iteratively interacted with the established energy management model.Different algorithms in deepreinforcement learning are used to control and improve battery power,and the optimization results under different algorithms areobtained,

6、which verifies the validity and reliability of the established model,which has certain practical significance for batteryoptimization and power regulation.Keywords:hybrid electric vehicle;deep reinforcement learning;energy management strategy;state of charge;driving condition prediction0引言混合动力汽车作为燃油

7、汽车和纯电动汽车之间的过渡,能够大幅度减少污染排放。文献1 对能量管理策略(energymana-gent stragegy,EMS)分为基于规则的能量管理策略、基于全局优化的能量管理策略和基于实时优化的能量管理策略。近年来,混合动力汽车基于学习的能量管理策略不断发展,其所展现出来的优势和潜力值得研究。文献2 提出基于动态规划的混动汽车能量管理策略。文献3 在强化学习智能体奖励信号中引人电池的寿命因子。文献4 采用遗传算法对混动汽车的多个目标进行优化。文献5 提出了一种将功率跟随与模糊控制相混合的能量管理策略。文献6 提出了具有确定性规则的Q学习策略,用于混动汽车的能量管理。文献7 采用模糊逻

8、辑控制策略对混动汽车进行了优化。本文应用深度强化学习建立能够在离散空间以及在连续空间进行学习的能量管理策略,并在既往研究的基础上,引入长短期记忆(longshort-termmemory,LST M)网络对实际工况进行预测,扩大工况规模,使智能体的决策更加准确。定稿日期:0 2 2-0 4-0 6基金项目:国家自然科学基金项目(U1509218);山西省电力公司科技项目(SGTYHT/18-JS-202)1混合动力汽车模型本文所建混合动力汽车模型参数见表1。表1混合动力汽车主要参数部件参数数值部件参数数值车体质量/kg1500发动机最大功率/kW56.0容量/(kWh)2.74发电机最大功率/

9、kW37.8电池电压/V237电动机最大功率/kW50.01.1动力模型在研究过程中对车辆的运动状况进行简化,主要包括汽车运动过程中的滚动阻力F,空气阻力Fw、坡度阻力F,以及惯性阻力F,计算公式为:F,=mgcosof(1)1Fw=2pA C2(2)F=mgsine(3)F.=oma(4)式中:m为整车质量;f为车轮与路面之间的滚动摩擦因数;0 为汽车运行过程中与路面的坡度角;C,为空气阻力系数;A,为车辆116ElectricalAutomationElectricVehicleTechnology电动汽车技术电气自动化2 0 2 3年第45卷第4期迎风区域面积;p为空气密度;a为车辆行驶

10、加速度;8 为质量系数。车辆在行驶中所需总功率为:Preg=(F,+Fw+F,+F.)u(5)式中:为车辆行驶的纵向速度。1.2电池模型本文采用镍氢(Ni-MH)电池8 ,在试验中采用简单的内阻模型。电池的荷电状态(stateof charge,SO C)是反映电池剩余电量的重要指标,SOC表示为:dSoc(t)(6)dtC式中:l.为电池电流;C,为电池的额定容量。在仿真过程中对SOC加以约束。电池电阻和开路电压与SOC关系曲线如图1所示。1.0245充电电阻放电电阻0.9开路电压2400.82300.70.62200.52100.420000.20.40.60.81.0SOC图1电池参数曲

11、线2基于强化学习的能量管理策略强化学习是将状态(state)映射到动作(action)的一种学习方法,以获得最大的奖励(reward)为目标9。强化学习原理图如图2 所示。强化学习的探究与状态空间S,、动作空间A,和奖励空间R,有关。车辆模型视为环境,以强化学习为基础的能量管理策略视为智能体,智能体根据当前环境做出动作,使得奖励达到最大。下面介绍基于深度Q网络(deepQnetwork,D Q N)管理策略和深度确定性策略梯度(deepdeterministicpolicygradient,DDPG)管理策略。2.1基于DQN的能量管理策略传统的强化学习不能解决状态空间和动作空间高维度的情况1

12、0】,愈加应用的是深度强化学习(deepreinforcementlearning,DRL),依靠神经网络解决状态以及动作的高维度问题。DQN和双深度Q网络(doubledeepQnetwork,D D Q N)采用贪婪度保证智能体的动作具有随机性。DQN与DDQN结构大致相同。然而DQN容易导致过估计,DDQN可以通过改变神经网络的学习结构来解决这种过估计 。本文分析DQN与DDQN的q值来验证DDQN的优点。智能体环境图2强化学习原理图DQN、D D Q N目标值网络计算公式分别为:ypoN=R.1+maxQ(S.+1,a;0,)(7)VDDQN=R1+yQS.+1,argmaxQ(S$+

13、1,a;0,),0,(8)基于DQN的EMS如图3所示。DQN损失函数Q(s,a;0)maxQ(s+1,a+1;0)每隔N步a估计值网络复制参数目标值网络环境S(s,a)S回忆记忆单元图3基于DQN的EMS原理图2.2基于DDPG的能量管理策略DDPG融合了行动者评论家(actor-critic,A C)算法以及DQN的精华,使智能体在连续动作上进行学习12 在DDPG中为让智能体充分探索环境,在输出动作中加人随机噪声N13。新动作可表示为:a=u(slg)+N(9)本文采用正态分布抽样方法选择随机行为。将输出行为作为正态分布平均值,加上参数var,构造正态分布。通过控制参数的大小,可以改变探

14、索程度基于DDPG的EMS如图4所示添加随机噪声连续动作aM(s)S,Actor网络微小量更新环境评价网络目标网络梯度信息a-(s,)uSCritic网络微小量更新S+回话记忆单元评价网络目标网络图4基于DDPG的EMS原理图2.3关键变量1)状态空间S,本文选取车速u、加速度a以及SOC作为状态变量,状态空间S,可表示为式(10)S,=v,a,soc)(10)2)动作空间A,本文设置混合动力汽车以得到最大发动机功率为目标,因此设置发动机功率为动作空间,动作空间A,可表示为式(11)。A,=engine powerf(11)在DQN、D D Q N中将动作设置为离散动作空间,在DDPG中Ele

15、ctricalAutomation117Electric VehicleTechnology电动汽车技术电气自动化2 0 2 3 年第4 5 卷第4 期设置为连续动作空间。3)奖励空间R,奖励信号在建立EMS的过程中直接影响动作的选择,本文将奖励函数定义为汽车燃油消耗和SOC的函数。为使油耗降低并且SOC保持稳定,将奖励函数设置为负值。奖励空间R,可表示为式(1 2)R,=-(|fuel(t)I+AEsoc(12)式中:为耗油量权重;为SOC权重;Esoc为SOC初始值和瞬时值之差。3试验结果与分析仿真工况曲线如图5 所示,总行驶时间为1 3 1 3 s。为模拟车辆在未知工况的驾驶行为,使智能

16、体的决策更加准确,引人LSTM神经网络对工况进行预测。以工况中7 0%数据为样本进行训练,其在训练集和验证集上的均方误差分别为0.0 0 0 0 9 5 6 8 和0.00008681。图6 所示为训练完成后的数据效果,预测数据与实际数据接近,表明所建立LSTM模型对工况预测的准确性。18工况161412(,s.w)/单10864200200400600800100012001400时间/s图5仿真工况曲线图1.0真实值预测值0.8(,.)/单0.60.40.200100200300400时间/s图6LSTM预测与实际工况对比曲线图将实际工况以及预测数据作为智能体输人数据进行试验3.1收敛性分

17、析收敛性是评估强化学习的重要指标,通过绘制每轮次智能体的奖励得到平均奖励曲线如图7 所示。由图7 可知,基于DDPG的EMS收敛较快,表明该算法模型的准确性以及优越性。0-10一-20-30-40DQN-50DDQNDDPG-60050100150200250300训练轮次/次图7平均奖励曲线3.2DQN与DDQN比较由图8 可知,DQN在学习一定次数后,q值大部分大于0,这会导致出现过估计。DDQN在学习相同次数后,q值保持在O左右,消除了一部分过估计。100r0-100-200值-300-400DQNDDQN-500-600050000150000250000350000训练步数/步图:3

18、q值曲线3.3电池功率分析由图9 可知,DDPG相较于DQN与DDQN电池功率波动较小,说明在此EMS下,电池平抑功率波动能力较强,系统更稳定。DQN200000元DDQN-DDPG1000000-100000-200:000-300000-400000-5000000200400600800100012001400时间/s图9电池功率曲线3.4能量管理策略效果分析本文所建立的能量管理策略优化目标之一是维持电池SOC118ElectricalAutomation上接第1 1 4 页)ElectricVehicleTechnology电动汽车技术电气自动化2 0 2 3 年第4 5 卷第4 期稳

19、定。选定SOC初始值为0.6 5,将初始值作为优化目标的基准值,SOC曲线如图1 0 所示。基于DQN的EMS出现了一部分过估计,使得SOC超出初始值,基于DDPG的EMS能够在全局维持电池SOC的稳定。0.80DQNDDQN0.65DDPGDOS0.600.550.500200 400600800100012001400时间/s图1 0SOC曲线本文所实现的另一个优化目标为减少车辆行驶过程中的油耗。不同EMS下油耗如表2 所示。在维持SOC稳定的情况下,基于DDQN相较于DQN油耗增加在允许范围内,基于DDPG的EMS能够更加全面地实现所优化的目标。表2能量管理策略分析策略百公里油耗/最终S

20、OC燃油消耗/(基于工况预测)L:(100 km)=基于DQN0.5202.7130.160基于DDQN0.5472.9570.174基于 DDPG0.5662.8030.1654结束语通过建立基于深度强化学习的能量管理策略,分析比较了不同算法下混合动力汽车的性能,并且引入LSTM网络对工况进行预测,进一步扩展了工况规模,使试验所得结果更加真实可靠。仿真结果显示,所提出的算法模型具有较好的收敛性与可靠性,电池的荷电状态能够保持在较稳定的状态,并且能够降低车辆行驶过程中的油耗,具有一定的实际应用。【7 朱洪斌,安龙,杨铭辰电力大数据安全治理体系研究 J电信科学,2 0 1 9,3 5(1 1):

21、1 4 0-1 4 5.【8 钟卓颖,宋景慧乡村智能电网大数据分析平台总体构架与应用 J.电测与仪表,2 0 2 0,5 7(9):8 2-8 8.【9 朱海鹏,赵磊,秦昆,等基于大数据分析的电力监控网络安全主动防护策略研究 J.电测与仪表,2 0 2 0,5 7(2 1:1 3 3-1 3 9.【1 0 李双琴,谢锐,曹文琛,等基于多维分层采样的时间维度型大数据流整合系统设计J现代电子技术,2 0 2 0,4 3(5):1 3 3-136;140.【1 1】邓春宇,吴克河,谈元鹏,等基于多元时间序列分割聚类的异常参考文献:1 朱东彬,王喜洋,李艳文混合动力电动汽车能量管理策略研究进展 J机械

22、设计与制造,2 0 2 0(3):2 9 3-2 9 6.2 孔泽慧,熊继芬基于动态规划的混合动力汽车能量管理策略研究J.时代汽车,2 0 2 1(1 7):1 4 1 5.3 李卫,郑春花,许德州基于深度强化学习的燃料电池混合动力汽车能量管理策略研究 J集成技术,2 0 2 1,1 0(3):4 7-6 0.【4 刘新天,李强,郑昕昕,等。基于多目标优化的燃料电池汽车能量管理策略J.电子测量技术,2 0 2 1,4 4(6):8 1-8 9.【5 张文灿,万伟健,张忠波,等。燃料电池汽车混合式能量管理策略分析 J佛山科学技术学院学报(自然科学版),2 0 2 1,3 9(6):1-8.6 J

23、 LI Y,TAO J,XIE L,et al.Enhanced Q-learning for real-time hybridelectric vehicle energy management with deterministic rule J.Measurement and Control,2020,53:7-8.7 LI D,XU B,TIAN J,et al.Energy management strategy for fuel celland battery hybrid vehicle based on fuzzy logic J.Processes,2020,8(8):882.

24、【8 徐钦赐,负海涛,杨腾盛,等。混合动力汽车氢镍电池建模研究 J.电源技术,2 0 2 1,4 5(2):2 2 2-2 2 4.【9 张松,王坤羽,杨蓉,等混合动力公交车深度强化学习能量管理策略研究 J内燃机工程,2 0 2 1,4 2(6):1 0-1 6.【1 0 寒冰,贺少川基于深度强化学习的插电式柴电混合动力汽车多目标优化控制策略J重庆交通大学学报(自然科学版),2 0 2 1,40(1):44-52.11刘建伟,高峰,罗雄麟。基于值函数和策略梯度的深度强化学习综述 J.计算机学报,2 0 1 9,4 2(6):1 4 0 6-1 4 3 8.12 LIAN R,PENG J,WU

25、 Y,et al.Rule-interposing deep reinforcementlearning based energy management strategy for power-split hybrid electricvehicleJ.Energy(O x f o r d),2 0 2 0,1 9 7:1 1 7 2 9 7.13杨挺,赵黎媛,刘亚闯,等.基于深度强化学习的综合能源系统动态经济调度 J电力系统自动化,2 0 2 1,4 5(5):3 9-4 7.【作者简介】苏明亮(1 9 9 8 一),男,山西人,硕士研究生,主要研究方向为人工智能在电力系统方面的应用。【通信作

26、者】姚方(1 9 7 9 一),男,山西人,博士,副教授,主要研究方向为新能源发电、智能电网、微电网和电动汽车等。值检测方法 J。计算机工程与设计,2 0 2 0,4 1(1 1):3 1 2 3-3 1 2 8.1 2 陈思光.基于雾计算的智能电网安全与隐私保护数据聚合研究 J南京邮电大学学报,2 0 1 9,3 9(6):6 2-7 2.【1 3】杨国强,丁杭超,邹静,等。基于高性能密码实现的大数据安全方案 J计算机研究与发展,2 0 1 9,5 6(1 0):2 2 0 7-2 2 1 5.14孙利宏基于Hadoop的智能电网时序大数据处理方法 J计算机仿真,2 0 2 0,3 7(1 2)6 7-7 1.15朱州基于大数据分析的电力客户服务需求预测J沈阳工业大学学报,2 0 2 0,4 2(4):3 6 8-3 7 2.【作者简介】李博(1 9 8 2 一),男,吉林省吉林市人,研究方向:大数据技术、人工智能技术等。

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服