收藏 分销(赏)

基于强化学习的非线性主动悬架系统的最优控制.pdf

上传人:自信****多点 文档编号:638324 上传时间:2024-01-22 格式:PDF 页数:9 大小:1.53MB
下载 相关 举报
基于强化学习的非线性主动悬架系统的最优控制.pdf_第1页
第1页 / 共9页
基于强化学习的非线性主动悬架系统的最优控制.pdf_第2页
第2页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、为了改善车辆性能和乘客舒适性,针对带有非线性阻尼的 汽车主动悬架系统,提出了一种基于在线迭代算法的最优控制策略。首先根据所建立的非线性模型给出了合理的代价函数,并利用最优控制理论设计了初始最优控制策略。然后为了处理求解 方程的困难,借助于强化学习的 框架构造了一种新颖的策略在线学习 方程的近似解,同时为提高系统的鲁棒性,在 更新率中增加了泄漏项。最后通过稳定性分析表明所提策略可通过调节参数使状态收敛到零的充分小邻域,同时使代价函数达到最优。关键词:非线性主动悬架;强化学习;最优控制;算法中图分类号:文献标志码:随着汽车技术的不断发展,对汽车的操纵稳定性、车内人员的舒适性和隔绝道路颠簸等起重要作

2、用的悬架系统受到了极大的关注 ,相较于被动悬架和半主动悬架 ,主动悬架系统因其可通过设计控制器较好地改善乘坐舒适性和车辆的机动性被广泛应用。随着控制技术的发展,提出了许多不同的驱动器控制策略 ,如自适应控制、鲁棒控制、模糊控制和智能控制等。然而多数文献中均假设悬架系统具有线性动力学特性,事实上悬架弹簧和阻尼器具有非线性特性,对于非线性主动悬架,许多学者发展了诸如自适应、鲁棒制和滑模等控制策略 ,使得系统达到跟踪或镇定。众所周知,悬架系统的作用不仅是要隔振,而且还要提高车辆性能。针对悬架系统的这一问题,人们提出了主动悬架最优控制方法 ,然而现有的最优控制策略 大多是针对具有线性动力学特性假设的悬

3、架系统。对于非线性最优控制问题最大的挑战是求解哈密顿 雅可比 贝尔曼()方程,然而求解 方程是非常困难甚至是不可能的,为了解决这一问题,贝尔曼在文献 中提出一种动态规划理论。文献 利用神经网络给出了 方程的近似解,文献 中借助于强化学习算法,用 框架实现在线实时学习最优控制设计 方程的解,文献 利用此方法解决无人船的最优跟踪控制问题。受此启发,本文研究了基于强化学习的非线性主动悬架系统的最优控制问题,主要工作如下:()最优性能指标直接影响车辆性能和乘客舒适性。基于所建立的非线性模型,综合考虑车身加速度,悬架扰动度和轮胎的位移等因素给出了合理的代价函数,然后利用非线性最优控制理论设计了初始最优控

4、制策略。()针对最优控制中求解 方程的困难,借助于强化学习的 框架提出了一种新颖的在线实时学习 方程近似解的策略,同时为提高系统的鲁棒性,在 更新率中增加了泄漏项。()通过李雅普诺夫稳定性理论分析表明,所提策略使得主动悬架系统的位移终极有界,且边界可以通第 期张皓涵,等:基于强化学习的非线性主动悬架系统的最优控制过调节参数充分小从而实现实际稳定,同时使代价函数达到最优。本文用到的符号如下:瓗表示 维欧几里得空间,瓗 表示 阶矩阵空间;对于向量 ,表示它的转置,表示它的欧式范数;,表示将向量(,)转化为对角矩阵,对于矩阵 ,和 分别表示它的转置和逆,()和 ()分别表示它的最小和最大特征值。()

5、是符号函数,()()是()关于 的梯度。问题提出考虑如图 所示的行驶在崎岖路面上的 汽车主动悬架系统。车轮和车身的质量分别为 和,位移分别为 和。车轮与车身之间的控制器 ,线性弹簧和非线性阻尼器是并联的,其中弹簧系数为,阻尼系数为。车轮看作是弹簧系数为 的线性弹簧。为崎岖路面对系统产生的干扰位移。?图 汽车主动悬架模型 考虑以车轮和车身组成的质点系,选取(,)作为广义坐标,则系统的总动能和总势能分别为,()()。系统阻尼是非线性的,瑞利耗散函数为 ,其中 ,当 时是线性的。则根据拉格朗日方程 可得()()(),()()。()为更好地研究悬架系统,通过选择状态 ,系统()重写为(),()其中,为

6、路面输入位移参数阵,()()()()(),(),显然 ()满足局部 条件并且 (),即对于给定的 ,存在 使得(),()其中 瓗 。是有界的,即,其中()槡。在评价汽车的平顺性时,车身振动加速度,悬架的扰动度 和汽车轮胎的位移 这 项指标最为烟台大学学报(自然科学与工程版)第 卷重要。选取性能指标 (),其中 (,)是加权系数。由式()和 不等式 知 ()()()()()()()()()()()()()(),()其中 是加权系数。令()()(),()其中 ,(),()。根据式(),定义如下代价函数()(),()其中 。从式()可以看出当代价函数 变小时相应的性能指标 也变小。控制目标:设计一个

7、控制器使得系统状态,能够收敛到充分小的范围内,并且系统的代价函数 达到最优,以保证车辆的舒适性和驾驶的安全性。为了完成控制目标,需作如下假设:假设 崎岖路面对系统产生的干扰位移是有界的,即存在一个常数 ,使得 。注 根据文献 知路面产生的位移 满足 ()槡,其中 为截止频率,为均值是零的有限带宽白噪声,()为路面不平度系数,为车辆行驶速度。根据文献 知 是一个零均值的宽平稳过程。又由于实际路面是比较温和的,故假设 是合理的。基于强化学习的控制器设计 最优控制下面将设计控制器 使 最小。最优代价函数:()()(),()根据最优控制原理 ,和最优控制 满足 方程(,)()()(),()其中哈密顿函

8、数为 (,)()(),进一步,可计算得最优控制律 ()(,)。()众所周知 方程()求解非常困难,甚至是不可能的。为解决这一困难,下面将最优的代价函数 由神经网络逼近()()()()(),()其中,为逼近误差;瓗为理想的权重矢量,为神经元数量;(),为初值为零的基函数。则()关于 的梯度为()()(),()其中和分别是关于 的梯度。由式()和()知最优控制策略(),()若用第 期张皓涵,等:基于强化学习的非线性主动悬架系统的最优控制(),()分别作为 和 的估计,注意到(,),则 的估计误差为 (,)()(),()其中 。设计由于理想的权重矢量 实际是未知的,则估计式()不能用。下面将借助于

9、算法修正估计式(),结构如图 所示。?图 算法结构 ()设计用()()()作为最优代价函数()的 估计值,其中 是 的估计。从而用(,)()()()()作为 的估计。注意到 ,考虑如下函数()()()()()(),()其中,(),设计参数 。利用带有泄漏项的梯度下降法 ,自适应律设计为()()(),()其中 是一个正定矩阵。系数 在自适应律()中作为泄漏项出现。()设计用()作为最优控制策略 的 估计值,其中 是 的估计,并且 的更新率为(),()其中,是正定矩阵,是设计参数。用 代替式()中的,从而 的更新率变为()(),()其中 ()。注 不同于文献 中的算法,为了提高系统的鲁棒性,在 更

10、新率中增加了泄漏项(见式()和式烟台大学学报(自然科学与工程版)第 卷()的最后一项)。将式()代入式()得闭环系统为()。()由式(),(),()和()知 的估计误差珦 和珦 满足珦珔珔珦珔 珔珦珦珦珦 珔,()其中:珔(),。这里用到了()()()珦珦。()稳定性分析为了便于稳定性分析,需对神经网络逼近作如下假设。假设 ()有界,即存在一个常数 ,使得;()逼近误差及其梯度有界,即存在常数 和 ,使得,;()基函数及其梯度有界,即存在常数 和 ,使得,。注 这些假设是标准的 。根据神经网络逼近的相关理论知,可以选择有界的权重矢量,假设 ()成立。根据文献 知,随着,误差 ,从而假设 ()成

11、立。通过选择 型函数(),双曲正切函数()和其他标准的神经网络激活函数作为基函数 (),可以保证假设 ()成立。由式(),()和()知 的估计误差可表示为如下形式:()。()文献 指出,随着 的增加,均匀收敛于零。则对于固定的 ,是有界的,即存在常数 ,使得 ,并且 会随着 的增加而减少。注意到 ,根据 和 的定义以及假设 知,是有界的,即,其中常数 。定理 对于系统(),在假设 和假设 下,最优控制器()与神经网络 算法权重更新率()和()的作用下,若 ,则()的估计误差珦和珦满足 珦 (),珦 (),()其中,(),()(),。()误差 满足 ()槡(),()第 期张皓涵,等:基于强化学习

12、的非线性主动悬架系统的最优控制注意到 ,可以通过调节 和 充分大,使式()右边充分小。()存在一个紧集 ,当初始状态 ()时,闭环系统()中的状态 一致终极有界,从而主动悬架的状态 和 局部一致终极有界,且终极边界可通过调节参数充分小。证明考虑李雅普诺夫函数珦 珦珦 珦,()由式()知 的导数满足珦珔珔珦珦珔 珦珦珔珦珦珦 珦,()经计算,式()中的珦珦珔珦满足珦珦珔珦珦()珔珦珦珔珦珦珔()珦珔珦珦(珦)珔珦珔,()将式()和()代入式()得珦珔珔珦珦珔 珦 珦珔珦 珦珔 珦珦珔珦珦珦,()注意到,珔 ()和 ,则有 珦珦珔珦珦。()由假设 和 不等式知珦珔 珦珔珔珦 ,珦珦珦珦珦珦,珦珔珦

13、 珦珦珦珔珔珦,珦珔珦珦 ,珦珦珦。()将式()和()代入式()得珦珔珔珦珦珦珦珦()珦珦,()其中 ,从而有,()其中 (),()()。由 引理 知()()(),()再结合式()可得烟台大学学报(自然科学与工程版)第 卷珦 ()()()(),珦 ()()()(),()这使得式()成立。由式(),(),()和假设 知 (珦)()()()()槡(),()这使得式()成立。由()的定义知其是正定且径向无界的,则由文献 中的引理 知,存在 类函数 和,使得()()()。()由式(),()和()知()的导数满足()(()())()()。()由 ()的定义知(),()其中 ,(),()。由式()知珦有界

14、,即珦 ()()()槡。()注意到 珦,则珦。()在紧集 上,由式()和假设 ,可知()(珦)(),()将式(),()和()带入式()可得,()其中 ()。显然 ,槡,()注意到 可以选择充分大,则对于紧集 (),可以通过调节参数 使得 槡()。根据文献 中的定理 知,当初始状态 ()时,是一致终极有界的,且终极边第 期张皓涵,等:基于强化学习的非线性主动悬架系统的最优控制界为 槡()()。显然可以通过调节参数 充分大使得终极边界充分小。注意到 和,则主动悬架的状态 和 局部一致终极有界,且终极边界可通过调节参数充分小。结论本文考虑了在崎岖路面上的 汽车非线性主动悬架系统的最优控制问题。综合考

15、虑车身加速度,悬架扰动度和轮胎的位移等因素给出了合理的代价函数,提出了一种新颖的基于强化学习的在线 迭代算法的最优控制策略,同时增加泄漏项提高系统的鲁棒性。所提策略使得主动悬架系统的位移终极有界,同时使代价函数达到最优。另外,为保证汽车舒适度和行驶的安全度,还需综合考虑优化、安全和控制问题,并将结果应用到 悬架和全车悬架系统中。参考文献:,():孙丽颖,王新,白锐考虑输入约束的半主动悬架非线性自适应控制 控制与决策,():,():,():,():,():,():,:,():,():,():陈虹,马苗苗,孙鹏远基于 优化的主动悬架多目标控制 自动化学报,():庞辉,王延,刘凡考虑参数不确定性的主动悬架 保性能控制 控制与决策,():,():,():,():,():,():,():,():烟台大学学报(自然科学与工程版)第 卷 叶敏,肖龙翔分析力学 天津:天津大学出版社,吴昭景随机引论 北京:科学出版社,胡寿松,王执铨,胡维礼最优控制理论与系统 版北京:科学出版社,:,:,(,):,:;(责任编辑李春梅)(上接第 页),(,):,:;(责任编辑李春梅)

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服