基于强化学习的非线性主动悬架系统的最优控制.pdf

资源描述

1、为了改善车辆性能和乘客舒适性，针对带有非线性阻尼的汽车主动悬架系统，提出了一种基于在线迭代算法的最优控制策略。首先根据所建立的非线性模型给出了合理的代价函数，并利用最优控制理论设计了初始最优控制策略。然后为了处理求解方程的困难，借助于强化学习的框架构造了一种新颖的策略在线学习方程的近似解，同时为提高系统的鲁棒性，在更新率中增加了泄漏项。最后通过稳定性分析表明所提策略可通过调节参数使状态收敛到零的充分小邻域，同时使代价函数达到最优。关键词：非线性主动悬架；强化学习；最优控制；算法中图分类号：文献标志码：随着汽车技术的不断发展，对汽车的操纵稳定性、车内人员的舒适性和隔绝道路颠簸等起重要作

2、用的悬架系统受到了极大的关注，相较于被动悬架和半主动悬架，主动悬架系统因其可通过设计控制器较好地改善乘坐舒适性和车辆的机动性被广泛应用。随着控制技术的发展，提出了许多不同的驱动器控制策略，如自适应控制、鲁棒控制、模糊控制和智能控制等。然而多数文献中均假设悬架系统具有线性动力学特性，事实上悬架弹簧和阻尼器具有非线性特性，对于非线性主动悬架，许多学者发展了诸如自适应、鲁棒制和滑模等控制策略，使得系统达到跟踪或镇定。众所周知，悬架系统的作用不仅是要隔振，而且还要提高车辆性能。针对悬架系统的这一问题，人们提出了主动悬架最优控制方法，然而现有的最优控制策略大多是针对具有线性动力学特性假设的悬

3、架系统。对于非线性最优控制问题最大的挑战是求解哈密顿雅可比贝尔曼（）方程，然而求解方程是非常困难甚至是不可能的，为了解决这一问题，贝尔曼在文献中提出一种动态规划理论。文献利用神经网络给出了方程的近似解，文献中借助于强化学习算法，用框架实现在线实时学习最优控制设计方程的解，文献利用此方法解决无人船的最优跟踪控制问题。受此启发，本文研究了基于强化学习的非线性主动悬架系统的最优控制问题，主要工作如下：（）最优性能指标直接影响车辆性能和乘客舒适性。基于所建立的非线性模型，综合考虑车身加速度，悬架扰动度和轮胎的位移等因素给出了合理的代价函数，然后利用非线性最优控制理论设计了初始最优控

4、制策略。（）针对最优控制中求解方程的困难，借助于强化学习的框架提出了一种新颖的在线实时学习方程近似解的策略，同时为提高系统的鲁棒性，在更新率中增加了泄漏项。（）通过李雅普诺夫稳定性理论分析表明，所提策略使得主动悬架系统的位移终极有界，且边界可以通第期张皓涵，等：基于强化学习的非线性主动悬架系统的最优控制过调节参数充分小从而实现实际稳定，同时使代价函数达到最优。本文用到的符号如下：瓗表示维欧几里得空间，瓗表示阶矩阵空间；对于向量，表示它的转置，表示它的欧式范数；，表示将向量（，）转化为对角矩阵，对于矩阵，和分别表示它的转置和逆，（）和（）分别表示它的最小和最大特征值。（）

5、是符号函数，（）（）是（）关于的梯度。问题提出考虑如图所示的行驶在崎岖路面上的汽车主动悬架系统。车轮和车身的质量分别为和，位移分别为和。车轮与车身之间的控制器，线性弹簧和非线性阻尼器是并联的，其中弹簧系数为，阻尼系数为。车轮看作是弹簧系数为的线性弹簧。为崎岖路面对系统产生的干扰位移。?图汽车主动悬架模型考虑以车轮和车身组成的质点系，选取（，）作为广义坐标，则系统的总动能和总势能分别为，（）（）。系统阻尼是非线性的，瑞利耗散函数为，其中，当时是线性的。则根据拉格朗日方程可得（）（）（），（）（）。（）为更好地研究悬架系统，通过选择状态，系统（）重写为（），（）其中，为

6、路面输入位移参数阵，（）（）()（）（），()，显然（）满足局部条件并且（），即对于给定的，存在使得（），（）其中瓗。是有界的，即，其中()槡。在评价汽车的平顺性时，车身振动加速度，悬架的扰动度和汽车轮胎的位移这项指标最为烟台大学学报（自然科学与工程版）第卷重要。选取性能指标（），其中（，）是加权系数。由式（）和不等式知（）()（）()()()()（）()()()()（）()，（）其中是加权系数。令（）()（），（）其中，（），（）。根据式（），定义如下代价函数（）（），（）其中。从式（）可以看出当代价函数变小时相应的性能指标也变小。控制目标：设计一个

7、控制器使得系统状态，能够收敛到充分小的范围内，并且系统的代价函数达到最优，以保证车辆的舒适性和驾驶的安全性。为了完成控制目标，需作如下假设：假设崎岖路面对系统产生的干扰位移是有界的，即存在一个常数，使得。注根据文献知路面产生的位移满足（）槡，其中为截止频率，为均值是零的有限带宽白噪声，（）为路面不平度系数，为车辆行驶速度。根据文献知是一个零均值的宽平稳过程。又由于实际路面是比较温和的，故假设是合理的。基于强化学习的控制器设计最优控制下面将设计控制器使最小。最优代价函数：（）（）（），（）根据最优控制原理，和最优控制满足方程（，）（）（）（），（）其中哈密顿函

8、数为（，）（）（），进一步，可计算得最优控制律（）（，）。（）众所周知方程（）求解非常困难，甚至是不可能的。为解决这一困难，下面将最优的代价函数由神经网络逼近（）（）（）（）（），（）其中，为逼近误差；瓗为理想的权重矢量，为神经元数量；（），为初值为零的基函数。则（）关于的梯度为（）（）（），（）其中和分别是关于的梯度。由式（）和（）知最优控制策略（），（）若用第期张皓涵，等：基于强化学习的非线性主动悬架系统的最优控制（），（）分别作为和的估计，注意到（，），则的估计误差为（，）（）（），（）其中。设计由于理想的权重矢量实际是未知的，则估计式（）不能用。下面将借助于

9、算法修正估计式（），结构如图所示。?图算法结构（）设计用（）（）（）作为最优代价函数（）的估计值，其中是的估计。从而用（，）（）（）（）（）作为的估计。注意到，考虑如下函数（）（）（）（）（）（），（）其中，（），设计参数。利用带有泄漏项的梯度下降法，自适应律设计为（）（）（），（）其中是一个正定矩阵。系数在自适应律（）中作为泄漏项出现。（）设计用（）作为最优控制策略的估计值，其中是的估计，并且的更新率为（），（）其中，是正定矩阵，是设计参数。用代替式（）中的，从而的更新率变为（）（），（）其中（）。注不同于文献中的算法，为了提高系统的鲁棒性，在更

10、新率中增加了泄漏项（见式（）和式烟台大学学报（自然科学与工程版）第卷（）的最后一项）。将式（）代入式（）得闭环系统为（）。（）由式（），（），（）和（）知的估计误差珦和珦满足珦珔珔珦珔珔珦珦珦珦珔，（）其中：珔（），。这里用到了（）（）（）珦珦。（）稳定性分析为了便于稳定性分析，需对神经网络逼近作如下假设。假设（）有界，即存在一个常数，使得；（）逼近误差及其梯度有界，即存在常数和，使得，；（）基函数及其梯度有界，即存在常数和，使得，。注这些假设是标准的。根据神经网络逼近的相关理论知，可以选择有界的权重矢量，假设（）成立。根据文献知，随着，误差，从而假设（）成

11、立。通过选择型函数（），双曲正切函数（）和其他标准的神经网络激活函数作为基函数（），可以保证假设（）成立。由式（），（）和（）知的估计误差可表示为如下形式：（）。（）文献指出，随着的增加，均匀收敛于零。则对于固定的，是有界的，即存在常数，使得，并且会随着的增加而减少。注意到，根据和的定义以及假设知，是有界的，即，其中常数。定理对于系统（），在假设和假设下，最优控制器（）与神经网络算法权重更新率（）和（）的作用下，若，则（）的估计误差珦和珦满足珦（），珦（），（）其中，（），()（），。（）误差满足（）槡()，（）第期张皓涵，等：基于强化学习

12、的非线性主动悬架系统的最优控制注意到，可以通过调节和充分大，使式（）右边充分小。（）存在一个紧集，当初始状态（）时，闭环系统（）中的状态一致终极有界，从而主动悬架的状态和局部一致终极有界，且终极边界可通过调节参数充分小。证明考虑李雅普诺夫函数珦珦珦珦，（）由式（）知的导数满足珦珔珔珦珦珔珦珦珔珦珦珦珦，（）经计算，式（）中的珦珦珔珦满足珦珦珔珦珦（）珔珦珦珔珦珦珔（）珦珔珦珦（珦）珔珦珔，（）将式（）和（）代入式（）得珦珔珔珦珦珔珦珦珔珦珦珔珦珦珔珦珦珦，（）注意到，珔（）和，则有珦珦珔珦珦。（）由假设和不等式知珦珔珦珔珔珦，珦珦珦珦珦珦，珦珔珦

13、珦珦珦珔珔珦，珦珔珦珦，珦珦珦。（）将式（）和（）代入式（）得珦珔珔珦珦珦珦珦()珦珦，（）其中，从而有，（）其中（），()（）。由引理知（）（）（），（）再结合式（）可得烟台大学学报（自然科学与工程版）第卷珦（）（）（）（），珦（）（）（）（），（）这使得式（）成立。由式（），（），（）和假设知（珦）（）（）（）（）槡()，（）这使得式（）成立。由（）的定义知其是正定且径向无界的，则由文献中的引理知，存在类函数和，使得（）（）（）。（）由式（），（）和（）知（）的导数满足（）（(）（）)（）（）。（）由（）的定义知（），（）其中，()，()。由式（）知珦有界

14、，即珦（）（）（）槡。（）注意到珦，则珦。（）在紧集上，由式（）和假设，可知（）（珦）（），（）将式（），（）和（）带入式（）可得，（）其中（）。显然，槡，（）注意到可以选择充分大，则对于紧集（），可以通过调节参数使得槡（）。根据文献中的定理知，当初始状态（）时，是一致终极有界的，且终极边第期张皓涵，等：基于强化学习的非线性主动悬架系统的最优控制界为槡()()。显然可以通过调节参数充分大使得终极边界充分小。注意到和，则主动悬架的状态和局部一致终极有界，且终极边界可通过调节参数充分小。结论本文考虑了在崎岖路面上的汽车非线性主动悬架系统的最优控制问题。综合考

15、虑车身加速度，悬架扰动度和轮胎的位移等因素给出了合理的代价函数，提出了一种新颖的基于强化学习的在线迭代算法的最优控制策略，同时增加泄漏项提高系统的鲁棒性。所提策略使得主动悬架系统的位移终极有界，同时使代价函数达到最优。另外，为保证汽车舒适度和行驶的安全度，还需综合考虑优化、安全和控制问题，并将结果应用到悬架和全车悬架系统中。参考文献：，（）：孙丽颖，王新，白锐考虑输入约束的半主动悬架非线性自适应控制控制与决策，（）：，（）：，（）：，（）：，（）：，（）：，：，（）：，（）：，（）：陈虹，马苗苗，孙鹏远基于优化的主动悬架多目标控制自动化学报，（）：庞辉，王延，刘凡考虑参数不确定性的主动悬架保性能控制控制与决策，（）：，（）：，（）：，（）：，（）：，（）：，（）：，（）：烟台大学学报（自然科学与工程版）第卷叶敏，肖龙翔分析力学天津：天津大学出版社，吴昭景随机引论北京：科学出版社，胡寿松，王执铨，胡维礼最优控制理论与系统版北京：科学出版社，：，：，（，）：，：；（责任编辑李春梅）（上接第页），（，）：，：；（责任编辑李春梅）

展开阅读全文