资源描述
目录
第一章 变分法
1.1 变分法的定义和定理
1.2 泛函与变分
1.3 欧拉方程
1.4 横截条件
1.5泛函的局部极值
1.6变分法求解最有控制问题
第二章 极值原理
2.1 极值原理
2.1.1积分型最优控制问题的最小值原理
2.1.2积分型最优控制问题的最大值原理
2.1.3有关最大值原理(或最小值原理)的几点说明
2.2 最小值原理的几种具体形式
第三章 动态规划及其在时间最短控制问题
3.1 多级决策问题
3.2 离散动态规则
3.3 连续动态规则
3.4 变分法、最大值原理与动态规划
第四章 线性二次型最优控制问题
4.1 线性二次型问题
4.2 有限时间的状态调节器问题
4.3 无限时间的状态调节器问题
4.4 输出调节器问题
4.5 跟踪问题
4.6线性二次型实验及仿真结果
4.7倒立摆最优控制
摘要:本文主要阐述了关于最优控制问题的基本概念及其应用问题。最优控制理论是在满足一定约束条件下,寻求最优控制策略,使得性能指标取极大值或极小值的一门学科,解决最优控制问题的主要方法有变分法、极值原理和动态规划。为了具体形象的解释这些问题,本文还将线性二次型实验及仿真结果用来研究探讨,并且把倒立摆最优控制作为最优控制的应用举例,希望能加深读者对本文的理解。
关键词:最优控制 变分法 极值原理 动态规划 最优解
正文:
第一章 变分法
1.1 变分法的定义和定理
变分法名称定义:变分法是处理函数的函数的数学领域,和处理数的函数的普通微积分相对。譬如,这样的泛函可以通过未知函数的积分和它的导数来构造。变分法最终寻求的是极值函数:它们使得泛函取得极大或极小值。
变分法定理:变分法的关键定理是欧拉-拉格朗日方程。它对应于泛函的临界点。在寻找函数的极大和极小值时,在一个解附近的微小变化的分析给出一阶的一个近似。它不能分辨是找到了最大值或者最小者(或者两者都不是)。
变分法在理论物理中非常重要:在拉格朗日力学中,以及在最小作用原理在量子力学的应用中。变分法提供了有限元方法的数学基础,它是求解边界值问题的强有力工具。它们也在材料学中研究材料平衡中大量使用。而在纯数学中的例子有,黎曼在调和函数使用狄利克雷原理。
同样的材料可以出现在不同的标题中,例如希尔伯特空间技术,莫尔斯理论,或者辛几何。变分一词用于所有极值泛函问题。微分几何中的测地线的研究是很显然的变分性质的领域。极小曲面(肥皂泡)上也有很多研究工,称为Plateau问题。
最优控制的理论是变分法的一个推广。
1.2泛函与变分
泛函与变分有如下的基本概念。
设对于自变量t,存在一类函数{x(t)}。如果对于每个函数x(t),有一个J值与之对应,则变量J成为依赖于函数X(t)的泛函数,记作J[x(t)]。
由上述定义可见,泛函为标量,可以理解为“函数的函数”,其值由函数的选取而定。
研究泛函的极值问题,需要采用变分法。变分在泛函研究中的作用,如同微分在函数研究中的作用一样。泛函的变分与函数的微分,其定义几乎完全相当。
(1)泛函的变分
定义:如果连续泛函J[x(t)]的增量可以表示为:
(1.1)
其中,L[x(t),dx(t)]是关于dx(t)的线性连续泛函,而r[x(t),dx(t)]是关于dx(t)的高阶无穷小。 L[x(t),dx(t)] 称为泛函的变分,记为
(1.2)
也就是说,泛函的变分是泛函增量的线性主部。当一个泛函具有变分时,即泛函的增量可以用式(1.1)来表示时,称该泛函是可微的。
(2)泛函的极值
定义:如果泛函J[x(t)]在函数空间中点x=x0(t)的邻域内,其增量为:
(1.3)
就称泛函J[x(t)]在点x0(t)处达到极小值;
如果泛函J[x(t)]在函数空间中点x=x0(t)的邻域内,其增量为:
(1.4)
就称泛函J[x(t)]在点x0(t)处达到极大值;
x0(t)的邻域包含满足条件: 的所有点x(t)的球(即以x0(t) 为圆心,以d为半径的球)。
1.3欧拉方程
欧拉方程又称欧拉-拉格朗日方程,我无约束泛函极值及有约束泛函极值的必要条件。再推导欧拉方程的过程中,应用了 所示的泛函极值的必要条件。
定理1:若给定曲线x(t)的始端x(t0)= x0和终端x(tf)= xf,则泛函
(1.5)
达到极值的必要条件是,曲线x(t)满足欧拉方程
(1.6)
其中x(t)应有连续的二阶导数, 则至少应是二次连续可微的。
定理2:
在n维函数空间中,若极值曲线X(t)=[x1(t),x2(t),…,xn(t)]T的始端X(t0)=[x1(t0),x2(t0),…,xn(t0)]T和终端X(tf)=[x1(tf),x2(tf),…,xn(tf)]T是给定的,则泛函
(1.7)
达到极值的必要条件是曲线X(t)满足向量欧拉方程
(1.8)
其中X(t)应有连续的二阶导数,而 则至少应是二次连续可微的。
1.4横截条件
当极值曲线x*(t)的端点变化时,要使泛函 达到极小值, x*(t)首先应当满足欧拉方程:
(1.9)
若端点固定,可以利用端点条件:
(1.10)
确定欧拉方程中的两个待定的积分常数。
1.5泛函的局部极值
定理:若泛函
(1.11)
的一阶变分 (1.12)
则J[x(t)]达到极小值的充分条件是二阶型矩阵
(1.13)
是正定的或半正定的;而J[x(t)]达到极大值的充分条件是式(1.13)是负定的或半负定的。
此定理可以推广到含有n个未知函数的泛函的情形。
1.6变分法求解最有控制问题
在控制向量不受约束,且是时间的连续函数情况下,可用变分法导出最优控制解的必要条件。在变分法问题中,以复合型指标泛函,末端受约束的情况最有代表性。
对于最优控制问题来说,当状态变量和控制变量均不受约束,即X(t)ÎRn,U(t)ÎRm 时,是在等式约束条件下求泛函极值的变分问题,因此,可以利用拉格朗日乘子法来求解。
对于混合边界问题,即两点边界值问题,有以下求解步骤:
(1)U=U[X(t),l(t),t] (1.14)
(2)并代入
(1.15)
(1.16)
(3) (1.17)
(4) (1.18)
(5)求解方程(1.17)和(1.18)可得唯一确定的解X(t)和l(t)。将所求得的X(t)和l(t)代入式(1.14)中,可求得相应的U(t)。
说明:
(1)对于两点边界值问题,一般难以求得其解析解,通常需要采用数值计算方法求其数值解。
(2)利用引入哈密顿函数的方法求解拉格朗日型最优控制问题,是将求泛函 、
在等式
约束条件下对控制函数U(t)的条件极值问题转化为求哈密顿函数H对控制变量U(t)的无条件极值问题。这种方法称为哈密顿方法。
第二章 极值原理
应用经典变分法求解最优控制问题,要求控制向量不受任何约束,而且要求哈尼顿函数对控制向量连续可微。但是,在实际工程问题中,控制变量往往受到一定的限制。例如,高性能飞机的舵偏角一般不超过正负五度;又如,采用空气舵的地-空战术导弹,容许的最大偏角舵角一般不超过正负二十度。这就使得飞机和导弹的控制力矩受到一定的限制,容许控制集合形成一个有界闭集,在容许控制集合边界上,控制变分不能任意,最优控制的必要条件 亦不满足。
为了解决控制有约束的变分问题,庞特里亚金提出并证明了极小值原理,其结论与经典变分法的结论有许多相似之处,能够应用于控制变量受边界限制的情况,并且不要求哈密顿函数对控制向量连续可微,因此获得了广泛应用。
2.1 极值原理
2.1.1积分型最优控制问题的最小值原理:
给定系统的状态方程
和初态X(t0)=X0, 而终端时刻tf固定,终端状态X(tf)自由以及控制变量U(t)所受约束条件是
(2.1)
则为将系统从给定的初态X(t0)转移到某个终态X(tf) ,并使性能泛函
(2.2)
达到极小值的最优控制应满足的必要条件是:
(1)设U*(t)是最优控制, X*(t)是对应于U*(t)的最优轨线,则必存在一与U*(t)和X*(t)相对应的n维协态变量l(t),使得X*(t)和l(t)满足规范方程。
(2.3)
(2.4)
其中,
(2.5)
(2)边界条件为
(2.6)
(2.7)
(3)在最优控制U*(t)和最优轨线X*(t)上哈密顿函数达到最大值,即
(2.8)
说明:由于以上的中心内容是,使性能泛函达到极小值的最优控制的必要条件是哈密顿函数H达到最大值,所以,该定理称为最(极)大值原理。
2.1.2 积分型最优控制问题的最大值原理:
给定系统的状态方程
(2.9)
和初态X(t0)=X0, 而终端时刻tf固定,终端状态X(tf)自由以及控 制变量U(t)所受约束条件是
(2.10)
则为将系统从给定的初态X(t0)转移到某个终态X(tf) ,并使性能泛函
(2.11)
达到极小值的最优控制应满足的必要条件是:
(1)设U*(t)是最优控制, X*(t)是对应于U*(t)的最优轨线,则必存在一与U*(t和X*(t)相对应的n维协态变量l(t),使得X*(t)和l(t)满足规范方程
(2.12)
(2.13)
其中,
(2.14)
(2)边界条件为
(2.15)
(2.16)
(3) 在最优控制U*(t)和最优轨线X*(t)上哈密顿函数达到最大值,即
(2.17)
说明:由于以上的中心内容是,使性能泛函达到极小值的最优控制的必要条件是哈密顿函数H达到最大值,所以,该定理称为最(极)大值原理。
应用最大值原理和最小值原理求解同一个最优控制问题,所得到的最优控制和最优轨线是一致的,但是,协态变量却是互为反号的。
2.1.3有关最大值原理(或最小值原理)的几点说明:
(1)最大值原理(当然包括最小值原理,以下同)是对古典变分法的发展。它不仅可以用来求解函数U(t)不受约束或只受开集性约束的最优控制问题,而且也可以用来求解控制函数U(t)受到闭集性约束条件的最优控制问题。这就意味着最大值原理放宽了对控制函数U(t)的要求。
(2)最大值原理没有提出哈密顿函数H对控制函数U(t)的可微性的要求,因此,其应用条件进一步放宽了。并且,由最大值原理所求得的最优控制U(t)使哈密顿函数H达到全局、绝对最大值,而由古典变分法的极值条件¶H/ ¶U=0所得到的解是H的局部、相对最大值或驻值。因此,最大值原理将古典变分法求解最优控制问题的极值条件作为一个特例概括在自己之中 。
(3)最大值原理是最优控制问题的必要条件,并非充分条件。也就是说,由最大值原理所求得的解能否使性能泛函J达到极小值,还需要进一步分析与判定。但是,如果根据物理意义已经能够断定所讨论的最优控制问题的解是存在的,而由最大值原理所得到的解只有一个,那么,该解就是最优解。实际上,我们遇到的问题往往属于这种情况。
(4)利用最大值原理和古典变分法求解最优控制问题时,除了控制方程的形式不同外,其余条件是相同的。一般来说,根据最大值原理确定最优控制U*(t)和最优轨线X*(t)仍然需要求解两点边界值问题。这是一件复杂的工作。
2.2最小值原理的几种具体形式
定理2.2.1(时不变情况) 给定系统的状态方程:
(2.18)
的初态X(t0)=X0和 终端时刻tf固定,终端状态x(tf)自由,控制函数的约束条件
(2.19)
要求从满足约束条件(2.19)的容许控制中,确定一最优控制U*(t),使性能泛函取得最小值
(2.20)
定义Hamilton函数为:
(2.21)
式中 为待定的n维拉格朗日乘子向量。
欲使性能指标达最小值,以实现最优控制的必要条件为:
(1)正则方程组
状态方程
(2.22)
协态方程 (2.23)
(2)极值条件
(2.24)
(3)约束条件
(2.25)
(4)横截条件
(2.26)
定理2.2.2(时变情况) 给定系统的状态方程:
(2.27)
的初态X(t0)=X0和 终端时刻tf固定,终端状态x(tf)自由,控制函数的约束条件
(2.28)
要求从满足约束条件(2.28)的容许控制中,确定一最优控制U*(t),使性能泛函取得最小值
(2.29)
定义Hamilton函数为:
(2.30)
其中 为待定的n维拉格朗日乘子向量。
欲使性能指标达最小值,以实现最优控制的必要条件为:
(1)正则方程组
状态方程
(2.31)
协态方程 (2.32)
(2)极值条件
(2.33)
(3)端点约束 (2.34)
(4)横截条件
(2.35)
定理2.2.3(时不变末值型性能指标末端时刻自由的情况) 给定系统的状态方程:
(2.36)
的初态X(t0)=X0固定和 终端时刻tf未知,终端状态x(tf)自由,控制函数的约束条件
(2.37)
要求从满足约束条件(2.37)的容许控制中,确定一最优控制U*(t),使性能泛函取得最小值
(2.38)
定义Hamilton函数为:
(2.39)
式中 为待定的n维拉格朗日乘子向量。
欲使性能指标达最小值,以实现最优控制的必要条件为:
(1)正则方程组
状态方程
(2.40)
协态方程
(2.41)
(2)极值条件
(2.42)
(3)端点约束
(2.43)
(4)横截条件
(2.44)
(2.45)
(2.46)
说明:积分型性能指标改变了Hamilton函数的形式,它与末值型性能指标的Hamilton函数是不同的,但与复合型性能指标的Hamilton函数是相同的。由此可见,末值型性能指标并不反映在Hamilton函数中,但末值型性能指标会影响终端边界条件(横截条件)。同样,若末端状态受约束,也会影响终端边界条件(横截条件),具体结论与第二章的结论相同。
求解最优控制问题的基本步骤:
1、假设协态变量,构造Hamilton函数;
2、写出正则方程组,根据初始条件及终端条件(横截条件)找出解最优控制的边界条件;
3、按极值必要条件求出使Hamilton函数为最小的u*;
4、将所得的u*与正则方程组联立,并利用边界条件求解有关常数项,可得u*与x*。
第三章 动态规划及其在时间最短控制问题
动态规划法是美国学者贝尔曼于1957年提出来的,它与极小值原理一样,是处理控制变量有有界闭集约束时,确定最优控制解的有效数学方法。
从本质上讲,动态规划是一种非线性规划,其核心是贝尔曼的最优性原理。这个最优性原理可归结为一个基本递推关系式,从而使决策过程连续地转移,可将一个多级决策过程化为多个单级决策过程,使其求解简化。利用动态对话求解控制有约束的最优控制问题特别方便,但也受到维数问题的限制,其应用有一定的局限性。
3.1 多级决策问题
与穷举法相比,动态规划法的计算工作量大为减少。对于多阶段、多决策(每段不是两个决策而是多个决策)问题,动态规划的优越性就更加突出。因此,它对于处理路程或过程分为多段,每段都要做出决策才能确定过程继续演化的所谓多级决策问题,是一个很有前途的方法。
动态规划法求解最优问题的思路是,从后往前倒着计算,确定每点到终点的最优路线。动态规划法可将一个复杂的、难以求解的多级决策问题,转化为一系列简单的、易于求解的多个单级决策问题来处理。这在数学上称为不变嵌入原理。
对于多级决策问题来说,最优路线和最优决策序列具有一个重要的性质:最优性原理,它是动态规划的理论基础
3.2 离散动态规划
最优性原理:
在一个多级决策问题中的最优策略具有这样的性质,不论初始状态和初始决策如何,当将其中的任何一个状态再作为初始状态时,则余下的策略,对此必定也是一个最优策略。
具体地说,如果有一个初始状态为X(0)的N级决策问题,其最优决策为U(0),U(1),…,U(N-1),那么,对于以X(j)(j=1,2,…, N-1)为初始状态的N-j级决策问题来说,策略U(j), U(j+1),…,U(N-1)必定也是最优策略。
如果U*(0),U*(1),…,U*(N-1)是离散系统最优控制问题(5.2.1)-(5.2.3)在初始为X(0)时的N级控制的最优控制序列,那么U*(j),U*(j+1),…,U*(N-1) 也是该最优控制问题在初态为X(j)=f[X(j-1),U(j-1)]的后N-j级控制的最优控制序列(其中j=1,2,…,N-1)。
(1) 最优性原理也适用于求解使性能指标达到极大值的最优控制问题;
(2) 最优性原理只肯定N级最优控制序列中的后N-j级控制也是最优控制序列,以前的j个控制没有明确肯定。这句话的含义是,就前j个控制U(0),U(1),…,U(j-1)的选定来说,他们并不能使分段性能指标
(3.1)
达到最优值。也就是说,使JN[X(0),U(0),U(1),¼,U(j-1),U(j), U(j+1), ¼,U(N-1)]达到最优值的U(0),U(1),¼,U(j-1) ,和使Jj[X(0),U(0),U(1),¼,U(j-1)]达到最优值的U(0),U(1),¼,U(j-1) ,一般来说是不相同的
(3) 最优性原理得以成立的一个前提条件是所谓过程的无后效性。
具体地说,设过程现在的状态为X(i),它是由前一个状态X(i-1)变换而来,X(i)=f[X(i-1),U(i-1)]。 显然,前一个状态X(i-1)和前一个决策U(i-1)对后续过程的影响,仅仅表现在他们将状态转移到了X(i),并随之确定了可供选择的决策集合。至于后续过程将如何进行,他们就不再直接起作用了。
也就是说,系统的过去只能决定现在,而不能直接影响未来。实际上,在现实世界中的许多过程,都具有无后效性。
应用动态规划的基本方程求解离散最优控制问题:利用动态规划法求解离散系统最优控制序列的过程是将一个N级最优控制问题转化为N个一级最优控制问题来处理,并且从最后一级开始,依次向前递推。解N个函数方程,每次可求出一个最优解U*(N-j),j=1,2,…,N。如下图所示,
3.3 连续动态规划
连续动态规划的最优性原理:假定最优控制U*(t)和最优状态轨线X*(t)都已经找到了,最优性能指标J*仅与初始时刻t0和初始状态X(t0)有关,也就是说,它是初始时刻t0和初始状态X(t0)的函数,记为
(3.2)
连续最优控制问题的最优性原理:初始状态为X(t0)的最优控制策略U*[t0,tf]后面的一部分U*[t1,tf](t1>t0)仍然是最优控制策略,其初始状态是在区间[t0,t1]上应用控制策略U*[t0,t1]由系统状态方程
(3.3)
和初始状态X(t0)=X0所得到的X(t1)。
推广到一般情形:确定在区间[t0,tf]上任意时刻t及其对应的状态X(t)的最优解。也就是说,要确定最优性能指标函数J*[X(t),t]及其对应的最优控制U*(t)和最优轨线X*(t)。根据不变嵌入原理,如果确定了最优性能指标函数J*[X(t),t] ,用t0代换t,用X(t0)代换X(t),就可以求出J*[X(t0),t0]。
用动态规划法求解连续系统的最优控制问题时,得到一个偏微分方程,而利用最大值原理求解连续系统的最优控制问题时,得到一组常微分方程(即规范方程)。一般来说,解偏微分方程要比解常微分方程困难得多,往往难以求得解析解,需要借助于数字计算机求其数值解。
利用动态规划法求得的在时刻t的最优控制U*(t)是通过在该时刻的状态X(t)表示的,即
虽然U*(t)依赖于状态X(t)的关系可能是非定常的,也就是说U*(t)可能是状态X(t)的时变函数,但是,不管在理论上还是在工程实践上,都可以利用系统的状态反馈来实现,构成状态反馈的闭环控制。而变分法或最大值原理往往将最优控制表示成时间t的函数,难以甚至不能将最优控制表示成状态的函数,是一种开环控制方式。
3.4 变分法、最大值原理与动态规划
古典变分法难以处理最优控制问题中带有闭集型约束条件的问题。
最大值原理是在力学中哈密顿原理的基础上发展了古典变分法,得到一组关于动态变量X(t)和协态变量 l(t)的常微分方程,将求解最优控制问题转化为求解状态变量方程、协态变量以及控制方程的两点边界值问题。
贝尔曼的动态规划法是在哈密顿-雅可比理论的基础上发展了古典变分法,得到一个关于最优性能指标函数J*[X(t),t]的偏微分方程,将求解最优控制问题归结为求解该偏微分方程和状态方程问题。
动态规划比最大值原理应用的范围要广泛得多,并且所得到的结论是关于最优控制问题的充分条件。
第四章 线性二次型最优控制问题
如果所研究的系统是线性的,且性能指标为状态变量和控制变量的二次型函数,最优控制问题称为线性二次型问题。由于线性二次型问题的最优解具有统一的解析表达式,且可导致一个简单的线性状态反馈控制律,易于构成闭环最优反馈控制,便于工程实现,因而在实际工程问题中得到了广泛应用。
4.1 线性二次型问题
(1)二次型性能指标是一种综合型性能指标。它可以兼顾终端状态的准确性、系统响应的快速性、系统运行的安全性及节能性各方面因素。线性二次型最优控制问题的实质是:用不大的控制能量,来保持较小的输出误差,以达到控制能量和误差综合最优的目的。
(2)在这些不同目标之间,往往存在着一定矛盾。例如,为能尽快消除误差并提高终端准确性,就需较强的控制作用及较大的能量消耗;而抑制控制作用的幅值和降低能耗,必然会影响系统的快速性和终端准确性。如何对这些相互冲突的因素进行合理折衷,是系统设计者必须认真对待的课题。
(3)性能指标由三项组成,若各项出现不同符号,将发生相互抵消的现象。这样,尽管各项单独的数值较大,但J的数值可能很小,性能指标就无法反映各项指标的优劣。为防止出现这种情况,应保证在各种实际运行情况下,无论容许控制如何选择,性能指标中各项的数值始终具有相同的符号。又因是以极小值作为最优标准,结合问题的物理性质,各项符号均取正值。
(4)控制时间的起点t0及终点tf,可能是由实际问题决定的客观参数,也可能是由设计者决定的主观参数。对后者而言,设计者必须把希望达到的目标和t0 、 tf的选择联系起来。
4.2 有限时间的状态调节器问题
P(t)的3个重要性质:
(1)由微分方程理论的存在与唯一性定理,可以证明P(t)存在而且唯一。
(2)对于任意的tÎ[t0,tf], P(t)均为对称阵,即 P(t)=PT(t)
(3)若R是正定矩阵,Q是半正定矩阵,则P(t)(t0£t£tf)是半正定矩阵;若是正定矩阵, Q是正定矩阵,则P(t)(t0£t£tf)是正定矩阵。
对上图的说明:
由图(a)可见,当r很小时,意即控制作用的价值并不重要,控制轨线x(t)将迅速回到零;当r很大时,意即控制作用的价值十分重要,状态轨线x(t)将衰减得很慢。
如图(b)可见,随着r的减小,在控制区间[0,1]起始部分的控制变量的幅值变得很大;当r趋于零时,控制变量逐渐演变成为t=0时的脉冲。
由图(c)可见,随着r的减小,p(t)在控制区间[0,1]的起始部分几乎是一常数,当r减小时,p(t)仅仅在控制区间的最后部分才表现出时变的性质;随着r的增大,p(t)就成为真正的时变了。
4.3 无限时间的状态调节器问题
当线性定常系统是完全可控的,并且终端时刻tf趋于无限时,就可得到非时变的状态调节器,即这时的反馈增益矩阵是一个定常矩阵。
正定对称矩阵P(t)的每个元素pij(t)( i,j=1,2,3…,n)随时间变化的情况如图4-4所示。由图可见,当tf很大时,随着t的减小pij(t)将达到稳定值 ,并且随着tf的增加,此稳态值的时间区间将加宽。当tf®¥时,此稳态值的时间区间也将趋于无穷大。
对于无限时间状态调节器,终端状态必须为零,即X(¥)=0。不然,性能指标值将为无穷大,问题将无解。由于X(¥)=0,所以在性能指标中设置终端代价是多余的。
4.4 输出调节器问题
一个工程实际系统,当工作于调节器状态
展开阅读全文