智能控制-第八章--学习控制系统概要.ppt

资源描述

1、智智能能控控制制Intelligent ControlIntelligent Control1.第八章第八章学学习习控制系控制系统统8.1 学学习习控制概述控制概述8.1.1 什么是学什么是学习习控制控制1.学学习习的各种定的各种定义义定定义义8.1 一个具有生存能力的一个具有生存能力的动动物在它的一生中能物在它的一生中能够够被其被其经经受的受的环环境所改造。境所改造。一个能一个能够够繁殖后代的繁殖后代的动动物至少能物至少能够够生生产产出与自身相似的出与自身相似的动动物（后代），即使物（后代），即使这这种相似可能随着种相似可能随着时间变时间变化。如果化。如果这这种种变变化是自我可化是自

2、我可遗传遗传的，那么，就存在一种的，那么，就存在一种能受自然能受自然选择选择影响的物影响的物质质。如果。如果该变该变化是以行化是以行为为型式出型式出现现，并假定，并假定这这种行种行为为是是无害的，那么无害的，那么这这种种变变化就会世代相化就会世代相传传下去。下去。这这种从一代至其下一代的种从一代至其下一代的变变化型式化型式称称为为种族学种族学习习或系或系统发统发育学育学习习，而，而发发生在特定个体上的生在特定个体上的这这种行种行为变为变化或行化或行为为学学习习，则则称称为为个体个体发发育学育学习习。Wiener(维纳维纳）于）于1965年年对对学学习给习给出一个比出一个比较较普遍的定普遍的定义

3、义：2.C.Shannon在在1953年年对对学学习给习给予予较较多限制的定多限制的定义义：定定义义8.2 假假设设（）一个有机体或一部机器（）一个有机体或一部机器处处在某在某类环类环境中，或者同境中，或者同该环该环境境有有联联系；（）系；（）对该环对该环境存在一种境存在一种“成功的成功的”度量或度量或“自适自适应应”度量；（）度量；（）这这种种度量在度量在时间时间上是比上是比较较局部的，也就是局部的，也就是说说，人，人们们能能够够用一个比有机体生命期短的用一个比有机体生命期短的时间时间来来测试这测试这种成功的度量。种成功的度量。对对于所考于所考虑虑的的环环境，如果境，如果这这种全局的成功度量

4、，种全局的成功度量，能能够够随随时间时间而改善，那么我而改善，那么我们们就就说说，对对于所于所选择选择的成功度量，的成功度量，该该有机体或机器有机体或机器正正为为适适应这类环应这类环境而学境而学习习。Osgood在在1953年从心理学的年从心理学的观观点提出学点提出学习习的定的定义义：定定义义8.3 在同在同类类特征的重复特征的重复环环境中，有机体依靠自己的适境中，有机体依靠自己的适应应性使自身行性使自身行为为及及在在竞竞争反争反应应中的中的选择选择不断地改不断地改变变和增和增强强。这类这类由个体由个体经验经验形成的形成的选择变选择变异即异即谓谓学学习习。Tsypkin为为学学习习和自学和自学

5、习习下了下了较为较为一般的定一般的定义义：定定义义8.4 学学习习是一种是一种过过程，通程，通过对过对系系统统重复重复输输入各种信号，并从外部校正入各种信号，并从外部校正该该系系统统，从而系，从而系统对统对特定的特定的输输入作用具有特定的响入作用具有特定的响应应。自学。自学习习就是不具外来校正就是不具外来校正的学的学习习，即不具，即不具奖罚奖罚的学的学习习，它不，它不给给出系出系统统响响应应正确与否的任何附加信息。正确与否的任何附加信息。3.Simon对对学学习给习给予更准确的定予更准确的定义义：定定义义8.5 学学习习表示系表示系统统中的自适中的自适应变应变化，化，该变该变化能使系化能使系统

6、统比上一次更有效地比上一次更有效地完成同一群体所完成同一群体所执执行的同行的同样样任任务务。Minsky用一个比用一个比较较一般的学一般的学习习判据代替改善学判据代替改善学习习判据，他的判判据，他的判据只要求据只要求变变化是有益的：化是有益的：定定义义8.6 学学习习在于使我在于使我们们的智力工作的智力工作发发生有益的生有益的变变化。化。定定义义8.7 学学习习系系统统是一个能是一个能够够学学习习有关有关过过程的未知信息，并用所学信息作程的未知信息，并用所学信息作为为进进一步决策或控制的一步决策或控制的经验经验，从而逐步改善系，从而逐步改善系统统的性能。的性能。定定义义8.8 如果一个系如果一

7、个系统统能能够够学学习习某一某一过过程或程或环环境的未知特征固有信息，并用境的未知特征固有信息，并用所得所得经验进经验进行估行估计计、分、分类类、决策或控制，使系、决策或控制，使系统统的品的品质质得到改善，那么称得到改善，那么称该该系系统为统为学学习习系系统统。定定义义8.9 学学习习控制能控制能够够在系在系统进统进行行过过程中估程中估计计未知信息，并据之未知信息，并据之进进行最行最优优控控制，以便逐步改制，以便逐步改进进系系统统性能。性能。4.定定义义8.10 学学习习控制是一种控制方法，其中的控制是一种控制方法，其中的实际经验实际经验起到控制参数和算法起到控制参数和算法类类似的作用。似的作

8、用。定定义义8.11 如果一个学如果一个学习习系系统统利用所学得的信息来控制某个具有未知特征的利用所学得的信息来控制某个具有未知特征的过过程，程，则则称称该该系系统为统为学学习习控制系控制系统统。总总之，学之，学习习控制的定控制的定义义，可用数学描述如下：，可用数学描述如下：定定义义8.12 在有限在有限时间时间域域0,T内，内，给给出受控出受控对对象的期望的响象的期望的响应应yd(t)，寻寻求某求某个个给给定定输输入入uk(t)，使得，使得uk(t)的响的响应应yk(t)，在某种意，在某种意义义上上获获得改善；其中，得改善；其中，k为为搜索次数，搜索次数，t 0,T。称。称该该搜索搜索过过程

9、程为为学学习习控制控制过过程。当程。当k时时，yk(t)yd(t)，则该则该学学习习控制控制过过程是收程是收敛敛的。的。根据上述定根据上述定义义，可把学，可把学习习控制的机理概括如下：控制的机理概括如下：寻寻找并求得找并求得动态动态控制系控制系统输统输入与入与输输出出间间的比的比较简单较简单的关系。的关系。执执行每个由前一步控制行每个由前一步控制过过程的学程的学习结习结果更新了的控制果更新了的控制过过程。程。改善每个控制改善每个控制过过程，使其性能程，使其性能优优于前一个于前一个过过程。程。5.8.1.2 为为什么要研究学什么要研究学习习控制控制自适自适应应控制系控制系统统能能够够在不确定的

10、条件下在不确定的条件下进进行有条件的决策。行有条件的决策。学学习习系系统统是自适是自适应应系系统统的的发发展与延伸，它能展与延伸，它能够够按照运行按照运行过过程中程中的的“经验经验”和和“教教训训”来不断改来不断改进进算法，增算法，增长长知知识识，以便更广泛地，以便更广泛地模模拟拟高高级级推理、决策和推理、决策和识别识别等人等人类类的的优优良行良行为为和功能。和功能。自适自适应应控制的控制的应应用范用范围围比比较较有限。有限。当受控当受控对对象的运象的运动动具有可重复性具有可重复性时时，即受控制系，即受控制系统统每次每次进进行同行同样样的工作的工作时时，就可把学，就可把学习习控制用于控制用于该

11、对该对象。象。学学习习控制已成控制已成为为智能控制的一个重要智能控制的一个重要领领域。学域。学习习与掌握学与掌握学习习控制的基本原理和技控制的基本原理和技术术能能够够明明显显增增强强控制工程控制工程师处师处理理实际实际控控制制问题问题的能力，并提供的能力，并提供对对含有不确定性含有不确定性现实现实世界的敏世界的敏锐锐理解。理解。6.8.1.3 学学习习控制的控制的发发展展 50年代：年代：对对学学习习机的机的设设想与研究始于想与研究始于50年代，学年代，学习习机是一种模机是一种模拟拟人的人的记忆记忆与条件反射的自与条件反射的自动动装置。学装置。学习习机的概念是与控制机的概念是与控制论论同同时时

12、出出现现的。下棋机是学的。下棋机是学习习机器早期研究机器早期研究阶阶段的成功例子段的成功例子。60年代：年代：发发展了自适展了自适应应和自学和自学习习等方法。等方法。60年代开始研究双重控制和人工年代开始研究双重控制和人工神神经经网网络络的学的学习习控制理控制理论论，其控制原理是建立在模式，其控制原理是建立在模式识别识别方法的基方法的基础础上的上的。另一另一类类基于模式基于模式识别识别的学的学习习控制方法把控制方法把线线性再励技性再励技术术用于学用于学习习控制系控制系统统。研究基于模式研究基于模式识别识别的学的学习习控制的第三种方法是利用控制的第三种方法是利用Bayes学学习习估估计计方法。方

13、法。80年代：年代：由于基于模式由于基于模式识别识别的学的学习习控制方法存在收控制方法存在收敛敛速度慢、占用内存大、速度慢、占用内存大、分分类类器器选择选择涉及涉及训练样训练样本的构造以及特征本的构造以及特征选择选择与提取与提取较难较难等具体等具体实现问题实现问题，反，反复学复学习习控制及重复学控制及重复学习习控制，在控制，在80年代被提出来，并年代被提出来，并获获得得发发展。展。7.8.2 学学习习控制方案控制方案学学习习控制主要方案如下：控制主要方案如下：基于模式基于模式识别识别的学的学习习控制、反复学控制、反复学习习控制、重复学控制、重复学习习控制、控制、连连接主接主义义学学习习控制，包

14、括再励（控制，包括再励（强强化）学化）学习习控制、基于控制、基于规则规则的学的学习习控控制，包括模糊学制，包括模糊学习习控制、控制、拟拟人自学人自学习习控制、状控制、状态态学学习习控制等等。控制等等。学学习习控制具有四个主要功能：搜索、控制具有四个主要功能：搜索、识别识别、记忆记忆和推理。学和推理。学习习控制系控制系统统分两分两类类，即在，即在线线学学习习控制系控制系统统和离和离线线学学习习控制系控制系统统，分分别别如如图图8.1（a）和）和8.1（b）所示。）所示。图图8.1 (a)在在线线学学习习控制系控制系统统8.(b)离离线线学学习习控制系控制系统统图图8.1 学学习习控制系控制系统统

15、原理框原理框图图图图中，中，代表参考代表参考输输入，入，输输出响出响应应，u控制作用，控制作用，s转换转换开关。当开关接通开关。当开关接通时时，该该系系统处统处于离于离线线学学习习状状态态。9.8.2.1 基于模式基于模式识别识别的学的学习习控制控制从从图图8.2可可见见，该该控制器中含有一个模式（特征）控制器中含有一个模式（特征）识别单识别单元和元和一个学一个学习习（学（学习习与适与适应应）单单元。模式元。模式识别单识别单元元实现对输实现对输入信息的入信息的提取与提取与处处理，提供控制决策和学理，提供控制决策和学习习与适与适应应的依据；学的依据；学习习与适与适应单应单元的作用是根据在元的

16、作用是根据在线线信息来增加和修改知信息来增加和修改知识库识库的内容，改善系的内容，改善系统统的性能。的性能。图图8.2 基于模式基于模式识别识别学学习习控制系控制系统统的一种的一种结结构构10.上上图图所示的基于模式所示的基于模式识别识别的学的学习习控制系控制系统统，可被推广，可被推广为为一具一具有在有在线线特征辨特征辨识识的分的分层层（递阶递阶）结结构，如下构，如下图图所示。从所示。从图图可知，可知，该该控制系控制系统统由三由三级组级组成，即成，即组织级组织级、自校正、自校正级级和和执执行控制行控制级级。图图8.3 一个多一个多级级学学习习控制系控制系统统组织级组织级自校正自校正级级执执行控

17、制行控制级级11.8.2.2 迭代学迭代学习习控制控制（Iterative Learning Control)迭代学迭代学习习控制方法最先由日本学者内山提出，并由有本、控制方法最先由日本学者内山提出，并由有本、川村和美多等川村和美多等发发展。展。定定义义8.13 迭代学迭代学习习控制是一种学控制是一种学习习控制策略，它通控制策略，它通过过迭代迭代应应用用先前先前试验试验得到的信息（而不是系得到的信息（而不是系统统参数模型），以参数模型），以获获得能得能够产够产生期望生期望输输出出轨轨迹的控制迹的控制输输入，改善控制入，改善控制质质量。量。迭代学迭代学习习控制的任控制的任务务如下：如下：给给出系

18、出系统统的当前的当前输输入和当前入和当前输输出，出，确定下一个期望确定下一个期望输输入使得系入使得系统统的的实际输实际输出收出收敛敛于期望于期望值值。12.右右图给图给出迭代学出迭代学习习控制系控制系统统的一般框的一般框图图，图图中，中，yd代表有界代表有界连续连续期望期望输输出；出；uk为为第第k次迭代参次迭代参考考输输入；入；uk+1为为第第(k+1）次迭代）次迭代参考参考输输入；入；yk为闭环为闭环控制系控制系统统的的第第k次次实际实际迭代迭代输输出；出；k=1,2,，n。图图8.4 迭代学迭代学习习控制原理框控制原理框图图13.控控制制总总输输入入由由两两部部分分组组成成，一一为为由由

19、反反馈馈控控制制器器（控控制制器器或或自自适适应应控控制制器器）产产生生的的反反馈馈输输入入，另另一一为为由由前前一一个个控控制制输输入入和和学学习习控控制制器器的的输输出出组组成成前前馈馈输输入入，即即第第（k k+1+1）次次操作的操作的总总控制控制输输入入为为：令被控令被控对对象的期望象的期望输输入入与与实际输实际输入入之之间间的偏差的偏差为为：从上从上图图能能够够知道，第知道，第k次学次学习习的参考的参考输输入入和修正信号和修正信号相加并存相加并存储储后，作后，作为为第（第（k+）次学）次学习习的的给给定定输输入，即入，即 14.8.2.3 重复学重复学习习控制控制(R

20、epetitive Learning Control)下下图给图给出了重复学出了重复学习习控制系控制系统统的基本的基本结结构。构。图图8.7 重复学重复学习习控制系控制系统统基本基本结结构构重复控制和迭代控制之重复控制和迭代控制之间间存在一些根本差存在一些根本差别别：重复控制构成一个完全重复控制构成一个完全闭环闭环系系统统，进进行行连续连续运行。运行。两种控制的收两种控制的收敛敛条件是不同的，而且用不同的方法确定。条件是不同的，而且用不同的方法确定。对对于迭代控制，偏差的于迭代控制，偏差的导导数被引入更新了的控制数被引入更新了的控制输输入表达式。入表达式。迭代控制能迭代控制能够处够处理控制理控

21、制输输入入为线为线性地加入的非性地加入的非线线性系性系统统。15.8.2.4 基于神基于神经经网网络络的学的学习习控制控制神神经经控制系控制系统统的核心是神的核心是神经经控制器（控制器（NNC），而神），而神经经控制的控制的关关键键技技术术是学是学习习（训练训练）算法。从学）算法。从学习习的的观观点看，神点看，神经经控制系控制系统统自然地是学自然地是学习习控制系控制系统统的一部分。的一部分。监监督学督学习习神神经经网网络络控制器控制器 16.成功地成功地实现实现NNC的第一步就是一定要弄清楚人在控制的第一步就是一定要弄清楚人在控制过过程中程中到底利用了到底利用了过过程及人本身什么信息。程及人

22、本身什么信息。实现实现NNC的第二步就是构造神的第二步就是构造神经经网网络络，包括，包括选选取合适的神取合适的神经经网网络类络类型（如多型（如多层层前前馈馈网网络络）。）。第三步就是第三步就是NNC的的训练训练。下下面面以以小小车车-倒倒立立摆摆系系统统（如如下下图图）控控制制为为例例，说说明明NNC的的构造与构造与训练训练。17.Mxm2L18.这这是是一一个个模模拟拟的的四四维维非非线线性性动动力力学学系系统统。其其中中为为重重力力加加速速度度，状状态态变变量量分分别别为为小小车车位位置置x，小小车车速速度度x，杆杆的的角角度度和和杆的角速度杆的角速度，记为记为向量向量z=x,x,T 选

23、选择择控控制制器器为为一一个个4层层前前向向网网络络，其其结结构构为为4-16-4-1，即即输输入入层层、第第一一隐隐含含层层、第第二二隐隐含含层层和和输输出出层层分分别别包包括括4、16、4、1个个神神经经元元。除除输输入入层层神神经经元元特特性性是是线线性性的的外外，其其余余各各层层神神经经元元的的变变换换函函数数均均为为S型型函函数数，其其中中输输出出层层神神经经元元的的输输出出值值在在-k和和k之之间间连连续变续变化。化。K为为小小车车-倒立倒立摆摆系系统统控制信号的最大幅度。控制信号的最大幅度。训训练练数数据据包包括括小小车车-倒倒立立摆摆系系统统的的状状态态和和导导师师加加入入系系

24、统统后后控控制制信信号号的的采采样样值值。采采用用误误差差反反向向传传播播（BP）算算法法及及记记录录下下的的样样本本对对网网络进络进行离行离线训练线训练。19.1线线性性导导师师监监督督学学习习首首先先将将小小车车-倒倒立立摆摆的的力力学学方方程程式式在在=0附近附近线线性化，由此得性化，由此得用作用作导师导师的的线线性控制律性控制律为为:u=kz=k1x+k2x+k3+k4式中式中k=11.01,19.68,96.49,35.57 20.2非非线线性性导师监导师监督学督学习习要要寻寻找更复找更复杂杂的老的老师师，其，其办办法是采用反法是采用反馈线馈线性化和解耦性化和解耦变换变换的非的非

25、线线性反性反馈馈，由此来抵消系，由此来抵消系统统的非的非线线性并把它性并把它变换变换成一个成一个线线性性可控的形式。可控的形式。3人作人作为导师进为导师进行行监监督学督学习习人在控制人在控制过过程中，凭的不是程中，凭的不是对对系系统统的的动动力学性能的分析，而力学性能的分析，而是感是感觉觉与与经验经验，为为了了产产生生训练训练数据，人在数据，人在计计算机屏幕上算机屏幕上观测观测小小车车-倒立倒立摆摆运运动动仿真，通仿真，通过输过输入装置施加控制器（入装置施加控制器（HNNC）约约需要需要BP算法算法训练训练40000次。次。21.评评价学价学习习神神经经网网络络控制器控制器现现在在假假设设

26、小小车车-倒倒立立摆摆系系统统的的动动力力学学是是未未知知的的，并并且且假假设设没没有有现现成成的的成成功功控控制制可可以以模模仿仿。我我们们要要训训练练出出一一个个神神经经网网络络控控制制器，控制倒立器，控制倒立摆摆使之立起使之立起稳稳定。定。将将小小车车-倒倒立立摆摆系系统统的的四四维维状状态态空空间间分分成成如如下下若若干干互互不不相相交交的的分分块块，即即小小车车位位置置x分分成成-2.4,-0.8，-0.8,0.8，0.8,2.4 共共3格格；倒倒摆摆角角度度分分成成-12,-6，-6,-1，-1,0，0,1，1,6，6,12 共共6格格；小小车车的的速速度度x分分成成(-,-0.5

27、，-0.5,0.5，0.5,+)共共3格格；倒倒立立摆摆的的角角速速度度分分成成(-,-50，-50,50，50,+)共共3格，由此分成共格，由此分成共162个状个状态态空空间间分分块块。22.ACEv1 vnv2w1w2 ASE wn小小车车-倒立倒立摆摆器器码码解解状状态变态变量量x1x1x1失失败败信号信号评评价信号价信号y用两个用两个单层单层神神经经网网络络学学习习倒倒摆摆控制。控制。这这两个网两个网络络一个称一个称为为作用作用网网络络或自或自联联想搜索元件（想搜索元件（ASE），另一个称），另一个称为评为评价网价网络络或自适或自适应评应评价元件（价元件（ACE），各由一个神），各由一

28、个神经经元构成元构成 23.评评价价网网络络的的信信号号用用来来学学习习并并产产生生一一个个评评价价函函数数，使使现现在在的的状状态态映映射射为为对对作作用用力力和和作作用用时时状状态态的的评评价价网网络络的的输输出出是是评评价价信信号号，在在每每一一步步控控制制后后，根根据据对对倒倒摆摆状状态态先先前前的的预预报报和和现现在在的的状状态态来来调调整整这这个信号。个信号。作用网作用网络络用来学用来学习习并并产产生一个作用，它借助于生一个作用，它借助于“强强化学化学习习法法”来学来学习习的，它的，它试试着随机地作用，同着随机地作用，同时对权时对权重重进进行增量行增量调调整。在整。在作用作用阶阶段

29、，它根据系段，它根据系统统的状的状态态和和评评价信号决定价信号决定输输出力的方向，出力的方向，即决定把小即决定把小车车推向左推向左边边或右或右边边。24.8.3 学学习习控制系控制系统举统举例例“用于弧用于弧焊过焊过程的自学程的自学习习模糊神模糊神经经控制系控制系统统 ”8.3.1 自学自学习习模糊神模糊神经经控制模型控制模型图图8.10 自学自学习习模糊神模糊神经经控制系控制系统统原理原理图图模糊控制器可由解析公式描述如下：模糊控制器可由解析公式描述如下：(8.75)25.用于不确定用于不确定过过程的模型和程的模型和测测量量传传感器可由下感器可由下图图所示的四所示的四层层反向反向传传播网

30、播网络络来来实现实现。图图8.11 PMN模型模型该该模型的映射关系模型的映射关系为为:(8.76)26.8.3.2 自学自学习习模糊神模糊神经经控制算法控制算法模糊控制器和神模糊控制器和神经经网网络络模型的学模型的学习习算法如下：算法如下：（）控制（）控制误误差指差指标标 (8.80)（）模型（）模型误误差指差指标标 (8.81)（）模型学（）模型学习习算法算法可用离可用离线线学学习习算法和在算法和在线线学学习习算法来修改网算法来修改网络络的参数的参数（）校正参数（）校正参数a(t),b(t)的自适的自适应应修改修改 27.8.3.3 弧弧焊过焊过程自学程自学习习模糊神模糊神经经控制系控制系统统.弧弧焊焊控制系控制系统统的的结结构构图图8.12 弧弧焊焊控制系控制系统结统结构框构框图图 28.焊焊接接过过程的建模与仿真程的建模与仿真.控制弧控制弧焊过焊过程的程的试验结试验结果果 8.4 小小结结学学习习是人是人类类的一种重要行的一种重要行为为和智能能力。和智能能力。学学习习控制系控制系统统能能够处够处理具有不确定性和非理具有不确定性和非线线性的性的过过程，程，并能保并能保证证良好的适良好的适应应性、性、满满意的意的稳稳定性以及足定性以及足够够快的收快的收敛敛。29.

展开阅读全文