强化学习简介.ppt_咨信网zixin.com.cn

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,/42,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,强化学习简介,Reinforcement Learning,1,2,什么是机器学习（,Machine Learning,）？,机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。,1959,年美国的塞缪尔设计了一个下棋程序，这个程序具有学习能力，它可以在不断的对弈中改善自己的棋艺。,4,年后，这个程序战胜了设计者本人。又过了,3,年，这个程序战胜了美国一个保持,8,年之久的常胜不败的冠军。,2,3,机器学习的分类？,机器学习,监督学习：计算机获得简单的输入给出期望的输出，过程是通过一个“训练模型”，学习通用的准则来从输入映射到输出,。,无监督学习：没有给出标记用来学习算法，让它自己去发现输入的结构。无监督学习自己可以被当成一个目标或者一个实现结果的途径（特征学习）。,强化学习：一个计算机程序与动态环境交互，同时表现出确切目标（比如驾驶一辆交通工具或者玩一个游戏对抗一个对手）。这个程序的奖惩机制会作为反馈，实现它在问题领域中的导航。,3,强化学习（,reinforcement learning,）与监督学习、非监督学习的区别,没有监督者，只有奖励信号,反馈是延迟的，不是顺时的,时序性强，不适用于独立分布的数据,自治智能体（,agent),的行为会影响后续信息的接收,4,思考：,五子棋：棋手通过数学公式计算，发现位置,1,比位置,2,价值大，这是强化学习吗？,这不叫强化学习，叫规划,如果通过几次尝试，走位置,1,比走位置,2,赢棋的可能性大，得出经验，则为强化学习,5,强化学习模型,几个定义,自治智能体,Agent,学习的主体，如小猫、小狗、人、机器人、控制程序等,Agent,的特点,1,、主动对环境做出试探,2,、环境对试探动作反馈是评价性的（好或坏）,3,、在行动,-,评价的环境中获得知识，改进行动方案，达到预期目的,6,奖励信号（,rewards,）,奖励信号,R,是一个标量信号,表示,agent,在步骤,T,中所产生动作好坏,Agent,的任务是最大化累积奖励信号,7,强化学习模型,8,例子,图中黄点是机器人，目的是走到绿色的方块,reward+1000,，黑色方块是墙壁，撞到,reward-10,，红色方块是陷阱，撞到,reward-1000,，其他,reward+0,9,10,11,12,强化学习基本要素,强化学习基本要素及其关系,13,策略定义了,agent,在给定时间内的行为方式，一个策略就是从环境感知的状态到在这些状态中可采取动作的一个映射。,可能是一个查找表，也可能是一个函数,确定性策略：,a=,(s),随机策略：,(a s)=PAt=a St=s,14,回报函数是强化学习问题中的目标，它把环境中感知到的状态映射为单独的一个奖赏,回报函数可以作为改变策略的标准,15,值函数：一个状态起,agent,所能积累的回报的总和。,在决策和评价决策中考虑最多的是值函数,16,环境模型模拟了环境的行为，即给定一个状态和动作，模型可以预测必定导致的下一个状态和下一个奖赏。模型一般用于规划,规划是算出来的，强化学习是试出来的,17,马尔可夫过程,马尔可夫奖励过程,马尔可夫决策过程,马尔科夫决策过程（,MDP,）,18,马尔科夫性：所谓马尔科夫性是指系统的下一个状态,s(t+1),仅与当前状态,s(t),有关，而与以前的状态无关。,马尔可夫过程,定义：状态,s(t),是马尔科夫的，当且仅当,P St+1St =P St+1S1;:;St,19,对于一个马尔科夫状态,s,和接下来的状态,s,状态转移概率定义为,通常马尔科夫过程是一个二元组（,S,，,P,），且满足：,S,是有限状态集合，,P,是状态转移概率。状态转移概率矩阵为：,20,21,以下状态序列称为马尔科夫链，假设从,C1,开始,22,23,对于游戏或者机器人，马尔科夫过程不足以描述其特点，因为不管是游戏还是机器人，他们都是通过动作与环境进行交互，并从环境中获得奖励，而马尔科夫过程中不存在动作和奖励。,24,马尔可夫奖励过程,马尔可夫奖励过程（,MRP,）是一种带有价值的马尔科夫链，由元组（,S,，,P,，,R,）来表示,S,为有限的状态集,P,为状态转移概率,R,为奖励函数,为折扣因子，,0,1,25,26,强化学习是找到最优的策略，这里的最优是指得到的总回报最大。,当给定一个策略时，我们就可以计算累积回报。首先定义累积回报：,27,当给定策略,时，假设从状态,C1,出发，学生状态序列可能为：,在策略,下，可以计算累积回报,G1,，此时,G1,有多个可能值。由于策略,是随机的，因此累积回报也是随机的。为了评价状态,s1,的价值，我们需要定义一个确定量来描述状态,s1,的价值，很自然的想法是利用累积回报来衡量状态,s1,的价值。然而，累积回报,G1,是个随机变量，不是一个确定值，因此无法进行描述。但其期望是个确定值，可以作为状态值函数的定义。,28,当智能体采用策略,时，累积回报服从一个分布，累积回报在状态,s,处的期望值定义为状态值函数：,29,例,30,例,31,例,32,例,33,贝尔曼方程,状态值函数可以分为两部分：,瞬时奖励,后继状态值函数的折扣值,34,35,36,马尔可夫决策过程,马尔可夫决策过程是一种带有决策作用的马尔科夫奖励过程，由元组（,S,，,A,，,P,，,R,）来表示,S,为有限的状态集,A,为有限的动作集,P,为状态转移概率,R,为奖励函数,为折扣因子，,0,1,37,38,策略,策略是指状态到动作的映射，策略常用符号,表示，它是指给定状态,s,时，动作集上的一个分布，即,策略完全的表示智能体的运动,策略决定于当前状态，与历史状态无关,策略一般是固定的，不随时间变化,39,价值函数,状态值函数,状态行为值函数,40,41,贝尔曼方程,状态值函数贝尔曼方程：,状态行为值函数贝尔曼方程：,42,43,44,45,46,47,谢谢大家,48,

展开阅读全文