1、强化学习介绍强化学习介绍Reinforcement Learning第第1页页2 2什么是机器学习(什么是机器学习(Machine Learning)?)?机器学习是一门多领域交叉学科,包括概率论、机器学习是一门多领域交叉学科,包括概率论、统计学、迫近论、凸分析、算法复杂度理论等多门统计学、迫近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类学习行学科。专门研究计算机怎样模拟或实现人类学习行为,以获取新知识或技能,重新组织已经有知识结为,以获取新知识或技能,重新组织已经有知识结构使之不停改进本身性能。构使之不停改进本身性能。1959年美国塞缪尔设计了一个下棋程序,这个程年
2、美国塞缪尔设计了一个下棋程序,这个程序含有学习能力,它能够在不停对弈中改进自己棋序含有学习能力,它能够在不停对弈中改进自己棋艺。艺。4年后,这个程序战胜了设计者本人。又过了年后,这个程序战胜了设计者本人。又过了3年,这个程序战胜了美国一个保持年,这个程序战胜了美国一个保持8年之久常胜不败年之久常胜不败冠军。冠军。第第2页页3 3机器学习分类?机器学习分类?机器学习机器学习监督学习:计算机取得简单输入给出期望输出,过程监督学习:计算机取得简单输入给出期望输出,过程是经过一个是经过一个“训练模型训练模型”,学习通用准则来从输入映,学习通用准则来从输入映射到输出射到输出。无监督学习:没有给出标识用来
3、学习算法,让它自己无监督学习:没有给出标识用来学习算法,让它自己去发觉输入结构。无监督学习自己能够被当成一个目去发觉输入结构。无监督学习自己能够被当成一个目标或者一个实现结果路径(特征学习)。标或者一个实现结果路径(特征学习)。强化学习:一个计算机程序与动态环境交互,同时表强化学习:一个计算机程序与动态环境交互,同时表现出确切目标(比如驾驶一辆交通工具或者玩一个游现出确切目标(比如驾驶一辆交通工具或者玩一个游戏反抗一个对手)。这个程序奖惩机制会作为反馈,戏反抗一个对手)。这个程序奖惩机制会作为反馈,实现它在问题领域中导航。实现它在问题领域中导航。第第3页页4强化学习(强化学习(reinforc
4、ement learning)与监督学习、)与监督学习、非监督学习区分非监督学习区分n没有监督者,只有奖励信号没有监督者,只有奖励信号n反馈是延迟,不是顺时反馈是延迟,不是顺时n时序性强,不适合用于独立分布数据时序性强,不适合用于独立分布数据n自治智能体(自治智能体(agent)行为会影响后续信息接收行为会影响后续信息接收第第4页页5思索:思索:五子棋:棋手经过数学公式计算,发觉位置五子棋:棋手经过数学公式计算,发觉位置1比位置比位置2价值大,这是强化学习吗?价值大,这是强化学习吗?这不叫强化学习,叫规划这不叫强化学习,叫规划假如经过几次尝试,走位置假如经过几次尝试,走位置1比走位置比走位置2
5、赢棋赢棋可能性大,得出经验,则为强化学习可能性大,得出经验,则为强化学习第第5页页6强化学习模型强化学习模型几个定义几个定义自治智能体自治智能体Agent学习主体,如小猫、小狗、人、机器人、控制程序等学习主体,如小猫、小狗、人、机器人、控制程序等Agent特点特点1、主动对环境做出试探、主动对环境做出试探2、环境对试探动作反馈是评价性(好或坏)、环境对试探动作反馈是评价性(好或坏)3、在行动、在行动-评价环境中取得知识,改进行动方案,到达预评价环境中取得知识,改进行动方案,到达预期目标期目标 第第6页页7奖励信号(奖励信号(rewards)奖励信号奖励信号R是一个标量信号是一个标量信号表示表示
6、agent在步骤在步骤T中所产生动作好坏中所产生动作好坏Agent任务是最大化累积奖励信号任务是最大化累积奖励信号第第7页页8强化学习模型强化学习模型第第8页页9例子例子图中黄点是机器人,图中黄点是机器人,目标是走到绿色方目标是走到绿色方块块reward+1000,黑色方块是墙壁,黑色方块是墙壁,撞到撞到reward-10,红色方块是陷阱,红色方块是陷阱,撞到撞到reward-1000,其它,其它reward+0第第9页页10第第10页页11第第11页页12第第12页页13强化学习基本要素强化学习基本要素强化学习基本要素及其关系强化学习基本要素及其关系第第13页页14策略定义了策略定义了age
7、nt在给定时间内行为方式,在给定时间内行为方式,一个策略就是从环境感知状态到在这些状态一个策略就是从环境感知状态到在这些状态中可采取动作一个映射。中可采取动作一个映射。可能是一个查找表,也可能是一个函数可能是一个查找表,也可能是一个函数确定性策略:确定性策略:a=(s)随机策略:随机策略:(a s)=PAt=a St=s第第14页页15回报函数是强化学习问题中目标,它把环境中感回报函数是强化学习问题中目标,它把环境中感知到状态映射为单独一个奖赏知到状态映射为单独一个奖赏回报函数能够作为改变策略标准回报函数能够作为改变策略标准第第15页页16值函数:一个状态起值函数:一个状态起agent所能积累
8、回报所能积累回报总和。总和。在决议和评价决议中考虑最多是值函数在决议和评价决议中考虑最多是值函数第第16页页17环境模型模拟了环境行为,即给定一个状态环境模型模拟了环境行为,即给定一个状态和动作,模型能够预测必定造成下一个状态和动作,模型能够预测必定造成下一个状态和下一个奖赏。模型普通用于规划和下一个奖赏。模型普通用于规划规划是算出来,强化学习是试出来规划是算出来,强化学习是试出来第第17页页18马尔可夫过程马尔可夫过程马尔可夫奖励过程马尔可夫奖励过程马尔可夫决议过程马尔可夫决议过程马尔科夫决议过程(马尔科夫决议过程(MDP)第第18页页19马尔科夫性:所谓马尔科夫性是指系统下一个马尔科夫性:
9、所谓马尔科夫性是指系统下一个状态状态s(t+1)仅与当前状态仅与当前状态s(t)相关,而与以前状相关,而与以前状态无关。态无关。马尔可夫过程马尔可夫过程定义:状态定义:状态s(t)是马尔科夫,当且仅当是马尔科夫,当且仅当P St+1 St =P St+1 S1;:;St 第第19页页20对于一个马尔科夫状态对于一个马尔科夫状态s和接下来状态和接下来状态s,状态转移状态转移概率定义为概率定义为通常马尔科夫过程是一个二元组(通常马尔科夫过程是一个二元组(S,P),且满),且满足:足:S是有限状态集合,是有限状态集合,P是状态转移概率。状态是状态转移概率。状态转移概率矩阵为:转移概率矩阵为:第第20
10、页页21第第21页页22以下状态序列称为马尔科以下状态序列称为马尔科夫链,假设从夫链,假设从C1开始开始第第22页页23第第23页页24对于游戏或者机器人,马尔科夫过程不足以描述其特点,因为不论是游戏还是机器人,他们都是经过动作与环境进行交互,并从环境中取得奖励,而马尔科夫过程中不存在动作和奖励。第第24页页25马尔可夫奖励过程马尔可夫奖励过程马尔可夫奖励过程(马尔可夫奖励过程(MRP)是一个带有价值马尔)是一个带有价值马尔科夫链,由元组(科夫链,由元组(S,P,R,)来表示)来表示S为有限状态集为有限状态集P为状态转移概率为状态转移概率R为奖励函数为奖励函数 为折扣因子,为折扣因子,0,1
11、第第25页页26第第26页页27强化学习是找到最优策略,这里最优是指得到总回报最强化学习是找到最优策略,这里最优是指得到总回报最大。大。当给定一个策略时,我们就能够计算累积回报。首先当给定一个策略时,我们就能够计算累积回报。首先定义累积回报:定义累积回报:第第27页页28当给定策略当给定策略时,假设从状态时,假设从状态C1出发,学生状态序列出发,学生状态序列可能为:可能为:在策略在策略下,能够计算累积回报下,能够计算累积回报G1,此时,此时G1有多个可有多个可能值能值。因为策略。因为策略是随机,所以累积回报也是随机。是随机,所以累积回报也是随机。为了评价状态为了评价状态s1价值,我们需要定义一
12、个确定量来描价值,我们需要定义一个确定量来描述状态述状态s1价值,很自然想法是利用累积回报来衡量状价值,很自然想法是利用累积回报来衡量状态态s1 价值。然而,累积回报价值。然而,累积回报G1 是个随机变量,不是是个随机变量,不是一个确定值,所以无法进行描述。但其期望是个确定一个确定值,所以无法进行描述。但其期望是个确定值,能够作为状态值函数定义。值,能够作为状态值函数定义。第第28页页29当智能体采取策略当智能体采取策略时,累积回报服从一个分布,时,累积回报服从一个分布,累积回报在状态累积回报在状态s处期望值定义为状态值函数:处期望值定义为状态值函数:第第29页页30例例第第30页页31例例第
13、第31页页32例例第第32页页33例例第第33页页34贝尔曼方程贝尔曼方程状态值函数能够分为两部分:状态值函数能够分为两部分:瞬时奖励瞬时奖励后继状态值函数折扣值后继状态值函数折扣值第第34页页35第第35页页36第第36页页37马尔可夫决议过程马尔可夫决议过程马尔可夫决议过程是一个带有决议作用马马尔可夫决议过程是一个带有决议作用马尔科夫奖励过程,由元组(尔科夫奖励过程,由元组(S,A,P,R,)来表示)来表示S为有限状态集为有限状态集A为有限动作集为有限动作集P为状态转移概率为状态转移概率R为奖励函数为奖励函数 为折扣因子,为折扣因子,0,1 第第37页页38第第38页页39策略策略策略是指
14、状态到动作映射,策略惯用符号策略是指状态到动作映射,策略惯用符号表示,表示,它是指给定状态它是指给定状态s时,动作集上一个分布,即时,动作集上一个分布,即策略完全表示智能体运动策略完全表示智能体运动策略决定于当前状态,与历史状态无关策略决定于当前状态,与历史状态无关策略普通是固定,不随时间改变策略普通是固定,不随时间改变第第39页页40价值函数价值函数状态值函数状态值函数状态行为值函数状态行为值函数第第40页页41第第41页页42贝尔曼方程贝尔曼方程状态值函数贝尔曼方程:状态值函数贝尔曼方程:状态行为值函数贝尔曼方程:状态行为值函数贝尔曼方程:第第42页页43第第43页页44第第44页页45第第45页页46第第46页页47第第47页页48谢谢大家谢谢大家第第48页页