ImageVerifierCode 换一换
格式:PPTX , 页数:48 ,大小:2.10MB ,
资源ID:3076894      下载积分:12 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/3076894.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     留言反馈    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【人****来】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【人****来】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(强化学习简介省公共课一等奖全国赛课获奖课件.pptx)为本站上传会员【人****来】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

强化学习简介省公共课一等奖全国赛课获奖课件.pptx

1、强化学习介绍强化学习介绍Reinforcement Learning第第1页页2 2什么是机器学习(什么是机器学习(Machine Learning)?)?机器学习是一门多领域交叉学科,包括概率论、机器学习是一门多领域交叉学科,包括概率论、统计学、迫近论、凸分析、算法复杂度理论等多门统计学、迫近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类学习行学科。专门研究计算机怎样模拟或实现人类学习行为,以获取新知识或技能,重新组织已经有知识结为,以获取新知识或技能,重新组织已经有知识结构使之不停改进本身性能。构使之不停改进本身性能。1959年美国塞缪尔设计了一个下棋程序,这个程年

2、美国塞缪尔设计了一个下棋程序,这个程序含有学习能力,它能够在不停对弈中改进自己棋序含有学习能力,它能够在不停对弈中改进自己棋艺。艺。4年后,这个程序战胜了设计者本人。又过了年后,这个程序战胜了设计者本人。又过了3年,这个程序战胜了美国一个保持年,这个程序战胜了美国一个保持8年之久常胜不败年之久常胜不败冠军。冠军。第第2页页3 3机器学习分类?机器学习分类?机器学习机器学习监督学习:计算机取得简单输入给出期望输出,过程监督学习:计算机取得简单输入给出期望输出,过程是经过一个是经过一个“训练模型训练模型”,学习通用准则来从输入映,学习通用准则来从输入映射到输出射到输出。无监督学习:没有给出标识用来

3、学习算法,让它自己无监督学习:没有给出标识用来学习算法,让它自己去发觉输入结构。无监督学习自己能够被当成一个目去发觉输入结构。无监督学习自己能够被当成一个目标或者一个实现结果路径(特征学习)。标或者一个实现结果路径(特征学习)。强化学习:一个计算机程序与动态环境交互,同时表强化学习:一个计算机程序与动态环境交互,同时表现出确切目标(比如驾驶一辆交通工具或者玩一个游现出确切目标(比如驾驶一辆交通工具或者玩一个游戏反抗一个对手)。这个程序奖惩机制会作为反馈,戏反抗一个对手)。这个程序奖惩机制会作为反馈,实现它在问题领域中导航。实现它在问题领域中导航。第第3页页4强化学习(强化学习(reinforc

4、ement learning)与监督学习、)与监督学习、非监督学习区分非监督学习区分n没有监督者,只有奖励信号没有监督者,只有奖励信号n反馈是延迟,不是顺时反馈是延迟,不是顺时n时序性强,不适合用于独立分布数据时序性强,不适合用于独立分布数据n自治智能体(自治智能体(agent)行为会影响后续信息接收行为会影响后续信息接收第第4页页5思索:思索:五子棋:棋手经过数学公式计算,发觉位置五子棋:棋手经过数学公式计算,发觉位置1比位置比位置2价值大,这是强化学习吗?价值大,这是强化学习吗?这不叫强化学习,叫规划这不叫强化学习,叫规划假如经过几次尝试,走位置假如经过几次尝试,走位置1比走位置比走位置2

5、赢棋赢棋可能性大,得出经验,则为强化学习可能性大,得出经验,则为强化学习第第5页页6强化学习模型强化学习模型几个定义几个定义自治智能体自治智能体Agent学习主体,如小猫、小狗、人、机器人、控制程序等学习主体,如小猫、小狗、人、机器人、控制程序等Agent特点特点1、主动对环境做出试探、主动对环境做出试探2、环境对试探动作反馈是评价性(好或坏)、环境对试探动作反馈是评价性(好或坏)3、在行动、在行动-评价环境中取得知识,改进行动方案,到达预评价环境中取得知识,改进行动方案,到达预期目标期目标 第第6页页7奖励信号(奖励信号(rewards)奖励信号奖励信号R是一个标量信号是一个标量信号表示表示

6、agent在步骤在步骤T中所产生动作好坏中所产生动作好坏Agent任务是最大化累积奖励信号任务是最大化累积奖励信号第第7页页8强化学习模型强化学习模型第第8页页9例子例子图中黄点是机器人,图中黄点是机器人,目标是走到绿色方目标是走到绿色方块块reward+1000,黑色方块是墙壁,黑色方块是墙壁,撞到撞到reward-10,红色方块是陷阱,红色方块是陷阱,撞到撞到reward-1000,其它,其它reward+0第第9页页10第第10页页11第第11页页12第第12页页13强化学习基本要素强化学习基本要素强化学习基本要素及其关系强化学习基本要素及其关系第第13页页14策略定义了策略定义了age

7、nt在给定时间内行为方式,在给定时间内行为方式,一个策略就是从环境感知状态到在这些状态一个策略就是从环境感知状态到在这些状态中可采取动作一个映射。中可采取动作一个映射。可能是一个查找表,也可能是一个函数可能是一个查找表,也可能是一个函数确定性策略:确定性策略:a=(s)随机策略:随机策略:(a s)=PAt=a St=s第第14页页15回报函数是强化学习问题中目标,它把环境中感回报函数是强化学习问题中目标,它把环境中感知到状态映射为单独一个奖赏知到状态映射为单独一个奖赏回报函数能够作为改变策略标准回报函数能够作为改变策略标准第第15页页16值函数:一个状态起值函数:一个状态起agent所能积累

8、回报所能积累回报总和。总和。在决议和评价决议中考虑最多是值函数在决议和评价决议中考虑最多是值函数第第16页页17环境模型模拟了环境行为,即给定一个状态环境模型模拟了环境行为,即给定一个状态和动作,模型能够预测必定造成下一个状态和动作,模型能够预测必定造成下一个状态和下一个奖赏。模型普通用于规划和下一个奖赏。模型普通用于规划规划是算出来,强化学习是试出来规划是算出来,强化学习是试出来第第17页页18马尔可夫过程马尔可夫过程马尔可夫奖励过程马尔可夫奖励过程马尔可夫决议过程马尔可夫决议过程马尔科夫决议过程(马尔科夫决议过程(MDP)第第18页页19马尔科夫性:所谓马尔科夫性是指系统下一个马尔科夫性:

9、所谓马尔科夫性是指系统下一个状态状态s(t+1)仅与当前状态仅与当前状态s(t)相关,而与以前状相关,而与以前状态无关。态无关。马尔可夫过程马尔可夫过程定义:状态定义:状态s(t)是马尔科夫,当且仅当是马尔科夫,当且仅当P St+1 St =P St+1 S1;:;St 第第19页页20对于一个马尔科夫状态对于一个马尔科夫状态s和接下来状态和接下来状态s,状态转移状态转移概率定义为概率定义为通常马尔科夫过程是一个二元组(通常马尔科夫过程是一个二元组(S,P),且满),且满足:足:S是有限状态集合,是有限状态集合,P是状态转移概率。状态是状态转移概率。状态转移概率矩阵为:转移概率矩阵为:第第20

10、页页21第第21页页22以下状态序列称为马尔科以下状态序列称为马尔科夫链,假设从夫链,假设从C1开始开始第第22页页23第第23页页24对于游戏或者机器人,马尔科夫过程不足以描述其特点,因为不论是游戏还是机器人,他们都是经过动作与环境进行交互,并从环境中取得奖励,而马尔科夫过程中不存在动作和奖励。第第24页页25马尔可夫奖励过程马尔可夫奖励过程马尔可夫奖励过程(马尔可夫奖励过程(MRP)是一个带有价值马尔)是一个带有价值马尔科夫链,由元组(科夫链,由元组(S,P,R,)来表示)来表示S为有限状态集为有限状态集P为状态转移概率为状态转移概率R为奖励函数为奖励函数 为折扣因子,为折扣因子,0,1

11、第第25页页26第第26页页27强化学习是找到最优策略,这里最优是指得到总回报最强化学习是找到最优策略,这里最优是指得到总回报最大。大。当给定一个策略时,我们就能够计算累积回报。首先当给定一个策略时,我们就能够计算累积回报。首先定义累积回报:定义累积回报:第第27页页28当给定策略当给定策略时,假设从状态时,假设从状态C1出发,学生状态序列出发,学生状态序列可能为:可能为:在策略在策略下,能够计算累积回报下,能够计算累积回报G1,此时,此时G1有多个可有多个可能值能值。因为策略。因为策略是随机,所以累积回报也是随机。是随机,所以累积回报也是随机。为了评价状态为了评价状态s1价值,我们需要定义一

12、个确定量来描价值,我们需要定义一个确定量来描述状态述状态s1价值,很自然想法是利用累积回报来衡量状价值,很自然想法是利用累积回报来衡量状态态s1 价值。然而,累积回报价值。然而,累积回报G1 是个随机变量,不是是个随机变量,不是一个确定值,所以无法进行描述。但其期望是个确定一个确定值,所以无法进行描述。但其期望是个确定值,能够作为状态值函数定义。值,能够作为状态值函数定义。第第28页页29当智能体采取策略当智能体采取策略时,累积回报服从一个分布,时,累积回报服从一个分布,累积回报在状态累积回报在状态s处期望值定义为状态值函数:处期望值定义为状态值函数:第第29页页30例例第第30页页31例例第

13、第31页页32例例第第32页页33例例第第33页页34贝尔曼方程贝尔曼方程状态值函数能够分为两部分:状态值函数能够分为两部分:瞬时奖励瞬时奖励后继状态值函数折扣值后继状态值函数折扣值第第34页页35第第35页页36第第36页页37马尔可夫决议过程马尔可夫决议过程马尔可夫决议过程是一个带有决议作用马马尔可夫决议过程是一个带有决议作用马尔科夫奖励过程,由元组(尔科夫奖励过程,由元组(S,A,P,R,)来表示)来表示S为有限状态集为有限状态集A为有限动作集为有限动作集P为状态转移概率为状态转移概率R为奖励函数为奖励函数 为折扣因子,为折扣因子,0,1 第第37页页38第第38页页39策略策略策略是指

14、状态到动作映射,策略惯用符号策略是指状态到动作映射,策略惯用符号表示,表示,它是指给定状态它是指给定状态s时,动作集上一个分布,即时,动作集上一个分布,即策略完全表示智能体运动策略完全表示智能体运动策略决定于当前状态,与历史状态无关策略决定于当前状态,与历史状态无关策略普通是固定,不随时间改变策略普通是固定,不随时间改变第第39页页40价值函数价值函数状态值函数状态值函数状态行为值函数状态行为值函数第第40页页41第第41页页42贝尔曼方程贝尔曼方程状态值函数贝尔曼方程:状态值函数贝尔曼方程:状态行为值函数贝尔曼方程:状态行为值函数贝尔曼方程:第第42页页43第第43页页44第第44页页45第第45页页46第第46页页47第第47页页48谢谢大家谢谢大家第第48页页

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服