博弈交互学习——一种复杂系统决策问题的求解范式.pdf-资源下载-咨信网让知识获取变得高效

博弈交互学习——一种复杂系统决策问题的求解范式.pdf

1、可J 交局沽寺二 5 NA/军亮 AAA 丰 2024 年 4 月 14 日上。全)全)放学人学计算机科学与技术系 01 ”研究背景介绍目录 02 问题求解范式 _04 未来研究展望 ,深度学习取得成功的最主要原因我们仍处在深度学习引发的人工智能研究热潮之中有 1 WII II ET 本让本 Le 本 1 LT 与 14.反动 1 四|刘过省 0 TITTT11 WII 人 wwWTW Texf 和 Language 忆用 Image 生 Video i Ri 汪人 Speech

2、4 ws，|es Da fckr 国生 es 学习习痪汪了 2 Tube am 4 Cene Expression Geolcgic dl Doafa Product 4 沁 Recormmendaotio|天 Relofionol Daya/amazon 大一一有 Social Nefwork Eee 算力数据 Climaye Chan 1-过去十余年来的主要进展:感知智能“感知类代表性技术:语音识别、图像分类、机器翻译圭。-AAA AAA。基于深度学习的语音识别模型已大规模部者，占据统治性地位。人

3、谷歌、微软、百度、讯飞等公司相继宣布语音识别精度超过 98%*。机器翻译精度*。YouTube 视频己语利 E|动般详。向软“亚申填。2022 千 11 月:机对 1【D 5 性#尼大争一科学考试，率座不断提升，早已经超过人类识别精度。FRVT 无约束人脸识别精度达到 95.5%，远超人类贞别水平。ImageNet 图像分类止确不断提升，接近人类水平，经实现语音实时辣步识曾和多多德”自然语言处理 Al 程序通过上确认超 90

4、%。OpenAl 友布了 ChatGPT 模型，人幅提升，取得突破性进展!过去十余年来的主要进展:认知智能:决策类代表性技术:游戏博蛮、推荐系统、交易预测等 2015:机器打雅塔力洲戏超过人类选手水平*。2016:围棋 Al 程序 AlphaGo 4:1 击败李世石*。2017:AlphaGo zero 无师晶通击败所有人类选于*。2017:念扑 AI 生计 DeepStack 利 Libratus 击败专业选手*。2018:星际 Al 程 Were 10:1 战眶

5、人关去业选手。2019:微软 Suphx 程序在专业麻将平台荣升 10 段。2019:刀搭多人对抗 Al 程序 DpenAl Five 避性志界二军团队。2021:腾讯推出王者荣深 Al 程序觉悟战胜人类顶尖玩家基于深度强化学习的推荐算法被大规模应机器学习和深度学习预测算法还被大冲用到广告推荐、视频推荐、影片推荐等应用于金融预测和其化交易系统之中过去十余年来的主要进展小结*。ChatGPT 的出现，使得通

6、用人工智能端倪初现 H ES 深度神经网络 ImaseNet 数据 AlphaGo/AlphaGo ChatGPT 论文标志深度学 HMM-DNN 应集图像分类正 Zero/AlphaZero 围人机对话的习时代到来用到语音识别确率效果惊人棋游戏对弈 Al 大语言模型 2005 2005 202 205 2015 20251 2025 语音识别|图像分类游戏对战大语言模型人类是否会被人工知能彻质运越和完全取代?图面向复杂系统的决案问题还

7、存在很多问题。从感知智能、认知智能到复杂系统决策智能本|人深度学习+大数据面问复杂人机系统的证作门台疙】克站全 D 台已 As AD 台尼感知智能认知智能决策智能面向复杂系统的决策问题还存在很多问题决策环节和夯。智能技术加速 ODODA 环:目前 AI 技术在不后匡单兵战斗对抗决策对抗环的应用渗透比例临最大技术瓶颈无人集群对抗决策陆海空联合指挥决策大国博弈推演决策复杂系统的研究发展

8、历史研究历史源远开关于贝”控制论代表人工知能的”一般系统论的以耗数早构理以突变理论、塔说菲关成果控制起源工作-首”总结性工作论、协同学和混光理论和元于复杂性论问世个使用反馈”一般系统论:超饥环理沦为胞自动机理论的研究科制的补呈基础发展和代表的具体经为代表的形式网结模型起巡阶段:复杂性科学三种代表性研究工具和全和汪 1 苞流长:很早被提出，一直未解决得体论与

9、还原纶半参策应用面世验科隆件乎自租级理论的共起为复杂性科学的整体论下成立了专门从钱学森提出了成立了新英格开始有学者将事复杂性科学 0C6S 概念，并兰复杂系蚊研复杂系统的相研究的机构-称之为“系统究所，推动复关理论应用于关国的圣迟菲科学涵现出来杂性科学向更军事系统研究二的一大领域”深入领域发展和战争分析加合阶段:系统论，开始避入人工智能手段研究背景介绍

10、类复杂系统呈现的主要特点 3 系统之间存在交互，在空间和 UL 时间维度会进化出新的性质系统可以从多个子系统模块很多不同视角介入呈现明显的层级性包含诸多要素紧看合全系统各层次包含要素关系错综复杂的要素数目巨大系统模块之间没有了明显的边弄不清楚钱学森。一个科学新领域开放的复杂巨系统再限，模块之间可以转换及其方法论。上海理工大学学报，2011 年。智能技术发展为复杂系统决策

11、研究带来新思路星际唐胃疾引桂蛋白质结构预测 Alphastar Wan 国棋 AiphaGo”和 phafole 雅塔力 DQN 和 Googile Al 捉这藏了可，Hide-and-9Seek Ce 机械手解度方 Dactyl OpenAl Five 策略进化 Evolution Strategies 5-0 下一代人工智能技术简全全 WL AI Next 进攻性蜂群技术 RAINEXTCAMPAIGN。会棒机吧守 3 OFFSET。终笑字习机 NS 全 L2M 和让二证=深度学习

12、+强化学习:被认为是通往通用人工智能的一条本 5 加日录本光基和 IE 强对抗环境下复杂系统决策问题面临的主要挑战 1 鼎数据少知识难学习 IE 3 六 TS 国生一一，了有 6 交大信息党训时 4 自博弈对抗数据缺少多样性“二川二 7 过、和争群体博计数据耗费大量算力全 S 之间在国有和沁区洁沁很多网江难以建模 ER 人复杂度随群体数呈指数上升人异构群体难以统一表示建模 4 异构

13、群体的协作关系南学习 SP 焉所东、as 区寺则|4 离线模型难以在线适应对手 4 策略集成不足存在潜在漏洞 4 不同想定模型需要重新学习 4 不同应用模型需要重新设计 PP 4 复杂博蛮对抗目标都难确定 4 个体群体总体进化目标冲突 4 信息不完备造成对手不确定 4 智能体相互克制性能难评估回申求解项和极大极,区绽蜀亏争史重演度学习值尿理三力卷积神经纳什均衡博呈网络贝叶斯纳轩机和

14、侍环神经什均衡网络静态博弈“动态博奔强化学习元学习演化计算”生成网络扯传算法“知识图谐知识表示、传递、积累演化结果、过程、模型可解释随机博弈”演化博弈重复博弈单次博齐交互方式、范式、人机关系环境、任务、策略可解释削降半树瑚问题求解项博弈交互学习研究范式 in 叶酸 2 人洒二避)汉刁当从济污济 /联盟学习驱动自主进化仁群三洪烛问囊状态空间复杂度:从博弈初始状态开始，可以达到的所有符

15、合规则的状态的总数。决策空间复杂度:从博斌初始状态开始到截止，所有可能决策序列中决策点总数。算法运#行复杂度:通过对最优千案的近似求解，算法在有了过程的决策总数。区去与回恰暗共与芹回，寺苯与所时，互 1 与对艺啦库关艺王蜡计加看尘问题求解范式本来研究展技术路线的形成:知识数据混合驱动学习“知识和数据如何实现双回友代增强?个 ae 站 S 2 涡丸负 4 息证答中合汪 Pr 玉这

16、于联没枯大江对区从这本知识数据双向迭代 E 罗.知识推演体系构建和数据驱动知识发现数据驱动模型学习相 we 互协同进行，不断和迭答-知识引导数据学习。装“过 Sn 识入流决策 k 平，。代演 K 和发展放汪兴 jw 之 1 往/9 _ 系学习结果发现新知识，人统人全全人和更新知识推演系统、疡弧交蛮决策系统，5 导数据学习算法提升光志澡注 6。现有博蛮决策水平凡从初必执洒习驱动类勋人时序演化维度

17、:人机交互学习字问全求解记式知识数据混合驱动学习技术路线数据拟合学习自靖庆深度强化学习品 1 罗 sn.4，及)2 2 人 5 rr 多和 9 必弄”AN Data BRi(mi)=argmax ui(ri,Ti)o 王和格一 SEE 初始基准解 En 二光四计算博弈理论机)上|国志全学 2 推理和演化 O 一，决策过程逐阶推理进代推理同步推理更新一必阶段:上于本站国人|风十本出 2 RN 阶段 2 昌一 csso 果三|四车辐司知识更

18、新数据模态问题求解认式分布式并行优化博弈学习引和擎“支持并行分布式对抗数据生成、模型训练学习和在线模型评估 ee Re 】外|状太 CN 和 mw ea em wm mp am em wm um au wma 和和光证 em WA 人自孙 CONTENTS 我们主要完成的研究内容“围绕智能体与环境单体探索)、智能体之间和群体博弈)、以及智能体与人人机混合)的交互学习问题开展核心算法研究单智能体多智能体 4，势能场

21、届究完美信息游戏不完美信息游戏试验环境的选择:各类不同的游戏选全村国游戏可以实现对真实世界中的诸多特性进行有效模拟择人.单体、多体、人机、不完美信息、回合制、实时制等游和全国游戏问题的输入状态范转确定，有较好的结构化描述戏游戏问题决策的空间范围确定，有相关的物理性约束试 4 本游戏的规则详细定义，游戏对抗问题胜负判断很明确 AI 的能力评估通过游戏对抗进行评估有明确计算准则验

22、生生游戏的对搞数据有很多积累或者可以用算法自动生成的.游戏决策模型训练过程中执行动作不会产生实际损失原人和国让戏与智力强相关，专业选手多被认为是最聪明的人因。很多游戏拥有专业的比赛和组织及数量众多的参与者技术应用效杂近期成果介绍:引入人类外部知识的高效探索 Al:PAE:将自然语言形式外部知识引入强化学习训练过程的框架研究动机:，1)人类智能善于从外部知识中吸取有 ou

23、十益见解，传统强化学习算法仍需要大量试错来进行中上二 io 低效探索，本工作探索了三个问题;人作和雪 SC 部知识如何指导集略学习?”2)大幅提升现有 RL 算法探索效率，为构建人类可参与的交互式博弈学习范式提供研究和算法基础。型外部知识?”、“如何引入外部知识?”、“外到单|人虽 RE|上呈筑法创新，提出了一个能够吸收人类知识的规划器-执行器-评估器 PAE)算法训练架构:规划需由昂到难提

24、供外部知识，执行佑遵循指导逐渐掌握复杂技能，评佑硕以关励同时张动规划谷和执行花更新;能够以目然语言的形式生成人拓可理解的决策序列。技术应用效订近期成果介绍:引入人类外部知识的高效探索 Al“规划刁:由易到难提供外部知黄多规划器架构 1 IN 位置编蚂 Suiaacesnass 执行器|O ORGTTGTFTG5O 侈 ”进性生让二马一 YE“高效率对抗数据生成技术，。高并发对抗模型训练技术，。高可靠性对抗性能评估技术;人工技术发展过程中的“AI 效应”二村全和于和下下于届全和一一达特茅斯学院约翰.麦卡锡未来取代人类的不是人工旬能而是会使用人工知能的人谢谢大家和闪车学 2024 年 4 月 14 晶

邮箱/手机：
验证码：	获取验证码
温馨提示：	支付成功后，系统会自动生成账号（用户名为邮箱或者手机号，密码是验证码），方便下次登录下载和查询订单；
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？