收藏 分销(赏)

多智能体强化学习方法综述.pdf

上传人:自信****多点 文档编号:3108146 上传时间:2024-06-18 格式:PDF 页数:15 大小:1.54MB
下载 相关 举报
多智能体强化学习方法综述.pdf_第1页
第1页 / 共15页
多智能体强化学习方法综述.pdf_第2页
第2页 / 共15页
多智能体强化学习方法综述.pdf_第3页
第3页 / 共15页
亲,该文档总共15页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第3卷第1期2 0 2 4年1月信 息 对 抗 技 术I n f o r m a t i o n C o u n t e r m e a s u r e T e c h n o l o g yV o l.3 N o.1J a n.2 0 2 4引用格式:陈人龙,陈嘉礼,李善琦,等.多智能体强化学习方法综述J.信息对抗技术,2 0 2 4,3(1):1 8-3 2.C HE N R e n l o n g,C HE N J i a l i,L I S h a n q i,e t a l.A s u r v e y o f m u l t i-a g e n t r e i n f o r c e

2、 m e n t l e a r n i n g m e t h o d sJ.I n f o r m a t i o n C o u n t e r m e a s u r e T e c h n o l o g y,2 0 2 4,3(1):1 8-3 2.(i n C h i n e s e)多智能体强化学习方法综述陈人龙1,2,陈嘉礼1,2,李善琦1,2,谭 营1,2,3,4*(1.北京大学机器感知与智能教育部重点实验室,北京 1 0 0 8 7 1;2.北京大学智能学院,北京 1 0 0 8 7 1;3.北京大学人工智能研究院,北京 1 0 0 8 7 1;4.北京大学跨媒体通用人工

3、智能全国重点实验室,北京 1 0 0 8 7 1)摘 要 在自动驾驶、团队配合游戏等现实场景的序列决策问题中,多智能体强化学习表现出了优秀的潜力。然而,多智能体强化学习面临着维度灾难、不稳定性、多目标性和部分可观测性等挑战。为此,概述了多智能体强化学习的概念与方法,并整理了当前研究的主要趋势和研究方向。研究趋势包括C T D E范式、具有循环神经单元的智能体和训练技巧。主要研究方向涵盖混合型学习方法、协同与竞争学习、通信与知识共享、适应性与鲁棒性、分层与模块化学习、基于博弈论的方法以及可解释性。未来的研究方向包括解决维度灾难问题、求解大型组合优化问题和分析多智能体强化学习算法的全局收敛性。这些

4、研究方向将推动多智能体强化学习在实际应用中取得更大的突破。关键词 多智能体强化学习;强化学习;多智能体系统;群体协同;维度灾难中图分类号 TN 9 1 5 文章编号 2 0 9 7-1 6 3 X(2 0 2 4)0 1-0 0 1 8-1 5文献标志码 A D O I 1 0.1 2 3 9 9/j.i s s n.2 0 9 7-1 6 3 x.2 0 2 4.0 1.0 0 3A s u r v ey o f m u l t i-age n t r e i n f o r c e m e n t l e a r n i ng m e t h o d sCHE N R e n l o n

5、g1,2,CHE N J i a l i1,2,L I S h a n q i1,2,T AN Y i n g1,2,3,4*(1.K e y L a b o r a t o r y o f M a c h i n e P e r c e p t r o n(MO E),P e k i n g U n i v e r s i t y,B e i j i n g 1 0 0 8 7 1,C h i n a;2.S c h o o l o f I n t e l l i g e n c e S c i e n c e a n d T e c h n o l o g y,P e k i n g U

6、n i v e r s i t y,B e i j i n g 1 0 0 8 7 1,C h i n a;3.I n s t i t u t e f o r A r t i f i c i a l I n t e l l i g e n c e,P e k i n g U n i v e r s i t y,B e i j i n g 1 0 0 8 7 1,C h i n a;4.N a t i o n a l K e y L a b o r a t o r y o f G e n e r a l A r t i f i c i a l I n t e l l i g e n c e,P

7、e k i n g U n i v e r s i t y,B e i j i n g 1 0 0 8 7 1,C h i n a)A b s t r a c t I n r e a l-w o r l d s c e n a r i o s s u c h a s a u t o n o m o u s d r i v i n g a n d t e a m-b a s e d c o o p e r a t i v e g a m e s,m u l t i-a g e n t r e i n f o r c e m e n t l e a r n i n g h a s d e m o

8、n s t r a t e d s i g n i f i c a n t p o t e n t i a l i n t a c k l i n g s e q u e n t i a l d e c i s i o n-m a k i n g p r o b l e m s.H o w e v e r,i t a l s o e n c o u n t e r s c h a l l e n g e s i n c l u d i n g t h e c u r s e o f d i m e n s i o n a l i t y,i n s t a b i l i t y,m u l

9、t i-o b j e c t i v i t y,a n d p a r t i a l o b s e r v a b i l i t y.T h i s a r t i c l e o f f e r s a n o v e r v i e w o f t h e c o n c e p t s a n d m e t h o d s e m p l o y e d i n m u l t i-a g e n t r e i n f o r c e m e n t l e a r n-i n g,p r o v i d i n g a s u mm a r y o f t h e p r

10、 e v a i l i n g t r e n d s a n d r e s e a r c h d i r e c t i o n s i n t h e c u r r e n t s t u d-i e s.T h e i d e n t i f i e d r e s e a r c h t r e n d s c o m p r i s e t h e C T D E p a r a d i g m,a g e n t s e q u i p p e d w i t h r e c u r-r e n t n e u r a l u n i t s,a n d v a r i o

11、 u s t r a i n i n g t e c h n i q u e s.T h e p r i m a r y r e s e a r c h d i r e c t i o n s e n c o m-p a s s h y b r i d l e a r n i n g m e t h o d s,c o o p e r a t i v e a n d c o m p e t i t i v e l e a r n i n g,c o mm u n i c a t i o n a n d k n o w l e d g e s h a r i n g,a d a p t a b

12、i l i t y a n d r o b u s t n e s s,h i e r a r c h i c a l a n d m o d u l a r l e a r n i n g,g a m e t h e o r e t i c a p p r o a c h e s,a n d i n t e r p r e t a b i l i t y.L o o k i n g a h e a d,f u t u r e r e s e a r c h d i r e c t i o n s e n t a i l 收稿日期:2 0 2 3-0 2-2 2 修回日期:2 0 2 3-0

13、5-0 4通信作者:谭营,E-m a i l:y t a n p k u.e d u.c n基金项目:国家重点研发计划项目(2 0 1 8 AAA 0 1 0 2 3 0 1);国家自然科学基金资助项目(6 2 2 5 0 0 3 7,6 2 2 7 6 0 0 8,6 2 0 7 6 0 1 0)第1期陈人龙,等:多智能体强化学习方法综述 a d d r e s s i n g t h e c u r s e o f d i m e n s i o n a l i t y,s o l v i n g l a r g e-s c a l e c o m b i n a t o r i a l

14、o p t i m i z a t i o n p r o b-l e m s,a n d c o n d u c t i n g a n a l y s e s o n t h e g l o b a l c o n v e r g e n c e o f m u l t i-a g e n t r e i n f o r c e m e n t l e a r n-i n g a l g o r i t h m s.P u r s u i n g t h e s e r e s e a r c h d i r e c t i o n s w i l l s i g n i f i c a

15、n t l y c o n t r i b u t e t o f u r t h e r b r e a k t h r o u g h s i n t h e p r a c t i c a l a p p l i c a t i o n o f m u l t i-a g e n t r e i n f o r c e m e n t l e a r n i n g.K e y w o r d s m u l t i-a g e n t r e i n f o r c e m e n t l e a r n i n g;r e i n f o r c e m e n t l e a r

16、n i n g;m u l t i-a g e n t s y s t e m;s w a r m c o l l a b o r a t i o n;c u r s e d i m e n s i o n a l i t y0 引言多智 能 体 强 化 学 习(m u l t i-a g e n t r e i n f o r c e-m e n t l e a r n i n g,MA R L)是近年来发展最快、最为热点的强化学习研究的分支之一。强化学习(r e-i n f o r c e m e n t l e a r n i n g,R L)已经广泛应用于工业制造、机器人控制1、游戏博

17、弈2等领域。在序列决策问题中,强化学习体现出了极高的有效性,特别是随着用于函数拟合的深度神经网络的发展,深度强化学习算法在棋类博弈3、实时战略游戏4、非完美信息博弈5和自动驾驶6等方面取得了极大的进步。强化学习的基本思想是通过最大化智能体(a g e n t)从环境中获得的累计奖赏值,以学习到完成目标的最优策略。然而目前大多数在实际应用中取得优秀效果的强化学习算法通常集中在单智能体(s i n g l e-a g e n t)领域。多智能体 强 化 学 习 则 着 重 解 决 另 一 类 多 智 能 体(m u l t i-a g e n t)在同一环境中进行交互的任务。多智能体任务因其交互的

18、复杂性和与现实任务贴合的紧密性,近年来受到了越来越多的关注。随着多个智能体的引入,智能体间的交互行为也产生了不同模式,这给算法设计提出了更高的要求。多智能体强化学习还面临着新的挑战,包括组合动作空间随智能体数目指数增大的维度灾难问题、智能体动作对其他智能体造成的不稳定性问题、智能体之间目标的差异性问题以及单个智能体的部分可观测性问题,等等。这些挑战也吸引着越来越多的研究者加入到对多智能体强化学习的研究中。本文对多智能体强化学习方法进行了综述,列举了主要挑战及相关研究工作,总结研究趋势并且指出了未来可能的研究方向。1 强化学习理论强化学习的基本交互过程如图1所示,即智能体与环境交互逻辑。在时刻t

19、,环境给出当前时刻的状态st,智能体获取状态st或该状态的一个可观测分量ot,并根据这个输入得到当前时刻的动作at,环境执行智能体给出的动作at,并得到当前动作的奖励值rt以及下一时刻的环境状态st+1。因此,强化学习过程包含了一个基本的假设,即学习的目标可以被较好地解释为最大化一个特定的可累积的奖励值。图1 智能体与环境交互逻辑F i g.1 I n t e r a c t i o n l o g i c b e t w e e n a n g e n t s a n d e n v i r o n m e n t强化学习问题可以通过一个马尔可夫决策过程(M a r k o v d e c

20、i s i o n p r o c e s s,MD P)7来建模。整个MD P可以被描述为一个五元组,即。其中,S为所有环境状态的集合,stS为t时刻的环境状态;A为所有可执行动作的集合,atA为t时刻智能体执行的动作;P表示对所有动作产生状态转移的概率;rR表示环境的奖励;0,1)为折扣系数,用来平衡当前和未来的奖励权重。t时刻智能体与环境交互的操作可被归纳为:智能体接收并处理环境信息st以及rt,产生动作at;环境接收动作at,产生新状态st+1以及当前时刻的动作奖励。在MD P中,一个状态的期望奖励(即从该状态开始直至MD P结束产生的累积奖励的期望)被称为该状态的价值。用函数形式进行

21、表达,则可以记为:V(s)=E rt+rt+1+2rt+2+st=s (1)由价值函数的定义可以得到其递推形式:V(s)=E rt+V st+1 st=s (2)从而得到价值函数的贝尔曼方程(B e l l m a n 91 信 息 对 抗 技 术2 0 2 4年e q u a t i o n):V(s)=r(s)+s Sps s V s (3)由于动作的存在,需要额外定义一个动作价值函数(a c t i o n-v a l u e f u n c t i o n)Q(s,a),以表征对当前状态s执行动作a得到的期望累积奖励。Q(s,a)定义如下:Q(st,at)=Ert+rt+1+2rt+2

22、+|st,at=Ert+Q(st+1,at+1)|st,at(4)求解强化学习问题,通常有基于值函数的强化学习方法(v a l u e-b a s e d R L)、策略梯度的强化学习方法(p o l i c y g r a d i e n t R L)以及将二者结合的“演员-评论家”框架(a c t o r-c r i t i c s t r u c t u r e)。1.1 基于值函数的深度强化学习考虑到每个状态下有多种动作可以选择,基于值函数的强化学习方法考虑在某个状态下的不同动作的价值,并根据这个价值来选择需要执行的动作,使用Q(s,a)来表征。在基于价值的方法中,求解最优策略等价于求

23、解最优的动作价值函数:Q*(s,a)=m a xQ(s,a)(5)最 优 动 作 价 值 函 数 遵 循 贝 尔 曼 最 优 方 程(B e l l m a n o p t i m a l i t y e q u a t i o n)。最优策略可以表示为:*=a r g m a xaA Q*(s,a)(6)Q-L e a r n i n g8提 出 了 一 种 更 新Q值 的 方法,即:Q(st,at)Q(st,at)+(rt+1+m a xaQ(st+1,a)-Q(st,at)(7)然而,在很多实际任务中,状态空间的大小使得记录Q值的方法计算代价太大,会导致维度灾难。常用的解决维度灾难的方法

24、为价值函数近似策略(v a l u e f u n c t i o n a p p r o x i m a t i o n),即引入一个函数Q(s,a)来表示Q值:Q(s,a)=f(s,a,)(8)1.2 策略梯度的强化学习方法基于值函数的Q-L e a r n i n g方法在很多领域取得了成功的应用,但是也具有一定的局限性,主要体现在2个方面:1)对连续动作的处理能力不足。由于需要遍历全部动作,得到具有最大Q值的动作,基于值函数的方法对处理连续动作的任务建模的难度是极大的;2)无法解决随机策略问题,基于值函数的强化学习方法使用了确定性策略。若有些任务的最优策略是(近似)随机策略,基于值函数

25、的方法则无法求解这类任务。S UT TON等9提出了策略梯度(p o l i c y g r a-d i e n t,P G)强化学习算法。与基于值函数的方法不同,策略梯度方法直接对策略进行建模和优化。在该类方法中,策略通常被建模为一个以为参数的函数(a|s)。奖励函数可以被定义为:J()=sSP(s)V(s)=sSP(s)aA(a|s)Q(s,a)(9)式中,P(s)为在采用策略(a|s)情况下马尔可夫 链 的 稳 态 分 布,可 以 表 示 为:P(s)=l i mtP st=ss0,。根据强化学习的定义,需要对式(9)进行优化,然而直接计算其梯度J()是非常困难的。策略梯度方法证明了计算

26、其梯度不需要对状态分布进行求导,极大简化了对式(9)求导的计算。J()=sSP(s)aAQ(s,a)(a|s)sSP(s)aAQ(s,a)(a|s)=sSP(s)aA(a|s)Q(s,a)(a|s)(a|s)=EQ(s,a)l g(a|s)(1 0)计算策略梯度的过程中需要用到Q(s,a),对Q(s,a)的 估 计 方 式 有 很 多 种,最 基 本 的R E I N F O R C E方法采用了蒙特卡洛方法(M o n t e C a r l o m e t h o d s)进行估计。R E I N F O R C E方法的每次更新都使用当前策略与环境交互产生的采样轨迹,计算每个时刻t以后的

27、折扣化奖励t=Tt=tt-trt。其 中,T为 最 大 交 互 时 刻。R E I N F O R C E算法中的策略梯度可以被表示为:J()=ETt=0tl g at|st (1 1)1.3“演员 评论家”框架上文介绍的基于值函数的方法只拟合一个动作价值函数,而策略梯度方法只学习一个策略函数。“演员 评论家”框架是一系列结合二者特点的算法的基本架构。该方法在策略梯度方法的02第1期陈人龙,等:多智能体强化学习方法综述 基础上引入值函数来帮助策略函数更好地学习。在策略梯度方法中,策略梯度的一般形式由式(1 1)给 出,其 中,t可 以 有 多 种 表 示 形 式:1)Tt=0t rt 为轨迹的

28、总奖励值;2)Tt=tt-trt 为t时刻 之 后 的 累 积 折 扣 奖 励 值;3)Tt=tt-trt-b(st)为包含基线函数(b a s e l i n e f u n c t i o n)1 0的改进形式,将b(st)选取为V(st)时,通常记为优势函数Ast,at ;4)rt+Vst+1 -V(st)为时序差分残差。使用R E I N F O R C E方法中的蒙特卡洛采样得到的策略梯度估计是无偏的,但是因为采样次数的限制,通常会伴随着较大的方差。通过引入基线函数来减小方差是一个常用的改进策略。这里本文着重介绍将基线函数设置为当前状态的值函数,并引入时许差分残差来指导策略梯度学习的

29、方法。“演员 评论家”框架包含“演员”和“评论家”2个部分。“演员”部分的结构和策略梯度中使用的结构一致,其参数采用策略梯度方法进行更新。“评论家”部分代表价值网络,记为V,其中为参数,用来拟合时许差分残差中的状态价值函数V(st)。“评论家”网络的目标是拟合状态价值函数,由定义可知,根据时序差分方式得到的损失函数为:L()=12r+Vst+1 -V(st)2(1 2)式中,将r+Vst+1 视为训练目标进行梯度截断,使用梯度下降法更新“评论家”网络的参数即可。2 多智能体强化学习框架与单智能体情况类似,多智能体强化学习也是在解决一个序列决策问题,但是同一时刻有不止一个智能体参与与环境的交互过

30、程。因此,每个智能体的观测、观测的轨迹以及奖励值都会随着所有智能体的联合动作发生变化。单个智能体的长期优化目标将会对其他智能体策略的学习产生影响。由于多个智能体之间的观测范围和观测内容可能存在差异,多智能体系统的交互过程可 以 通 过 一 个 局 部 观 测 的 马 尔 可 夫 过 程(p a r t i a l l y o b s e r v a b l e M a r k o v d e c i s i o n p r o c e s s,P OMD P)1 0来描述。P OMD P可以被表示为一个七元组。其中,N=1,N表示N个智能体的编号,S表示智能体无法观测到的全局状态集合,Ai表示

31、智能体i的动作集合,Oi表示智能体i的观测集合,P表示状态转移概率函数,Ri表示智能体i的奖励集合,表示折扣因子。在t时刻,智能体i根据自身观测oit和自身策略i(ait|oit),执行动作ait,环境发生状态转移stst+1并给智能体i反馈奖励ri(st,at,st+1),其中at=a1t,aNt 表示t时刻所有智能体的联合动作。智能体i的值函数表示为:Vii,-i(oit)=Et0tRist,at,st+1 aiti|oit (1 3)式中,-i表示除智能体i的其他智能体。由式(1 3)可知,单个智能体的最佳策略受到其他智能体影响,纳什均衡1 1-1 2常被用来解决此类问题,其定义为对于任

32、意一个i,一个纳什均衡点策略*=1,*,N,*满足在全部状态下对所有智能体都有Vii,*,-i,*(oi)Vii,-i,*(oi)。纳什均衡点策略是满足所有智能体长期目标的最优策略,需要注意的是,纳什均衡点是不具备唯一性的,如果纳什均衡点存在的话,那么大多数多智能体强化学习算法的最终目的都是收敛到某一个纳什均衡点。多智能体系统的交互逻辑如图2所示。图2 多智能体系的交互逻辑F i g.2 I n t e r a c t i o n l o g i c o f m u l t i-a g e n t s y s t e m s此外,对多智能体场景的建模形式还包括随机博弈、局部观测随机博弈、零和局

33、部观测随机博弈 以 及 去 中 心 化 局 部 观 测 马 尔 可 夫 过 程(D e c e n t r a l i z e d P OMD P,D e c-P OMD P)等,这里给出这些建模形式的简单介绍。1)随机博弈(s t o c h a s t i c g a m e,S G)是一个多智能体的扩展MD P框架,用于建模多方参与的决策问题。在S G中,每个智能体都可以采取行动,并且环境的状态可能会受到其他智能体的影12 信 息 对 抗 技 术2 0 2 4年响。S G考虑了智能体之间的相互作用和竞争,每个智能体都追求自己的目标,并通过博弈论中的解概念来进行决策。2)局部观测随机博弈(

34、p a r t i a l l y o b s e r v a b l e s t o c h a s t i c g a m e,P O S G)是P OMD P和S G的结合,用于建模多方参与的不完全观测决策问题。在P O S G中,每个智能体既无法直接观测到环境的状态,也无法观测其他智能体的行动和观测。P O S G考虑了智能体之间的相互作用和不完全信息,需要智能体们在不完全观测的情况下做出决策。3)零和局部观测随机博弈(z e r o-s u m p a r-t i a l l y o b s e r v a b l e s t o c h a s t i c g a m e,Z e

35、r o-S u m P O S G)是一种特殊类型的P O S G,其中,智能体之间的目标是互为对立的。在Z e r o-S u m P O S G中,每个智能体的奖励是互为相反数的,即一个智能体的奖励增加必然导致其他智能体奖励的减少,总奖励和为0。这种博弈模型常见于对抗性环境中,例如棋类游戏、对策游戏和多智能体竞争环境。4)D e c-P OMD P是一种多智能体决策问题的框架,其中,多个智能体以分布式的方式合作来解决P OMD P。每个智能体通过观测和通信来共享信息,以实现全局最优决策。D e c-P OMD P考虑了智能体之间的协作和信息共享,并通过分散的决策过程来解决整体的不完全观测问

36、题。通常,根据智能体之间的交互模式,多智能体强化学习可以被划分为3种设定模式,即合作模式、竞争模式以及混合模式。2.1 合作模式在完全合作模式设定中,通常所有智能体将会共享一个共同的奖励值,即R1=R2=RN=R。从博弈论角度来看,这种合作模式可以被视为一种特殊的马尔可夫势博弈(M a r k o v p o t e n-t i a l g a m e)1 3-1 4,其势函数为公共的累积奖励。在这种观点中,若将所有智能体看作一个动作空间为所有智能体联合动作空间的单一智能体,则该问题将可以被视为一个单智能体强化学习问题。合作状态下的全局最优点将构成这类博弈的纳什均衡点。此外,还 有 一 类 环

37、 境 考 虑 了 团 队 平 均 奖励1 5-1 6。在这类环境中,每个智能体可以有不同的奖励函数,但是整体的协作目标是将所有智能体的平均奖励最大化。这类环境直接造成了各个智能体之间的特异性,同时更符合去中心化的思想1 7,这类环境通常会鼓励智能体之间采用通信,因此基于通信的多智能体强化学习算法更青睐此类任务。2.2 竞争模式完全竞争模式又被称为零和马尔可夫博弈(z e r o-s u m M a r k o v g a m e),即在任意时刻,所有智能体的奖励值之和为0。为了方便理论分析,这类问题基本都聚焦于双智能体环境相互对抗1 8,其存在的意义之一是为鲁棒性学习提供理论研究的环境,可以将

38、一方智能体视为另一方学习过程中的不确定性1 9。因此,纳什均衡点是一个优化最差情况下奖励值的鲁棒性策略。2.3 混合模式混合模式不再限制目标和智能体之间的关系,每个智能体都有自身的目标,它们的目标可能和其他智能体相冲突2 0。这类问题也可以由合作模式和竞争模式2种模式构成,例如设定2个在零和博弈中竞争的团队,而团队内部,则是完全合作的模式。3 主要挑战及相关研究工作多智能体深度强化学习近年来在许多领域中取得了较为显著的成功,但其在实践中仍然存在一系列有待解决的关键问题,主要表现在维度灾难、不稳定性、多目标性、部分可观测性4个方面。这些挑战制约了多智能体深度强化学习在效率、收敛性、性能等多方面的

39、表现,因而也是未来相关研究的热点和难点。图3给出了本文梳理的多智能体系统的主要研究内容。3.1 维度灾难维度灾难2 1是一系列在分析高维数据时的反常现象。在多智能体深度强化学习中,数据的维度往往与智能体数目绑定,动作空间的大小也往往随智能体数目的增长而指数上升。因此,直接将单智能体的强化学习算法应用到多智能体场景中,可以构造出样本效率随着智能体个数的增长而指数下降的场景2 2。具体构造方法是,每个个体等概率地选取a和b 2个动作之一,当且仅当所有智能体所做的动作一致整体获得回报。可以证明,这种情况下,直接使用单智能体的策略梯度算法,得到的经验梯度和实际梯度满足:22第1期陈人龙,等:多智能体强

40、化学习方法综述 P(0)(0.5)N(1 4)式中,J代表从采样数据中求得的经验策略梯度,J代表真实的策略梯度,N代表智能体个数。从式(1 4)中可以看出,样本效率随智能体个数上升而指数下降。为了实现多智能体强化学习对于智能体个数的可拓展性,往往会引入某种智能体之间的抽象结构来简化智能体之间的依赖关系。最为常见的一种抽象关系就是值函数的分解关系2 3,这一类的方法假设联合动作的值函数Q(s,a)可以被表示成每个个体的值函数Qi(oi,ai)的函数,具体来说为:Q(s,a)=fm(Q1(o1,a1),Qn(on,an);s)(1 5)图3 本文梳理的多智能体系的主要研究内容F i g.3 T h

41、 e m a i n r e s e a r c h c o n t e n t s o f m u l t i-a g e n t s y s t e m s d i s c u s s e d i n t h i s a r t i c l e 此类方法的关键在于假设什么样的结构将个体 的 值 函 数 进 行 组 合,即 函 数fm的 选 取。V D N2 4假设联合动作值函数是个体动作值函数的和,即取fm为求和函数。QM I X2 5利用个体-全局最大化(i n d i v i d u a l-g l o b a l-m a x,I GM)假设,将联合动作值函数分解为个体值函数的单调函数

42、形式,因此个体按照自己的值函数选择的最优动作构成的动作组合就是全局最优的动作组合,即限定fm为单调函数。然而现实中,许多满足I GM假设的MD P不符合上述的分解形式,因此随后出现各种针对这一问题进行的改进方法,例如,WQM I X2 6针对QM I X算法可能出现的发散和低 估 问 题 提 出 了 加 权 版 本 的QM I X算 法;Q T R AN2 7利用仿射变换得到满足I GM假设下真正可分解的联合动作值函数进行分解;Q P L E X则是利用对偶结构将针对值函数的I GM假设转化为针对优势函数的I GM假设,并证明了二者的等价性,从而实现对I GM假设的完全表达。关于值分解算法,总

43、结见表1所列。3.2 不稳定性实现多智能体深度强化学习的一个最为直观的想法是,将各个体动作空间的笛卡尔积作为表1 值分解算法总结T a b.1 S u mm a r y o f v a l u e d e c o m p o s i t i o n a l g o r i t h m s算法名称混合方式V D NQ(s,a)=ni=1Qi(oi,ai)QM I Xi,QQi0WQM I XwQ:=a r g m i nqQm i xaAw(s,a)(Q(s,a)-q(s,a)2QA T T E Nwi,he x p(eTiWTk,hWq,hes)Q T R ANm a xaQ(,a)=()+i

44、Q(i,ai)Q P L E XQt o t(,a)=ni=1Qi(,ai)+ni=1(i(,a)-1)Ai(,ai)单智能体的动作空间,即联合动作空间,进而利用单智能体深度强化学习算法解决这一经过转化的多智能体深度强化学习问题2 8。然而正如上文所述,这类方法往往会带来维度灾难的问题,因此鲜有算法直接考虑联合动作空间当中的32 信 息 对 抗 技 术2 0 2 4年动作选择。这意味着不同智能体之间的动作选择在一定程度上无法提前知晓,即多智能体深度强化学习的不稳定性问题。具体来说,单个智能体无法区分它所观测到的变化到底是来自它与环境进行的交互,还是由于其他智能体的动作选择发生了改变导致的,因此

45、难以稳定到最优动作选择。应对多智能体深度强化学习的不稳定性问题,通常是为单个智能体引入其他个体的动作信息,从而解耦来源于其他智能体的动作变化和环境的动态信息。MF Q和MF A C2 9通过引入平均场原理,使每个个体的决策不仅依赖自身动作以及自身观测,还依赖于其他个体动作的宏观影响,建模为其他个体的平均动作。其他个体可以是除该个体以外的所有个体,也可以是依照某种规则预定义的分组内的其他个体,比如距离相近的个体集合。这使得个体在决策的同时可以考虑其他个体的动作信息,进而解决多智能体深度强化学习的不稳定性问题,在大量(数百个)智能体场景下表现出色。MAV E N3 0通过采样联合隐变量z,让每个智

46、能体得到z这一共识再进行决策,因而一定程度上可以从z中获得其他智能体的动作选择倾向。另一方面,也有直接从方差衰减的角度出发3 1,直接对策略梯度算法的训练目标引入基线的方法,即利用方差分解公式,将集中式训练分布式执行的个体策略梯度方差进行分解,得到如下形式:V a rstdtEatgiC,t(b)+EstdtV a ra-it-iEaitigiC,t(b)+Ea-it-iV a raitigiC,t(b)(1 6)式中,giC,t(b)代表当基线为b时,智能体i基于集中式“评论家”网络C得到的t时刻策略梯度,即giC,t(b)=Q st,at -b il g iait|st 。从式(1 6)可

47、以看出,第1项为状态引入的方差,第2项为其他个体的动作带来的方差,第3项则是由个体自身动作带来的方差。引入基线只会改变第3项,因此可以计算出最优基线为:bo p t i m a ls,a-i =EaiiQ s,a-i,ai il g iai|s 2 Eaiiil g iai|s 2 (1 7)与联合动作学习相反,独立学习3 2直接针对每个个体进行强化学习,将其他个体的动作影响完全视为环境动态的一部分,这也意味着这类算法往往比其他算法要承受更大的不稳定性,甚至会导致不收敛2 8。MA 2 Q L将同时决策的独立Q-l e a r n i n g改为顺序决策,因而后决策的智能体可以根据先决策的智能

48、体的动作选择自己在此条件下的最优决策,进而收敛到纳什均衡点。与之类似的还有HA T R P O和HA P P O,分别是对MA T R P O算法和MA P P O算法3 3引入顺序决策,从而增强其收敛性以及在异构智能体设定下的有效性。3.3 多目标性对于单智能体深度强化学习,最大化单一智能体与环境交互的回报是其唯一目标。然而在多智能体深度强化学习当中,各智能体不必要共享同一个价值函数(特别地,假如各智能体共享同一价值函数时为共同利益博弈,可以直接通过单智能体深度强化学习算法求解纳什均衡解。此时各智能体的目标为最大化自身的期望策略回报,因而是天然多目标的。针对多目标的多智能体深度强化学习算法,

49、可以归结成理性和收敛性2大属性进行研究3 4,分别是从策略对其他个体动作的最优应对性,以及从策略的收敛性2个角度去评价以纳什均衡解作为评价标准的算法。然而在此设定下展开的多智能体学习研究的学习目标存在争议3 5,尤其是将收敛到纳什均衡作为其评价标准时,其无法保证解的最优性,也无法在存在多个均衡点时保证收敛到某个特定的均衡。针对 多 智 能 体 学 习 任 务 的 目 标 和 评 价,S HOHAM等3 6提出了多智能体系统学习的5类目标。1)计算。算法以计算出博弈的一种性质为目的,比如求解零和博弈的一个纳什均衡,求解一个对称博弈的纳什均衡等。这类算法不一定是效率最高的,但往往能够提供一种简单易

50、懂且好实现的求解思路。2)描述。算法关注建模自然个体的合作行为,比如以贝叶斯模型描述人类决策行为3 7。这类描述式的算法可以从博弈论的角度去描述自然现象,但有时现实与理论上的差别会使模型失准。3)规范。算法主要考虑一系列的学习策略42第1期陈人龙,等:多智能体强化学习方法综述 是否 相 互 构 成 均 衡,比 如 虚 拟 行 动 模 型 和Q-l e a r n i n g模型,是否能在重复囚徒困境博弈下达成纳什均衡。这一考虑意味着其与博弈本身、博弈的时长、考虑的学习算法等都有关。4)合作顺应。算法关注在合作场景当中,个体以何种方式调整自身策略去顺应其他个体的动作策略,以达成合作实现集体收益最

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服