收藏 分销(赏)

视觉导向的对抗型模仿学习研究综述.pdf

上传人:自信****多点 文档编号:581622 上传时间:2024-01-02 格式:PDF 页数:17 大小:6.93MB
下载 相关 举报
视觉导向的对抗型模仿学习研究综述.pdf_第1页
第1页 / 共17页
视觉导向的对抗型模仿学习研究综述.pdf_第2页
第2页 / 共17页
视觉导向的对抗型模仿学习研究综述.pdf_第3页
第3页 / 共17页
亲,该文档总共17页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、计算机科学与探索Journal of Frontiers of Computer Science and Technology1673-9418/2023/17(09)-2075-17doi:10.3778/j.issn.1673-9418.2301067视觉导向的对抗型模仿学习研究综述崔铭,龚声蓉+苏州科技大学 电子与信息工程学院,江苏 苏州 215004+通信作者 E-mail:S摘要:最优决策问题在机器学习领域由来已久。模仿学习从强化学习发展而来,研究如何从专家数据中重建期望策略进而学习最优决策。近年来模仿学习既在理论研究中和计算机视觉有所结合,又在自动驾驶、机器人等应用中取得不错的成效

2、。首先介绍模仿学习的由来及传统的两种研究方法,分别是行为克隆和逆强化学习,随着对抗训练结构的发展,生成对抗模仿学习成为现今的重点研究方向,而对其后续改进工作统称为对抗型模仿学习;其次分析了对抗型模仿学习结合视觉演示的研究内容,并针对存在的次优专家演示样本、少样本、样本利用效率低下等共性问题以及现有的对应改良方案进行总结;然后根据实验结果对比分析不同方法所解决的问题表现;最后说明对抗型视觉模仿学习在实际中的无人驾驶、工业机器人等场景的应用情况,总结并指出未来理论研究方向以及应用前景与挑战。关键词:模仿学习;行为克隆;逆强化学习;对抗模仿学习文献标志码:A中图分类号:TP18Survey on V

3、isual-Guided Adversarial Imitation LearningCUI Ming,GONG Shengrong+School of Electronic&Information Engineering,Suzhou University of Science and Technology,Suzhou,Jiangsu215004,ChinaAbstract:The problem of optimal decision has a long history in the field of machine learning.Imitation learning,origin

4、ating from reinforcement learning,is studied to reconstruct the expected policy from expert data and learn theoptimal decision-making.In recent years,imitation learning has been successfully applied in both theoreticalresearch and computer vision,as well as in various applications such as autonomous

5、 driving and robotics.The originof imitation learning and the two traditional research methods,namely behavior cloning and inverse reinforcementlearning,are introduced.With the development of adversarial training structures,generative adversarial imitationlearning has become a key research direction

6、,and its subsequent improvement work is collectively referred to asadversarial imitation learning.The research content of adversarial imitation learning combined with visualdemonstrations is analyzed,along with summarizing common issues like suboptimal expert demonstrations,limiteddata,and low sampl

7、e utilization efficiency,and the existing corresponding solutions.Then,the performance ofdifferent methods in addressing these problems is compared and analyzed based on experimental results.Finally,practical applications of adversarial visual imitation learning in scenarios such as autonomous drivi

8、ng and industrialrobotics are discussed,and this paper is concluded by pointing out future research directions,as well as the potentialprospects and challenges in applications.Key words:imitation learning;behavior cloning;inverse reinforcement learning;adversarial imitation learning基金项目:国家自然科学基金(619

9、72059)。This work was supported by the National Natural Science Foundation of China(61972059).收稿日期:2023-01-31修回日期:2023-04-28开放科学(OSID)Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(9)强化学习(reinforcement learning,RL)1在人工智能领域发展迅速,其主要思想是让智能体在与环境交互交流中获得奖赏并作为下一步决策的反馈,因此智能体在环境中的决策至关重

10、要,而从演示数据中学习策略目前是可行的一种方案。从演示中学习是模仿学习(imitation learning,IL)2方法的基本思想。专家演示为智能体提供有效的示范信息,进而让智能体能够在环境中再现专家水平的行为。模仿学习最早可以追溯到Abbeel等人的神经网络项目研究3,亦称学徒学习,利用贪心算法思想探索策略并将状态动作组合形式的轨迹应用到基于强化学习的方法以习得接近最优的策略,但这种方式的奖赏设计有较大困难,Brown等人针对该问题提出逆强化学习(inverse reinforcement learning,IRL)4,该方法直接从专家示范中学习奖赏函数,再根据RL算法获得当前最大化奖赏期

11、望下的策略。早期的模仿学习方法用监督学习方式来进行,是由卡耐基-梅隆大学 Pomerleau5提出的行为克隆(behavior cloning,BC),其根据专家演示直接建立状态到动作的映射关系进行专家策略的学习。在理想情况下,若专家数据足够涵盖所有的状态空间,则该方法能够学到专家策略;然而专家样本是有限的,再者行为克隆仅仅考虑的单步动作选择,因此在某一时刻的策略若有所失误,则会对后续的决策有不良影响,造成如图1所示的问题。IRL在专家样本量少的情况下学到的策略具备更好的泛化能力,然而在一些复杂的现实问题中,奖赏函数的获取会变得更加缓慢,需要消耗大量的计算资源。Dagger6的提出使累积误差问

12、题得到缓解,在迭代训练的过程中将细微的偏离动作与状态组合形式数据加入到原数据集中进行偏差纠正。生成对抗模仿学习(generative adversarial imitationlearning,GAIL)既能更好地解决累积误差问题,又在奖赏设计方面更方便。GAIL由Ho等人7提出,结合了生成对抗网络(generative adversarial net,GAN)8以及RL,并且在GAN的基础上把生成器部分替换为RL算法,同时 GAN的判别器反馈结果作为 RL的奖赏部分。另外,为增强 GAIL模型的健壮性,对输入到生成器的数据添加噪声,再与专家轨迹数据一同输入到判别器进行对抗训练,收敛到最优的结

13、果呈现是RL学习到的轨迹接近专家演示。目 前 很 多 GAIL 的 扩 展 工 作,如 MAGAIL9、DAIL10等,这类借鉴对抗训练思想的模仿学习算法框架都可以统称为对抗结构型模仿学习(adversarialimitation learning,AIL)。然而以上的 AIL 方法收集的专家数据大多以第一人称的专家低维数据作为演示,状态动作序列收集成本较高,而第三人称专家示范以获取难度不大、成本低的优势得到重视,利用专家示范的视频帧高维数据作为数据集,这类以图片作为输入数据的 AIL在本文统称为对抗型视觉模仿学习。本文针对基于对抗结构的视觉模仿学习的发展以及出现的问题进行总结阐述与展望。1预

14、备知识本章给出GAIL相关基本概念的解释,帮助更好地理解 IL的几种基本方法以及它们存在的不足,包括后续关于GAIL研究中的衍生方法。1.1马尔可夫决策过程假设满足马尔可夫性质的决策过程可以称为马尔可夫决策过程(Markov decision process,MDP)。在强化学习(RL)、逆强化学习(IRL)、对抗结构型 IL中的环境,都可以被建模为MDP。MDP是下一个状态的形成在以后的推进过程中都只依赖于当前状态的过程,即智能体的决策受当前状态影响并转移到下一状态,近似一个动态规划过程。通常 MDP定义为一个五元组(S,A,P,r),其中 S 表示状态空间,st S为时刻 t 对应 Age

15、nt 的状态;A 表示动作空间,at A表示时刻t执行的动作;f(st,at,st+1)表示环境转移函数,即Agent在当前状态st采取动作at后转移到下一个状态的概率;(0,1)是折扣因子;r=r(st,at)表示奖赏函数,即Agent在状态st下采取动作at得到的立即奖赏。接着采用深度强化学习算法对策略(at|st)(st采取动作at的概率)进行优化;最优策略*图1累积误差Fig.1Compounding error2076崔铭 等:视觉导向的对抗型模仿学习研究综述可以通过最大化长期的累积奖赏R=t=0tr(st+1,at+1)来获得,即*=arg maxR。马尔可夫性质更好地帮助 IL简

16、化输入数据,因为前期初始状态难以确定下一状态。MDP对于模仿学习有很大的启发作用,特别是在多智能体场景下,可以使用马尔可夫博弈。1.2强化学习与逆强化学习强化学习是从环境状态对应到动作的学习过程,由智能体、环境、观测器等部分组成,如图2所示,RL可以被建模为马尔可夫决策过程(MDP),目的是在智能体与环境交互的过程中获得最大期望,进而得到最优策略*,该动作a*=*(s)执行后根据反馈的奖赏调整策略,最终最大化期望奖赏。智能体的任务是最大化累加的奖赏,每与环境互动一次都有一个奖赏R且在一个时间步(step)结束时会给出,同时每一步行动使得智能体获得外部环境观测的输入以及当前奖赏的输入,因为环境是

17、不可控的,可以通过动作来施加影响;环境在每一步的行动任务是接收动作,给出观测值以及奖赏。其中期望回报由累积的奖赏所得,如式(1)所示:R()=Et=0Ttr(t)(1)期望策略则如式(2):*=argmax R()(2)那么策略的状态s下期望回报则为式(3)所示:V(s)=ERt+1+V(st+1)|st=s(3)近似地,策略,状态为s,采取动作a下期望回报为式(4)所示:q(s,a)=ERt+1+q(St+1,At+1)|St=s,At=a(4)式(3)、式(4)都称为Bellman期望方程。本文用E表示关于策略的期望值,省去策略熵的相关惩罚项。逆强化学习(IRL)不同于 RL,是直接从专家

18、示范中学习奖赏函数。如图3所示,推断出奖赏之后更新当前策略,利用该策略再执行一遍RL流程获取新的示范样本,再更新奖赏,依次反复循环迭代,最终智能体学得的策略与环境互动出的轨迹接近专家演示水平则循环结束。完整的逆强化学习所需优化的目标如式(5)所示:RLIRL(E):maxminRER(s,a)-EER(s,a)(5)该方法不断地交替执行求解奖赏函数以及使用奖赏函数通过强化学习求出策略的过程,直到最终习得最优策略。IRL的过程是首先估测当前时间步下的状态动作对的访问频率,该访问频率也可理解为占用度量,接着对比访问频率以及专家样本的分布进一步优化目标损失函数,再更新奖赏,用 RL 方法更新策略,最

19、终学到接近专家水平的执行策略。IRL相比 BC最明显的优势是没有累积误差,但在复杂的高维场景下算法表现并不如意,因为该方法对专家演示的质量要求较高,因此算法执行的效率相比监督形式的行为克隆也有所降低。2对抗结构型模仿学习逆强化学习和生成对抗网络在模型框架上存在可以互为结合的地方,通过对神经网络以及策略梯度的强化学习方法进行改良的GAIL具备的特点为:第一是将策略与奖赏用深度神经网络表征;第二是策略模型的学习直接用策略梯度的强化学习方法。GAN的主要目的是对生成器G(Generator)的训练,同时引入一个分类器,称为判别器D(Discrimina-tor),生成器和判别器两者之间不停地博弈,一

20、直达到纳什均衡,该方法的博弈过程如下:minGmaxDLGANs(D,G)=ExlogaD(x)+Ezloga(1-D(G(z)(6)其中,x表示真实的训练样本,z表示噪声样本输入,G(z)表示生成器生成的数据,D()表示判别器对真实样本和生成样本的判别概率。博弈过程可以分为三个主要部分:(1)根据判别器对训练数据与生成数据的图2RL结构Fig.2RL structure图3IRL结构Fig.3IRL structure2077Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(9)判断结果更新生成器模型

21、参数进而最小化LGANs(D,G);判别器对数据的不同作出判断,其目标是最大化LGANs(D,G)。(2)生成器在判别器的结果作用下产生的样本分布不断接近真实样本分布。(3)最终生成器的生成样本输送到判别器,而判别器无法对其进行准确判别,概率结果接近0.5,说明达到纳什均衡。逆强化学习中存在奖赏函数不止一个的情况,这些奖赏都能让专家轨迹的复现概率最大,而最大熵IRL通过增加因果熵H()和正则化项(R)解决了该问题,其学习目标是:IRL(E)=(maxHH()+ER(s,a)-ERR(s,a)+argminR(R)(7)其中,因果熵让奖赏函数保持唯一,H是调节因果熵的系数,正则化项保证奖赏不会过

22、拟合且定义如下:(R)=+,R 0EEg(R(s,a),R 0(8)其中,g()表示:g(x)=+,x 0 x-loga1-1ex,x 0(9)此时的策略和 GAN的生成器相对应,奖赏函数和判别器相对应,令R(s,a)=-loga(D(s,a),得到如下省略熵惩罚项的目标函数:minGmaxDElogaD(s,a)+EEloga(1-D(s,a)(10)其中,H()=Eloga(a|s)。(s,a)表示状态动作对,E表示专家策略,表示智能体学习的策略。GAIL的整体框架和GAN相似,包括生成器与判别器,生成器表示策略,判别器表示奖赏函数,其训练过程有以下部分:(1)初始化策略与环境进行互动出生

23、成样本;(2)将生成样本与专家样本共同送到判别器产生奖赏反馈,生成样本的奖赏应当比专家样本的更低;(3)根据奖赏进一步优化策略学习。判别器的参数更新使用 Adam11或 RMSProp12等方法,生成器即策略的参数更新可使用 PPO(proximal policyoptimization)13等经典的强化学习方法,让策略的期望奖赏最大化,以此让生成样本轨迹接近专家轨迹。详细的框架如图4所示。由于 GAN本身具有不稳定性,即在使用噪声的时候并未加任何限制,在数据生成过程中无法得知某一噪声可以用来生成对应某一数据或其他,因此Chen等人于2016年提出InfoGAN14,在GAN的基础上引入互信息

24、并最大化生成的数据与输入编码之间的互信息。同样互信息的概念在GAIL上同样适用,在2017年,Li等人提出InfoGAIL15,对抗结构本身的不稳定性会导致在IL领域中同一状态下的智能体会采取不同策略,互信息的隐藏编码可以使得对于一个状态只对应一个动作策略。在分类任务中,GAN的缺点也被放大,由于生成的数据是随机的,不能控制生成数据大致属于的种类,GAN不能在测试阶段去控制输出的类别。Conditional GAN16在GAN的基础上,对生成器和判别器添加额外的条件信息,该条件信息可以是类别标签或者其他的辅助信息。例如,在生成器部分,类别标签可以与噪声共同作为隐藏空间表示;判别器部分,需要将类

25、别标签与数据进行组合作为输入。Zhang 等人于 2022 年提出 condi-tional GAIL17,借鉴 cGAN,引入条件变量,用于区分不同地域的司机行为,用专家样本的模态标签辅助训练。同年 Sharma 等人在 infoGAIL 基础上提出directed-infoGAIL18,针对需要分段学习的任务做不分段处理并从子任务中学习各自单独的策略。对抗训练中常用衡量分布之间差异的指标是KL散度,然而在f-GAN19一文中,Nowozin等人提出f-散度20用于构建散度普适化的GAN模型,即KL散度是f-散度的特殊化:Df(P|Q)=q(x)fp(x)q(x)dx(11)式(11)中当

26、f取值不同时就是不同的相似性度量,有 KL散度、JS散度等。f-GAIL21借鉴 f-散度,将分布差异度量不再特殊化。原始 GAN中依然存在判别器越好,生成器梯度消失越严重的问题。根源于分布差异度量不合理以及生成器随机初始化后的生成分布很难与真实分布有图4GAIL结构Fig.4GAIL structure2078崔铭 等:视觉导向的对抗型模仿学习研究综述重叠。Arjovsky等人提出WGAN(Wasserstein GAN)22,Wasserstein 距离能够反映分布间的相似性。Lacotte等人23发布了基于 RS-MDP(risk-sensitive MDP)的对抗 IL。RS-MDP需

27、要控制策略学习的变化情况以及损失优化过程中的期望,利用JS散度以及Wasserstein的方法做对比实验并观察效果。以上都是在GAIL基础上的改进,形成对抗结构的模仿学习,这些方法统称为对抗结构型模仿学习(adversarial imitation learning,AIL)。在AIL中,输入判别器的数据形式不再只是状态-动作对,依据具体情况可以设置为状态-动作-下一状态对,因此这些数据特征可统一为t,轨迹可表示为=0,1,n。如图5所示,在图4的基础上添加下一状态联合训练。3视觉模仿学习模仿学习(IL)最早都是通过第一人称的专家收集状态以及对应动作来作为组合数据,对模仿的数据分布量化操作,这

28、对于大量原始未做标记的视频来说是一种浪费,当前智能体状态对应的下一步动作若在数据集中未标记,无论是使用监督形式的BC还是无监督形式的IRL,都会存在数据利用效率极其低下的问题。Sermanet等人24于 2017年首先提出视觉模仿学习的概念,即直接把图像作为输入数据,然后提取特征再进行模型训练。随后 Stadie等人25提出 TPIL(third person imitation learning),将输入数据中被提取的特征进行一致性校验,确保状态特征与对应的动作特征具备较强的相关性,进一步增强了视觉 IL的可解释性。和非视觉输入的 IL一样,视觉IL也分为三种主要的学习方式:行为克隆(BC)

29、的监督学习、逆强化学习(IRL)和对抗型模仿学习(adver-sarial imitation learning,AIL),仅在输入的数据形式上有所不同。传统视觉模仿人工设计奖赏函数,难度大。随着深度学习发展对控制策略要求更高,基于GAIL 且 输 入 图 像 数 据 的 模 型 infoSalGAIL26、V-MAIL(variational model-based adversarial imitationlearning)27等被提出。这些方法的基本框架依然是主流的 AIL。视觉对抗模仿学习(visual adversarialimitation learning,VAIL)的结构如图6

30、所示。以视频演示作为数据集进行输入,分离出当前观测状态与下一观测状态,接着分别提取视频帧中的图像特征并组合输入到判别器中,判别器再对专家数据和智能体的生成样本特征进行辨别,得出的概率值作为结果优化智能体的决策。目前的视觉模仿学习研究方向大多从仅包含观测状态和不同视角的第三人称演示中学习策略。3.1观测中模仿观测模仿最早是Liu等人提出的IfO28,该方法在TPIL的基础上不给出真实动作的序列值,主要目标是根据专家演示视频学习奖赏函数,并为不同的语境建立联系,使得某一视角不同维度输出的特征相一致,如图7所示。根据人类专家收集相应的专家演示视频,并用这些视频来训练上下文语境转换模块(context

31、 translation model),学习策略的时候,机器人或者智能体需要以执行任务的上下文语境作为依据,接着该模型预测专家在环境中的动作序列,预测的结果作为强化学习过程中的奖赏函数,根据奖赏进一步优化智能体的决策。特别注意在第三视角的图6对抗型视觉IL架构Fig.6Adversarial visual imitation learning structure图7IfO流程Fig.7IfO structure图5AIL结构Fig.5AIL structure2079Journal of Frontiers of Computer Science and Technology计算机科学与探索2

32、023,17(9)数据集有不同角度的展示情况,这些情况被看作不同上下文语境。专家演示由不同上下文语境的观测值ot组成,用D1,D2,Dn=o10,o11,o1T,o20,o21,o2T,on0,on1,onT表示。单一智能体下状态和观测没有区别,观测之间的差异用欧几里德距离公式来衡量并作为损失代价Ltrans=|(ot)trans-ot|22,ot表示智能体在时刻t与语境转换模型互动生成的状态,ot表示专家在时刻t的状态。为了降低损失,需要缩小智能体状态与专家状态的差异。智能体再根据反馈的奖赏执行策略,该奖赏包括两部分:一个是智能体观测的图像特征与专家演示图像的特征之间的欧几里德距离;另一个是

33、当前时间步的观测值与当前时间步的所有视角观测平均值的偏差,这是为了减少智能体执行最优动作的误差。该方法的优点不仅是降低专家样本的获取成本,更是开创了多视角模仿的先例,不足之处是在现实复杂的环境中机器人或智能体模仿到的策略尚有欠缺。Torabi等人29提出用监督学习的形式来适应复杂场景下的策略更新。用两阶段的训练方式提高策略学习的效率,第一阶段让智能体自监督地获取经验,第二阶段通过观察专家行为让智能体学习策略。但该方法对专家演示的质量要求很高,导致获取专家样本的成本不可估量。因此结合 GAIL 与 IfO 的方法 GAIfO30被提出,根据IRL中奖赏函数是关于状态动作对的函数可知,在 IfO将

34、其定义为观测的迁移函数模型,得到 IRLfO(inverse reinforcement learning from observation)31目标如下:minRmaxER(o,o)-EER(o,o)(12)其中,o是专家或智能体在当前观测o中执行某个策略动作后迁移到达的下一观测。接着智能体由奖赏函数使用强化学习方法得到最优策略:*=argmaxER(o,o)(13)将上述流程交替重复执行,最终智能体可以从观测样本的专家演示中学到接近水平的轨迹。同理,可以将GAIfO的学习过程表示成:minmaxDLGAIfO=ElogaD(o,o)+EEloga(1-D(o,o)(14)GAIfO中的判别

35、器需要对专家样本与生成样本进行样本特征提取再判别,输出的判别结果为样本是智能体或专家的概率,最后由误差更新网络模型的参数,策略网络作为生成器的一部分,利用判别器作为奖赏函数进行策略更新,训练过程交替执行最终可以生成以假乱真的样本,即接近专家水平的轨迹。而这种单独使用缺少动作信息的样本进行训练的方式会存在算法效率较低的情况。3.2第三视角的模仿学习在IfO基础上,第三视角演示的模仿学习得到推广。第三视角的演示不同于传统的第一人称演示样本,样本特征和一般的视觉模仿学习相同,只是观测的角度有所不同,但这会存在领域特征差异的问题,这种差异无法通过策略更新来改变,是外在的客观条件造成的。Sharma等人

36、32在 2019年为了弥补 IfO的不足,提出利用解耦结构,在训练过程中用两个模块分别学习由第三人称演示视频生成的第一人称任务子目标以及预测出实现这些子目标的动作序列,智能体根据原始图像的观察并采取相应动作,并不需要遍历完整的状态信息。如图8所示,整个模型分成目标生成器和控制器两部分。训练好的目标生成器生成下一状态作为状态的预测与当前状态共同输入到控制器,预测出机器人在某一时刻的视觉目标状态,在达到当前目标后,目标生成器使用新的观测状态和演示视频的下一个图像来生成控制器要达到的新目标,以此循环迭代,直到机器人或智能体在环境中能根据当前状态做出最优策略。高级目标生成器网络将在当前时间步的专家示范

37、视频帧以及机器人或智能体的观测状态作为输入,生成机器人在往后时间步的可视化状态,摆脱了图8解耦结构Fig.8Decoupled structure2080崔铭 等:视觉导向的对抗型模仿学习研究综述单纯的动作像素比较,使得机器人在目标生成器网络的辅助下能够更好地进行决策;低级控制器以机器人在当前时间步的观测状态以及下一时间步的观测状态作为联合数据输入,该模块输出的策略能够使机器人从当前状态过渡到目标状态。因此整体损失优化表示如式(15)所示:minHmaxDEsSloga(D(s)+Eloga(1-D(H(ht,ht+n,st)+|H(ht,ht+n,st)-st+n|1(15)其中,D 为判别

38、器分类网络,H()为目标生成器网络,三元组(ht,ht+n,st)表示当前时间步 t的人类专家演示状态ht与机器人观测值st,以及往后时间步的专家示范状态ht+n的组合。该方法的优势在于将专家演示作为辅助,联合机器人观测状态共同训练,大大提高了模型的鲁棒性;不足之处便是在对图像信息进行解耦处理的过程中没有利用到时间信息,存在状态与动作错误对应的情况,之后考虑长短时记忆网络(LSTM)不失为一种解决方案。4研究问题与方法视觉模仿学习用于将视觉输入转换为动作输出,其仍存在一些问题。首先,视觉模仿学习需要大量的标注数据来训练模型,这样非常耗时且昂贵,由于真实环境中的任务和环境非常复杂和多样化,为实现

39、有效的视觉模仿学习,需要设计合适的特征提取器、动作生成器和损失函数。其次,视觉模仿学习中的专家演示存在视频质量参差不齐的问题,会导致模型难以学到专家水平的策略。最后,与强化学习结合的视觉模仿学习模型容易陷入局部最优且样本效率不高。随着对抗结构在该领域中的应用,视觉对抗模仿学习逐渐成型。视觉对抗模仿学习(VAIL)近年的相关工作逐渐增加。因为其主要问题在以视觉为开拓方向的方法中依然存在,尚待解决。大量的工作都围绕次优专家示范、少样本、样本效率等主要共性问题方面来展开。4.1次优专家策略问题的改良专家在做示范时会出现细微的错误导致演示不够完美,这种情况会误导智能体的学习进而影响策略优化进度。很少有

40、工作试图从次优的演示中学习最优策略,Choi等人33提出了对少量未标记的次优演示具有较好鲁棒性的方法,但是需要大量的专家演示才能正确识别演示的成功与否,开启了解决次优示范的先例。目前针对次优演示有置信度评估、变分推断、沉浸式示范等解决方案。4.1.1置信度分数置信度分数既可从人工评级中获得,也可使用卷积神经网络、生成对抗网络等深度学习方法从数据中学习。例如,Brown 等人提出的 T-REX,利用IRL的算法思想,从经过排名的轨迹中学习相关的奖赏函数,利用新的奖赏优化策略,但算法性能会有所降低。以Wu等人34提出的WGAIL使用置信度分数的方式从机器人操作任务的次优示范中学习为代表,该方法使用

41、置信度分数根据演示的质量对其进行加权。与其他不使用置信度分数的方法相比,该方法通过两步重要性加权模仿学习(2IWIL)以及基于次优演示和置信度的对抗模仿学习(IC-GAIL)来获取置信度分数,2IWIL学习一个概率分类器根据专家演示与非专家示范的似然比估计置信度分数;IC-GAIL并非通过学习分类器,而是用暂未标记的演示样本进行占用测度匹配来学习最优策略,最终提高AIL的探索能力和鲁棒性。Wang等人35提出给专家示范赋予权重的方案,找出权重估计与一般GAIL方法之间的联系,对于每个专家演示都自动预测权重供智能体学习策略。权重估计如式(16)所示:w(s,a)=1D*(s,a)-1(a|s)1

42、+1(16)以上都是单个专家次优演示的解决方法,若输入多个专家的次优演示,则易引起模态崩塌的问题进而让智能体的策略学习陷入局部最优。为了解决单个专家次优演示的不足,Zuo 等人36提出 MD2-GAIL(generative adversarial imitation learning withmixed demonstrations from multiple demonstrators),如图9所示。融合多个专家的示范,起到取长补短的作用。首先用无监督预训练来加速对抗学习过程,代表专家示范质量高低的置信度用于构建目标函数,使策略与最佳占用测度相匹配,并基于 SoftActor Critic

43、算法37优化目标函数,用重构的奖赏函数更新智能体的执行策略从而避免陷入局部最优。对于视频专家次优演示,一个状态对应的观测特征信息会有很多,因此 Key-FVIL38对专家样本的加权进行了改进,只提升与专家动作变化相对应的演示关键帧权重,而关键帧的选取由人工确定,最终2081Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(9)得到较好的策略学习效果。以上这类方法的优点是可以很容易从人类演示者中获取或从数据中学习到置信度分数,缺点是可能无法反映专家演示真正的最优性,并且根据策略得到的轨迹可能带有噪声或偏差

44、。4.1.2变分推断变分方法最早被用于降低 IL中的过拟合问题,而在AIL中利用变分推断39估计一个潜在变量,该变量代表每个演示者的专业知识水平,并相应地对演示结果进行加权。Tangkaratt等人40使用变分推断从强化学习任务的各种质量演示中学习,可以处理具有不同专家水平和噪声级别的演示,包括三个步骤:第一是使用潜在变量对每个演示的专业水平进行建模;第二是学习依赖于状态和动作特征以及潜在变量的奖赏;第三是优化在学习奖赏函数下最大化期望回报的策略。该方法优点是它可以处理不同质量的演示并学习专业知识的潜在表示,缺点是可能会遭受局部最优或近似误差的影响。4.1.3沉浸式示范Li等人41的论文中使用

45、沉浸式演示从机器人导航任务的人类指示中学习。沉浸式演示允许人类演示者控制机器人的动作,并通过虚拟现实接口提供反馈。与其他不使用沉浸式演示的方法相比,该方法可以利用来自人类演示者的丰富反馈和指导,并提高带监督学习的模仿学习质量。优点是可以为机器人提供丰富的反馈和指导,提高演示质量,缺点是它们需要高水平的人工参与和交互,这在复杂操作的场景下不具备可行性与可扩展性。以上衡量演示质量的方法存在一些相似与差异之处:相似之处在于这三种方法都旨在从不完美的演示中学习模仿学习任务,使用不同形式的权重或过滤方式来选择最佳演示或其中的部分演示。区别在于这些方法在如何获得与估计演示质量方面有所不同;置信度分数使用人

46、工评级或数据驱动模型,变分推断使用潜在变量模型,沉浸式演示使用人工反馈和指导。在如何将演示质量应用于对抗模仿学习方面也有所不同;置信度分数使用加权损失函数或采样的策略,变分推断使用后验分布或期望,而沉浸式演示使用交互式学习算法与奖励功能。4.2少样本及效率问题的改良模仿学习中的低维专家演示是有限的,甚至是极少的,因为获取的成本偏高。然而视觉演示的采集成本相对较低,同样,视频演示的噪声问题会很明显,因此如何从少量的样本中学习是当前需要解决的一个重要问题。在利用样本进行策略学习的过程中伴随而来的问题还有样本的使用效率不高,在每次情节训练时的生成样本会直接被丢弃,在策略学习的后期生成样本已接近专家轨

47、迹,具备重复使用的价值。4.2.1元学习的AILDuan等人42首先提出将元学习和 IL结合,如图10所示。元学习主要是增强模型的泛化能力,利用先前任务学到的经验应用到新任务,该方法最开始用行为克隆的监督学习方法训练网络参数,结合Dagger缓解累积误差,但该方法容易陷入局部最优。基于此,Finn等人43提出利用视觉作为输入的结构,如图11所示。该方法用的无模型结构训练网络,少量的梯度更新后基于原始像素输入能够适应复杂多变的任务,减少了专家样本的获取成本,在少量甚至单个演示中学到的策略模型具备较好的泛化性能,但模型无关的方法对样本利用效率不高。Yuan等人44提出用逆强化学习的思想直接从样图9

48、MD2-GAIL结构Fig.9MD2-GAIL structure图10结合元学习的模仿学习结构Fig.10Imitation learning structurecombined with meta-learning2082崔铭 等:视觉导向的对抗型模仿学习研究综述本中推断出奖赏,结合判别结果共同更新策略。但和逆强化学习有区别,直接用元学习方式在训练任务中预训练一个奖赏函数,然后在新任务中对奖赏进行调整。结果表明结合元学习的对抗模仿学习不仅能在有限的演示中学到较好策略并且有超越专家水平的迹象,不依赖于数据增强方法,大大降低噪声对策略学习的影响,但在大规模的场景并没有得到实践,可扩展性有待验证

49、。4.2.2数据增强的AIL数据增强在少样本学习中经常使用,Antotsiou等人45利用GAN结构对GAIL进行改进并提出CATA(corrected augmentation for trajectories algorithm),大体结构如图12所示。使用两个对抗结构,第一阶段轨迹校正,对专家样本添加噪声并进行对抗训练扩充数据,第二阶段先对增加的样本进行筛选,再用对抗训练智能体学习模仿专家的过程,属于半监督的学习方式。其中,校正网络生成器的损失如式(17):L=Eloga(1-Du(s,a)+|a-a|22(17)该方法结合半监督的修正网络调整新增的轨迹,修正网络需要额外的训练与调整,优

50、势在于复杂环境中的表现依然较好,但可能会引入一些噪声或轨迹偏差。4.2.3单样本的AIL在少样本学习中有单样本学习的情况,在专家示范只有单个的时候如何学习策略是一个重要的研究点。Libardi等人46提出PPO-D(PPO-demonstrations),用于解决模仿学习中的单个示范问题,对 PPO 算法进行改进,摆脱了从策略分布中采样进而加快损失收敛。图 13 的结构展示了大致的采样流程。其中DV 表示按值估计优先顺序收集的轨迹,DR 包含智能体收集的初始人类专家演示。由于本文实验环境奖赏稀疏,任何轨迹都会成功地完成任务或者失败。智能体从概率为的DR、概率为的DV以及概率为1-的真实环境中进

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服