潜在空间中深度强化学习方法研究综述.pdf

资源描述

1、计算机科学与探索Journal of Frontiers of Computer Science and Technology1673-9418/2023/17(09)-2047-28doi:10.3778/j.issn.1673-9418.2211113潜在空间中深度强化学习方法研究综述赵婷婷+，孙威，陈亚瑞，王嫄，杨巨成天津科技大学人工智能学院，天津 300457+通信作者 E-mail:摘要：深度强化学习（DRL）是实现通用人工智能的一种有效学习范式，已在一系列实际应用中取得了显著成果。然而，DRL存在泛化性能差、样本效率低等问题。基于深度神经网络的表示学习通过学习环境的底层结构，能够

2、有效缓解上述问题。因此，基于潜在空间的深度强化学习成为该领域的主流方法。系统地综述了基于潜在空间的表示学习在深度强化学习中的研究进展，分析并总结了现有基于潜在空间的深度强化学习的方法，将其分为潜在空间中的状态表示、动作表示以及动力学模型进行详细阐述。其中，潜在空间中的状态表示又被分为基于重构方式的状态表示方法、基于互模拟等价的状态表示方法及其他状态表示方法。最后，列举了现有基于潜在空间的强化学习在游戏领域、智能控制领域、推荐领域及其他领域的成功应用，并浅谈了该领域的未来发展趋势。关键词：强化学习；深度学习；潜在空间；状态表示；动作表示文献标志码：A中图分类号：TP18Review of Dee

3、p Reinforcement Learning in Latent SpaceZHAO Tingting+,SUN Wei,CHEN Yarui,WANG Yuan,YANG JuchengCollege of Artificial Intelligence,Tianjin University of Science and Technology,Tianjin 300457,ChinaAbstract:Deep reinforcement learning(DRL)is an effective learning paradigm to realize general artificial

4、 intelligence,and has achieved remarkable achievements in a series of real-world applications.However,deep reinforcement learninghas some challenges,such as generalization capability and sample efficiency.Representation learning based on deepneural networks can effectively alleviate the above proble

5、ms by learning the underlying structure of the environment.Therefore,latent space based deep reinforcement learning has become the popular method in this field.A systematicreview is conducted on the research progress of representation learning based on latent space in deep reinforcementlearning.Exis

6、ting methods of deep reinforcement learning based on latent space are analyzed and summarized,and theyare categorized into state representation,action representation,and dynamics model in the latent space.Within the staterepresentation in the latent space,it is further divided into methods based on

7、reconstruction,methods based on mutualimitation equivalence,and other state representation methods.Finally,successful applications of deep reinforcementlearning based on latent space in areas such as gaming,intelligent control,recommendation systems,and other domainsare presented,followed by a brief

8、 discussion on the future development trends in this field.Key words:reinforcement learning;deep learning;latent space;state representation;action representation基金项目：国家自然科学基金（61976156）；天津市企业科技特派员项目（20YDTPJC00560）。This work was supported by the National Natural Science Foundation of China(61976156),a

9、nd the Science and Technology Commis-sioner Project of Tianjin(20YDTPJC00560).收稿日期：2022-11-27修回日期：2023-04-26Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(9)强化学习（reinforcement learning，RL）是一种与人类思维决策方式相似的学习方法，智能体通过与环境不断地交互，从环境反馈的奖励信号中，自主地学习和调整自身的行为动作，使得在交互过程中的累积奖励最大化1。强化学习是学习如

10、何将状态映射到行动，从而最大化数字奖励信号。智能体没有被告知要采取哪些行动，而是必须通过尝试发现哪些行动能获得最大的回报。智能体所采取的行动不仅会影响当前的状态，还会影响下一个状态，从而影响所有后续的累计奖励。根据优化对象的不同，主要将强化学习分类为基于值函数的强化学习算法和基于策略的强化学习算法。其中，基于值函数的强化学习算法通过适用状态动作值函数Q(s,a)衡量在状态s下采取动作a所获取的价值，其适用于解决离散动作空间问题。经典的基于值函数的强化学习方法包括深度 Q 网络（deep Q-network，DQN）2、doubledeep Q-network3、带有优先回放机制的 DQN（pr

11、iori-tized experience replay）4以及基于 DQN 的竞争网络模型（dueling architecture）5等。基于策略的强化学习算法核心目标是希望找到一个最优的策略超参数*，使得累计奖励最大化，其适用于解决连续动作空间问题。演员-评论家（actor-critic，AC）6框架是其经典的方法，基于AC结构的强化学习方法包括深度确定性策略梯度方法（deep deterministic policy gradient，DDPG）7、异步优势 Actor-Critic 算法（asynchronousadvantage actor-critic，A3C）8、近端策略优化算

12、法（pro-ximal policy optimization，PPO）9以及软演员评论家算法（soft actor-critic，SAC）10等。近年来，深度强化学习（deep reinforcement learning，DRL）被广泛应用于智能交通11-12、机器人13-15、机器翻译16、游戏17、自动驾驶18-19及智能电网20等多个领域，并取得了里程碑式的成果。深度强化学习通过端到端的训练方式实现了从输入到输出的直接控制，其取得成功的关键在于深度学习对高维状态的强大感知能力以及深度决策模型对复杂任务的表达能力21。然而，为了让模型的表达能力达到一定高度，需要大量的训练样本和训练时间

13、，尤其是面对视觉型的学习任务，如 Rainbow22模型在57个Atari游戏上进行测试，其中在40个游戏上的表现超越了人类玩家，但训练一个模型需要一亿八千万帧训练样本，也就是83 h的游戏数据；由谷歌公司DeepMind团队开发的AlphaStar AI23，经历了44天的训练，在“星际争霸2”游戏中击败了99.8%的欧服玩家；OpenAI Five24经历了10个月的实战训练，击败了 Dota2 人类玩家的世界冠军（Team OG）；DeepMind团队提出的学习酷跑策略25需要64个GPU学习100 h以上才能达到一定水平。因此，深度强化学习的成功得益于其大量的训练样

14、本和训练时间。然而，收集大量样本是深度强化学习在实际应用中的瓶颈问题，如让机器人在危险环境中收集执行任务的学习样本存在较大难度，一方面存在机械损坏的风险，另一方面让机器人长时间运行收集样本的成本代价是高昂的26。此外，DRL采用端到端的训练方式，使状态表示的学习与策略的学习同时进行，易引起策略模型庞大、学习效率低的问题。因此，减轻策略学习负担，提高样本利用率及学习效率是 DRL领域亟待解决的问题。另一方面，现有深度强化学习方法通常能够在一个特定任务上取得良好的性能，但当其环境发生任意微小变化或者执行稍有不同的任务时，训练模型难以适应到新的环境中去执行任务。一个具有较好泛化能力的智能体，当训练完

15、成后，它可以在平稳地段上直立行走，被迁移到崎岖不平的地段上时，依然能够平稳地行走。然而，目前深度强化学习的泛化能力仍有待提升，它难以处理多样的任务集合。因此，模型的泛化能力是深度强化学习在实际应用中的另一个重要瓶颈问题。为解决上述挑战，学者们将基于深度神经网络的表示学习引入到强化学习中，旨在学习环境信息的抽象表示，使智能体能够感知高维度原始输入数据27。表示学习在强化学习领域可分为状态表示学习和动作表示学习，其中状态表示学习在于学习状态抽象的、易于区分的表示，侧重于对环境的感知与表达28。智能体通过在状态表示空间中进行推理与学习，更容易理解和感知环境的状态，缓解因状态维度过高而带来的维数灾难问

16、题，并有助于提高策略学习算法的性能和泛化能力。面对大规模动作空间时，传统的动作选择机制难以令智能体满足关于探索的要求。针对此，动作表示学习旨在学习原始动作空间中关于动作的底层结构特征，从而提高智能体在动作空间中的泛化性能，加快学习速度29。综上，面对大规模复杂环境，表示学习30-31的引入使深度强化学习能够直接感知高维观测环境，被应用到各种实际问题中，并取得了突破性进展。如图 1 所示，深度强化学习中的表示学习包括状态表示、动作表示以及环境动力学三方面，其中状态表示2048赵婷婷等：潜在空间中深度强化学习方法研究综述代表性方法包括 PlaNet32、DeepMDP33、深度互模拟控制（dee

17、p bisimulation for control，DBC）34、对比输入变形（contrastive input morphing，CIM）35、对比预测编码（contrastive predictive coding，CPC）36等，动作表示代表性方法包括 PG-RA（policy gradient with re-presentations for action）29、Wolpertinger37、AE-DQN（deep Q-learning with action elimination）38、PL-LS（po-licy learning in latent spaces）39等，环

18、境动力学模型学习代表性方法包括World Model40、Dreamer41-42等，具体见表1。本文将以上述三方面为线索，总结近年来基于潜在空间的深度强化学习方法。1强化学习背景知识强化学习通过与环境进行交互，通过五元组进行表示(S,A,P,R,)，其中S表示状态空间，A表示动作空间，表示折扣因子，P:SA S表示状态转移概率，R:SA R表示奖励函数。强化学习的核心目标是最大化累计奖励，即找到一个最优策略，使得整个决策过程中累计奖励达到最大。根据优化对象的不同，强化学习算法可以分为两大类：基于值函数的强化学习算法和基于策略的强化学习算法。基于值函数的强化学习方法的优化对象是值函数，强化学习

19、中值函数可以分为状态值函数V(s)和状态-动作值函数Q(s,a)。状态值函数通常用来衡量状态s的价值，即当该状态为初始状态，并且当前策略为时，所得到的累计奖励的期望值。因此，状态值函数V(s)的数学表达可以表示为：V(s)=Et=1t-1r(st,at,st+1)|s1=s（1）其中，s1=s表示该条路径初始状态为s，st表示t时刻的状态，at表示t时刻所选取的动作。状态-动作值函数Q(s,a)通常用来衡量在状态s时采取动作a的价值，即当该状态为初始状态，并且根据当前策略采取动作a，所得到的累计奖励的期望值。因此，状态-动作值函数Q(s,a)的数学表达可以表示为：Q(s,a)=Et=1t-1r

20、(st,at,st+1)|s1=s,a1=a（2）图1基于潜在空间的强化学习方法关系分类图Fig.1Relationship classification graph of reinforcement learning method based on latent space表1基于潜在空间的强化学习方法总结Table 1Overview of DRL in latent space模型DFQ with deep AEWorld ModelPlaNetDreamerSLACDeepMDPDBCGCBCIMCPCNovelty SearchERCPIBRCPIWolpertingerAE-DQN

21、PG-RAPL-LS状态表示动作表示环境动力学2049Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(9)其中，s1=s表示该条路径初始状态为s，a1=a表示当初始状态为s时，根据当前策略采取动作a，st表示t时刻的状态，at表示t时刻所选取的动作。对值函数进行定义之后，则是通过值函数去不断迭代，以此获得最优策略。获得最优策略的方法主要方法则是策略迭代算法。其中，策略迭代算法主要分为两步：策略评估和策略改进。在策略评估阶段，其核心则是通过不断迭代来获取一个收敛的值函数的值，具体的，通过贝尔曼方程得到价

22、值函数，以此来衡量当前策略能够产生的预期价值；在策略改进阶段，根据在策略评估阶段获得的值函数，通过使用贪心法以此来更新策略。通过不断迭代进行策略评估和策略改进，最后得到最优策略。基于策略的强化学习方法也称为策略搜索算法，其核心思想是对策略进行参数化表示，引入策略超参数，策略可以表示为(a|s,)。策略搜索算法的核心目标是希望找到一个最优的策略超参数*，使得累计奖励最大化。具体的，智能体通过与环境进行交互，从而获得一条路径，表示为hn=sn1,an1,sn2,an2,snT,anT，T表示路径长度。因此每条路径的累计奖励R(h)可以表示为：R(h)=t=1Tt-1r(st,at,st+1)（3）

23、其中，(0,1表示奖励折扣因子，st表示t时刻的状态，at表示t时刻的所选择的动作，r()表示奖励函数。每条路径都具有随机性，其发生概率取决于当前策略，因此每条路径的概率可以表示为：p(h|)=p(s1)t=1Tp(st+1|st,at)(at|st,)（4）其中，p(s1)表示初始状态s1的概率，()表示当前策略，表示策略超参数。因此，累计奖励的期望可以表示为：J()=p(h|)R(h)（5）最后，策略搜索算法的最终目标则是最大化累计奖励的期望，则最优策略超参数*表示为：*=arg maxJ()（6）2潜在空间中的状态表示在深度强化学习中，状态空间通常都是高维、非结构化的连续空间，将高维环境

24、感知投影到低维潜在空间中，可以极大地提高数据效率，以便在数据有限的情况下进行策略学习，极大程度地简化了下游任务。为了对感知状态进行有效表示，传统强化学习通常采用手工提取特征的方法，比如子空间识别算法43、期望最大化算法44-45、预测误差46等方法。随着深度学习的不断发展，基于深度学习的表征学习方法被应用在强化学习中用于解决环境的感知与表达。下面将以环境中状态的感知为核心，详细阐述深度强化学习中基于潜在空间的状态表示方法。2.1基于重构方式的状态表示高维数据往往具有信息的冗余，基于深度神经网络的特征表示可以有效表达高维数据，如深度神经网络、堆叠/深度自编码器47和卷积神经网络48，已成功应用于

25、图像49、文本50-53、语音和音频数据54-56，并引起了谷歌、亚马逊和Facebook等工业巨头的广泛关注。强化学习在现实世界的成功应用令人印象深刻，然而仍局限于解决低维状态空间的任务，无法直接从原始图像中学习策略。通常，处理视觉感官输入时，原始学习任务被分成两个独立的处理阶段：第一阶段是使用图像处理方法提取相关信息并将其压缩成低维表示；第二阶段是学习某个特定任务的策略。为了提高智能体学习策略的主动性，使其能够找到合适的状态表示，有必要消除第一阶段中手动提取表征的方式。针对此，Lange等提出在第一阶段集成深度自动编码器，取代手工特征提取的预处理57-58。具体地，Lange等提出了一种能

26、够基于原始视觉输入数据进行强化学习的学习架构57-58，该学习系统主要包括：（1）从原始像素数据流中自主学习，提取控制任务所需的状态信息；（2）学习基于该表示的控制策略。与传统方法相比，该学习系统无需对状态信息提供任何先验知识。深度自编码器是一种能够保持较低的重构损失甚至无损重构的一种特征表示方法，但是该模型所得隐空间缺乏规则性以及解释性。变分自编码器59-60通过引入正则化，并非如自编码器将输入编码为隐空间中的单个点，而是将其编码为隐空间中的概率分布。通过该种方法，变分自编码器有效地解决了自编码器的缺陷，成为了目前最流行的表征学习方法。变分自编码器（variational autoencod

27、er，VAE）由两部分组成：编码器和解码器61，或推理网络及生成网络。编码器推断原始数据X在潜在空间中的隐变量的概率分布p(z)；解码器根据生成的隐变量分布p(z)，负责将隐变量z解码为重建的X，其具体结构如图2所示。其中，X表示输入数据，hinf表示推理网络，和分别表示原始数据在潜在空间分布中的均值和标准差，z表示原始数据在潜在空间中的潜在2050赵婷婷等：潜在空间中深度强化学习方法研究综述表示，即隐变量，hgen表示生成网络，X表示通过生成网络生成的新样本数据。q(z|X)与p(X|z)分别为编码过程和解码过程中学习到的条件概率分布。为了使VAE具有生成样本多样化的特性，而不是AE的确定

28、性映射，VAE中的隐变量z是一个通常被假设为服从多元正态分布的随机变量，即p(z)N(0,I)，其中I为单位矩阵。VAE已经在计算机视觉领域得到广泛应用。面对图片62-63、视频、音频等数据，通常会形成这些信息的抽象表示64-65，并假设它们由一些更底层的变量生成，而这些变量满足某种特定分布，被称为潜变量（latent variable），它代表着数据的内在结构。强化学习中的状态通常是对真实世界的感知，而其往往是高维数据，且具有很多噪声，这对强化学习任务提出了挑战。让智能体依照人类处理信息的方式，学习数据的内部结构，可以加速学习并且提高数据利用率。因此，如何通过高维感知数据进行策略学习成为深度

29、强化学习领域的研究热点，针对此，Deisen-roth、Amos、Henaff等66-70充分分析并肯定了潜在空间的发展前景。2019年，David等提出一种基于模型的强化学习方法World Models40模型，其结构如图 3 所示。World Models 分成三部分：视觉组件（V）、记忆组件（M）以及控制器组件（C）。其中视觉组件（V）将观测状态图像编码成低维状态表示；记忆组件（M）接收来自视觉组件的状态表示信息，并利用历史观测信息，对未来的状态表示向量做出预测；控制组件（C）接收来自视觉组件和记忆组件的输出，以最大化期望回报为目标，确定智能体执行的动作，并与环境交互。World Mod

30、els 中的视觉组件（V）将一张原始视频帧输入到变分自编码器中，通过重构的方式将原始视频帧编码成低维的潜在状态表示，再通过解码器对状态表示进行重构，具体如图 4 所示。WorldModels通过基于VAE的状态表示构造了世界感知模型，获得了良好的表现，甚至在部分任务中的性能超过了 Model-free 的强化学习算法。World Models 适用于需要消耗大量资源任务场景，如需要使用大量计算资源来将游戏状态渲染到图像帧中的密集型游戏。然而，World Models对于高维观测仅仅通过一个简单的变分自编码器进行编码获得低维状态表示，并没有考虑状态之间的时序性，这样的做法会导致编码得到的低维状态

31、表示缺少历史状态信息。相关研究指出对于具有已知环境动态的决策问题，规划方法是一种高效方法71。当面对一个未知环境，智能体需要首先学习环境动力学模型，才可以进行高效的规划。然而，对于基于模型的强化学习算法，如何获得一个精确的动力学模型是一个长期的挑战，尤其是在基于视觉的强化学习任务，而良好的潜在状态表示决定是否能够学习到一个精确的潜在动力学模型。基于此，Hafner等提出了在潜在空间中探索环境动力学模型以进一步提高学习效率的方法PlaNet32。该方法是一个基于模型的强化学习的智能体，从图像中学习环境动态，并在潜在空间中通过图3World Models模型结构Fig.3Structure of

32、World Models图4基于VAE的视觉组件Fig.4Visual components based on VAE图2变分自编码器结构Fig.2Structure of variational autoencoder2051Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(9)快速在线规划进行决策。PlaNet与 World Models的状态表示方法相类似，使用了变分自编码器去学习一个良好的潜在状态表示。此外，编码器根据过去的观察和行动推理近似的状态后验概率，表示为：q(s1:T|o1:T,a1:

33、T)=t=1Tq(st|st-1,at-1,ot)（7）其中，ot表示t时刻的高维观测图像，st表示t时刻的状态表示，q(st|st-1,at-1,ot)为均值和方差参数化的对角高斯分布。PlaNet成功展示了从原始图像中学习潜在状态表示，继而学习到精确的动力学模型，从而在潜在空间中快速规划来选择行动，这进一步验证了潜在空间对于强化学习是一个有前途的研究方向，其适用于处理具有接触动力学、部分可观察性和稀疏奖励的连续控制任务。然而，PlaNet方法通过最大化固定视野的累积奖励实现规划，未能提供对未来长期的规划，从而导致其短视行为72。2020 年，Hafner 等提出了一个新型的强化学习模型Dr

34、eamer41-42。Dreamer 使用与 PlaNet 相类似的状态编码器。当智能体接收到环境观测值之后，Dreamer对高维观测图像进行状态的表示学习，随后在潜在空间中进行学习。为了解决 PlaNet的短视行为问题，Dreamer采用一种纯粹通过潜在想象力从图像中学习长视野行为的代理，与原始状态空间中的预测相比，潜在状态的内存占用很小，可以并行想象数千条轨迹，如图 5所示。具体地，智能体通过重构的方式，利用过去经验的数据集，通过卷积神经网络73将观察编码为紧凑的潜在状态，如图5（a）所示的实心绿圈，然后在紧凑的潜在空间中，Dreamer预测状态价值和行动，如图5（b）所示，通过将梯度传播

35、回想象的轨迹，从而最大化未来价值预测。Dreamer适用于具有连续空间的任务，它可以学习精确世界模型，并仅从像素输入解决实际任务。通过上述方法可见，深度强化学习（DRL）算法可以使用高容量深度网络直接从图像观察中学习，其将表示学习和任务学习统一到一个端到端的大规模模型中。然而，面对高维观察空间问题，共同解决这两个问题是困难的，因为有效的策略需要有效的表示，而有效的表示需要来自策略或价值函数的有意义的梯度信息。因此，使用标准的端到端 DRL算法直接从感知图像中进行学习效率较低。针对上述问题，Lee等74通过显式学习潜在表示来分别解决上述两个问题，提出了随机潜在行动者-评论家（stocha-sti

36、c latent actor-critic，SLAC）算法：一种用于直接从高维图像输入学习复杂连续控制任务的策略的样本高效且高性能RL算法。SLAC分离表示学习和任务学习，通过依赖预测模型学习来显式地获取潜在表示，并在学习的潜在空间中训练RL智能体。因此，该方法减轻了表示学习的难度，因为即使智能体未能在任务上取得任何进展之前，预测学习也受益于信息丰富的监督信号，导致整个学习过程的样本效率提高，适用于复杂信息的基于图像的控制任务。具体地，状态表示的损失函数可表示为：JM()=Ez1:+1t=0-lgp(xt+1|zt+1)+DKL(q(zt+1|xt+1,zt,at)|p(zt+1|zt,at)

37、（8）其中，p表示生成模型，q表示推理模型，表示分布参数，xt表示t时刻真实观测，zt表示t时刻低维状图5Dreamer模型结构Fig.5Structure of Dreamer2052赵婷婷等：潜在空间中深度强化学习方法研究综述态表示，at表示t时刻所选动作。q(z1|x1,z0,a0)=q(z1|x1)，p(z1|z0,a0)=p(z1)上述方法均通过重构的方式学习环境中的潜在状态表示，使强化学习的数据利用率得到了很大的提高，但是这些方法没有考虑到高维观测与任务的相关性，从而影响了执行任务的效率与性能。表2总结了各种基于重构的状态表示方法的优缺点。2.2基于互模拟等价的状态表示方法基于重

38、构方式的状态表示使强化学习的数据效率得到了很大的提高，但上述方法没有考虑到高维观测状态与任务的相关性，其将高维观测中的所有信息都进行了编码，尚未区分各个部分是否与任务相关。例如，The Arcade Learning Environment75中各个游戏的观测图像由 33 600 维像素矩阵组成，每个观测图像均存在低维近似表示；经典 Atari 游戏PONG，只需要观察画面中三个物体的位置和速度就足够，但通过重构的方式对高维观测进行编码，往往将许多冗余的信息同时进行编码，得到的包含无用信息的潜在表示会影响强化学习智能体的注意力。如果可以只关注状态中与任务相关的部分，则可对状态信息进行有效表示，

39、从而有效地提高学习效率。针对此，Givan等76提出了等价状态表示的概念，即原始状态空间中不同的状态信息经过编码之后，在隐空间中可以用同一状态表示来表达，这样的两种状态可以称之为等价状态。例如，对于自动驾驶任务77，云朵、树木以及建筑等都是无效信息，只有汽车与行驶道路是有效信息，如果对图6中的两张自动驾驶汽车图像进行编码，可以直观发现经过编码之后，原始空间中不同的状态在潜在空间中可以用同一状态表示。针对等价表示，Givan等通过最小化马尔可夫决策过程提出了动作序列等价、最优值等价及互模拟等价。对于任意固定的有限动作序列，两个状态在奖励序列上的分布相同，那么这两个状态被视为基于动作序列等价。然而

40、，两个状态可能等同于不同的最优值，从而提出最优值等价的概念，但最优值相等的状态可能会出现不同的状态转移。基于上述两种等价方式，互模拟等价被提出，被认为是模型最小化的最佳状态等价。互模拟等价是指如果两个状态在下一个状态中共享相同的即时奖励和相等的分布，则这两个状态存在互模拟的关系，数学定义如下：定理 1（互模拟等价关系）给定一个MDP M=表2基于重构的状态表示方法对比Table 2Comparison of reconstruction based state representation methods模型DFQ with deepAuto-EncoderWorld ModelsPlaNet

41、DreamerSLAC简要概述深度自动编码器网络的无监督训练集成到批处理RL中由视觉组件（V）、记忆组件（M）以及控制器组件（C）组成。通过基于 VAE的状态表示构造了世界感知模型该方法是一个基于模型的强化学习的智能体，从图像中学习环境动态，并在潜在空间中通过快速在线规划进行决策采用一种纯粹通过潜在想象力从图像中学习长视野行为的代理将高效的无策略模型 RL 与通过序列随机状态空间模型进行的表示学习相结合优点自主学习如何从高维输入信息流中提取相关状态信息摒弃传统的端到端学习，通过利用低维状态表示进行策略学习使用变分自编码器根据过去的观察和行动推理近似的状态后验概率去学习一个良好的潜在状态表示潜在

42、状态的内存占用很小，可以并行想象数千条轨迹减轻了表示学习的负担,导致整个学习过程的样本效率提高缺点隐空间缺乏规则性以及解释性未考虑状态之间的时序性，导致状态表示缺少历史状态信息通过最大化固定视野的累积奖励实现规划，未能提供对未来长期的规划，从而导致其短视行为未考虑高维观测与任务的相关性,导致状态表示存在许多干扰因素建立环境动力学模型仅仅用于学习状态表示图6等价状态表示Fig.6State representation of bisimilarity2053Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17

43、(9)(S,A,P,R,)，状态之间的等价关系B是互模拟关系，对于任意两个状态si、sj属于S，满足以下条件则这两个状态之间存在互模拟关系78：R(si,a)=R(sj,a),a A（9）P(G|si,a)=P(G|sj,a),a A,G SB（10）其中，si、sj分别表示在i和j时刻的状态，a表示选取的动作，R和P分别表示奖励模型、动力学模型，SB表示状态空间S在关系B下的划分（等价状态的所有状态G的集合），P(G|s,a)=sGP(s|s,a)。定理 1给定了两个状态满足互模拟等价关系所需满足的条件，其详细证明可见文献76。在连续状态空间中，用互模拟关系进行精确划分通常是不切实际的，因为

44、这种关系对奖励函数或动力学的无穷小变化非常敏感。因此，互模拟度量矩阵软化了状态划分的概念，而是通过定义互模拟等价度量矩阵来衡量两个状态之间是否存在互模拟等价的关系，数学定义如下：定理2（互模拟等价度量矩阵）给定一个MDP M=(S,A,P,R,),c(0,1)，其中c表示折扣因子。Ferns 等提出了互模拟度量矩阵78：d(si,sj)=maxaA(1-c)|Rasi-Rasj|+cW1(Pasi,Pasj;d)（11）其中，Rasi和Rasj表示在状态si和状态sj下采取动作a获得的奖励值，Pasi和Pasj表示在状态si和状态sj下采取动作a的转移状态，W1表示Wasserstein距离，

45、d表示一种伪度量，用来衡量两种状态的行为相似度。关于定理 2所给定的互模拟度量矩阵的详细证明请参见文献76。Ferns等78定义了关于连续MDP（Markov decisionprocesses）的互模拟度量，并提出了一种蒙特卡洛算法，通过精确计算Wasserstein距离来学习该度量，但是由于其计算成本高，导致该方法不能扩展到大规模状态空间的任务。Taylor等79认为互模拟度量要求行为与完全相同的动作匹配难以满足。在实际情况中，具有相同标签的动作可能不能匹配，但是在环境中可能包含对称性和其他类型的特殊结构，这些结构通过将状态的行为与不同的动作相匹配，可以实现状态之间的对应。进一步，Tayl

46、or等将基于互模拟的方法和基于 MDP同态的方法相互联系起来，从第一原理出发构造一个可以证明的、最优近似 MDP同态，并根据MDP同态的这个度量计算出一个值界，其中聚集了近似等价的状态-动作对。虽然上述方法已成功应用到大规模状态空间的任务，但是其高计算成本成为其在实际应用中的瓶颈问题。为解决互模拟度量高计算成本的问题，Gelada等33首次将互模拟思想引入到深度学习框架下，提出了 DeepMDP。由互模拟度量矩阵可得知，如果两种状态可以产生相近的即时奖励，并且可以转换为行为相似的状态，那么这两种状态具有互模拟关系。DeepMDP是MDP的潜在空间表示，通过最小化奖励预测损失以及潜在转移状态分布

47、预测损失进行优化。预测奖励损失表示为：LR=Es,a|R(s,a)-R(s),a)|（12）预测潜在转移状态分布损失表示为：LP=Es,a|W(P(|s,a),P(|(s),a)|（13）其中，表示样本的分布，W表示 Wasserstein距离，、R、P分别表示状态表示网络、奖励预测网络以及状态转移网络。DeepMDP通过引入互模拟的思想，将奖励预测以及潜在状态转移分布预测作为辅助任务，保证了两个不具备互模拟关系的状态不会被编码成同一状态表示。DeepMDP作为深度强化学习的实用表示学习方案具有独立的意义，该方案通过易于计算的学习目标提供互模拟度量的期望属性，不仅克服了互模拟度量矩阵计算成本高

48、的问题，还在深度学习框架下首次引入互模拟思想并且取得了卓越的成果，其适用于具有高维且复杂的状态空间的场景任务。然而，DeepMDP的表现依赖于一个很重要的假设，即所学习的MDP表示是Lipschitz80-81。为了将互模拟思想更好地与深度学习框架结合，使其更适用于一般场景，Zhang 等34提出直接学习基于互模拟等价的状态表示，从而保证生成 Lips-chitz MDP的表示。Zhang等34认为如果状态表示只编码状态中与任务相关的信息，与任务无关的信息保持不变，直观上可以通过奖励信号来确定任务相关性。因此，Zhang等34使用互模拟度量学习这种状态表示，提出了一种新的模型深度互模拟控制（d

49、eep bisimulation for control，DBC）。DBC是一种从非结构化、高维观测中学习控制策略的数据高效方法。传统互模拟学习的目的是学习观测值之间的距离函数，而DBC是学习一个潜在表示Z，利用所学潜在表示去改进强化学习算法。DBC模型结构如图 7所示，主要由四部分组成：状态表示编码器、动力学模型、奖励模型和策略。对于状态编码器，目标函数表示为：2054赵婷婷等：潜在空间中深度强化学习方法研究综述J()=(|zi-zj|1-|R(z i)-R(z j)|-W2(P(|z i,(z i),P(|z j,(z j)2（14）其中，zi=(si),zj=(sj)，z 表示不参与梯

50、度计算的(s)，表示平均策略输出。R表示奖励模型，由一个确定性的神经网络构成。P表示动力学模型，输出下一状态的高斯分布。DBC 将原始状态通过编码器进行编码，捕获适合控制的状态表示，同时丢弃与任务无关的信息。通过实验表明，与传统使用重建损失的方法相比，使用互模拟的非重构方法对与任务无关的干扰因素具有更强的鲁棒性。此外，可以将 DBC中的互模拟表征学习方法与任何强化学习算法相结合，形成一种全新的强化学习算法，从而显著地提高学习性能，其适用于具有严重干扰的场景任务。Hansen-Estruch等82在DBC取得显著成功后，将互模拟等价思想拓展到了目标条件强化学习，提出了目标条件互模拟（goal-c

展开阅读全文