1、基于参数化强化学习的车联网内容缓存和功率分配联合优化雒江涛*杨和平冉泳屹(重庆邮电大学通信与信息工程学院重庆400065)(重庆邮电大学电子信息与网络工程研究院重庆400065)摘要:车联网场景下的业务内容具有海量和高度动态的特性,使得传统缓存机制无法较好地感知内容动态变化,且巨量接入设备与边缘缓存设备的有限资源之间的矛盾会引起系统时延性能差的问题。针对上述问题,该文提出一种基于强化学习的联合内容缓存和功率分配算法。首先,考虑联合优化内容缓存和功率分配,建立最小化系统整体时延的优化模型。其次,将该优化问题建模为马尔可夫决策过程(MDP),并进一步将内容缓存和内容提供者的选择映射为离散动作集,并
2、将功率分配映射为与离散动作相对应的连续参数。最后,借助参数化深度Q-Networks(P-DQN)算法求解这个具有离散-连续混合动作空间的问题。仿真结果表明,相较对比算法,该文所提算法能提高本地缓存命中率并降低系统传输时延。关键词:车联网;内容缓存;功率分配;深度强化学习中图分类号:TN929.5文献标识码:A文章编号:1009-5896(2023)07-2476-08DOI:10.11999/JEIT220857Joint Optimization of Content Caching and Power Distribution forInternet of Vehicles Based
3、on Parametric Reinforcement LearningLUOJiangtaoYANGHepingRANYongyi(School of Communication and Information Engineering,Chongqing University of Posts andTelecommunications,Chongqing 400065,China)(Electronic Information and Networking Research Institute,Chongqing University of Posts andTelecommunicati
4、ons,Chongqing 400065,China)Abstract:TheservicecontentintheInternetofVehiclesscenarioismassiveandhighlydynamic,whichmakesthetraditionalcachingmechanismunabletoperceivebetterthedynamicchangesofthecontent,andthecontradictionbetweenthehugenumberofaccessdevicesandthelimitedresourcesofedgecachedeviceswill
5、causetheproblemofpoorsystemlatencyperformance.Inviewoftheaboveproblems,areinforcementlearning-basedjointcontentcachingandpowerallocationalgorithmisproposed.First,consideringthejointoptimizationofcontentcachingandpowerallocation,anoptimizationmodelisestablishedtominimizetheoverallsystemdelay.Second,t
6、hisoptimizationproblemismodeledasaMarkovDecisionProcess(MDP),andtheselectionofcontentcachesandcontentprovidersisfurthermappedasdiscreteactionsets,andpowerallocationismappedascontinuousparameterscorrespondingtodiscreteactions.Finally,thisproblemwithadiscrete-continuousmixedactionspaceissolvedwiththea
7、idoftheParametricDeepQ-Networks(P-DQN)algorithm.Thesimulationresultsshowthattheproposedalgorithmcanimprovethelocalcachehitrateandreducethesystemtransmissiondelaycomparedwiththecomparisonalgorithms.Key words:Internetofvehicles;Contentcaching;Powerdistribution;Deepreinforcementlearning1 引言随着汽车技术和车载网络的
8、发展,诞生了大量以提高驾驶安全性、旅行舒适性和车内娱乐性为目的的车载应用,这些应用常对计算、通信和存储资源有极大需求,并对服务质量(QualityofService,QoS)有特定的要求(如传输延迟和响应时间),这给仅依靠蜂窝网络从云端数据中心获取数据的车载网络带来巨大的压力1,2。车载边缘缓存技术通过将云缓存部分迁移至诸如路边单元(RoadSideUnit,收稿日期:2022-06-27;改回日期:2022-11-16;网络出版:2022-11-18*通信作者:雒江涛L基金项目:国家自然科学基金(62171072,62172064,62003067)FoundationItems:TheNa
9、tionalNaturalScienceFoundationofChina(62171072,62172064,62003067)第45卷第7期电子与信息学报Vol.45No.72023年7月JournalofElectronics&InformationTechnologyJul.2023RSU)的边缘缓存设备,以满足此类QoS要求3。但RSU的缓存容量和通信资源有限,需设计一个协同内容缓存和功率分配的联合优化策略。除RSU的存储和功率资源有限之外,联合优化策略还需考虑如下3个问题:(1)车联网场景中内容的流行度具有时变性,进行内容缓存时应充分考虑有限存储资源和内容流行度的动态变化。(2)大
10、量存在的联网车辆和内容带来了“维度灾难”问题。(3)内容缓存和功率分配联合优化问题可被表述为混合整数非线性规划(MixedIntegerNonLinearProgramming,MINLP)问题,该非凸问题的复杂度极高。一些基于传统优化算法的方案研究了车载网络中内容缓存和资源分配问题。文献4提出了一种基于流行度和社会相似性的缓存策略,并利用块坐标下降法算法为计算和通信资源分配方案。文献5研究了在通信、计算和缓存资源约束下服务延迟的优化问题,将MINLP问题转化为线性规划问题,并提出了一种基于交替方向乘子法的新迭代算法以求解目标问题。文献6提出了一种缓存辅助延迟更新和交付方案,以平衡车载网络中的
11、内容新鲜度和服务时延。文献7将协同内容缓存问题表达为无线资源和计算资源的联合优化,并使用蚁群优化算法解决该优化问题。文献8将雾无线接入网络的联合缓存和无线资源优化问题建模为云资源管理器和雾接入点之间的Stackelberg博弈,并提出雾接入点的分布式集群形成算法。然而,这些解决方案所建立的待解问题往往是NP-hard的,其高计算复杂度使得解决方案只能推导出接近最优的次优解,且这些解决方案大多也无法较好地捕捉车载网络拓扑结构和内容流行度的动态变化。为此,部分研究方案提出了基于学习的策略。文献9提出了一种基于点对点联合学习的主动缓存方案,以提高缓存和延迟性能。文献10利用Hawkes过程适应内容流
12、行度的动态变化,提出了一种基于深度强化学习(DeepReinforcementLearning,DRL)的协同内容缓存方案。文献11,12使用深度确定性策略梯度(DeepDeterministicPolicyGradient,DDPG)算法求解车载网络计算和网络中的内容放置和内容交付问题。文献13为边缘缓存问题构建了一个基于多智能体框架的协作缓存解决方案。这些方案往往通过离散化连续动作或松弛离散动作来处理联合优化问题中的离散-连续混合动作空间问题,但松弛化离散动作空间会导致问题复杂度增加,离散化连续动作空间则会增加问题复杂性并降低准确率。针对上述问题,本文提出一种基于P-DQN算法的内容缓存和
13、功率分配联合优化算法。首先,将响应内容请求的过程划分为内容缓存和内容交付阶段,建立以请求为驱动的最小化系统整体时延的优化模型。其次,将该优化问题构建为马尔可夫决策过程,并进一步将内容缓存和内容提供者的选择映射为离散动作集,将功率分配作为连续参数与离散动作进行关联。最后,借助P-DQN算法求解这个具有离散-连续混合动作空间的问题。2 系统模型与问题建模2.1 无线通信模型L=1,2,.,LNK=1,2,.,KN如图1所示,系统模型由一个宏基站(MacroBaseStation,MBS)、一系列路边单元和一组车辆构成。MBS可通过云端数据中心(CloudDataCenter,CDC)获取到任意流行
14、内容。假设各RSU的信号覆盖范围有限,且各RSU覆盖范围之间无重叠区域。本地RSU是相对于请求车辆而言,车辆在某RSU的信号覆盖范围内发起内容请求,则该RSU即为请求车辆的本地RSU。本地RSU与其邻居RSU通过诸如光纤之类的有线连接方式进行通信,且二者均可从MBS或其邻居RSU获取流行内容并缓存至本地。RSU和MBS之间、RSU与车辆之间以及MBS与车辆之间均可建立基于C-V2X标准的无线通信连接14。RSU收集状态信息并发送至MBS,这些状态信息包括内容请求状态、内容缓存状态和信道状态。部署于MBS上的智能体根据状态信息做出决策,并将决策信息下发至各RSU,RSU据此执行相应动作。决策信息
15、包括内容缓存和功率分配:一方面,若决策信息要求本地RSU将请求内容缓存至本地,则在邻居RSU已缓存请求内容的情况下,本地图1车联网内容缓存和交付模型第7期雒江涛等:基于参数化强化学习的车联网内容缓存和功率分配联合优化2477Tt 1,2,.,TRSU从邻居RSU处获取该内容并缓存至本地,而在邻居RSU并未缓存该内容的情况下,本地RSU则从MBS处获取该内容并缓存至本地,该过程称为内容缓存阶段。另一方面,决策信息要求RSU或MBS以适当发射功率将请求内容交付给请求车辆,该过程称为内容交付阶段。系统以时隙为基础运行,将时间轴划分为个持续时长为的时隙,为时隙索引。2.2 内容模型F=1,2,.,FN
16、f Fsfkp (0,1)ktP(nk(t)=1)=pnk(t)=1nk(t)=0ktkP(nf(t)=1|nk(t)=1)=uf(t)nf(t)0,1nf(t)=1fnf(t)=0fuf(t)定义内容库集合,内容的大小定义为。假设各时隙持续时间极短,车辆在一个时隙内以概率发出最多一个内容请 求,则在 时 隙 发 起 内 容 请 求 的 概 率 为,其中表示车辆发起了内容请求,则表示未发起。已知车辆 在时隙 发起了内容请求的条件下,该车对内容 发起请求的概率为,其服从Zipf分布12,其中,表示内容 被请求,则表示未被请求。定义内容的流行度为uf(t)=V(f)FNi=1V(i)(1)0.6,
17、1.2V(f)fffff1,2,.,FNfV(f)ktf其中,为表征Zipf分布的偏度参数,为内容 的流行度排名。定义内容 的内容热度为,内容 每被请求1次则增加1。将内容热度集合按降序排列可得到序列,则具有最高内容热度的内容排列在序列的第1个位置,并以此类推。那么,将内容 在序列中的序号定义为该内容的流行度排名。车辆 在 时隙对内容 发起请求的概率为P(nk,f(t)=1)=P(nf(t)=1|nk(t)=1)P(nk(t)=1)=uf(t)p(2)nk,f(t)0,1tnk,f(t)=1kfnk,f(t)=0其中,为车辆在时隙 的请求状态,表示车辆 发起了对内容 的请求,则表示未发起。z定
18、义缓存命中率 为z=LNl=1Jlj=1Hl(j)LNl=1Jl(3)JlRSUlHl(j)其中,表示覆盖范围下的车辆发起内容请求的总次数,为示性函数Hl(j)=1,命中0,未命中(4)Hl(j)=1RSUljRSUl其中,表示覆盖范围内的车辆在第次请求内容时,已缓存了请求内容。2.3 时延模型MBS上的智能体根据RSU收集的状态信息产生并下发决策动作至RSU,RSU据此执行缓存和交付动作。鉴于实际业务大多为应用、视频下载等服务,与传输请求内容的时延开销相比,传输信令的时延开销可忽略不计,故本文主要考虑下行链路传输时延和排队时延。2.3.1 传输时延RSUlkftfktrank,f(t)tra
19、nk,f(t)假设的覆盖范围下的车辆 对内容 发起了请求,定义在时隙 时将 从其所在位置(MBS或RSU)发送到车辆 的总下行链路传输时延为,则有如下4种情况(图1):RSUlfRSUlkfkRSUlRSUlkRSUl(1)情况1。若已缓存内容,则以最大可达传输速率将内容 发送给车辆,其中为与 之间的信号干扰噪声比,且满足SINRl,k=hl,kpl,ki=l,iLhi,kpi,k+2 min(5)min2hl,kRSUlkpl,kRSUlfktrank,f(t)RSUlfkfl,ktrank,f(t)=fl,k=sf/Rl,k其中,和分别为信号干扰噪声比阈值和噪声功率,为与车辆 之间的信道增
20、益,为将内容 发送给车辆 时的发射功率。此种情况下,等于将 发送给车辆 的传输时延,即。RSUlfRSUlRSUlfRSUlRSUlRl,lRSUlRSUlffl,l=sf/Rl,lRSUlfkfl,ktrank,f(t)=fl,l+fl,k(2)情况2。若决策动作要求将内容 缓存至 本 地,且的 邻 居已 缓 存。由 于与之间通过光纤进行通信,为简化分析,设置二者间传输速率为固定值15。那么,先从处获取,其传输时延为,而后将 发送给请求车辆,其传输时延为,则有。RSUlfRSUlfRSUlffMBS,l=sf/RMBS,lRMBS,lfRSUlRSUlfktrank,f(t)=fMBS,l+
21、fl,k(3)情况3。若决策动作要求将内容 缓存至本地,但其邻居未缓存,则先从MBS处获取,其传输时延为,其中为MBS将 发送给的传输速率,然后将发 送 给 请 求 车 辆,那 么。RSUlffktrank,f(t)=fMBS,kfMBS,k=sf/RMBS,kRMBS,kfk(4)情况4。若决策动作不要求将内容 缓存至本地,则MBS将 发送至请求车辆,此时,且为MBS以传输速率将 发送给车辆 的传输时延。2478电子与信息学报第45卷trank,f(t)综上所述,可表示为trank,f(t)=fl,k,fl,l+fl,k,fMBS,l+fl,k,fMBS,k,RSU 车RSU RSU 车MB
22、S RSU 车MBS 车(6)2.3.2 排队时延RSUlQMBSlQMBSVRSUlQlt0QTexp考虑到相邻RSU间通过具有极大容量的光纤传输内容,故认为相邻RSU间传输内容时不存在拥塞15。定义MBS发送内容至和车辆的虚拟数据传输队列分别为和,发送内容至车辆的虚拟数据传输队列为。不失一般性,假设某一内容在时刻进入数据队列,则该内容的预期排队时延可计算为Texp(t0)=q(t0)i=1siRi(7)q(t0)QsiRiiitstQtTQ(t)其中,为数据队列中的文件数量,和分别为该队列中第 个内容的大小和传输内容 的传输速率。假设 为时隙 的起始时刻,则队列 在时隙的预期平均排队时延为
23、16TQ(t)=1ts+tsTexp()d(8)RSUltfkD=0,1,2ffkffffTQMBSl(t+fMBS,k+TQMBSl(t)Q(st,dt,pd(s;);)suppdPdQ(s,d,pd;)与2.3.1节讨论的传输时延的4种情况相对应:在情况1中,在时隙 处将内容 发送给车辆,则此种情况有排队时延;在情况2中,由邻居RSU将 发送至本地RSU,再由本地RSU将 发送至车辆,由于忽略邻居RSU到本地RSU的排队时延,故有情况2的排队时延;在情况3中,MBS将 发送至本地RSU,其排队时延为,再由本地RSU将发送给车辆,其排队时延为,则情况3的排队时延为。在情况4中,由MBS将内容
24、发送给车辆,此时的排队时延为。kfkfk,f(t)综合上述对传输时延和排队时延的讨论,从车辆 发起对内容 请求到车辆 接收完成请求内容之间的时延为k,f(t)=fl,k+que1,fl,l+fl,k+que2,fMBS,l+fl,k+que3,fMBS,k+que4,RSU 车RSU RSU 车MBS RSU 车MBS 车(9)2.4 问题表述本文提出一种车联网场景下的联合内容缓存和功率分配的优化模型,旨在最小化系统整体时延,建立模型为mincl,f,pkTt=1KNk=1FNf=1(k,f(t)nk,f(t)s.t.C1:FNf=1(cl,fsf)Gl,lC2:KNk1pl,k Pmaxl,
25、lC3:KNk=1pMBS,k PmaxMBSC4:SINRl,k min,l,k(10)cl,f 0,1fRSUlcl,f=1RSUlfcl,f=0pk pl,k,pMBS,kpl,kRSUlfkpMBS,kfkGlRSUlPmaxlPmaxMBSRSUl其中,为内容 在中的缓存状态,表示已缓存,则表示未缓存。表示发射功率,为将发送给车辆 的发射功率,为MBS将 发送给车辆 的发射功率。为的存储容量。和分别为和MBS的总功率。约束C1描述了RSU可以存储数量有限的内容,约束C2和C3则描述了RSU和MBS的总功率是有限的,约束C4描述了信号干扰噪声比值的下限以保证QoS。3 基于P-DQN的
26、算法设计鉴于优化问题式(10)是一个MINLP问题,用常规方法不易解决,为此,本文提出一种基于参数化DRL的联合优化内容缓存和功率分配算法。常用DRL算法包括深度Q-network(DQN)和DDPG,其中DQN使用神经网络逼近Q-learning的值函数,而DDPG则可看作DQN对连续动作预测的扩展。但DQN和DDPG分别适合处理具有离散动作和具有连续动作的问题,二者均无法单独直接处理具有混合动作空间的问题。因此,本文使用P-DQN算法解决目标优化问题,从而无需对混合动作空间进行离散化或松弛化处理。3.1 DRL模型3.1.1 状态空间S智能体根据状态空间做出决策动作。智能体需感知内容流行度
27、变化,以动态决策请求内容的缓存,故而应考虑将内容流行度、各RSU中内容的缓存状况和车辆对各内容的请求状况作为状态空间组成部分。此外,在RSU或MBS交付内容时,智能体需能做出合理的功率分配决策,故而亦将请求内容的大小和信道增益作为状态空间组成部分。那么,将状态空间 定义为S=(C,U,M,H)(11)第7期雒江涛等:基于参数化强化学习的车联网内容缓存和功率分配联合优化2479C=cl,f|cl,f 0,1,l,fU=uf(0,1),f FufM=f,sffsfH=hl,k,hMBS,khl,kRSUlkhMBS,kk其中,表示内容缓存状态。表示内容流行度,且由式(1)计算。表示请求内容信息,且
28、 和分别为请求内容的索引和该内容的大小。表示信道增益,且为和车辆 之间的信道增益,为MBS和车辆 之间的信道增益。3.1.2 动作空间dpa=(d,p)dpda=(d,pd)A系统以车辆请求事件为驱动,即针对车辆发起的某个内容请求事件,智能体根据状态空间做出决策动作,该决策动作指示本地RSU是否将本次请求的内容缓存到本地,并指出应由哪一内容提供者(RSU或MBS)将内容交付给请求车辆,同时还指定交付该请求内容时发射功率的大小。定义离散动作决定本地RSU是否将该请求内容缓存至本地,以及由MBS还是本地RSU将内容发送给请求车辆,并定义连续动作 决定发射功率大小,则决策动作可定义为。进一步将离散动
29、作与连续动作进行关联,即离散动作 对应的连续参数为,即。定义动作空间 为A=(d,pd)|d D,pd Pd(12)D=0,1,2其中,为离散动作集。(d=0,pd)fpdf(d=1,pd)ffpdffff(d=2,pd)ffpdf表示请求车辆所在的本地RSU已缓存请求内容,并由本地RSU以发射功率将 交付于请求车辆。表示本地RSU未缓存内容,本地RSU需先从邻居RSU或MBS处获取并缓存至本地,本地RSU再以发射功率将 交付于请求车辆,若邻居RSU缓存有内容,本地RSU则从邻居RSU处获取,否则,从MBS处获取。表示本地RSU未缓存请求内容,且 在RSU覆盖范围内也不具有成为流行内容的可能性
30、,则由MBS以发射功率将 交付于请求车辆。3.1.3 奖励函数k,f(t)zr(St,At)奖励函数与优化问题式(10)密切相关,本文优化目标旨在最小化系统整体时延,故而设置奖励函数与时延呈负相关。此外,较高的缓存命中率反映出大部分内容请求由本地RSU服务,可极大缓解回程网络压力,故而设置奖励与缓存命中率 间呈正相关。综上所述,奖励函数表示为r(St,At)=(tol k,f(t)(1+z),tol k,f(t),0,d=0d=1d=2(13)StAtttol其中,和分别为 时隙的状态空间和动作空间,为最大容忍时延。3.2 基于P-DQN的内容缓存和功率分配算法p()Sp()SQ()Q()P-
31、DQN算法的整体流程图如图2所示。首先,使用确定性策略网络根据状态 生成连续动作值,其中 为的网络权重。接着将连续动作值连同状态 输入至深度Q网络中,其中 为的网络权重。最后,选择出Q值最大的离散动作及其对应的连续动作。Q(s,a)=Q(s,d,pd)s Stdtpdtdt具体地,将动作值函数表示为,其中。假设智能体在 时刻选择离散动作,为离散动作 相对应的连续参数值,则可将贝尔曼方程表示为Q(st,dt,pdt)=Ert,st+1rt+maxdDQ(st+1,d,pQd(st+1)|st=s(14)0,1rtt其中,为折扣因子,为智能体在 时刻所获即时奖励。Q(s,d,pd;)Q(s,d,p
32、d)pd(s;):S PdpQd(s)利用深度神经网络逼近,并利用确定性策略网络逼近。换言之,在固定网络权重 时,欲寻得 使得式(15)成立Q(st,dt,pd(s;);)suppdPdQ(s,d,pd;)(15)n 1yt结合n-step算法,对于固定的,将n-step目标值 定义为yt=nmaxdDQ(st+n,d,pd(st+n;t);t)+n1i=0(irt+i)(16)Q(s,d,pd(s;);)与DQN类似,对 使用最小二乘损失函数。此外,为了在 固定时找到使最大化的,设置 和 的损失函数为Qt()=12Q(st,dt,pdt;)yt2t()=dDQ(st,d,pd(st;);t)
33、(17)在每一轮训练之后,和 可通过式(8)更新t+1 ttQt(t)t+1 ttt(t)(18)图2P-DQN算法流程2480电子与信息学报第45卷其中,和 分别为更新 和 时的学习率。stpd(st;t)pdpdstQ(st,d,pd;t)dtdt(dt,pdt)st+1rt(st,at,rt,st+1)yt算法1为基于P-DQN的联合优化算法流程。首先将状态输入至网络中以生成连续动作,接着将连同状态输入至网络并选择出Q值最大的离散动作。为避免模型陷入局部最优,在获得最优之后使用-贪心策略来增加动作探索概率。在执行混合动作之后评估时延和缓存命中率,并将状态更新为,根据式(13)计算即时奖励
34、。接着,将4元组存储在经验回放池中,并从经验回放池 中采样得到的mini-batch集。最后利用式(16)计算得到,据式(18)更新网络参数 和。4 仿真结果与分析4.1 实验设置本文利用Python3.7.0和Pytorch1.9.0搭建仿真平台,并在平台上进行模拟实验以验证所提算法的可行性和有效性,系统主要的仿真参数由表1给出。4.2 实验结果图3展示了基于P-DQN和基于DDPG的内容缓存和功率分配方案收敛过程。从图中可知,虽然基于DDPG的方案较基于P-DQN的方案更快收敛,但前者的收敛所得奖励却不如后者,这是由于基于DDPG的方案对离散动作进行松弛处理导致问题复杂度增加,从而陷入局部
35、最优。图4展示了所提方案在不同学习率和mini-batch大小为64的条件下的性能。在学习率为0.000 1的条算法1 基于P-DQN的联合优化算法T,B11初始化:设置最大训练轮数、学习率、探索参数、概率分布参数、mini-batch大小为、经验回放池、网络权重和t=1T1:forto dok=1K2:fortodopd pd(st;t)3:计算动作参数。at=(dt,pdt)4:使用-greedy策略选择动作,其中dt=argmaxdDQ(st,d,pd;t)5:at=以概率采样,(dt,pdt),1 6:atrtst+17:执行,并获取时延和命中率,观测奖励和下一状态st,at,rt,s
36、t+18:将存入Bsb,ab,rb,sb+1bB9:从中采集个样本yb=rb+maxdDQ(sb+1,d,pd(sb+1;t);t)10:yb,sb,abbBQt()t()11:使用计算和t+1 t tQt()t+1 t tt()12:计算和13:endfor14:endfor表 1 仿真参数参数数值RSU覆盖半径(m)250RSU数量4RSU存储容量(GB)16RSU总功率(dBm)40内容大小(MB)8,12车辆数量100带宽(MHz)10噪声功率(dBm)60SINR门限(dB)20路径损耗模型128.1+37.61lg(d)p和Q网络的隐藏层12864mini-batch大小64经验回
37、放池容量5 000=学习率0.001折扣因子0.95图3基于P-DQN和基于DDPG方案的收敛过程图4不同学习率下的平均时延图5不同mini-batch大小下的系统性能第7期雒江涛等:基于参数化强化学习的车联网内容缓存和功率分配联合优化2481件下,由于学习率过小,系统经历了一个缓慢的学习过程,而当学习率为0.09时,系统的时延增加了,这是由于过大的学习率使得算法陷入局部最优。因此本文在后续实验中采用0.001的学习率。图5展示了所提方案在不同mini-batch大小和学习率为0.001的条件下的性能。从图中可知,过小的mini-batch使得梯度表现出非常粗略的近似,系统需要很长时间才能找到
38、最优策略。而过大的mini-batch使得梯度计算更准确,但学习过程可能会陷入局部最优。与大小为32和128相比,当mini-batch大小为64时,系统实现了更好的性能,具有更早的收敛和更低的延迟,因此本文在后续实验中采用大小为64的mini-batch。图6展示了本文提出的基于P-DQN的方案在不同时隙处,系统将请求内容从内容源发送给车辆时不同途径的占比变化。随着时间推移,由RSU直接将内容交付给车辆的事件比例逐渐增大并保持稳定,其他交付事件则逐渐降低至稳定,这是由于RSU动态捕捉流行内容并将其缓存至本地使得命中率增加。图7展示了基于P-DQN的方案、基于DDPG的方案和基于最近最少使用(
39、LeastRecentlyUsed,LRU)的方案在缓存命中率方面的性能对比。在RSU缓存容量从8GB增加至32GB的过程中,所有方案的缓存命中率都提高,这是由于更大的缓存容量意味着系统可以缓存数量更多的流行内容。较基于DDPG和基于LFU的方案而言,所提方案可更好感知内容流行度的动态变化,使得平均缓存命中率分别提高了5%和15%。图8展示了RSU最大可分配功率对平均系统时延的影响。本文对比了基于P-DQN的方案、基于DDPG的方案和随机方案在平均系统时延方面的性能。在RSU最大可分配功率从35dBm增加至50dBm的过程中,所有方案的平均系统时延都有所降低,这是由于最大可分配功率的增加会提高
40、系统的平均传输速率。此外,由于所提方案无需对混合动作进行离散化或松弛化,使得其在动态和复杂的无线环境下能更加精准地分配适当大小的功率,因此所提方案较基于DDPG方案和随机方案而言,平均系统时延分别降低了8%和21%。5 结束语本文研究了车联网场景中内容缓存和传输功率分配的联合优化问题,旨在最小化系统整体时延。为实现该目标,本文将该联合优化问题建模为MDP,并将缓存内容和选择内容提供者的动作映射为离散动作集,将功率分配动作映射为与离散动作相对应的连续参数。同时,为避免将离散和连续变量处理为同一类型变量会带来的维度或复杂性的增加的问题,利用P-DQN算法实现混合动作空间的参数化。实验结果表明,相较
41、于基准方案,本文提出方案实现了更低的系统时延和更高的缓存命中率。参 考 文 献YOUSEFPOURA,ISHIGAKIG,GOURR,et al.OnreducingIoTservicedelayviafogoffloadingJ.IEEEInternet of Things Journal,2018,5(2):9981010.doi:10.1109/JIOT.2017.2788802.1HE Ying,ZHAO Nan,and YIN Hongxi.Integratednetworking,caching,andcomputingforconnectedvehicles:A deep rei
42、nforcement learning approachJ.IEEETransactions on Vehicular Technology,2018,67(1):4455.2图6提出方案中内容交付途径的比例变化图7存储容量对缓存命中率的影响图8最大可分配功率对时延的影响2482电子与信息学报第45卷doi:10.1109/TVT.2017.2760281.TANG Fengxiao,MAO Bomin,KATO N,et al.Comprehensivesurveyonmachinelearninginvehicularnetwork:Technology,applicationsandch
43、allengesJ.IEEECommunications Surveys&Tutorials,2021,23(3):20272057.doi:10.1109/COMST.2021.3089688.3XULianming,YANGZexuan,WUHuaqing,et al.Sociallydrivenjointoptimizationofcommunication,caching,andcomputing resources in vehicular networksJ.IEEETransactions on Wireless Communications,2022,21(1):461476.
44、doi:10.1109/TWC.2021.3096881.4KAZMI S M A,DANG T N,YAQOOB I,et al.Infotainmentenabledsmartcars:Ajointcommunication,caching,andcomputationapproachJ.IEEE Transactionson Vehicular Technology,2019,68(9):84088420.doi:10.1109/TVT.2019.2930601.5ZHANGShan,LIJunjie,LUOHongbin,et al.Towardsfresh and low-laten
45、cy content delivery in vehicularnetworks:An edge caching aspectC.2018 10thInternationalConferenceonWirelessCommunicationsandSignalProcessing,Hangzhou,China,2018:16.doi:10.1109/WCSP.2018.8555643.6CHEN Jiayin,WU Huaqing,YANG Peng,et al.Cooperativeedgecachingwithlocation-basedandpopularcontentsforvehic
46、ularnetworksJ.IEEE Transactions onVehicular Technology,2020,69(9):1029110305.doi:10.1109/TVT.2020.3004720.7SUNYaohua,PENGMugen,andMAOShiwen.Agame-theoreticapproachtocacheandradioresourcemanagementinfogradioaccessnetworksJ.IEEE Transactions onVehicular Technology,2019,68(10):1014510159.doi:10.1109/TV
47、T.2019.2935098.8YUZhengxin,HUJia,MINGeyong,et al.Proactivecontentcachingforinternet-of-vehiclesbasedonpeer-to-peerfederatedlearningC.2020IEEE26thInternationalConferenceonParallelandDistributedSystems,HongKong,China,2020:601608.doi:10.1109/ICPADS51040.2020.00083.9XINGYuping,SUNYanhua,QIAOLan,et al.De
48、epreinforcementlearningforcooperativeedgecachinginvehicularnetworksC.202113thInternationalConference10onCommunicationSoftwareandNetworks,Chongqing,China,2021:144149.doi:10.1109/ICCSN52437.2021.9463666.QIAOGuanhua,LENGSupeng,MAHARJANS,et al.Deepreinforcementlearningforcooperativecontentcachinginvehic
49、ularedgecomputingandnetworksJ.IEEE Internetof Things Journal,2020,7(1):247257.doi:10.1109/JIOT.2019.2945640.11DAI Yueyue,XU Du,LU Yunlong,et al.DeepreinforcementlearningforedgecachingandcontentdeliveryininternetofvehiclesC.2019IEEE/CICInternationalConferenceonCommunicationsinChina,Changchun,China,20
50、19:134139.doi:10.1109/ICCChina.2019.8855951.12CHENShuangwu,YAOZhen,JIANGXiaofeng,et al.Multi-agentdeepreinforcementlearning-basedcooperativeedgecachingforultra-densenext-generationnetworksJ.IEEE Transactions on Communications,2021,69(4):24412456.doi:10.1109/TCOMM.2020.3044298.13CHETLURVVandDHILLONHS