ImageVerifierCode 换一换
格式:PDF , 页数:13 ,大小:3.79MB ,
资源ID:520613      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/520613.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     索取发票    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(6G密集网络中基于深度强化学习的资源分配策略.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

6G密集网络中基于深度强化学习的资源分配策略.pdf

1、2023 年 8 月 Journal on Communications August 2023 第 44 卷第 8 期 通 信 学 报 Vol.44 No.86G 密集网络中基于深度强化学习的资源分配策略 杨凡,杨成,黄杰,张仕龙,喻涛,左迅,杨川(重庆理工大学电气与电子工程学院,重庆 400054)摘 要:6G 密集网络(DN)中通过资源分配实现小区间无交叠干扰是提升网络性能的重要技术,但资源受限和节点密集分布使其很难通过传统的优化方法解决资源分配问题。针对此问题,建立了基于点线图染色的交叠干扰模型,将深度强化学习(DRL)和交叠干扰模型相结合,提出一种基于竞争深度 Q 网络(Duelin

2、g DQN)的资源分配方法。该方法利用交叠干扰模型与资源复用率设计即时奖励,利用 Dueling DQN 自主学习生成 6G DN 资源分配策略,实现小区间无交叠干扰的资源分配。仿真实验表明,所提方法可有效提高网络吞吐量和资源复用率,提升网络性能。关键词:6G 密集网络;交叠干扰;深度 Q 网络;资源分配 中图分类号:TN929.5 文献标志码:A DOI:10.11959/j.issn.1000436x.2023148 Resource allocation strategy based on deep reinforcement learning in 6G dense network Y

3、ANG Fan,YANG Cheng,HUANG Jie,ZHANG Shilong,YU Tao,ZUO Xun,YANG Chuan School of Electrical and Electronic Engineering,Chongqing University of Technology,Chongqing 400054,China Abstract:In order to realize no overlapping interference between cells,6G dense network(DN)adopting resource allo-cation is t

4、he important technology of enhancing network performance.However,limited resources and dense distribution of nodes make it difficult to solve the problem of resource allocation through traditional optimization methods.To tackle the problem,a point-line graph coloring based overlapping interference m

5、odel was formulated and a Dueling deep Q-network(DQN)based resource allocation method was proposed,which combined deep reinforcement learning(DRL)and the overlapping interference model.Specifically,the proposed method adopted the overlapping interference model and resource reuse rate to design the i

6、mmediate reward.Then,generating 6G DN resource allocation strategies were in-dependently learned by using Dueling DQN to achieve the goal of realizing resource allocation without overlapping in-terference between cells.The performance evaluation results show that the proposed method can effectively

7、increase both network throughput and resource reuse rate,as well as enhance network performance.Keywords:6G dense network,overlapping interference,deep Q-network,resource allocation 收稿日期:20230220;修回日期:20230710 通信作者:黄杰 huangjie_ 基金项目:国家自然科学基金资助项目(No.62301094);重庆市自然科学基金资助项目(No.cstc2021jcyj-msxmX0251);

8、重庆市教育委员会科学技术研究计划基金资助项目(No.KJQN202101115,No.KJQN202201157,No.KJQN202301135);重庆理工大学国家自然科学基金和社会科学基金培育计划资助项目(No.2022PYZ017);重庆市巴南区科技基金资助项目(No.KY202208153976019);重庆理工大学科研创新团队培育计划基金资助项目(No.2023TDZ003);重庆理工大学研究生教育高质量发展行动计划基金资助项目(No.gzlcx20233076)Foundation Items:The National Natural Science Foundation of C

9、hina(No.62301094),The Natural Science Foundation of Chongq-ing(No.cstc2021jcyj-msxmX0251),The Science and Technology Research Program of Chongqing Education Commission of China(No.KJQN202101115,No.KJQN202201157,No.KJQN202301135),The Cultivation Plan of National Natural Science Foundationand Social S

10、cience Foundation of Chongqing University of Technology(No.2022PYZ017),Chongqing Banan District ScientificResearch Project(No.KY202208153976019),The Cultivation Program of Scientific Research and Innovation Team of ChongqingUniversity of Technology(No.2023TDZ003),The Funding Result of Graduate Educa

11、tion High-quality Development Action Planof Chongqing University of Technology(No.gzlcx20233076)216 通 信 学 报 第 44 卷 0 引言 6G 密集网络(DN,dense network)是一个面向智慧医疗、全息通信、智慧城市群、应急通信抢险、智能工厂以及数字孪生等全场景的网络,可实现通信和人工智能(AI,artificial intelligence)的双向互促1。随着智能终端(IT,intelligent terminal)的空前普及和网络规模的快速扩展,5G DN 无法完全满足不断上升的

12、技术标准,如自主、超大规模、高度动态和完全智能的服务。未来智能化和智能物联网网络的快速增长可能超过 5G DN 的能力。与 5G DN 相比,6G DN将支持 10 倍高的网络容量和十分之一的时延,同时服务10倍多的终端设备数量以及提高服务质量(QoS,quality of service)2-3。6G DN 将主要由 AI 驱动,AI 技术可实现从“物联”到“智联”的跃迁,彻底改变无线网络4。对于 6G DN 而言,优化资源分配是保证网络性能的基本机制。通过基于 AI 的智能资源分配和复用,可以缓解海量连接对资源的巨大需求,从而显著提高资源复用率5。另一方面,大数据促进了 AI 在资源管理中

13、的应用,AI 可通过挖掘数据来学习各种模式(如用户流量模式和移动模式)或复杂的相互关系。6G DN 的主要优点是链路强度的提高和广泛的频谱复用。但 IT 节点的密集分布导致小区间交叠干扰加剧,网络容量下降,同时交叠干扰造成了网络吞吐量与 IT 节点数量不成线性关系6,使6G DN 的资源利用效率和服务质量急剧降低。因此,在密集网络下如何进行资源分配使密集网络的小区间无交叠干扰是提升6G DN性能亟待解决的问题2。目前,优化方法已经用于解决密集性无线网络的资源分配问题7-13。例如,考虑密集且复杂的网络中端到端(D2D)用户共享相同资源产生的同频干扰,文献7基于外部性匹配理论提出一种干扰感知资源

14、分配算法,通过最小化同频干扰来最大化网络吞吐量。考虑 D2D 通信会引入额外干扰破坏蜂窝网络连续干扰消除的解码条件,文献8研究联合D2D 模式选择和资源分配的组合优化(CO,com-binatorial optimization)问题,提出一种联合资源分配和模式选择方法。针对密集部署 IT 带来的严重小区干扰,文献9基于回归方法对干扰建模,提出一种面向干扰的资源分配框架。但是,在 6G DN 资源分配过程中还需考虑功率控制对干扰的影响。为保证用户的 QoS,文献10研究多目标的资源分配优化问题,考虑每个用户的传输功率和 QoS 约束,提出一种面向功率控制的资源分配算法。文献11研究联合资源分配

15、和功率分配的优化问题,考虑D2D 间和小区间干扰的统计信息,提出基于多项式时间算法的资源分配策略。文献12研究支持非正交多址的联合资源分配问题,考虑功率控制、最小速 率 和 连 续 干 扰 消 除 的 约 束,采 用 KKT(Karush-Kuhn-Tucker)条件和对偶理论提出一种用于资源分配的梯度迭代算法。此外,考虑到 6G DN中存在的交叠区域会造成信道间较严重的功率干扰,文献13研究密集网络的能源效率问题,提出一种基于能量感应架构的干扰感知资源分配方法。此外,为适应 6G DN 中多用户、多小区、多频段的无线通信场景,资源分配过程中还需考虑用户需求差异和区分干扰类型14-15。针对异

16、构网络的同层干扰和用户需求的多样性,文献14研究联合次频带和资源块分配优化问题,考虑用户 QoS 要求和功率限制,提出一种基于干扰管理的联合资源分配。文献15研究联合资源分配和用户选择问题,考虑干扰拓扑的复杂性和资源的有限性等约束,提出一种分布式自优化资源分配方法。然而,使小区间无交叠干扰的资源分配是非凸且NP-hard的CO问题,难以求解16。此外,上述方法难以适应大规模数据的实时计算,无法充分挖掘隐藏在海量数据中有价值的信息,不能识别网络中的通信资源复用情况,这将造成网络吞吐量和用户 QoS 下降。因此,基于优化方法的资源分配策略难以满足 6G DN 在不同业务对资源的需求,对有限的网络资

17、源利用不够充分。深 度 强 化 学 习(DRL,deep reinforcement learning)作为数据、算法和算力复合驱动的机器学习技术已广泛应用于医疗、金融和交通等领域17。DRL 通过挖掘数据来学习复杂的相互关系,依靠丰富的计算能力实现实时在线决策,可弥补以牺牲存储空间来提高系统性能的缺点,解决没有初步离线计算结果情况下无法及时处理任务的问题。此外,DRL 可有效应对非凸和 NP-hard 挑战,解决优化方法难以求解的 CO 问题18。然而,利用 DRL 实现小区间无交叠干扰,提高网络吞吐量和资源复用率的资源分配方法较少且研究更多关注的是非密集网络或低密集网络的资源分配19-20

18、。考虑到 6G DN中资源分配本质问题为 CO 问题,DRL 能有效解决在满足网络吞吐量、资源复用率以及无交叠干扰约束下的资源分配问题,本文提出一种基于 DRL 的第 8 期 杨凡等:6G 密集网络中基于深度强化学习的资源分配策略 217 资源分配方法,利用深度 Q 网络(DQN,deep Q-network)模型和竞争网络结构对 6G DN 进行通信链路的资源分配以及实现小区间无交叠干扰,以提高网络吞吐量和资源复用率。本文主要贡献如下。1)针对密集交叠干扰下的6G DN场景,构建6G DN 覆盖模型,提出以最小化密集交叠干扰为优化目标的 CO 问题,为分析密集网络场景下网络拓扑对交叠干扰的影

19、响提供数学依据和评估指标。2)提出基于点线图染色的交叠干扰模型和实现无交叠干扰的资源分配策略。首先根据欧氏距离和无交叠干扰准则,建立 6G DN 的交叠干扰模型,为计算资源分配导致的交叠干扰提供理论依据。然后,根据交叠干扰模型设计了避免交叠干扰的资源分配策略,解决 6G DN 中交叠干扰问题。3)为实现 6G DN 中网络无交叠干扰的资源分配,构建基于 DQN 的资源分配模型,提出基于Dueling DQN 的资源分配算法,采用竞争网络结构感知交叠干扰特征,通过马尔可夫决策过程(MDP,Markov decision process)优化网络资源分配的过程,实现无交叠干扰的密集组网,为求解非凸

20、和NP-hard 的资源分配问题提供一种新的求解方法。最后本文对所提方法进行仿真实验和实际通信测试。结果表明,基于 Dueling DQN 的资源分配算法可根据 6G DN 的网络拓扑得到资源分配方案,避免交叠干扰,有效地提高网络吞吐量和资源复用率。1 系统模型 本文考虑如图 1 所示的复杂通信场景中的 6G DN 模型,该 6G DN 由N个 IT 组成,IT 之间形成M 条通信链路。其中 IT 的覆盖范围约为 250 m21,主要用于较短距离间的通信。为进一步提高整个网络覆盖区域内的网络吞吐量,在 6G DN 中采用密集部署IT的方式。当大量IT密集部署在6G DN中时,6G DN 将产生

21、密集交叠干扰和资源复用冲突,从而使 6G DN 的资源分配能力下降。6G DN 的网络覆盖模型通过 IT 间的欧氏距离建立。本文通过无向图模型将资源分配问题转化为图的边染色问题,利用点线图染色理论建立交叠干扰模型。1.1 网络覆盖模型和 6G DN 的网络拓扑 1)IT 通信覆盖与通信链路形成 图 1 中,6G DN 通信节点主要是 IT,并且 IT间可以通过 D2D 进行通信。图 2 是图 1 中 IT1、IT2和 IT3形成的自组网,任意一个 IT 都在其余 IT 的无线覆盖范围之内。IT1、IT2和 IT3间都存在数据传输的通信链路。IT 间的通信链路形成可表示为 1,212min(,)

22、dx x(1)其中,1,2d表示 IT1和 IT2之间的欧氏距离;1x和2x分别表示 IT1和 IT2的通信半径。实际情况中 IT 间存在差异,因此12xx。图 1 复杂通信场景中的 6G DN 模型示意 218 通 信 学 报 第 44 卷 图 2 IT 通信覆盖与通信链路形成 2)6G DN 覆盖模型 图 3 是图 1 根据 IT 覆盖范围得到的 6G DN 覆盖范围模型,其中任意 2 个 IT 可以通信。6G DN通信覆盖范围CG是所有 IT 通信覆盖范围的叠加,可表示为 GiiCC(2)其中,iC表示 ITi的通信覆盖范围,表示所有 IT的集合。图 3 6G DN 覆盖范围模型 3)6

23、G DN 的网络拓扑 图 4 是图 3 根据式(1)得到的 6G DN 的网络拓扑。其中,网络拓扑中的节点表示具有通信能力的IT,拓扑中的线表示节点间的通信链路。6G DN 点线图模型可表示为 (,)G (3)其中,1,2,N表示 6G DN 中的 IT 集合,1,2,M表示 6G DN 中的通信链路集合。图 4 6G DN 的网络拓扑 1.2 6G DN 的资源分配问题 本节根据点线图边染色与 6G DN 的网络拓扑对应,对 6G DN 中的每一条通信链路分配通信资源。若图 4 中相同节点的通信链路具有不同的通信资源,则 6G DN 资源分配可表示为 min(,)s.t.eeeee elle

24、e (4)其中,(,)e e 表示通信链路e和通信链路e的关系,且(,)e e 只有 2 个取值,(,)1e e 表示通信链路e和通信链路e具有相同的通信资源,否则(,)0e e;eell 表示通信链路e和通信链路e在图 4 中不存在公共的通信节点。2 6G DN 交叠干扰模型 本节提出一种使网络无交叠干扰的资源分配策略,建立 6G DN 的交叠干扰模型,降低在密集网络交叠干扰下的资源分配难度,实现无交叠干扰资源分配。在建立无向图网络模型后,利用关联矩阵设计资源分配策略。2.1 基于点线图染色的交叠干扰模型 为在密集网络下进行资源分配,利用关联矩阵GH表示 IT 与通信链路的关系。6G DN

25、交叠干扰的资源分配问题本质是一个无向图的边染色数学问题,即将无向图中的边染成不同颜色,并满足具有公共顶点的 2 条边颜色不同。6G DN 中存在N个 IT第 8 期 杨凡等:6G 密集网络中基于深度强化学习的资源分配策略 219 和M条通信链路,其中,ITv和ITv的欧氏距离为,v vd,如果,v vd满足式(1),则ITv和ITv之间可进行通信,否则不能。6G DN中IT间通信链路关系的关联矩阵TGH可表示为 1,11,T,1,NGe vMM NhhhhhH(5)其中,,0e vh表示ITv不使用通信链路e进行通信,,1e vh和,1e vh表示ITv和ITv使用通信链路e进行通信。因此,6

26、G DN中通信链路e可表示为 ,1,2,1,eeee Ne Nhhhhl(6)其中,行向量el中的元素表示通信链路e与对应IT的关系,元素为1则表示IT利用该通信链路e进行通信。由于通信链路e能且仅能被2个IT使用,可表示为 ,2,e vvhe (7)根据图5得到对应的关联矩阵HG为 1100000000000001011000000000000110100000000000001111000000000000010100000000000001111000000000000010101100000000001010000000000000110000000000000001010000000

27、00000011GH (8)图 5 6G DN 的无向图模型 当6G DN对通信链路进行资源分配时,6G DN需要考虑密集网络带来的密集交叠干扰问题。交叠干扰由单个IT使用单个通信资源和多个IT进行通信导致。因此,单个IT受到的交叠干扰可表示为 T,1(,)2vvve eeee eve em l l(9)其中,v表示ITv受到的交叠干扰程度;v表示含有ITv作为节点的通信链路集合,是的一个子集,即v;vm表示ITv使用的通信链路数量;TeI表示eI的转置。式(9)只是针对单个IT的交叠干扰,为得到6G DN的交叠干扰,对所有IT受到的交叠干扰求和 1GvvvmM(10)其中,M表示6G DN通

28、信链路的总数。式(10)表示通过对每个节点求和再进行平均可得到整个6G DN的交叠干扰程度。通信链路资源分配情况如图6所示。根据式(9)可知,IT6受到的交叠干扰计算过程可表示为 6666T6,6T,1(,)21(,)24e eee e ee eee e ee eme e l ll l TT9 1010 9111(1)844l ll l(11)图 6 通信链路资源分配情况 其中,614表示IT6存在14的通信链路产生交叠干扰。根据式(10)可以得到图6所示的交叠干扰,表示为 67ITIT1111244154415GvvvmM(12)220 通 信 学 报 第 44 卷 其中,215G表示6G

29、DN存在215的通信链路产生交叠干扰。2.2 基于交叠干扰模型的资源分配策略 在所有IT组成6G DN的过程中,根据式(10)可求得6G DN资源分配导致的交叠干扰程度。因此,0G表示6G DN资源分配无冲突。资源无冲突分配策略是从起始状态到最终状态的过程中,保证6G DN无交叠干扰的资源分配方法。6G DN状态1ts的资源分配只与状态ts的资源分配结果有关,即6G DN的通信链路资源分配具有马尔可夫性质。本文提出使用有限长马尔可夫链解决无向图染色问题,建立任意时间t满足0G条件的状态转移矩阵P。6G DN从初始状态0s到最终状态*s的状态转移矩阵P可表示为 00010*10111*0*1*,

30、sssssss ss ss ss ss ss spppppppppP(13)然而,6G DN无法直接从通信环境中获得状态转移矩阵P。因此,6G DN需要依次对通信链路进行资源分配,从而使状态ts改变为状态1ts。6G DN的资源分配动作可表示为 (|)as(14)其中,s表示6G DN的状态,包含网络拓扑情况和通信链路的资源分配情况;a表示通信链路分配通信资源;资源分配策略表示在状态s做出资源分配动作a的概率,具体可表示为 (|)1,iiass(15)根据式(14)和式(15),6G DN在状态s下进行资源分配后,转移到状态s的概率可表示为 ,(|)(|)(|,)s siiipp ssas p

31、 ss a(16)当6G DN执行资源分配动作a使0G时,状态s转移到状态s的概率为(|,)1ip s s a。如果0G,则表示状态s无法转移到状态s,即(|,)0ip ss a。因此,根据系统状态转移矩阵P得到系统求解最优资源分配问题,即得到最优资源分配策略*。其中,资源分配策略会产生具体的资源分配方案,并且根据不同网络状态产生的分配方案也不同。资源分配策略产生资源分配方案的概率可表示为 10010(|)()(|,)(|)TttttttpSp SS AA S (17)其中,00S表示6G DN起始网络状态分布。式(17)可有效地表示每个分配方案与策略之间的关系。考虑动态情况,网络拓扑或者结构

32、发生变化将会直接影响马尔可夫链的状态值。因此,在6G DN的动态情况下,6G DN的资源分配过程可表示为 00112112,iiiiiis a s a ss a sas 网络拓扑 1网络拓扑 (18)其中,状态012,s s s属于6G DN的第1种网络拓扑。此外,网络拓扑动态变化产生新的网络拓扑结构,状态12,iiis ss属于6G DN的第i种网络拓扑。3 基于深度强化学习的资源分配策略 为求解6G DN无干扰资源分配策略问题,本文提出基于Dueling DQN的资源无冲突分配DRL算法,构建6G DN交叠干扰下的资源分配MDP模型,结合竞争网络模型求解最优资源分配策略*。在6G DN中,

33、MDP通常由动作A、状态S、即时奖励R和动作价值函数(,)Q s a组成,接下来对其进行详细的介绍。3.1 基于深度 Q 网络的资源分配模型 本文算法引入DQN方法来确定6G DN场景下资源无冲突分配的决策序列,并进行网络拓扑信息和资源分配情况提取,利用即时奖励函数tR设计交叠干扰判断机制,通过即时奖励函数tR判断6G DN交叠干扰的状态和资源分配对交叠干扰的影响,提高无线通信网络系统应对密集交叠干扰场景的资源分配能力。1)状态:6G DN所有可能的通信链路资源分配状态的集合,即状态集。因此,6G DN状态可以表示为 T,tGtSK H(19)其中,tK表示通信链路的资源分配状态。2)动作:6

34、G DN观察当前状态做出相应通信链路资源分配的集合,即动作集。动作集的大小为通信链路的数量M与最大通信资源数量sM的乘积。因此,6G DN资源分配动作集可以表示为 0,1,2,1tsAMM(20)3)奖励:6G DN在状态S执行动作A获得的对应回报。每个奖励R和每个状态动作对对应,第 8 期 杨凡等:6G 密集网络中基于深度强化学习的资源分配策略 221 因此,6G DN奖励可表示为 G,0(,)0,ttttMRR S A其他(21)其中,t表示6G DN已经使用的通信资源数量。4)动作价值函数:6G DN状态S和动作A的价值估计,即动作价值函数是基于状态S和动作A的期望回报。由于6G DN是

35、根据资源分配策略进行通信链路资源分配的,动作价值函数(,)Qs a可以表示为 (|)000(,),tttASttQs aER Ss Aa(22)其中,0()tttRR表示资源分配方案的累积折扣回报,表示折扣系数。求解最优资源分配*,需要找到一个最优的价值函数*(,)Q s a,可以表示为 *(,)(,)max(,)Q s aQs aQs a(23)由于每个状态都需要穷举出所有可能的方案,本文提出利用贝尔曼方程来化简,具体推导过程如式(24)所示。(|),(|,):1(|),(|,)12(,)()|,()|,as sps at TttTas sps atttTtQ s aERSs AaERRRR

36、Ss(|,)(|)(,)(,)tsps aasAaER s aEQs a(24)动作价值函数可以表示为*(|,)(,)(,)max(,)sps aaQ s aER s aQ s a(25)贝尔曼方程利用时间差法中的Q-Learning算法进行求解。Q-Learning值的迭代可以表示为 1(,)(1)(,)max(,)ttttttaQ s aQ s aRQ sa (26)其中,表示学习率。当系统的状态和动作数量庞大且连续时,利用Q-Learning解决时很难实现资源分配策略的收敛。因此,DQN用一个神经网络,;Q s a代替动作价值函数。DQN的神经网络参数采用梯度下降方法,可以表示为 1(,

37、;)tttttQ s a 1max(,;)(,;)ttttttaRQ saQ s a 估计值目标值(27)其中,()表示对权值进行梯度运算。此外,在利用神经网络逼近动作价值函数时,目标值与估计值使用相同权值的神经网络,容易导致训练网络不稳定和估值过高。因此,使用一个权值的目标网络专门用于产生目标值。权值的神经网络专门用于评估策略更新参数。具有双重权值的神经网络更新可以表示为 11(,;)max(,;)(,;)tttttttttttaQ s aRQ saQ s a 估计值目标值(28)3.2 基于 Dueling DQN 的资源分配算法 本文所提的基于Dueling DQN的资源分配算法采用竞争

38、网络模型结合MDP来解决交叠干扰问题。竞争网络可以有效提取6G DN密集交叠干扰的特征。算法的时间复杂度只与竞争网络模型的规模有关,受实际的无线通信环境影响较小。其次,利用MDP来解决资源分配问题,将原本的CO问题转成序列决策问题求解,大大降低直接求解优化问题的难度。为防止DQN估值过高,利用竞争网络进一步提高算法网络学习的鲁棒性。竞争网络将动作价值函数(,)Q s a分成状态价值函数()V s和优势函数(,)s a。(,)s a表示在状态s下选取资源分配动作a的合理性。竞争网络的动作价值函数可表示为 1212(,;,)(;,)(,;,)Q s aw wV sws aw(29)其中,是DQN公

39、共部分的神经网络权值,1w是状态价值函数部分的神经网络权值,2w是优势函数部分的神经网络权值。此外,为提高竞争网络的稳定性,本文增加平均值基准2(,;,)aAs awN。具有平均值基准的动作价值函数可表示为 121(,;,)(;,)Q s aw wV sw 22(,;,)(,;,)aAs aws awN(30)其中,AsNMM表示所有资源分配动作的数量。本文提出基于Dueling DQN的资源分配算法来解决6G DN无交叠干扰分配问题。算法结构如图7所示,算法包含6G DN环境、-greedy策略、深度Q网络、目标Q网络、损失函数、经验池和抽样小批量样本。其中,6G DN环境提供环境状态S和根

40、据动作更新通信链路的状态;-greedy策略为222 通 信 学 报 第 44 卷 深度Q网络提供“探索利用”的能力;深度Q网络评估动作的价值;目标Q网络则选择当前价值最大的动作;经验池和抽样小批量样本则增加样本之间的随机性;损失函数根据式(28)对深度Q网络的网络参数进行更新。基于Dueling DQN的资源分配算法如算法1所示。算法 1 基于Dueling DQN的资源分配算法 输入 网络拓扑(,)G,奖励折扣因子,经验回放大小DN,目标网络更新频率L,学习率,样本批采样大小,训练次数trainN,每次训练执行时间长度T 输出 神经网络权值,1w,2w 1)for trainepisode

41、1,2,N do 2)初始化6G DN状态,得到初始状态0s;3)for 1,2,tT do 4)对于每个资源分配方案中的每步,采用-greedy策略选择动作,随机选择一个动作或者12argmax(,;,)ttaaQ s aw w;5)6G DN执行资源分配动作ta后对通信链路产生即时奖励tr和状态1ts;6)6G DN将得到的经验1,tttts a r s存入经验池中;7)6G DN从经验池中抽取一批样本;8)6G DN使用式(28)更新训练深度Q网络的权值;9)每隔L步,6G DN更新目标网络的权值;10)end for;11)end for 4 仿真结果与性能分析 实验采用的硬件平台为个

42、人计算机,CPU为Intel(R)Xeon(R)Gold 6242R CPU 3.10 GHz,GPU为NVIDIA RTX 3080Ti,内存为64 GB。随着通信链路数量增加,网络复杂度和密集程度增加。根据表1参数进行仿真实验,分别得到本文算法与其他3种算法网络吞吐量和资源复用率性能的对比实验数据。其中,对比算法1为无竞争网络的深度Q网络算法,对比算法2为基于随机匹配的资源分配算法,对比算法3为基于贪婪匹配的资源分配算法。表 1 仿真参数设置 参数 数值 学习率 0.000 1 目标网络更新频率 20 经验回放大小 500 经验池容量 10 000 奖励折扣因子 0.95 贪婪因子 0.0

43、5 神经网络每层神经元数量 256,256,256,128 频谱带宽/MHz 20 最大可容忍误码率 70%图 7 基于 Dueling DQN 的资源分配算法结构 第 8 期 杨凡等:6G 密集网络中基于深度强化学习的资源分配策略 223 4.1 时间复杂度分析与算法对比 本文算法和对比算法1的时间复杂度主要由神经网络的权值迭代决定,时间复杂度分别为11()O 和22()O。其中,表示神经网络的隐藏层数;表示每层神经元的数量。对比算法2的时间复杂度由通信链路数量和通信资源决定,但每次分配资源优先考虑资源无冲突,因此时间复杂度为()sO MM。对比算法3的时间复杂度由通信链路数量和通信资源决定

44、,但每次分配资源优先考虑复用资源,时间复杂度为(log()sO MM。本文算法和对比算法1在神经网络的隐藏层数和每层神经元的数量相近时,两者时间复杂度近似。但本文算法采用竞争网络架构,将动作价值函数分成状态价值函数和优势函数,当通信链路或通信资源的数量改变时,只改变对应的神经网络权值即可。而无竞争网络的对比算法1则需要进行整体改变。因此随着6G DN的网络规模的增加,本文算法的实际时间复杂度会低于对比算法1。对比算法2和对比算法3直接受到通信链路和通信资源的数量影响,两者的时间复杂度随着6G DN的网络规模的增加而线性增加。综上所述,相对于传统资源分配算法,深度强化学习算法在时间复杂度方面有着

45、稳定的优势。由于神经网络可以更好地适应6G DN的网络规模的动态变化,时间复杂度只与神经网络模型的大小有关,受实际的无线通信环境影响较小。因此使用基于Dueling DQN的资源分配算法可以更好地解决6G DN下的密集交叠干扰问题。4.2 竞争网络结构的效能分析 为验证本文所提出的基于Dueling DQN的资源分配算法在通信链路数量较大的情况下所产生的优化效果,本文主要从每次方案中的累积回报U进行实验验证。累积回报U可表示为 0:0()TtTttURR(31)如图8所示,基于Dueling DQN的资源分配算法的累积回报随着迭代次数的增加而变化。其中,本文算法相比无竞争网络结构的算法探索资源

46、分配策略的速度更快,累积回报曲线上升的趋势更加迅速。图8中有竞争网络结构的算法得到的累积回报值高,表明有竞争网络结构可有效处理交叠干扰和优化资源分配,即网络吞吐量和资源复用率更高。图 8 竞争网络效果 4.3 6G DN 的性能评价指标 1)网络吞吐量。该性能指标可评价资源分配算法分配完所有通信链路资源后6G DN的网络吞吐量22,表示为 log 12ln32bBP(32)其中,B为通信链路的频谱带宽,为平均信干噪比,bP为最大可容忍误码率。2)资源复用率。该性能指标可评价资源分配算法使6G DN所有通信链路交叠无干扰后6G DN的通信资源复用率23,表示为 *MM(33)其中,*为最终使用的

47、通信资源数量。4.4 网络吞吐量性能对比 图9为本文算法和3种对比算法在不同通信链路数量下的最大网络吞吐量。随着通信链路数量的增加,通信系统中的IT交叠区变多,4种算法得到的最大网络吞吐量整体都呈现上升趋势。对比算法1、对比算法2和对比算法3得到的最大网络吞吐量明显低于本文算法。当通信链路数量为20、35、40时,有竞争网络结构的本文算法相对于对比算法1提高20%及以上的网络性能。这表明本文算法可有效提高网络吞吐量和处理干扰能力的上限。224 通 信 学 报 第 44 卷 图 9 6G DN 最大网络吞吐量 图10为本文算法和3种对比算法在不同通信链路数量下的最小网络吞吐量。随着通信链路数量的

48、增加,本文算法和3种对比算法得到的网络吞吐量呈现上升趋势。本文算法和对比算法1相对于对比算法2、对比算法3有效提高了最小网络吞吐量。其中,有竞争网络结构的本文算法相对于对比算法1提高5%及以上的网络吞吐量。这表明竞争网络结构可有效地提高系统处理交叠干扰能力的下限。图 10 6G DN 最小网络吞吐量 图11为本文算法和3种对比算法在不同通信链路数量的平均网络吞吐量。随着通信链路数量的增加,本文算法得到的网络吞吐量呈现稳定上升趋势。本文算法得到的平均网络吞吐量明显高于对比算法2和对比算法3,且相对于对比算法1提高6%及以上的网络吞吐量。图 11 6G DN 平均网络吞吐量 针对网络吞吐量,本文所

49、提基于Dueling DQN的资源分配算法利用DRL的在线决策能力,降低计算所需的内存消耗(将网络状态作为竞争网络的输入得到资源分配策略的输出),其中,竞争网络提取小区间无交叠干扰状态,通过资源分配实现小区间无交叠干扰,从而大幅度提高网络吞吐量,保证网络的稳定性。4.5 资源复用率性能对比 图12为本文算法和3种对比算法在不同通信链路数量下的最大资源复用率。随着通信链路的增加,本文所提的基于Dueling DQN的资源分配算法得到的整体资源复用率明显高于其他算法。其中,本文算法比对比算法1提高19%的最大资源复用率;相较于对比算法2和对比算法3分别提高25%和26%的最大资源复用率。这表明本文

50、采用MDP解决资源分配问题,可有效增加整个系统资源分配能力的上限。图12图14中,不同横线表示不同算法在5次不同通信链路数量的资源复用率均值。图 12 最大资源复用率 第 8 期 杨凡等:6G 密集网络中基于深度强化学习的资源分配策略 225 图13为本文算法和3种对比算法在不同通信链路数量的最小资源复用率。随着通信链路的增加,本文算法和对比算法1得到的最小资源复用率明显高于对比算法2、对比算法3。其中,本文算法比对比算法1提高6%的最小资源利用;相较于对比算法2和对比算法3分别提高37%和31%的最小资源复用率。这表明本文算法可提高资源分配能力的下限。图 13 最小资源复用率 图14为本文算

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服