面向电力业务质量保障的NR-U与Wi-Fi频谱共享.pdf

资源描述

1、研究与开发面向电力业务质量保障的 NR-U 与 Wi-Fi 频谱共享刘峻朋1，夏玮玮1，刘晗2，修成林3，燕锋1，沈连丰1（1.东南大学移动通信国家重点实验室，江苏南京 210096；2.国网山东省电力公司，山东济南 250001；3.国网山东省电力公司济南供电公司，山东济南 250012）摘要：为了缓解 5G 授权频谱资源短缺的问题，使用非授权频谱成为重要的解决方案。随着电力终端的大规模接入，面向电力业务保障的 NR-U（NR in unlicensed spectrum）与 Wi-Fi 频谱共享成为重要的研究热点。首先，提出了一种 NR-U 上行传输机制，在保障 Wi-Fi

2、用户平均速率的同时实现了电力业务终端的数据上行传输。此外，还提出了联合传输时间和子载波分配（joint transmission time and subcarrier allocation，TTSA）的资源优化算法，以保障各类型电网业务的服务质量（quality of service，QoS），并最大化终端的总速率。将该优化问题解耦，使用近端策略优化（proximal policy optimization，PPO）为终端分配子载波。仿真结果表明，与已有算法相比，提出的 TTSA 资源优化算法在保障电力业务 QoS 和最大化终端总速率方面性能优越。关键词：非授权频谱；NR-U；深度强化学习；

3、频谱共享中图分类号：TN929 文献标志码：A doi:10.11959/j.issn.10000801.2023148 NR-U and Wi-Fi spectrum sharing for quality guaranteeing of power services LIU Junpeng1,XIA Weiwei1,LIU Han2,XIU Chenglin3,YAN Feng1,SHEN Lianfeng1 1.National Mobile Communication Research Laboratory of Southeast University,Nanjing 210096

4、,China 2.State Grid Shandong Electric Power Company,Jinan 250001,China 3.Jinan Power Supply Company,State Grid Shandong Electronic Power Company,Jinan 250012,China Abstract:To alleviate the shortage of 5G licensed spectrum resources,using unlicensed spectrum has become an important solution.With the

5、 large-scale access of power terminals,NR-U and Wi-Fi spectrum sharing for power ser-vices quality guaranteeing has become an important research hotspot.Firstly,an NR-U uplink transmission mechan-ism was proposed,which ensured the average throughput of Wi-Fi users and realized the data uplink transm

6、ission of power service terminals.In addition,a resource optimization algorithm for joint transmission time and subcarrier al-location(TTSA)was proposed to ensure the quality of service(QoS)of various types of power services and maxim-ize the total throughput of terminals.The optimization problem wa

7、s decoupled,and proximal policy optimization 收稿日期：20230505；修回日期：20230706 通信作者：夏玮玮，基金项目：国家电网有限公司科技项目（No.520601220022）Foundation Item:The Science and Technology Project of State Grid Corporation of China(No.520601220022)研究与开发 12 (PPO)was used to allocate subcarriers to terminals.The simulation result

8、s show that compared with the existing al-gorithms,the proposed resource optimization algorithm for TTSA has superior performance in guaranteeing the ser-vice quality of power services and maximizing the total terminals throughput.Key words:unlicensed spectrum,NR-U,deep reinforcement learning,spectr

9、um sharing 0 引言近年来，我国智能电网发展进程不断加速，分布式新能源发电、电动汽车智慧充电、配电网络智能化等新型电力业务快速发展1-2，能源与电力需求的快速增长亦对无线网络提出了更加严苛的承载要求3。作为新一代无线通信技术，5G 具有低时延、高可靠性和超高速等多种优势，与电力业务的通信需求高度契合，为电网智能化提供了技术支撑4。然而随着越来越多的电力业务终端大规模接入无线网络，有限的 5G 频谱资源变得愈发稀缺。此外，价格昂贵的授权频谱又制约着 5G 通信容量的进一步提升，因此迫切需要寻找解决方案以缓解这一问题。拓展 5G 频谱使用范围至免费的非授权频段是当前最有前景的解决方案之

10、一5，得到学术界和工业界的广泛关注。3GPP早在Release13（Rel-13）便引入了 LTE-U 技术6，通过在非授权频谱部署长期演进（long term evolution，LTE）技术可以为蜂窝网络提供更大的系统容量。作为LTE-U 技术的进阶版本，NR-U 在 Rel-16 中被首次提出7，只要满足当地相关的监管法规和技术标准，就可以在非授权频谱部署新空口（new radio，NR）系统。在 Rel-17 中，NR-U 可使用的非授权频谱范围得到了进一步的扩展8，极大地缓解了 5G 频谱资源匮乏的问题。目前，针对 NR-U 使用非授权频谱已有广泛研究。文献9为部署在非授权频谱的蜂窝

11、网络提出了一种基于深度强化学习（deep reinforcement learning，DRL）的分布式资源协同算法，实现了频谱资源的公平共享与高效利用。文献10针对非授权频谱异构网络提出了一种基于深度确定性策略梯度（deep deterministic policy gradient，DDPG）的资源协同算法，在保障 Wi-Fi 公平性的同时，提升了整个网络的信道容量。文献11针对共享非授权频谱的Wi-Fi和NR-U，推导了Wi-Fi和NR-U最大网络有效吞吐量和最优初始退避窗口大小，仿真结果证明了 NR-U 节点的传输机会值超过一定阈值时可以实现 Wi-Fi 和 NR-U 共享频谱的双赢。

12、文献12针对非授权频谱共享中的蜂窝网用户QoS 保障问题，设计了相应的频谱接入机制、QoS指标的分析方法以及跨层资源协同算法。文献13针对蜂窝网络使用非授权频谱，提出了一种有效的多载波先听后说（listen before talk，LBT）机制，在与Wi-Fi共存的同时，有效地提升网络整体容量。通过工作在非授权频谱的通信技术，电力终端能以较低成本实现先进量测基础设施（advanced metering infrastructure，AMI）14和输电线在线监测15等电力业务的信息传输。此外，电气电子工程师学会（Institute of Electrical an

13、d Electronics Engineers，IEEE）还引入了基于非授权频谱的 IEEE 802.15.4g 标准16以实现智能量测公用事业网络（smart metering utility network，SUN）。然而文献15指出由于非授权频谱中早已存在 Wi-Fi 等其他通信技术，使用非授权频谱需要考虑不同通信系统之间的共存和相互影响。文献17研究了 LTE 和 ZigBee 网络在 2.4 GHz 免许可频段的共存情况，仿真结果表明了联合运行LTE 和 ZigBee 是智能电网能保证 QoS 的潜在通信解决方案之一。文献18基于智能电网中的数据采集业务提出了一种具有良好的邻域共存特

14、性的LTE-U 和 Wi-Fi 非授权频谱共享的 AMI 架构。文献19全面总结了应用于智能电网的 Wi-Fi 和LTE 非授权频谱共享方案，并且指出基于负载的13 电信科学 2023 年第 7 期 LBT 机制在频谱效率和时延方面优于基于帧的LBT 机制。文献20提出了一种面向智能电网的集成 Wi-Fi 与 LTE-U 的多无线电接口技术，并提供了非授权频谱共享管理算法。然而，这些研究大多只考虑了如何在共享非授权频谱时提升频谱效率，并没有为具有不同QoS 需求的电力终端提供不同的保障。智能电网中电力业务类型多种多样，不仅包含输电线在线监测15和变电设备状态感知等对带宽和速率需求较高的业务，还

15、包含智能电表信息采集和电动汽车智慧充电2等轻量需求的业务。因此，本文面向智能电网中具有差异化 QoS 需求的电力业务对NR-U 与 Wi-Fi 共享非授权频谱展开研究，具体贡献如下。基于 CAT-3 LBT 技术提出了 NR-U 上行传输接入机制，在保障 Wi-Fi 终端 QoS 需求的同时，实现了电力业务终端基于 NR-U的上行数据传输。基于电力业务终端的差异化 QoS 需求，提出了联合传输时间和子载波分配（joint transmission time and subcarrier allocation，TTSA）资源优化算法，通过将优化问题解耦，使用基于 PPO 的方法为电力业务终端分配

16、子载波。本文提出的 TTSA 资源优化算法能够在保障各类型终端服务质量的同时，提高 NR-U的总速率。与已有算法相比，TTSA 在保障电力业务服务质量和最大化终端总速率方面有着优越的性能。1 面向电力业务的非授权频谱共享系统模型 1.1 NR-U 和 Wi-Fi 频谱共享本文考虑的面向电力业务的非授权频谱共享场景位于办公楼宇或居民社区。面向电力业务的非授权频谱共享场景如图 1 所示，在该场景中电网业务包含智能电表信息采集、电动汽车智慧充电、输电线在线监测和变电设备状态感知等业务，gNodeB利用NR-U技术通过非授权频谱为电力终端提供接入网络的机会。此外，在该场景中还存在 Wi-Fi 网络接

17、入点（access point，AP）为智能手机等终端提供尽力而为的上行和下行服务。为了区别电力终端，本文将 Wi-Fi AP 和终端统称为Wi-Fi 站点（station，STA）。为了实现电力终端可靠廉价的接入网络，NR-U 的部署采取双连接的部署模式5，其中控制信号等关键信息通过授权频谱传输，电力终端的数据则通过与 Wi-Fi 共享的非授权频谱传输。考虑电网业务的需求不同，本文将电网业务对应的电力终端分为两类，其中第一类电力终端对应于需要较高速率实现数据准确可靠传输的业务，如输电线在线监测和变电设备状态感知等业务，因此其被称为具有 QoS 需求的电力终端（power terminal w

18、ith QoS requirement，QPT）；第二类电力终端则对应于智能电表信息采集和电动汽车智慧充电等带宽和速率需求轻量的业务，其被称为轻量化电力终端（lightweight power terminal，LPT）。分别定义s、q和l为STA、QPT 和 LPT 终端集合，Ns、Nq和 Nl则分别表示集合s、q和l中的终端数。图 1 面向电力业务的非授权频谱共享场景 1.2 接入机制 Wi-Fi 采用带冲突避免的载波感应多路访问（carrier sense multiple access with collision avoid-ance，CSMA/CA）协议作为非授权频谱的接入方式，为

19、了防止终端隐藏问题，还采取了请求发送研究与开发 14 （request to send，RTS）确认发送（clear to send，CTS）机制21。Wi-Fi 非授权频谱接入示意图如图 2 所示，其中 SIFS 为短帧间间隔，DIFS 为分布协调功能帧间间隔。图 2 Wi-Fi 非授权频谱接入示意图为了实现 NR-U 接入非授权频谱，本文提出了一种基于CAT-3 LBT技术22的NR-U非授权频谱接入机制，如图 3 所示。与 Wi-Fi 不同的是，实现多电力终端通过非授权频谱上传数据，需要gNodeB 不断监听非授权频谱信道状态，在检测到信道空闲后以广播的方式通知 NR-U 服务的所有

20、电力终端信道空闲信息。此外，NR-U 双连接5的部署模式可以让终端在收到信道空闲信息后通过授权频谱发送 RTS 帧，避免了冲突，提高了通信的可靠性和频谱效率。在 NR-U 占用非授权频谱期间，电力终端为了避免相互影响，使用正交频分复用（orthogonal frequency division multiplexing，OFDM），通过子载波进行上行数据传输。图 3 基于 CAT-3 LBT 技术的 NR-U 非授权频谱接入示意图 1.3 Wi-Fi 与 NR-U 的速率当 NR-U 与 Wi-Fi 共享非授权频谱时，由于NR-U 的加入，Wi-Fi 的速率会受影响，参考文献23可以推导出

21、Wi-Fi 网络总速率 Rw,co为：tr,cos,ww,cotr,coidletr,cos,wstr,cos,ws,nctr,cos,ws,nn(1)(1)()PP E PRPPP TPPPTPP P T t （1）其中，Ptr,co表示共享非授权频谱时频谱在任意时隙繁忙的概率，Ps,w表示 Wi-Fi 在任意时隙能成功传输数据的概率，Ts、Tc和 idle分别为成功传输、发生碰撞和频谱空闲的持续时间，EP表示 Wi-Fi数据包的长度，Ps,n表示 NR-U 能够成功传输数据的概率，t 表示 NR-U MAC 层中有效数据传输的持续时间，Tn(t)表示 NR-U 成功传输数据的总持续时间。因

22、此，NR-U 系统在单位时间内有效使用频谱的时间，即传输效率 fn,co为：tr,cos,wn,cotr,coidletr,cos,wstr,cos,ws,nctr,cos,ws,nn(1)(1)()PP tfPPP TPPPTPP P T t （2）NR-U 占用非授权频谱阶段时，假设其服务的QPT 与 LPT 有着不同的频谱分配方案24。对于LPT，每个终端从 Nb个 OFDM 子载波中随机选出Nl个作为候选子载波。对于 Nl个子载波中的每一个子载波，LPT 将以概率 Pa随机接入并进行通信，这意味着 LPT 可以同时接入多个子载波进行数据传输。基于该分配方案，子载波 i 作为候选子载波的

23、概率lsbNPN，因此 LPT 接入子载波i的概率为l,subsa(,)Pk iPP。由于 QPT 是具有 QoS 需求的电力终端，gNodeB 为每一个 QPT 分配不同的子载波集合。定义m为 gNodeB 分配给 QPTm的子载波集合，那么频谱共享情况下 NR-U 的 QPTm的速率Rq(m)为：qn,coq()(,)miR mfr m i（3）其中，rq(m,i)表示电力终端 QPTm在第i个子载波上所能获得的速率。定义hq(m,i)为 QPTm在第i个子载波上的瑞利衰落，dq(m,i)为 QPTm在第i个子载波上的路径损耗，Pq(m,i)为 QPTm在第i个子载波上的功率，rq(m,i

24、)具体为：15 电信科学 2023 年第 7 期 qqqqsub2subq(,)(,)(,)(,)lb 1(,)P m i dm i h m ir m iBBIm i（4）其中，Bsub表示单个子载波的带宽，2表示单个子载波上的加性白高斯噪声（additive white Gaussian noise，AWGN）功率，Iq(m,i)表示LPT同时选择第i个子载波并进行数据传输时对QPTm造成的同频干扰。定义i,l为使用第i个子载波进行数据传输的LPT集合，那么Iq(m,i)可以表示为：,lqlll(,)(,)(,)(,)ikIm iP k i d k i h k i（5）其中，Pl(k,i)表

25、示LPTk在第i个子载波上的功率，dl(k,i)表示LPTk到gNodeB的第i个子载波上的路径损耗，hl(k,i)表示LPTk到gNodeB的第i个子载波上的信道增益。1.4 问题定义在NR-U与Wi-Fi共存系统中，Wi-Fi为STA提供服务，NR-U通过非授权频谱为QPT和LPT两类电力终端提供服务，满足其不同的通信需求。因此本文将Wi-Fi与NR-U非授权频谱共享问题转化为以下优化问题，即通过联合优化NR-U的数据传输时间和QPT的子载波分配，实现系统中QPT总速率的最大化。问题描述如下：qqq,|1max()mNtmmR m（6-a）w,cosss.t.RKN（6-b）qqq()(

26、),R mKm m（6-c）qbq1|,NmmNm（6-d）q,mnm nmn 且（6-e）其中，式（6-b）表明需要保障 Wi-Fi STA 平均速率的最低需求 Ks，式（6-c）表明了 NR-U 需保障任意一个 QPTm的速率不低于其需求速率 Kq(m)，即需要为QPT提供具有QoS保障的服务，式（6-d）和式（6-e）为 NR-U 中的 OFDM 子载波分配约束。2 面向电力业务质量保障的 TTSA 资源优化算法 2.1 问题分析观察式（6），可以看到式（6-b）与 Wi-Fi STA数量和NR-U MAC层中有效数据传输的持续时间等参数相关，而式（6-c）式（6-e）不仅与NR-U

27、MAC 层中有效数据传输的持续时间相关，还与 NR-U 的子载波分配存在复杂的耦合关系。式（6）与 NR-U 数据传输时间存在正相关性，因此可以对式（6）分解得到频谱共享时 NR-U 传输时间的优化和子载波分配这两个子问题。其中，频谱共享时 NR-U 传输时间优化问题如下：n,comaxtf（7-a）w,cosss.t.RKN（7-b）为了保障 STA 的平均速率，将式（1）代入式（7-b）的约束不等式并进行求解，可以获得保障 STA 的平均速率的 NR-U MAC 层数据传输持续时间 t 的有效范围，将 t 代入式（2），即可确定fn,co的有效范围。因此确定 fn,co有效范围后，NR-U

28、子载波分配问题就可以改写为：qqq|1max()mNmmR m（8-a）con,mqqs(.t).,RKm m（8-b）qsuballq1|,NmmNm（8-c）q,mnm nmn 且（8-e）可以看到，式（8）是一个子载波资源配置问题，通过枚举所有可能的分配组合能够找到最优的子载波分配方案，然而这种穷尽搜索的方法代价极高。因此本文引入 DRL 中的 PPO，将子载波分配过程建模成马尔可夫决策过程（Markov de-cision process，MDP），并将 gNodeB 作为智能体，使其与环境进行交互，学习与挖掘环境中隐藏的LPT、QPT 与子载波之间的信息，从而做出最优的子载波分配决策

29、。研究与开发 16 2.2 NR-U 系统子载波分配（1）MDP 建模在面向电力业务的非授权频谱共享场景中，gNodeB 作为智能体，是子载波分配的决策者，动作空间、状态空间和奖励函数 Rt的定义如下。动作空间：在提出的算法中，智能体将在每一步根据当前的状态信息分配一个子载波给QPT，因此动作空间由离散的 QPT 序号构成。q,tamm（9）其中，at表示在第t 步的时候 gNodeB 决定将第t 个子载波分配给 QPT 集合q中的 QPTm。状态空间：智能体需要从当前环境中获取与载波分配相关的有用信息，因此第 t 步时的状态信息由 4 部分构成。qqql(),(),(),()tsiii N

30、 ihrO（10）其中，qq12()(),(),()Nih i h ihih表示所有 QPT在待分配的子载波 i 上的信道增益；q()i r q12(),(),()Nr i r iri表示在经历 i1 步后，所有QPT 所获得的速率；q12()(),(),iO i O iO q()NOi表示在第 i 步时，序号为 1Nq的 QPT 是否满足速率需求，()1mOi 表示QPTm在第i步时满足QoS需求，()0mOi 表示QPTm在第i步时未满足QoS需求；Nl(i)表示有Nl(i)个LPT将子载波i作为其候选子载波。奖励函数Rt：奖励函数作为DRL中重要的组成部分之一，在引导智能体做出

31、合适的动作中有着重要的作用。因此考虑式（8）的目标和约束，奖励函数由两部分构成。1,2,tttRRR（11）其中，和是R1,t和R2,t的加权系数，R1,t用于引导智能体gNodeB分配子载波时考虑QPT的速率需求，具体设置如下：1,q1()1)()()qNtmmmROir iKm（12）在R1,t的设置中，当QPTm实际速率未满足其QoS需求时，()11mOi ，因此智能体将会收到QPTm的QoS需求未满足的负奖励，负奖励的大小为QoS需求与实际速率的差值；当QPTm实际速率能够满足其QoS需求时，()10mOi ，因此智能体将不会因为QPTm获得负奖励。由于式（8）的目标是最大化所有QPT

32、的总速率，因此R2,t用于引导智能体gNodeB朝着最大化QPT的总速率做出动作，具体设置如下。q2,1()NtmmRr i（13）（2）基于PPO的子载波分配 PPO是一种基于表演者批评家（actor-critic，AC）框架的策略梯度（policy gradient，PG）算法，解决了传统PG算法中存在的步长敏感且难以确定合适步长的问题25，相比于基于值的DRL算法，PPO算法可以处理更大的动作空间。定义为一次迭代的轨迹：1122,TTa s a sas（14）其中，T表示每一次迭代所经历的完整回合（episode）的总步长。p(si)表示状态为si的概率，p(ai|s1)则表示在状态si

34、标是在保证新策略的性能不劣于旧策略的前提下，最大化策略的期望回报，因此引入了截断项，其目标函数CLIP()tJ具体如下：17 电信科学 2023 年第 7 期 CLIP()min(),clip(),1,1)ttttttJAA （17）其中，old()(|)/(|)tttttasas 是新旧策略参数的比值。而old(,)tttAAa s是旧策略的优势函数，当old()0tA时，CLIPMax()Max()ttJ。由于受到了clip函数的约束，其中1+和1为设定的上/下界，为超参数，当()1t 时，clip(),1,1)t 取值为1+，因此CLIP()(1)tttJA，即JtCLIP()最大

35、只能增长到(1)ttA；当()1t 时，clip(),1,t 1)取值为1，因此CLIP()(1)tttJA，即JtCLIP()最小只能减少到(1)ttA，这样可以保证每次更新策略时，新旧策略不会有较大的差异。综上所述，基于PPO的NR-U系统子载波分配流程如图4所示。记忆池收集到策略为的轨迹的信息后，critic网络通过抽取记忆池样本，计算折扣奖励与优势函数At，并通过反向传播更新自身的网络参数。actor new网络和actor old网络则通过抽取记忆池样本，计算其新旧策略参数比值t()。利用式（17），actor new网络通过反向传播更新自身网络参数，并在一段时间后更新actor o

36、ld网络。综合MAC层数据传输时间的优化和基于PPO的子载波分配算法，可以得到TTSA资源优化算法，其具体执行过程如下。算法 TTSA资源优化算法输入 STA、QPT和LPT终端集合s、q和l，gNodeB子载波数量NB，STA平均速率需求KS，QPT速率需求集合Q 输出子载波分配方案M，所有QPT实时速率集合Rq和QPT总速率Rall 将STA数量代入式（1）求出STA速率；将Ks代入式（7），结合STA速率求解NR-U MAC层中有效数据传输的持续时间t；通过式（2）求出NR-U系统在单位时间内有效使用频谱的时间fn,co；初始化actor new、actor old和critic网络

37、，清图 4 基于 PPO 的 NR-U 系统子载波分配流程研究与开发 18 空经验池B；for episode=1 to T do 初始化环境状态s1，包括将QPT实时速率集合Rq与QoS需求是否满足的标志向量OQ中的所有元素置为0，获取所有QPT与子载波的路径损耗与阴影衰落情况；for step t=1 to NB do 智能体根据当前输入状态st输出分配子载波的动作at；根据式（10）式（13）获取下一时刻状态st+1和奖励Rt，将(at,st,rt,st+1)收集到经验池B；end for 将最后一步得到的st+1输入critic网络获取状态价值函数V(st)；根据式（16）与经验池

38、B中所有状态组合计算优势函数At，反向传播更新critic网络；将经验池B中所有状态组合和动作组合输入actor new和actor old网络计算新旧策略参数的比值t()，并将其代入式（17），反向传播更新actor new网络；在运行一段时间后，用actor new网络权重更新actor old网络；end for 分配子载波结束后，将集合Rq中所有QPT的速率相加求出Rall。3 仿真分析本节将对TTSA资源优化算法的性能进行仿真验证。根据文献12、文献24、文献26，具体的仿真参数见表1。此外，在超参数的设置中，本文设置的actor网络除输入/输出层外还有两层具有64个神经元的隐藏层

39、，critic网络除输入/输出层外还有一层具有64个神经元的隐藏层，actor网络和critic网络的学习率均为0.000 3，折扣因子为0.99。首先评估TTSA资源优化算法在NR-U与Wi-Fi共享非授权频谱时，保障不同QoS需求的QPT的性能。具体地，分别设置NR-U服务50个LPT和3个QPT，其中QPT的QoS需求分别为5 Mbit/s,20 Mbit/s,35 Mbit/s，此外还设置Wi-Fi需要服务5个STA。不同QoS需求的QPT速率如图5所示，可以看到，QPT速率在训练过程中是收敛的。图5（a）显示QPT总速率在训练过程中不断上升，并在1 500个回合左右趋于稳定。图5（b

40、）则显示3个不同的QPT的速率收敛情况不同，且均满足其QoS需求。结合图5（a）和图5（b）可以看到，TTSA资源优化算法能够在保障电力终端需求的同时，提升终端总速率。TTSA资源优化算法引入PPO后，可以通过对智能体gNodeB的不断训练，挖掘QPT子信道状态等环境信息与速率的关系，学习最优子载波分配策略。表1 具体的仿真参数物理意义参数 Wi-Fi 数据包长度/bit 12 000 MAC 层帧头长度/bit 192 物理层帧头长度/bit 224 ACK 帧长度 112 bit+物理层帧头 CTS 帧长度 112 bit+物理层帧头 RTS 帧长度 160 bit+物理层帧头 Wi-

41、Fi 比特率/(Mbits1)54 电波传播时延/s 1 时隙长度/s 20 DIFS/s 34 SIFS/s 16 Wi-Fi 初始竞争窗口 16 Wi-Fi 最大退避次数 6 非授权频谱带宽/MHz 20 AWGN 功率/(dBmHz1)174 QPT 子载波功率/dBm 70 LPT 子载波功率/dBm 80 gNodeB 子载波数量 256 STA 平均速率需求/(Mbits1)5 其次评估当Wi-Fi服务的STA数量不同时，NR-U保障QPT QoS性能以及提升QPT总速率的性能。具体地，设置NR-U服务5个QoS需求均 19 电信科学 2023 年第 7 期图 5 不同 QoS

42、需求的 QPT 速率为2 Mbit/s的QPT，Wi-Fi服务STA的数量为26个。分别选取基于深度Q学习网络（deep Q-learning network，DQN）、基于随机子载波分配和基于平均子载波分配的资源优化算法进行比较，不同STA数量下的QPT总速率如图6所示。图 6 不同 STA 数量下的 QPT 总速率可以看到，当STA数量较少时，QPT的总速率都很大，此时TTSA资源优化算法与其他3种算法有较为明显的差距。然而随着STA数量的增加，QPT的总速率呈现急速下降的趋势。根据式（1）式（5）可以知道，当STA数量增加时，非授权频谱的竞争加剧，致使NR-U抢占非授权频谱的机会下降

43、，传输效率受到影响，因此无论哪一种算法均不能避免QPT总速率的下降。相比于基于随机子载波分配和基于平均子载波分配的资源优化算法，在总速率方面TTSA资源优化算法平均性能分别提升了16.3%和16.8%，这是因为TTSA资源优化算法引入PPO进行子载波分配，能够让gNodeB在不断的训练中得到学习，使其能在分配子载波时考虑QPT不同的信道状态，通过为QPT分配衰落和损耗更小的子载波，实现了总速率的提升。而对比基于DQN的资源优化算法，可以看到性能平均提升了6.3%。这是因为PPO是一种基于策略的DRL算法，相比于DQN，可以更直接地优化策略的输出。并且DQN通过神经网络逼近真实Q函数可能出现过拟

44、合的情况，PPO则通过引入截断项和剪切项更好地抑制策略的过度调整，因此TTSA资源优化算法的性能更加优越。然后评估NR-U服务的QPT数量不同时保障QoS的性能。为了凸显算法的性能，分别设置Wi-Fi服务3个STA，NR-U服务的QPT数量为540个，并且QPT的QoS需求均设置为2 Mbit/s，不同QPT数量下的QPT速率如图7所示。从图7（a）可知，在满足QPT速率合格率方面，TTSA资源优化算法相较于基于平均子载波分配和基于随机子载波分配的资源优化算法性能分别提升了8.96%和16.33%，这是因为相比于这两种算法，TTSA资源优化算法通过引入PPO实现对gNodeB的不断训练，让其在

45、分配子载波时考虑QPT子信道状态和服务需求等差异，做出更加智能的子载波分配行为。而相比于基于DQN的资源优化算法，可以看出两种算法具有相近的性能，研究与开发 20 这是因为两种算法都能通过对gNodeB的训练，引导gNodeB做出保障电力业务QoS的子载波分配动作。从图7（b）可以看出，TTSA资源优化算法相较于基于随机子载波分配、基于平均子载波分配和基于DQN的资源优化算法，总速率平均分别提升了24.22%、24.34%和8.96%，因此TTSA资源优化算法在实现终端总速率方面有着优越的性能，这是因为基于PPO的TTSA算法除了实现gNodeB学习环境信息、分配子载波，还通过改进训练策略和目

46、标函数等方式，避免了DQN算法会出现的过度估计、将次优解当成最优解等缺陷。结合图7（a）和图7（b）可知，TTSA资源优化算法通过为QPT分配更加合适的子载波在保障电力业务QoS的同时，更加有效地增大了QPT总速率，提升了非授权频谱效率。最后评估NR-U服务的LPT数量变化时，TTSA资源优化算法对QPT服务质量的保障性能。具体地，分别设置Wi-Fi服务3个STA，NR-U服务10个QPT和数量发生变化的LPT，其中QPT的QoS需求均为5 Mbit/s，LPT的数量为20125，不同LPT数量下的QPT速率如图8所示。从图8可以看到，在相同环境下，相比于其他3种算法，在保障QPT服务质量方面

47、，所提TTSA资源优化算法相较于基于随机子载波分配、基于平均子载波分配和基于DQN的资源优化算法性能平均分别提升了2.643%、34.48%和图 8 不同 LPT 数量下的 QPT 速率图 7 不同 QPT 数量下的 QPT 速率 21 电信科学 2023 年第 7 期 39.29%；而在提升QPT总速率方面，TTSA资源优化算法性能则分别提升了5.86%、23.33%和24.34%。对比基于随机子载波分配和基于平均子载波分配的资源优化算法，两种基于DRL的算法性能优越，充分说明了通过引入DRL算法能够让gNodeB做出更智能的动作。而TTSA资源优化算法与基于DQN的资源优化算法性能之间

48、的差距，则证明了改变智能体目标函数和更新策略等方式，同样能有效提升NR-U的性能。4 结束语本文研究了面向电力业务的非授权频谱共享问题，旨在保障电力业务服务质量的同时，提升NR-U的总速率。基于该优化目标，提出了一种基于CAT-3 LBT技术的非授权频谱接入机制，实现了电力业务终端的上行数据传输。此外，还提出了一种TTSA资源优化算法，该算法首先通过解耦优化问题，求解了保障Wi-Fi STA的平均速率需求的NR-U数据传输时间，其次基于PPO为QPT分配了子载波，将gNodeB作为智能体，并把子载波分配过程建模为马尔可夫决策过程，对智能体不断训练，使得智能体在学习环境信息后做出更加智能和有效

49、的子载波分配动作。仿真结果表明，通过该算法，gNodeB在为LPT和QPT提供通信服务的同时，能够保障QPT的服务质量，提升QPT的总速率，实现频谱利用率的提升。在未来工作中，笔者将进一步深入研究保障电力业务质量的频谱共享机制，考虑ZigBee和蓝牙等其他非授权频谱无线通信技术的影响和使用等情况，推动频谱共享机制在智能电网中的进一步应用。参考文献：1 张宁,杨经纬,王毅,等.面向泛在电力物联网的 5G 通信:技术原理与典型应用J.中国电机工程学报,2019,39(14):4015-4024.ZHANG N,YANG J W,WANG Y,et al.5G communication for t

50、he ubiquitous Internet of things in electricity:technical prin-ciples and typical applicationsJ.Proceedings of the CSEE,2019,39(14):4015-4024.2 BAYINDIR R,COLAK I,FULLI G,et al.Smart grid technolo-gies and applicationsJ.Renewable and Sustainable Energy Reviews,2016(66):499-516.3 丰雷,谢坤宜,朱亮,等.面向电网业务质量

展开阅读全文