1、第 5 期2023 年5 月电子学报ACTA ELECTRONICA SINICAVol.51 No.5May 2023一种基于深度强化学习的动态自适应干扰功率分配方法彭翔,许华,蒋磊,张悦,饶宁(空军工程大学信息与导航学院,陕西西安 710077)摘要:针对传统干扰功率分配方法在干扰目标策略未知的情况下容易造成资源浪费和干扰效费比低的问题,本文提出一种基于深度强化学习的动态自适应干扰功率分配方法.在目标通信功率及功率控制策略完全未知的情况下,该方法将空间分布的侦察节点的观测值作为连续状态输入,利用深度强化学习方法进行干扰功率的辅助决策,可通过对目标策略的有效学习实现自适应稳定干扰.为进一步提
2、升算法性能,本文设计了基于时序误差的优先经验回放机制和自适应探索策略.仿真结果表明,所提方法在与传统干扰功率分配方法干扰效果相当的情况下可节约42.5%的功率资源,提升了干扰效费比,且成功率和功率损耗皆优于对比的智能算法.关键词:电子对抗;通信对抗;干扰资源分配;干扰决策;功率分配;深度强化学习;优先经验回放基金项目:国家自然科学基金(No.61906156)中图分类号:TN975文献标识码:A文章编号:0372-2112(2023)05-1223-12电子学报URL:http:/DOI:10.12263/DZXB.20220391A Dynamic Adaptive Jamming Powe
3、r Allocation Method Based on Deep Reinforcement LearningPENG Xiang,XU Hua,JIANG Lei,ZHANG Yue,RAO Ning(Information and Navigation School,Air Force Engineering University,Xian,Shaanxi 710077,China)Abstract:To solve the problem that traditional jamming power allocation methods are prone to waste resou
4、rces and low jamming effectiveness-cost-ratio when the jamming target strategy is unknown,a dynamic adaptive jamming power allocation method based on deep reinforcement learning is proposed.When the communication power of the target and its power control strategy is completely unknown,the method tak
5、es the observation values of spatially distributed reconnaissance nodes as continuous state input and uses the deep reinforcement learning method to assist the decision-making of jamming power.It can achieve the adaptive stable jamming by the effective learning of target strategy.To further improve
6、the performance of the algorithm,a prioritized experience replay mechanism based on temporal-difference error and an adaptive exploration strategy are designed.The simulation results show the proposed method can save 42.5%of power resources and improve the jamming effectiveness-cost-ratio when the j
7、amming effect is equivalent to that of the traditional jamming power distribution method.The success rate and power cost of the proposed algorithm are better than those of the comparative intelligent algorithms.Key words:electronic countermeasures;communication countermeasures;jamming resource alloc
8、ation;jamming decision-making;power allocation;deep reinforcement learning;prioritized experience replayFoundation Item(s):National Natural Science Foundation of China(No.61906156)1引言随着无线电通信技术的快速发展,电磁频谱的争夺越来越激烈,资源短缺成为限制电子对抗双方整体效能发挥的主要因素之一,因此如何高效地进行资源分配是电子对抗及其相关领域的核心问题.干扰资源分配是资源分配在电子对抗领域的实现形式之一,不同领域的
9、资源分配方法很多都存在可相互借鉴之处,近些年关于认知通信的通信资源分配问题的研究,涉收稿日期:2022-04-12;修回日期:2022-08-23;责任编辑:覃怀银电子学报2023 年及时间1、空间2、频谱35和能量57等已经取得了丰富的成果,这为干扰资源分配的研究提供了参考.当前电子对抗领域关于干扰资源分配问题的研究主要分为雷达干扰资源分配和通信对抗干扰资源分配两方面.其中,雷达干扰资源分配方面的研究较多,文献 8,9分别对遗传算法和蚁群算法进行改进,提高了组网雷达的干扰效率和干扰资源分配效率;文献 10 将强化学习应用到雷达干扰资源分配当中,实现了对雷达干扰策略分配的认知决策.而通信对抗干
10、扰资源分配方面的成果相对较少,现有研究主要集中在跳频频率11和干扰功率12的分配上.因此,进一步开展通信对抗干扰资源分配问题的研究是必要的.功率管理关系到未来通信对抗网络的可持续性,同时“精确电子对抗”13对干扰的隐秘性提出了更高的要求.但是在现实对抗中,干扰方通常采用大功率压制干扰方式,这不仅造成资源的浪费,不利于通信对抗网络可持续性,同时也增大了己方暴露的概率,降低了己方战场生存率,多数情况下效费比(指干扰成功率与消耗功率的比值)不高.为了提高干扰设备的战场生存能力和干扰效费比,利用低功率干扰信号在敌对目标甚至未曾察觉的情况下对其实施干扰是一个可行的方向,开展动态自适应干扰功率分配研究具有
11、重要现实意义.现有的大多数工作都是从静态优化的角度出发解决功率分配和控制问题12,1416.文献 14 证明了功率分配与信道选择问题属于NP-hard,传统优化算法难以适用.为了克服传统优化方法在决策维度过大时失效或者陷入局部最优的问题,文献 15 提出一种基于分布式深度强化学习的方法,仅利用局部信息和过去的非局部信息来自动优化信道选择和传输功率,表现出较强可伸缩性.为进一步提高决策效率,文献 16 采用分布式多智能体深度强化学习方法实现了资源的联合分配,最大限度地提高了频谱效率和能源效率.与以上方法不同,本文从通信对抗场景下干扰功率的动态自适应调整角度展开研究,着眼于保证干扰成功率的同时最小
12、化功率损耗,从而提高干扰效费比.本文为提高通信对抗过程的干扰效费比,首先构建了“侦察-干扰”通信对抗模型;而后提出一种基于深度强化学习的动态自适应干扰功率分配(Dynamic Adaptive Jamming Power Allocation based on Deep Reinforcement Learning,DAJPA-DRL)方法,设计了基于时序误差的优先经验回放机制和自适应探索策略;最后通过仿真实验和算法对比验证了算法的有效性.2系统模型本文构建如图1所示“侦察-干扰”模型,通信网络采用中心组网,每对发射机和接收机组成一条通信链路,组网中心统一向各链路下发通信策略(功率控制策略和频
13、率分配策略),各链路按照接收到的功率控制策略Px调整其通信功率PT,依据频率分配策略选择通信频率fT.为了简化模型,假设各通信链路相互正交,本文仅研究某一通信链路上的自适应干扰功率分配问题,多通信链路的情况可类比扩展.以图1中通信网络中右下方发射机和接收机组成的通信链路为例,已知干扰方按实际需求事先布设N个侦察节点在发射机周围一定范围内,所有侦察节点共同组成侦察网络,Z=z1z2z3zN为侦察节点的集合.侦察网络可以实时获取干扰方和发射机的信号强度信息(Signal Strength Information,SSI)并利用快速傅里叶变换等技术测量通信信号频率和带宽17.同时,由于现代通信设备多
14、是收发一体,具有全/半双工工作模式,例如通信接收机不仅接收信号,也会向发射机发送ACK/NACK信号进行应答,因此侦察网络可利用测向交叉定位和多普勒频率定位等辐射源定位技术获得目标位置信息17.随后,侦察网络将获取到的SSI,通信信号频率、带宽信息和目标位置信息等进行融合并利用Zigbee18等传统技术实时反馈给干扰方(此过程不会影响干扰信号),干扰方进一步对信息进行综合处理后决策出干扰方案,然后对接收机实施干扰.假设侦察网络可以准确测量和跟踪通信信号频率及带宽,保证干扰信号与通信信号的载频重合、带宽近似,实现频域对准;干扰方实施瞄准式干扰.干扰方的目标是学会在时刻t根据收集到的SSI调整z1
15、z2z3zN.干扰方融合SSI、频率、带宽、位置信息干扰信号通信信号控制信号链路阻断ACK/NACK信号发射机接收机组网中心通信网络图1侦察-干扰模型1224第 5 期彭翔:一种基于深度强化学习的动态自适应干扰功率分配方法其干扰功率,使用尽可能小的功率立刻或经过几个时隙的调整后成功干扰目标.干扰功率为有限集PJ中的元素,频率为fJ,波长为J,m为元素个数,即待选干扰功率等级.PJP1JP2JPmJP1JP2JPmJ(1)理想自由空间中信号的路径传播损耗L只与波长和传播距离r有关.可以表示为L=(4r)2(2)忽略极化损失和带宽失配损耗,第i条通信链路接收机处的信干噪比应当满足:SINR(i)=
16、PTiGTiLjiPjiGjiLTi+Ki(3)其中,通信链路的通信功率为PTi;链路增益为GTi;干扰功率为Pji;干扰信号链路增益为Gji;LTi为发射机和接收机间的传播损耗;Lji为干扰机和通信接收机间的传播损耗;为环境噪声;Ki为信干噪比阈值.由于非合作对抗条件下干扰方难以直接获取通信接收机处的信干噪比,因此无法通过式(3)直接评估干扰效果,但是综合功率准则,频率准则以及在特定通信协议下监听接收机向发射机发送的 ACK/NACK 信号推断出通信方的丢包率等方法可以间接判断干扰效果,因此本文假设干扰方可以得到干扰是否成功的反馈.t时刻侦察节点zn的观测值PnZ(t)(即SSI)为PnZ(
17、t)=PTi()tLin+PJ()tLJn+n(t)(4)其中,PTi(t)和PJ(t)分别表示t时刻的通信功率和干扰功率;Lin表示第i条通信链路发射机和侦察节点zn间的路径传播损耗;LJn表示干扰信号发射机和侦察节点zn之间的路径传播损耗,Lin和LJn分别由式(2)计算得到;n(t)为由阴影效应和估计误差引起的观测噪声,服从方差为2n的零均值高斯分布,满足2n=()P1TiLin+P1JLJn+2;表示方差控制因子,越大,方差2n越小;P1Ti和P1J分别为通信功率和干扰功率下界;为一个极小正数,避免通信功率和干扰功率下界为零时出现2n等于零的情况.鉴于通信方与干扰方之间的非合作关系,已
18、知通信方以独立的策略进行功率调整,本文给出由两种功率控制策略组成的策略集Px=Px1Px2用于算法检验19,Px1、Px2分别为策略1和策略2,定义如下:策略1PTi(t+1)=f(KiPTi()tSINR()i)PTP1TiP2TiPlTiP1TiP2TiPlTi(5)其中,SINR(i)为t时刻第i条通信链路接收机处的信干噪比;PTi(t)表示t时刻第i条通信链路的通信功率,通信功率以时隙为单位动态调整;Ki为信干噪比阈值;l表示集合元素个数,即待选通信功率等级;f(x)=-x是一个离散化函数,它将连续值映射到由离散值组成的通信功率集PT中,-x表示最接近x但不超过x的离散值,如果xPlT
19、i则令f(x)=PlTi.策略2PTi(t+1)=Pj+1TiPjTiPj+1Tij+1lPj-1TiPj-1Tij-1lPjTiotherwiseKiPTi()tSINR()i(6)假设 t时刻通信功率PTi(t)=PjTi,PjTiPT.不难看出,策略2采取逐步更新的规则,即t+1时刻的功率只能在相邻的两个功率等级上变动或者维持原功率,相比策略1更为保守.通信方根据链路被干扰的程度按照组网中心下发的策略调整其通信功率,即当前时刻干扰方的行动以一种隐式的方式影响着通信方下一步的动作.3基于深度强化学习的动态自适应干扰功率分配方法强化学习(Reinforcement Learning,RL)方
20、法可以在没有先验知识的条件下,通过“试错”的方式与环境进行交互,训练出具有突出决策能力的智能体,被广泛用于智能决策领域.传统的强化学习方法(例如 Q-Learing、SARSA)适用于离散的低维动作、状态空间,在解决具有连续状态空间的问题时,其表格式存储价值的方法不再适用.深度强化学习(Deep Reinforcement Learning,DRL)方法在RL的基础上引入神经网络,通过网络拟合状态动作价值函数,克服了传统强化学习方法的高维难题,适用于解决连续状态输入的实际问题,实现了从感知到行动的端到端的学习,深度Q-Learning算法(Deep Q-Network,DQN)20便是典型代表
21、.特别的,在本文所构建的问题模型当中,干扰方对目标链路的通信功率及功率控制策略完全未知,且侦察节点信号强度测量中的随机误差使得状态具有连续性,因此本文基于深度强化学习方法设计自适应干扰功率分配1225电子学报2023 年方法.3.1动态干扰功率分配问题的马尔可夫决策模型马尔可夫决策过程是单智能体强化学习方法的基础理论,用于在系统状态具有马尔可夫性质的环境中模拟智能体的随机性策略与回报,包括决策过程中的状态、动作、策略和奖赏等因素.分析本文模型可知:在任意时刻,干扰方通过侦察节点获取环境状态信息,决策出干扰动作后实施干扰并通过情报获知干扰是否成功的反馈,通信方按照己方策略调整通信功率,环境状态发
22、生改变.对干扰方而言,新的状态仅取决于当前状态和干扰动作,与过去所有的状态无关,当前时刻的干扰动作以一种隐式的方式影响通信方的下一步行动,下一个状态有条件的独立于过去所有的状态和动作,因此干扰方与通信方组成的对抗系统状态具有马尔可夫性质,若干扰方作为智能体则动态干扰功率分配问题可建模为马尔可夫决策过程.基于此,本文将干扰功率分配问题构建成由四元组描述的马尔可夫决策过程.其中,S为状态空间;A为动作空间;R为当前状态下采取动作获得的即时奖励;01表示折扣因子,用来表示未来收益对当前状态的影响程度,越大表示越注重未来收益.具体物理含义如下:(1)状态空间S:S为N维张量,由N个侦察节点的观测值组成
23、.即S(t)P1Z(t)P2Z(t)PNZ(t)T(7)(2)动作空间A:A为m维张量,由t时刻干扰功率集PJ内各功率状态决定.即A(t)P1JE1PmJEmTEi01i=12m(8)(3)环境奖励R:R设置的合理性很大程度上决定了整个模型的可行性.结合模型特性,本文定义的奖励函数由成功干扰奖励R1和优化功率分配奖励R2两部分组成.定义R1为R1=cSINR()i Ki cotherwise(9)式(9)中,c为正常数,表示成功干扰通信链路后获得的正收益;c为负常数,表示干扰失败后获得的负奖励,负的奖励将使决策网络在更新网络参数时获得更大的梯度更新值,促进决策网络的优化.c和c的取值可进行合理
24、调整,需满足|c|c|.本文中c为10,c为1.定义R2为 R2=-index(PJ(t)(10)式(10)中,index(PJ(t)为PJ(t)在干扰功率集PJ中的索引,R2用于鼓励干扰方尽可能使用小的干扰功率成功干扰目标,从而优化功率分配.因此,总的奖励函数为R=R1+R2=c-index(PJ()t)SINR()i Ki c-index(PJ()t)otherwise(11)在强化学习架构下,上述马尔可夫决策过程中干扰方与通信方的交互过程如图 2.干扰方为智能体Agent,通信链路构成 Environment,干扰方通过侦察网络获得当前环境状态State,实施干扰动作Action,并根据
25、干扰成功与否获得奖励值Reward,下一时刻通信方依据功率控制策略调整信号发射功率,环境状态发生改变.通过不断地对抗交互,干扰方最终学到通信方的功率控制策略,可以得到不同环境状态下的最佳干扰功率分配方案,从而实现累积奖励期望的最大化,即干扰方具备自适应干扰功率分配能力.3.2算法描述实际功率分配问题中,动作空间往往由有限、离散的元素构成,而深度强化学习当中的DQN算法在解决连续状态,离散动作的问题上表现突出,因而得到广泛应用.DQN算法是一种基于值的强化学习方法,而基于值的强化学习方法通过当前价值函数不断拟合目标价值函数实现参数更新,即用价值网络本身做出的估计去更新价值网络本身,因此导致了“自
26、举”的产生.为了克服DQN算法20因“自举”导致偏差传播从而引起过估计的问题,文献 21 在原算法基础上引入目标网络计算目标值,降低了“自举”造成的过估计.本文在文献21 的基础上设计了基于时序误差的优先经验回放机制进一步提高样本利用率;同时引入适应性探索策略,既确保了算法训练前期的探索性,又确保算法后期对已有知识的充分利用,提高了算法训练效率,算法框架如图3.其中,评估网络用于计算当前状态的动作价值,目标网络用于计算下一状态的动作价值.经验回放池以二叉树的形式存放经验五元组,p为经验优先级,当新经验存入或批采样数据训练网络时进行发射机接收机组网中心干扰方EnvironmentAgentRew
27、ardStateActionz1z2z3zN.融合图2干扰方与通信方的交互过程1226第 5 期彭翔:一种基于深度强化学习的动态自适应干扰功率分配方法优先级更新,优先级高的采样概率大.基于值的强化学习算法的基本思想是根据最优贝尔曼方程迭代更新动作价值函数,如式(12):Q*(sa)=(R(sa)+Es()|samaxaQ*(sa)(12)其中,Q*(sa)为最优动作价值函数;R(sa)为状态s下采取动作a后即时奖励;s为当前状态s下采取动作a后的下一个状态,服从概率分布(|sa);a为状态s下的最优动作.通过充分的训练交互,可以得到任意时刻不同状态下选择最佳动作的规则,即动作价值函数收敛到最优
28、策略*,实现回报Gt期望的最大化.*=argmaxE(Gt)=argmaxE(Rt+1+Rt+2+)=argmaxE(k=0kRt+k+1)(13)经验回放池的设计打破了历史经验间的时间相关性,提高了样本利用率,加速了算法收敛.传统的经验回放技术采用均匀采样的方法,对所有的经验数据予以相同的重视程度,这与实际中历史经验的非等价性相违背,因此传统经验回放技术重要经验的利用率较低,仍有较大提升空间.为进一步提高算法效率,区别不同经验的重要程度,本文为每一个经验设置优先级p(通过的幅值来衡量22),同时赋予优先级高的经验更高的采样概率,计算式如下:(i)=pikk12Kpk+pi=|i+i12K|i
29、=|Ri+maxaQ()sa|-Q()sa|(14)其中,K为经验回放池容量;指数为优先级重视程度,=0时等价于均匀采样;为概率偏差,用于确保可以选择优先级极低的样本;i即索引为i的经验的时序误差;为优先级偏差,是一个很小的正常数,用于防止经验误差为零时不重新访问经验的极端情况;pi为索引为i的经验的优先级;(i)为索引为i的经验的采样概率,显然采样概率是关于优先级的单调函数.另一方面,基于优先级的经验回放以一种不受控的方式改变原始经验的分布,造成了计算偏差22.而统计学当中的重要性采样可以从与原先分布不同的其它分布中采样,实现对原先分布性质的估计.因此本文引入重要性抽样权重来纠正这种偏差,定
30、义式如下:i=()i totalmin)-(15)total为优先级总和,min为最小优先级,i为索引为i的经验的重要性权重,为修正系数.平衡对“环境的探索”和“已有经验的利用”二者间的关系一直是强化学习方法解决问题的关键,对避免算法陷入局部最优和提高收敛速度至关重要.贪婪策略是最常用的探索策略,但是贪婪策略在训练过程中始终保持为固定值,不利于算法后期的收敛,因此本文在贪婪策略的基础上设计了自适应探索策略,如式(16):1-a=argmaxaQ(sa)random select a=Initial_-=()Initial_-Final_/T1Initial_Final_0(16)其中,Init
31、ial_和Final_分别为的初始值和终止值;T为总迭代次数,即总交互时间为T个时隙;为当前迭代次数;为的变化步长.可见会随着迭代次数的增加而逐渐减小,既保证了训练初期的充分探索,又确保后期对经验的充分利用,加速算法收敛.训练过程网络更新规则如下:步骤1 计算目标函数yi=Ri+maxaQ(sa|)(17)步骤2 计算损失函数L()=1Bii()yi-Q()sa|2=1Bii()Ri+maxaQ()sa|-Q()sa|2(18)其中,maxaQ(sa|)为目标网络在状态s时对应的最大状态动作价值;和分别为评估网络和目标网络的网络参数;Ri为当前状态s采取动作a的即时回报;B为批处理大小.图3算
32、法框架1227电子学报2023 年步骤3 使用梯度下降法最小化损失函数更新网络参数,-L(),为学习率,为梯度算子.目标网络参数由评估网络参数定期更新,.基于DRL的动态自适应干扰功率分配方法如算法1所示.4实验与仿真为验证所提方法的性能,本文进行了充分的实验.首先,利用控制变量法进行对比实验,确定一组最佳参数;其次,基于最佳参数分别分析侦察节点数目N和观测噪声方差2n对算法效果的影响以及不同目标功率控制策略下算法的适用性;最后,为了进一步评估DAJPA-DRL算法的性能,将其与传统干扰功率分配方法 23 和基于DQN的功率控制算法 19 进行对比.由于对抗中通信方和干扰方以时隙为单位进行功率
33、调整,双方没有严格的时间同步,因此本文引入时隙转移限度来贴合现实,如果干扰方在内成功干扰目标链路,则认为单次试验成功.模型训练完成后,利用蒙特卡罗法进行500回合测试实验,单回合100次取平均值,以每回合的测试平均成功率和平均功率作为综合衡量算法性能好坏的关键指标.4.1模型及网络参数设置干扰功率集PJ0.050.10.150.8,通信功率集PT0.050.10.150.4(单位:kW).假设在通信方100300 km的范围内布设有N个侦察节点.二维坐标系下,干扰方坐标为(0,0),通信接收机坐标为(0,300)(单位:km),如图4.其他模型参数如表1.本文算法中评估网络和目标网络均使用全连
34、接神经网络,具体参数设置如表2.算法1基于DRL的动态自适应干扰功率分配方法Step1:随机初始化评估网络参数,初始化目标网络参数;Step2:初始化经验回放池容量为K,批处理大小为B,训练总回合为T;Step3:初始化参数,Initial_,Final_,O,C;Step4:初始化初始状态s(1);Step5:FOR t=1T do:(1)根据自适应探索策略选择动作a(t);(2)执行动作a(t),获得奖励R(t),通信方使用策略1或策略2更新PTi(t+1),得到新状态s(t+1);(3)存储(s(t)a(t)R(t)s(t+1)到回放池中,最大化其优先级为p(t)=maxjtp(j)j1
35、2K;(4)IF tO THEN:FOR i=1 to B do:(a)经验回放池中采样样本 (i)=pikk12Kpk+;(b)计算重要性抽样权重i=()i totalmin)-;(c)计算时序误差|i|=|Ri+maxaQ(sa|)-Q(sa|)|;(d)更新经验优先级pi=|i|+;END FOR 梯度下降法最小化损失函数更新网络参数 -L()END IF (5)每C步更新目标网络参数,;(6)IF s(t)是目标状态THEN:重新初始化初始状态s(t+1);END IF END FOR图4N=9时的对抗空间分布表1模型参数物理参数环境噪声/kW干扰/通信链路增益G发射机和接收机间的传播
36、损耗LTi干扰机和通信接收机间的传播损耗Lji干扰/通信中心频率f/MHz方差控制因子信干噪比阈值Ki经验回放池容量K时隙转移限度学习率值0.0110.80.83001或50.51 024510-5物理参数Initial_Final_TOC值110-510-50.010.90.802104256300表2DAJPADRL算法网络参数输入层隐藏层1隐藏层2隐藏层3输出层优化器评估网络N(256,Relu)(256,Relu)(512,Tanh)16Adam目标网络N(256,Relu)(256,Relu)(512,Tanh)161228第 5 期彭翔:一种基于深度强化学习的动态自适应干扰功率分配
37、方法4.2网络参数优化首先,利用控制变量法进行对比实验,确定批处理大小B以及折扣因子.批处理大小B很大程度上影响着算法性能,B越大单次采样越多,收敛时间越短,计算越复杂,模型泛化能力越小,反之,B越小算法收敛越慢,可能导致准确率来回震荡,但是具有更好的泛化能力24.本文在N=3、=5、=0.8以及目标采取策略2的条件下,通过控制变量确定批处理大小B.由图5和图6知,B为32时网络收敛较慢,但是测试成功率最优;图 7 显示其平均功率最高,这是干扰成功率提高的结果.因此,本文后续实验选定 B为32.的大小决定了算法的“价值观”,合适的同样对算法的收敛至关重要.本文在 N=3、=5、B=32以及目标
38、采用策略 2 的前提下,采用控制变量法确定的大小,其中分别取0.7,0.8,0.9,0.99.由图810可知,=0.9时算法收敛最快,测试平均奖励值最高,在测试成功率与=0.99相当的情况下,平均功率更低,因此,本文后续实验选定为0.9.图10目标策略2下不同的测试平均功率图9目标策略2下不同的测试成功率图8目标策略2下不同的训练损失曲线图5目标策略2下不同B的训练损失曲线图6目标策略2下不同B的测试成功率图7目标策略2下不同B的测试平均功率1229电子学报2023 年4.3实验结果及分析4.3.1侦察节点数目N和观测噪声方差2n对算法效果的影响首先基于上文参数分别分析侦察节点数目N和观测噪声
39、方差2n对算法效果的影响,这里引入平均时隙转移步数作为衡量算法时间效率的标准.本文在=1及目标选择策略1的条件下进行实验,分析N分别为3、6、9时算法效果.结果如图1113,可见N=9时算法的收敛速度最慢但是干扰成功率最高,成功干扰目标所需的时隙最少.分析可知N越大,干扰方获取的环境信息越充分,需要处理的信息越多,导致算法收敛越慢,但是训练完成后,干扰方对环境状态更为了解,因此测试的干扰成功率越高,成功干扰所需时隙越少,更能满足实时性需求,这与实际情况相符,在现实对抗中可以通过布设更多的侦察节点来获得更可靠的环境态势.接下来在N=3,目标选择策略1的条件下分析观测噪声方差2n对算法效果的影响.
40、由式(4)可知2n的大小取决于,本文分别取值1或5进行对比实验.图14表明,越大,2越小,算法收敛越快,但是训练过程中观测值的随机性越低,导致算法的泛化性下降,体现在图15中=5时算法测试成功率相对较低,图16中=5时测试平均时隙转移步数波动较大.综合分析以上两组实验,可以发现观测噪声方差或侦察节点数目发生变化时,所提算法学习仍然有效,保持着相近的干扰成功率和平均时隙转移步数,为1时可以保证97%以上的成功率,在=5,N=3的情况下也能保证 90%以上的成功率,体现了所提算法的稳健性.02 500 5 000 7 500 10 000 12 50015 000 17 500 20 000020
41、04006008001 0001 2001 4001 600LossN=3N=6N=9图11目标策略1下不同N的训练损失曲线01002003004005000.40.50.60.70.80.91.01.11.2E0!N=3N=6N=9图13目标策略1下不同N的平均转移步数01002003004005000.9700.9750.9800.9850.9900.9951.000)N=3N=6N=9图12目标策略1下不同N的测试成功率02 500 5 000 7 500 10 000 12 500 15 000 17 500 20 00002004006008001 0001 2001 400Loss
42、=1=5图14目标策略1下不同的训练损失曲线01002003004005000.900.920.940.960.981.00)=1=5图15目标策略1下不同的测试成功率1230第 5 期彭翔:一种基于深度强化学习的动态自适应干扰功率分配方法4.3.2不同目标功率控制策略下算法效果分析接下来分析算法在目标策略1和策略2下的性能,验证算法的适用性,取N=6,分别为1和5.分析图 17(a)和图 18(a)可知,由于策略 2较为保守,因此算法需要更长时间学习,相比策略1算法在策略2下收敛更慢.由图17(b)可知,=1时算法在两种目标策略下测试成功率均能保证在95%以上;由图18(b)可知,在=5时算
43、法在目标策略1下的测试成功率在94%以上,即使目标选择策略2时也能维持成功率在88%上下,最低为74%.由此可知,所提算法在不同目标策略下具备较强适用性,算法泛化性能较强,可靠性较高.4.3.3不同算法实验效果分析最后将本文算法与传统干扰功率分配方法23和基于DQN的功率控制算法19进行对比.为保证公平性,设置相同的模型参数及网络结构,取N=6,=1,目标选择策略1.本文中传统干扰功率分配方法持续使用最大功率对目标进行干扰,因此平均成功率为 1.图 19 表明两种智能算法网络收敛速度相近,但 DAJPA-DRL 算法前期的训练损失更大,这是因为基于时序误差的优先经验回放机制使得时序误差大的经验
44、获得了更高的采样概率,进一步提高了重要样本的利用率.但是优先经验回放机制的引入并不会因算法复杂度上01002003004005000.40.50.60.70.80.91.0E0!=1=5图16目标策略1下不同的平均转移步数02 500 5 000 7 500 10 000 12 500 15 000 17 500 20 00002004006008001 0001 200Loss1+11+2(a)不同目标策略下的训练损失曲线01002003004005000.950.960.970.980.991.00)1+11+2(b)不同目标策略下的测试成功率图17N=6,=1时算法效果02 500 5
45、000 7 500 10 000 12 500 15 000 17 500 20 00002004006008001 0001 2001 4001 600Loss1+11+2(a)不同目标策略下的训练损失曲线01002003004005000.750.800.850.900.951.00)1+11+2(b)不同目标策略下的测试成功率图18N=6,=5时算法效果1231电子学报2023 年升而使得网络难以收敛,反而可以提升算法效果,由图 20 和图 21 可知,DAJPA-DRL 算法的干扰成功率明显优于基于 DQN 的功率控制算法,而且消耗了更少的功率资源.表 3 给出了三种方法的性能对比结果
46、,可以明显看出使用深度强化学习方法可以大幅节约功率资源,而且本文算法在干扰成功率和功率消耗方面皆优于基于 DQN 的功率控制算法,DAJPA-DRL算法在与传统干扰功率分配方法干扰成功率相当的情况下可节约 42.5%的功率资源,干扰效费比有明显的提升.5结论本文提出一种基于深度强化学习的动态自适应干扰功率分配方法,解决了传统干扰功率分配方法干扰效费比低的问题.首先将动态干扰功率分配问题建模为马尔可夫决策过程,为方法的提出搭建了基础环境;其次通过设计基于时序误差的优先经验回放机制和自适应探索策略提升了方法性能.仿真结果表明该方法可通过对目标策略的学习,实现干扰功率的自适应分配,在干扰成功率与传统
47、干扰功率分配方法相当的情况下减少了 42.5%的功率消耗,有效提高了干扰效费比.同时,所提算法在解决动态功率资源分配问题时,成功率和功率损耗皆优于基于DQN的功率控制算法.参考文献1 XIONG X,ZHENG K,LEI L,et al.Resource allocation based on deep reinforcement learning in IoT edge computingJ.IEEE Journal on Selected Areas in Communications,2020,38(6):1133-1146.2 SHI W S,LI J L,WU H Q,et al.
48、Drone-cell trajectory planning and resource allocation for highly mobile networks:A hierarchical DRL approachJ.IEEE Internet of Things Journal,2021,8(12):9800-9813.3 ZHAO B K,LIU J H,WEI Z L,et al.A deep reinforcement learning based approach for energy-efficient channel allocation in satellite inter
49、net of thingsJ.IEEE Access,2020,8:62197-62206.02 500 5 000 7 500 10 000 12 500 15 000 17 500 20 00002505007501 0001 2501 5001 7502 000LossDAJPA-DRLDQN图19目标策略1下训练损失曲线对比表3性能对比功率分配方法传统干扰功率分配方法23基于DQN的功率控制算法19DAJPA-DRL算法平均消耗功率/kW0.80.480.46平均成功率198.3%99.7%节约功率占比040%42.5%效费比(干扰成功率/消耗功率)1.252.052.17010020
50、03004005000.940.950.960.970.980.991.00)DAJPA-DRLDQN图20目标策略1下测试成功率对比01002003004005000.400.420.440.460.480.500.52)kWDAJPA-DRLDQN图21目标策略1下测试平均功率对比1232第 5 期彭翔:一种基于深度强化学习的动态自适应干扰功率分配方法4 LEI W L,YE Y,XIAO M.Deep reinforcement learning-based spectrum allocation in integrated access and backhaul networksJ.I