基于DRL的抗干扰电视频谱资源分配算法_鲍家旺.pdf

资源描述

1、电视技术第 47 卷第 1 期(总第 566 期)43PARTS&DESIGN器件与设计文献引用格式：鲍家旺，丘航丁，徐浩东，等.基于 DRL 的抗干扰电视频谱资源分配算法 J.电视技术，2023，47（1）：43-47.BAO J W，QIU H D，XU H D，et al.DRL based anti-jamming algorithm for TV spectrum resource allocationJ.Video Engineering，2023，47（1）：43-47.中图分类号：TP311.1 文献标识码：A DOI：10.16280/j.videoe.2023.01.0

2、09基于 DRL 的抗干扰电视频谱资源分配算法鲍家旺，丘航丁，徐浩东，马驰（福州大学电气工程与自动化学院，福建福州 350108）摘要：将认知无线电与能量采集相结合，可以提高电视系统的频谱效率和能量效率。然而，由于无线信道的开放特性，频谱很容易受到恶意用户的干扰攻击，从而导致吞吐量下降。对此，将抗干扰频谱分配问题表述为没有任何先验知识的马尔可夫决策过程，然后提出一种基于深度确定性策略梯度（Deep Deterministic Policy Gradient，DDPG）的资源分配算法。在多种干扰环境下的仿真实验结果表明，该算法能够有效地减少恶意干扰带来的不利影响。关键词：能量采集；认知无线

3、电；深度强化学习；干扰攻击DRL Based Anti-Jamming Algorithm for TV Spectrum Resource AllocationBAO Jiawang,QIU Hangding,XU Haodong,MA Chi(Institute of Electrical and Automation Engineering,Fuzhou University,Fuzhou 350108,China)Abstract:Combining cognitive radio with energy acquisition can improve the spectrum eff

4、iciency and energy efficiency of TV system.However,due to the open nature of the wireless channel,the spectrum is vulnerable to interference attacks by malicious users,resulting in throughput degradation.In this paper,we first describe the anti-jamming spectrum allocation problem as a Markov decisio

5、n process without any prior knowledge.Then a resource allocation algorithm based on Deep Deterministic Policy Gradient(DDPG)is proposed.The results show that the algorithm can effectively reduce the adverse effects of malicious jammers through simulation in a variety of jamming environments.Keywords

6、:energy harvesting;cognitive radio;deep reinforcement learning;jamming attacks0 引言快速发展的物联网会产生巨量的数据，这增加了对频谱资源的需求，导致频谱资源稀缺的问题1。认知无线电（Cognitive Radio，CR）是解决这一问题的有效工具。电视的空白频段是第一个被考虑的频谱共享案例。大多数物联网设备通过无线通信技术进行互联，由电池供电。电池容量限制所造成的能量问题是制约物联网发展的另一问题。能量采集（Energy Harvesting，EH）技术可以从各种绿色能源（如光、热、风和射频源）中获取能量，延长了能

7、量限制网络的使用寿命2。许多研究考虑将 EH 和 CR技术与物联网结合起来，提出了能量采集认知物联网（EH-CIoT）。CR 网络由于其开放的特点，比其他无线电网络更容易受到安全威胁，受到的攻击包括主用户仿真攻击、学习攻击、窃听和干扰等。其中，干扰攻击被认为是最具有威胁性的攻击，它会导致系统吞吐量下降、网络瘫痪等。文献 3 提出了一种基于批处理的安全感知协议。最近，深度强化学习（Deep Reinforcement Learning，DRL）技术被认为可以帮助物联网在环境和干扰源之间存在连续交互的情况下实现最优的传输策略。文献 4 将双 DQN（Deep Q-Network）算法和跳频策略应用

8、于多用户环境下作者简介：鲍家旺（1997），男，硕士，研究方向为认知无线通信系统44电视技术第 47 卷第 1 期(总第 566 期)PARTS&DESIGN器件与设计的干扰攻击。然而，上述现有的工作以及对抗干扰策略的研究都只考虑了短视或离线模型。短视的政策只考虑即时奖励，而忽略了长期回报，这不是连续 CIoT 系统的最优策略。离线策略假设环境动态是已知的，但在发射机或控制器上是非因果关系的。在上述文献的基础上，本文将研究在干扰攻击下基于 DRL 的 EH-CIoT 传输算法，以最大限度地提高系统的长期吞吐量。1 系统模型本文考虑了 CR 的交织模式，即一种保护性的频谱共享方案。EH-CI

9、oT 系统模型如图 1 所示，主要由三部分组成：主用户网络（Primary User Network，PUN），由M个主用户（Primary Users，PUs）和 1 个基站（Base Station，BS）组成；认知物联网络（CIoTN）由 1 个代理基站（Agent Base Station，ABS）和N个 EH-C 节点组成；1 个恶意攻击节点（Malicious Attack Node，MAN）。PUN 覆盖了K个正交电视频谱信道，CIoTN 位于 PUN 的覆盖区域内，所有设备在同步的时隙模式下工作。假设 ABS 能获得完美的频谱感知，Ik(t)=0(busy),1(idl

10、e)表示 ABS 在t时隙感知到的第k个信道的状态，空闲通道数量为()()1KkkIK tIt=（1）BSOccupied channelsIdle channelsEH-CIoT nodesPU network CIoT network PrimaryUsersAttack nodeData transmissionRF Energy harvestingMalicious attackAgentBase station图 1 EH-CIoT 系统模型1.1 EH-C 节点的两种模式选择在 CIoTN 中，每个 EH-C 节点都有相同的配置，节点不能同时执行射频能量采集和信道接入。EH-C

11、节点在每个时隙t的开始将自身的电池水平状态集通过专用的控制信道发送到 ABS。ABS 在当前时隙t根据感知到的信息来确定所有 EH-C 节点的工作模式（采集模式或传输模式），分配所有EH-C 节点的传输功率并广播决策。PiC(t)表示第i个 EH-C 节点在第t个时隙的发射功率，设 EH-C节点最大发射功率为PCmax，即PiC(t)0,PCmax。因此，在第t个时隙，所有 EH-C 节点的功率分配策略集合表示为P(t)=P1C(t),P2C(t),PNC(t)。第i个 EH-C节点在第t个时隙的工作模式Mi(t)可以描述为()()()CCC0(harvesting mode),01 (tra

12、nsmission mode),0iiiPtMPtt=若若（2）因此，可用M(t)=M1C(t),M2C(t),MNC(t)表示t时隙所有 CIoT 的工作模式集合。信道增益集为G(t)=gib,gPi,gsi,gji。选择传输模式的节点数记为IC(t)。EH-C 节点的时隙如图 2 所示。其中T为时隙长度，为信息交换时隙长度。控制信息T-数据传输或能量采集信息交换阶段工作阶段图 2 EH-C 节点时隙1.2 能量采集和更新上述系统均有功率约束。主基站（Primary Base Station，PBS），MAN 和 ABS 由电网供电，EH-C节点由可充电电池供电。1.2.1 能量采集P

13、BS对每个PU的传输功率恒定为Pkp，k=1,2,K，电视技术第 47 卷第 1 期(总第 566 期)45PARTS&DESIGN器件与设计第t个时隙 PBS 的总传输功率为P ptotal(t)=(K-IK(t)Pkp（3）第i个 EH-C 节点在第t个时隙采集的能量Ei(t)为EiC(t)=(1-MiC(t)(T-)(P ptotal(t)gpi(t)+PiCJ(t)（4）()()()()()CJCJ1,Nissikjisj iPtPt gtPt gt=+（5）式中：表示能量转换率，PsC(t)表示与i不同的第s个 EH-C 节点的发射功率，PkJ(t)为干扰功率。第t个时间隙内所有

14、EH-C 节点总的采集能量集合记为E(t)=E1C(t),E2C(t),ENC(t)。1.2.2 电池更新第t个时隙中所有 EH-C 节点的电池状态集为B(t)=B1C(t),B2C(t),BNC(t)。电池容量标记为Bmax。第i个 EH-C 节点的电池状态从第t个时隙到第t+1个时隙的演变可以表示为BiC(t+1)=minBmax,BiC(t)+EiC(t)-(T-)MiC(t)PiC(t)-Fi(t)ef（6）()()()CC0,1,ifiifBteFBtet=若若（7）2 问题定式化本文考虑一种广泛使用的主动干扰攻击，它不知道设备的任何活动，只根据预定义的策略发射干扰脉冲，用策略GIk

15、(t),PkJ(t),PkJ(t)表示，其中Ik(t)，PkJ(t)，PkJ(t)分别为在时隙t与信道k的干扰间隔、干扰概率和干扰功率。本文考虑两种攻击方法：（1）随机干扰器，在每个时隙t以功率PkJ(t)随机选择干扰一个信道；（2）扫描干扰器，在一个时隙t内以概率PkJ(t)从K个信道中顺序干扰KN个信道。干扰器的最大发射功率为PJmax，ABS 接收到的第i个 EH-C 节点的信噪比（Signal to Interference plus Noise Ratio，SINR）可用以下公式计算：()()()()()()()()()()()()()()C,1 0,0C,1JPt gtikkibf

16、tft MtiiJnSINRtMtiiPt gtikkibftft MtiiJn Pt gtkji=+（8）式中：fik(t)fJk(t)表示 EH-C 节点接入的信道是否与攻击节点攻击的信道相同。PiC(t)和PkJ(t)分别表示第i个 EH-C 节点和恶意攻击节点的发射功率。n表示高斯白噪声，nN(0,2)。本文的主要目的是在恶意攻击的环境下最大化长期信道吞吐量。CIoTN 的瞬时和吞吐量为()()()()C1log 1NAtiiirWMtTSINR t=+（9）式中：rtA表示第t个时隙的瞬时和吞吐量，W表示频谱带宽。SINRi(t)表示第i个EH-C节点的信噪比。第t个时间段开始的未来

17、折扣长期吞吐量为()Av tAvv tRtr=（10）式中：01 表示折扣函数。利用干扰模型，将累积吞吐量最大化问题表述如下：()()()()()()()()()()()Cthresh1,()Co dClJmax 1,2,s.t.,AiiAytPtiifikkiiRtiNBtF t eTPtSINR tSINRftftIC tIK t=E（11）式中：E 表示期望的给定值。式（11）所列的条件保证 EH-C 节点用于传输的能量不超过可用的剩余能量，保证接收的信噪比不小于接收阈值SINRthreshold，保证接入信道数不大于可用信道数。3 基于 DRL 的传输优化算法3.1 基于 RL 的 E

18、H-CIoT 网络框架本文构建一个环境模型，用一个 MDP 来描述要解决的问题5，即MDP=(S,A,Psa,R,)，其中S表示状态空间，A表示动作空间，Psa为状态转移概率，R为即时奖励，是折扣因子。Agent 是系统模型中的 ABS。状态空间S：第t个时隙的状态空间定义为St=I(t),G(t),B(t)（12）式中：I(t)=I1(t),IK(t)表示信道状态集。动作空间A：第t个时间段的动作向量定义为：At=P(t)。ABS 以连续功率分配作为动作值。即时奖励R：在采取行动后，ABS 将获得即时奖励：R(St,At)=rtA（13）式中：rtA表示第t个时隙的瞬时和吞吐量。46电视技术

19、第 47 卷第 1 期(总第 566 期)PARTS&DESIGN器件与设计3.2 基于 DDPG 的资源分配算法深度确定性策略梯度（DDPG）算法由策略网络、价值网络和经验回放池三部分组成。网络由 4个深度神经网络组成，即在线批评网络Q，在线策略网络，目标批评网络Q和目标策略网络。更新网络参数时，从容量为C的经验回放池D中抽取NB份数据，第i份表示为(sx,ax,rx,sx+1)。让它们通过梯度上升/下降算法来训练网络参数。在线批评网络的损失函数为差值的均方误差：()()()2,QQxxxLyQ s a=E（14）目标值yx的计算方法如下：()()11,QxxxxyrQ ss+=+（15）

20、在线策略网络的损失函数为：()()(),QxxLQ ss=E（16）对于两个目标网络的更新，采用软更新方法：()()1soft update:1QQQ +（17）式中：(0,1 表示更新速率，具体步骤如算法 1所示。每一步动作都从期望为(St|)方差2的随机过程中选择，即AtN(St|),2)，其中是一个参数，用于减弱训练中动作的随机性。算法 1 干扰攻击下基于 DDPG 的资源分配算法初始化：初始化参数Q和；清空D；动作随机参数；EH-C 节点的电池水平。输入：CIoT 网络仿真参数，恶意攻击节点参数。步骤 1 for 迭代次数 episode=1，2，.，F do步骤 2 初始化环境状态s

21、0步骤 3 for 训练步数t=1，2，.，G do步骤 4 选择动作AtN(St|),2)步骤 5 获得R(St,At)和下一个状态St+1。步骤 6 将数据(St,At,Rt,St+1)保存至D步骤 7 if D已满，do步骤 8 采样NB个数据(sx,ax,rx,sx+1)步骤 9 最小化L(Q)更新在线批评网络步骤 10 最大化L()更新在线策略网络步骤 11 按式（17）软更新目标网络步骤 12 衰减动作的随机性：22步骤 13 end for步骤 14 end for输出：每个时隙的最佳动作At。4 实验仿真及结果分析4.1 模拟设置本文模拟了恶意攻击的多用户认知物联网模型。在 1

22、 km1 km 区域内，PBS 位于 500，500，ABS 位于 250，250。N=10，K=10，M=3，T=1 s，=0.2 s，PkP=0.2 W，PCmax=0.1 W，交换所消耗的能量ef=0.01 J，最大干扰功率PJmax=0.2 W，能量转换率=0.8。每个结果都在 Pytorch 1.7.1 工具上实现。本文与以下算法进行了比较：（1）随机算法，随机选择传输信道，并随机分配节点的功率；（2）贪婪算法，感知空闲信道，以允许的最大功率传输数据；（3）SAC 算法，连续控制的非策略 DRL 算法。DDPG 和 SAC 算法的在线和目标网络分别包含L1=256 和L2=256。激

23、活函数设置为 ReLU，并将优化器都设置为 Adam，学习率为 0.004 和 0.002。软更新速率为 0.005。迭代次数为 300，每次迭代的步数为 10 100。4.2 统计结果及分析首先比较了无干扰下的算法性能，结果如图 3（a）所示。DDPG 算法在 150 次迭代后趋于收敛。SAC 算法的收敛速度优于 DDPG 算法。当迭代数为 80 时，它趋于收敛。但 DDPG 比 SAC 获得了更高的平均吞吐量（30%）。这表明，与基于 SAC的算法相比，DDPG 算法更适合在 CIoT 环境中使用。图 3（b）和图 3（c）比较了四种算法在随机和扫描干扰两种主动干扰策略下的性能。与无干扰的

24、情况相比，DDPG 算法在随机干扰和扫描干扰下的性能仅降低了约 5%，而收敛后的 SAC 的性能降低了约 15%。这两种 RL 算法都明显优于传统的随机算法和贪婪算法。DDPG 算法的性能是随机算法的2.5 倍，是贪婪算法的 2 倍。这表明，该算法能够有效地学习主动干扰的固定策略，预测干扰，合理分配功率，从而减少干扰，提高吞吐量。图 4 显示了这些算法在三种干扰情况下的能量效率。每焦耳能量可以通过系统发送的比特量称为能量效率（bJ-1）。显然，在三种干扰条件下，DDPG 算法的能量效率最高，保证在 6 bJ-1左右。SAC 在干扰条件下的性能与随机算法相当，均在电视技术第 47 卷第 1

25、期(总第 566 期)47PARTS&DESIGN器件与设计3 bJ-1左右。贪心算法的性能最差，保持在 1 bJ-1。这说明了该 DDPG 算法对每个 EH-C 节点的功率分配的合理性。5 结语本文研究了恶意攻击环境下 CIoTN 的资源分配问题，目标是在抗干扰的同时使 EH-CIoTN 的长期吞吐量最大化。本文提出了一种基于 DDPG 的DRL 算法，它的目标是在与动态环境交互、不断学习攻击策略、智能调整传输策略的过程中获得最大的奖励。仿真结果表明，无论是随机干扰还是扫描干扰，DDPG算法都能更好地学习恶意节点的策略，系统性能明显优于其他算法。参考文献：1 HAYTHEM A，BANY

26、S，MUATH B，et al.Energy-efficient cross-layer spectrum sharing in CR green IoT networksJ.IEEE Transactions on Green Communications and Networking，2021，5（3）：1091-1100.2 MA D，LAN G，MAHBUB H，et al.Sensing，Computing，and communications for energy harvesting IoTs：a surveyJ.IEEE Communications Surveys&Tutor

27、ials，2020，22（2）：1222-1250.3 ATHAR A，MUBASHIR H，ABDERREZAK R.Cognitive radio based Internet of things：applications，architectures，spectrum related functionalities，and future research directionsJ.IEEE Wireless Communications，2017，24（3）：17-25.4 SHU Z，QIAN Y，CI S.On physical layer security for cognitive radio networksJ.IEEE Network，2013，27（3）：28-33.5 KAI A，MARC P D，MILES B，et al.Deep reinforcement learning：a brief surveyJ.IEEE Signal Processing Magazine，2017，34（6）：26-38.编辑：张玉聪（a）无攻击（b）随机攻击（c）扫描攻击图 3 三种攻击下的平均吞吐量（a）无攻击（b）随机攻击（c）扫描攻击图 4 三种攻击下的能量效率

展开阅读全文