面向多用户动态频谱接入的改进双深度Q网络方法研究.pdf

资源描述

1、doi:10.12052/gdutxb.220159面向多用户动态频谱接入的改进双深度Q网络方法研究何一汕，王永华，万频，王磊，伍文韬（广东工业大学自动化学院,广东广州510006）摘要:随着移动通信技术的飞速发展，有限的频谱利用资源与大量频谱通信需求之间的矛盾也日益加剧，需要新的智能方法来提高频谱利用率。本文提出了一种基于分布式优先经验池结合双深度Q网络的多用户动态频谱接入方法。通过该方法，次用户可以在动态变化的认知无线网络环境下根据自己感知信息来不断地学习，选择空闲信道完成频谱接入任务来提高频谱利用率。该方法采用分布式强化学习框架，将每个次用户视为一个智能体，各个智能体采用标准单智能体强化

2、学习方法进行学习以降低底层计算开销。另外，该方法在神经网络训练的基础上加入优先级采样，优化了神经网络的训练效率以帮助次用户选择出最优策略。仿真实验结果表明该方法能提高接入信道时的成功率、降低碰撞率和提升通信速率。关键词:动态频谱接入；分布式强化学习；优先经验池；深度强化学习中图分类号:TN929.5文献标志码:A文章编号:10077162(2023)04008509An Improved Double Deep Q Network for Multi-userDynamic Spectrum AccessHeYi-shan,WangYong-hua,WanPin,WangLei,WuWen-t

3、ao(SchoolofAutomation,GuangdongUniversityofTechnology,Guangzhou510006,China)Abstract:Withtherapiddevelopmentofmobilecommunicationtechnology,thecontradictionbetweenthelimitedspectrumutilizationresourcesandthedemandofalotofspectrumcommunicationisincreasinglyaggravated.Newintelligentmethodsareneededtoi

4、mprovetheutilizationrateofspectrum.Amulti-userdynamicspectrumaccessmethodbasedondistributedpriorityexperiencepoolanddoubledeepQnetworkisproposed.Thismethodcanhelpthesecondaryuserstocontinuouslylearnaccordingtotheirperceivedenvironmentinformationinthedynamicenvironment,andchoosetheidlechanneltocomple

5、tethespectrumaccesstaskforimprovingthespectrumutilizationrate.Inthismethod,adistributedreinforcementlearningframeworkisadopted,andeachsecondaryuserisregardedasanagent.Eachagentlearnsbyusingstandardsingle-agentreinforcementlearningmethodtoreducetheunderlyingcomputingoverhead.Inaddition,themethodaddsp

6、rioritysamplingonthebasisofneuralnetworktraining,andthenoptimizesthetrainingefficiencyofneuralnetworktohelpsub-userschoosetheoptimalstrategy.Thesimulationresultsshowthatthismethodcanimprovethesuccessrate,reducethecollisionrateandimprovethecommunicationrate.Key words:dynamicspectrumaccess;distributed

7、reinforcementlearning;prioritizedexperiencepool;deepreinforcementlearning近年来，随着无线设备和移动应用的不断普及，数据流量呈爆炸式增长，有效利用频谱资源是未来无线通信网络应对这种数据流量高速增长的关键。为了应对频谱通信资源短缺的问题，动态频谱接入第40卷第4期广东工业大学学报Vol.40No.42023年7月Journal of Guangdong University of TechnologyJuly2023收稿日期：2022-10-19基金项目：国家自然科学基金资助项目(61971147)作者简介：何一汕(1998

8、)，男，硕士研究生，主要研究方向为认知无线网络和深度强化学习通信作者：王永华(1979)，男，副教授，博士，主要研究方向为认知无线网络、机器学习，E-mail：(DynamicSpectrumAccess,DSA)技术可以发挥有效的作用。动态频谱接入模型主要分为3种：动态开放模型、开放共享模型和分层接入模型1。3种模型之中分层接入模型与现有频谱接入方式兼容性较好，其侧重点在于将频谱资源划分给主用户(PrimaryUser,PU)与次用户(SecondaryUser,SU)，主用户在进行频谱通信时候拥有优先权。在分层接入模型之中的覆盖式模式即机会式频谱接入，可以帮助次用户在感知频谱空穴之后接入空

9、闲频谱，这样可以有效地降低频谱资源短缺带来的压力。DSA技术作为频谱共享、提高频谱利用率的关键技术之一，近年来备受关注。研究人员已经为提升频谱效率提出了不少解决办法。文献2-4介绍了基于图论和博弈论方法来解决频谱分配问题，但是这类方法需要所有用户提前知道所处环境的频谱信道状态信息，而大多时候次用户是无法获取系统的完整信息的，只能基于部分感知信息选择信道。不过强化学习中基于无模型策略的学习方法，可以在不需要系统环境的先验知识基础上，通过智能体与环境不断交互学习使得智能体找到最优策略，比如文献5-6将Q学习方法运用到物联网通信中，但Q学习方法收敛缓慢且不能处理高维度的状态和动作空间，为此研究人员通

10、过结合了深度学习与Q学习的深度Q学习方法来满足对于认知无线环境的自适应管理7-8。目前深度Q学习在频谱接入技术研究中已经取得了一些进展。例如：文献9提出了一种基于深度Q学习的频谱分配方法，以支持D2D用户无线接入网络的子信道分配和模式选择。文献10也提出了基于深度Q学习的频谱分配方法，帮助次用户在多个微信蜂窝基站中进行关联和资源分配。虽然文献9-10中深度Q学习方法一定程度上克服了Q学习方法所带来的缺点，但是该类方法主要使用了集中式的深度强化学习算法来帮助次用户进行频谱分配，并没有考虑到随着次用户数量增加、动作空间变大的情况带来的“维数灾难”问题11-12。并且这类方法在训练神经网络过程中对于

11、数据的采集方式为传统的均匀采样，没有充分利用数据池中比较“有效”的数据以帮助智能体进行更高效的学习。因此本文提出了一种基于分布式优先经验池结合双深度Q网络(DistributedPriorityExperiencePoolandDoubleDeepQNetwork,DPEP-DDQN)的多用户动态频谱接入方法，用来帮助次用户根据自己的通信需求和所处环境信息来进行信道选择。其贡献如下。(1)为了解决动作空间增大带来的维数灾难问题，采用了分布式强化学习框架，将每个次用户视为一个智能体来对动态频谱接入进行建模分析。(2)为了使神经网络模型可以更充分利用有效数据来进行训练，采用优先经验回放算法对神经网

12、络中的训练样本进行优化，加快收敛速度。1 系统模型M=m1,m2,mJJN=n1,n2,nLLJ如图1所示，假设一个微小区的环境中随机分布若干主用户和次用户。主用户集合为一个主用户由一个主用户发射机和主用户接收机组成，为主用户总数。次用户集合为，其中一个次用户由一个次用户发射机和次用户接收机组成，为次用户总数。假设存在条信道正交授权可以均匀分配给各个主用户正常数据通信，主用户通信时不需要考虑其余次用户是否存在，只需根据自身传输需求进行传输即可。次用户在进行频谱接入的时候不可以打扰到主用户的正常通信，即主用户在该条信道进行数据通信时次用户不可以接入，只有当主用户不使用该频谱信道的情况下次用户才

13、可以通过机会式接入主用户的授权信道进行通信。此外，若主用户所在信道发生碰撞，主用户会将信道碰撞的相关警告信息广播给次用户以对自身保护。因此次用户需要根据自身感知情况所获得的信息，通过自身学习来选择信道。主用户次用户干扰链路通信链路次用户接收机次用户接收机次用户接收机次用户发射机次用户发射机次用户发射机主用户接收机主用户发射机图1认知网络环境Fig.1Cognitivenetworkenvironment 1.1 信道状态模型次用户要想成功接入信道，需要感知想选择信86广东工业大学学报第40卷j道的状态。每条信道可能处于两种状态：空闲状态(1)或者活跃状态(0)。若信道处于活跃状态，表明有主用户

14、在使用这条信道，次用户在此期间不能接入该条信道，否则该时间段主用户没有使用这条信道，这时候次用户可以采用机会式接入该条信道进行通信。第条信道的活动状态可被描述为马尔科夫链，如图2所示，其状态转移概率可表示为j=j00j01j10j11(1)jab=Pr下一状态b|当前状态a,(a,b 0,1)式中：。0(活跃)1(空闲)01100011图2信道状态的马尔可夫链Fig.2Markovchainofchannelstates 1.2 传输速率模型涉及到的系统模型参数如表1所示。表1系统模型参数Table1Systemmodelparameters符号含义J主用户总数L次用户总数pjj/mWjj第

15、条信道上主用户的传输功率plj/mWjl第条信道上次用户的传输功率pkj/mWjk第条信道上次用户的传输功率|hll|2ll次用户信号发射机与信号接收机之间的信道增益|hjl|2jl主用户信号发射机与次用户信号接收机之间的信道增益|hkl|2kl次用户信号发射机与次用户信号接收机之间的信道增益B/MHz信道带宽/(mWHz1)噪声频谱密度fc无线信道的载波频率Z参考距离处的路径损耗Z路径损耗AW路径损耗指数BW路径损耗频率相关性视线路径和散射路径的接收机信号功率之间的比率lj/dBlj第个次用户选择信道后信干噪比Tl/Mbpsl第个次用户的理论传输速率JL从图1可

16、知个主用户和个次用户在一个微小区的二维的空间中随机分布，且在知道发射机和接收机位置距离的情况下，可以通过统计信息的方法来建立信道模型13，即在已知传播距离的情况下，根据不同场景的概率分布，通过WINNERII模型14来定义其中的路径损耗：Z(d,fc)=Z+AWlgd+BWlg(fc/5)(2)Z(dll,fc)Z(djl,fc)Z(dkl,fc)dlldjldklljlkl因此可以获得期望信号的路径损耗，以及干扰信号的路径损耗和，其中、分别为第个次用户发射机与接收机之间的通信链路距离，第个主用户发射机对第个次用户接收机的干扰链路距离和第个次用户发射机对第个次用户接收机的干扰链路

17、距离。假设发射机和接收机之间存在强视线路径(LineofSight,LoS)，则可采用Rician信道模型推导信道增益，可表示为h=+1ej+1+1CN(0,2)(3)2=10(Z+Awlgd+Bwlg(fc/5)/10(4)2 U(0,1)CN()式中：取决于路径损耗，为视线路径和散射路径的接收机信号功率之间的比率。为强视线路径上到达信号的相位，取值于0和1之间的均匀分布。表示一个圆对称的复高斯随机变量。lj因此，第个次用户选择信道后接收机收到信号的信干噪比(SignaltoInterferenceplusNoiseRatio,SINR)可表示为lj=plj|hll|2pjj|hjl|2

18、+Lk=1,k,lpkj|hkl|2+B(5)l根据香农定理，第个次用户的理论传输速率为Tl=Blb(1+lj)(6)B式中：为信道的带宽。本文研究目的是最大化所有次用户的总传输速率，故研究问题的优化目标可简化为maxLl=1Tl(7)2 基于强化学习的频谱接入建模sarsar强化学习是一种通过让智能体与环境不断交互进行学习的方法15，深度强化学习是在强化学习的基础上引入深度学习，使得强化学习拥有强大的算力，从而帮助智能体适应动态环境进行自行学习。如图3所示，强化学习主要有5大要素：环境、智能体、状态、动作和奖励。智能体想要得到的策略是由环境给出的状态和智能体所做出的动作以及得到的奖励

19、所决定的，而强化学习的目的就在于通第4期何一汕，等：面向多用户动态频谱接入的改进双深度Q网络方法研究87(s)(s)过对环境进行有限的交互次数找到最优策略，最大化奖励值，其中可表示为(s)=argmaxaQ(s,a)(8)Q式中：为值函数。奖励 r状态 s动作 a智能体频谱环境图3智能体与环境交互模型Fig.3Agentandenvironmentinteractionmodel本文研究的动态频谱接入过程的本质是一个马尔可夫决策过程，可以利用强化学习来帮助解决。次用户机会式访问决策过程如图4所示，次用户接入策略是由双深度Q网络和当前频谱感知结果共同决定的。次用户根据自身频谱接入策略接入无线信

20、道进行数据传输，然后次用户接收机根据实际无线传输质量得到反馈奖励，反馈奖励由次用户发射机存储，并作为双深度Q网络的训练数据用来更新频谱接入策略。双深度 Q 网络奖励反馈频谱接入频谱感知图4动态频谱接入过程Fig.4Dynamicspectrumaccessprocess 2.1 状态集合t在每个时刻开始时，信道状态感知结果可作为状态值，则在时刻状态集合可以表示为S(t)=S1(t),Sl(t),SL(t)(9)Sl(t)lJs1l(t),sjl(t),sJl(t)Tsjl(t)0,1sjl(t)=0ljsjl(t)=1ljsjl(t)式中：为个次用户所感知到的信道状态，是一个维向量，并且，

21、表示第个次用户感知到第条信道处于活跃状态；反之表示第个次用户感知到第条信道处于空闲状态，次用户可以选择机会式接入该信道。并且考虑到次用户在进行频谱感知的时候可能会存在一定的误差，因此给的感知结果加上一Ejllj定错误的概率，故假设第个次用户在第个信道的真实情况为PTjl(t)=sjl(t)=1Ejl(10)2.2 动作集合t在次用户感知完信道状态后，次用户可以基于感知结果进行信道访问，但是每个次用户最多访问一个信道，其中次用户时刻访问的动作集合表示为A(t)=A1(t),Al(t),AL(t)(11)Al(t)0,j,J,Al(t)=jljAl(t)=0l式中：为个次用户选择了

22、第个信道，若，则第个次用户没有选择任何信道。2.3 奖励函数ltj次用户在时刻根据信道状态做出信道选择后，为了实现传输速率最大化，可以将奖励函数按照如下方法建立，如式(12)所示。Rl(t)=2，与主用户发生碰撞0，不做任何选择Blb(1+lj)，否则(12)Blb(1+lj)(1)次用户访问信道时没有主用户正在使用，并且只有一个次用户接入信道，可以用理论传输速率当作奖励，并且记成功接入一次。(2)次用户访问信道时主用户正在使用，与主用户发生碰撞，给予2作为惩罚，并记碰撞一次。Blb(1+lj)(3)次用户访问信道时没有主用户正在使用，但同时有多个次用户访问相同信道，给予作为奖励，记

23、碰撞一次。(4)次用户决定不访问任何信道，不给予奖励，成功次数和碰撞均不记。3 DPEP-DDQN算法描述本文提出的DPEP-DDQN算法，是在进行强化学习建模的基础上结合了分布式独立Q学习、优先经验回放算法和双深度Q网络的方法形成的。3.1 分布式独立Q学习为了减少集中式训练所带来的底层开销，本文在进行强化学习建模的基础上加入分布式独立Q学习方法。在此方法中，每个智能体都是独立学习的主体，它们将其他智能体视为环境的一部分，并认为联合状态可观测，采用标准单智能体强化学习方法进行学习16。如图5所示，在与环境互动的过程中，每个智能体可以只需要考虑自己的状态对环境做出回馈，而不需考虑其余智能体的动

24、作选择，故这种情况88广东工业大学学报第40卷更贴近于认知无线网络环境中次用户不会在选择信道之前进行相互协商的情况。其中分布式独立Q学习方法的主要目标可简化为在满足次用户不对主用=1+2+l+Lll户造成干扰的情况下，提高所有次用户的传输速率。故需要系统找到最优策略，其中为第个次用户信道选择的最优策略。智能体 1智能体 2智能体 L经验池神经网络0活跃1空闲环境P01P01P00P11Q(s,a)Q(s,a)Q(s,a)奖励感知认知无线网络环境0,1,0,0经验池神经网络奖励感知经验池神经网络奖励感知图5分布式独立Q学习Fig.5DistributedindependentQlearning

25、 3.2 双深度Q网络在准备分布式训练框架之后，神经网络将采用双深度Q网络(DoubleDeepQNetwork,DoubleDQN)，该神经网络属于深度Q网络(DeepQNetwork,DQN)的一种变体，相对于DQN其特点就是使用2次Q学习来寻找最优动作，通过解耦目标Q值动作的选择和目标Q值的计算，达到消除过度估计的目的17。神经网络结构图如图6所示。经验池数据采样下一步状态 s当前状态 s损失函数Qtarget(s,a*)a*=argmaxaQ(s,a)Q(s,a)估计网络目标网络图6神经网络结构图Fig.6Neuralnetworkstructurediagram 3.3 优先经验回放

26、为了提升神经网络训练效率，本文采用了优先经验回放算法。在传统DQN算法中，为了打破样本之间的关联，通常的做法是在经验池中随机抽取样本训练进而更新参数来构建神经网络，但是这常常会出现奖励稀疏的情况，例如智能体需要进行很多步探索才得到奖励，使得经验池中能让智能体学习的有效经验十分缺少，这个时候如果仍然采取随机抽取经验池样本的方式会使得效率降低。因此，本文将采取一种二叉树的结构来对数据进行存储，该数据存储结构在一定程度上可以在数据采样的时候节省时间，而且可以定义出便于神经网络训练的采样规则，比如可以对样本设置不同的优先级。l如图7所示，本文将采用一种基于SumTree即累计求和的二叉树来作为经验池储

27、存结构。SumTree中每个底层的叶子节点存储样本数据以及对应的优先级，中继节点和根节点不储存样本数据而储存下级节点的优先级之和。叶子节点中存储的数据值区间的数值越大意味着优先级越高，能够存储的数字区间越长。在保证优先级采样的情况下也需要保障最低优先级非零概率采样，故设定次用户选择采样概率计算方法为Hl(x)=hl(x)yhl(y)(13)hl(x)hl(y)xy=0hl(x)式中：和为样本和样本的优先级，为优先级指数，时为均匀采样。的计算方法为hl(x)=|l(x)|+(14)第4期何一汕，等：面向多用户动态频谱接入的改进双深度Q网络方法研究89l(x)=Rl(x)Q(Sl(x1),A

28、l(x1)+Qtarget(Sl(x),argmaxaQ(Sl(x),Al(x)(15)l(x)xQQtargetRl(x)xHl(x)式中：为样本的时序差分(TemporalDifference，TD)误差，和分别为估计网络和目标网络输出的Q值，为样本的奖励。为一个非常小的正数，其目的是为了保证采样概率大于0。103792719936126621400,23,9 10,11 12,18 19,21 22,27 28,3334,39叶子节点中继节点根节点图7SumTree结构图Fig.7SumTreestructure但是该采样机制可能会带来偏差，为了使系统更加稳定，故设定样本重要权重来纠

29、正偏差：wl(x)=1Ol1Hl(x)(16)wl(x)lOll=1Hl(x)式中：为次用户的标识权重系数，为次用户的经验池大小，为标识非均匀补偿系数，当时就完全补偿了。3.4 DPEP-DDQN算法流程算法算法1DPEP-DDQN算法伪代码1.初始化：主次用户的发射机与接收机位置，各次用户神经网络和经验池的超参数2.For次用户l=1toLdolSl(0)3.次用户感知频谱环境，初始化状态和选择动作Al(0)4.For训练步数t=1toTdol1Al(t)=argmaxaQ(Sl(t),Al(t)Al(t)5.次用户以贪婪算法选择动作，概率选择动作，否则随机选择动作Rl(t)Sl(t+

30、1)6.获取环境反馈即时奖励和下一时刻状态(Sl(t),Al(t),Rl(t),Sl(t+1)Dl7.将样本数据存入到经验池并赋予优先级Sl(t)Sl(t+1)8.状态迭代=9.IFt到达训练点then10.Forx=1toydoDlx Hl(x)=hl(x)yhl(y)11.从经验池从中抽取样本并遵循的规律12.计算采样权重：wl(x)=1Ol1Hl(x)maxywl(y)13.计算TD误差：l(x)=Rl(x)+Qtarget(Sl(x),argmaxaQ(Sl(x),Al(x)Q(Sl(x1),Al(x1)hl(x)=|l(x)|14.更新样本优级：l=l+wl(x)l(x)Q(Sl(x

31、1)Al(x1)15.累计权重变化：,)16.EndForl=l+lll=017.更新神经网络权重，重置权重差值bl=l18.更新目标网络参数19.EndIF20.每隔一定步数随机更新环境的参数21.EndFor22.EndFor 4 实验环境介绍fc=2.4 GHzZ=41AW=22.7 BW=20=8 2B=1 MHz本节中将设置系统模型的仿真参数。参考文献14中关于城市微小区场景中的WINNERII模型，假设超参数，由路径损耗所决定。其中次用户接收机所接收到的SINR由式(5)给出，其中信道带宽，次用户的传输功率设置为50mW，主用户的传输功率设置为65mW。110010=11101=1

32、0011000011如动态频谱接入模型即信道状态模型(见图2)，将主用户的状态分割成2个独立的马尔科夫链：主用户不在使用(1)和主用户已经在使用(0)。为了初始化每个马尔科夫链，分别从0.7,1，0,0.3区间上的均匀分布中随机选取和，那么，就可以计算得出。之所以选择这2个区间范围的原因是和大多数授权频段的利用率偏低，所以的值是偏低的，并且的值偏高。lGj(ttj为了更好地实验演示，本次仿真还加入了myopic方法作为参考方法进行对比。在myopic方法中，智能体将选择最大的即时奖励。为了计算预期的即时回报，myopic方法需要信道的转移概率和感知错误概率的信息。在myopic中，第个次用户

33、首先计算信道状态概率，其中)=Pr在时刻第个信道状态=1，其表达式为Gj(t)=sjl(t)(1Ejl)+(1sjl(t)Ejl(17)sjl(t)ljEjlljj式中：为第个次用户于第个信道的感应结果，为第个次用户于第个信道感知错误的概率，假设其为0.2。因此myopic方法可以计算第个信道的奖励函数为Rj(t)=Gj(t)j10(2)+j11Blb(1+lj)+(1Gj(t)j00(2)+j01Blb(1+lj)(18)90广东工业大学学报第40卷 5 实验仿真与分析本节将对所提方案进行仿真实验和性能评估，实验将以myopic方法为参考基准，此外，需要注意的是，每个主用户都拥

34、有自己的信道，并且假设所有主用户不会同时使用信道。实验使用python语言编写，以Tensorflow进行建模，构建如图6所示的神经网络结构。构建的神经网络有2个隐藏层，每个隐藏层中的神经元数目都是64，激活函数都是tanh函数。训练总次数是378000，记忆库D的容量O为5400。5.1 位置分布图8描述了在假设的一个半径为100m的圆形二维空间中，9个主用户和8个次用户随机位置的分布，其中主用户发射机、接收机随机分布，次用户接收机与发射机之间的距离在2050m之间随机选择。200175150y/m125100755025002550主用户发射机主用户接收机次用户发射机次用户接收机75100

35、 x/m125150175200图8位置分布图(9个主用户与8个次用户)Fig.8Locationdistributionmap(9PUand8SU)5.2 平均成功率图9描述了在378000次迭代中，次用户在进行频谱接入时的平均成功率，每隔27000次进行一次平均统计。从图中比较算法可以得出：当存在感知错误可能性时，作为参考的Myopic表现得不太好。虽然Myopic算法将信道的转移概率和感知误差概率视为已知信息，但是该算法完全不考虑未来奖励，故成功率一直维持在较低水平。Q-learning需要密集的Q表更新，故其在面对传输数据较大时，环境反馈的复杂性提高，智能体难以理解环境，从而达不到好的

36、效果，其成功率也仅在0.41左右波动。相比较于加入神经网络进行训练的深度Q学习算法，在神经网络的优化下，深度Q学习算法可以取得一个很好的学习结果，其中按照性能升序排序依次是：DQN，DoubleDQN，DPEP-DDQN。DQN算法由于本身的神经网络学习效果差，使得接入成功功率只能提升到0.58左右。当训练网络更换成DoubleDQN后，每个智能体变成使用2次Q学习来寻找最优动作，这使得智能体可以更好地学习，使得成功率可以达到0.85左右。虽然DPEP-DDQN与DoubleDQN在收敛的时候达到了相似的成功率，但是加上了优先经验回放的DPEP-DDQN算法的收敛速度会比普通DoubleDQN

37、快。1.00.80.6平均成功率0.40.2005101520训练步数/(104 次)25303540MyopicQ-learningDQNDouble DQNDPEP-DDQN图9平均成功率(9个主用户与8个次用户)Fig.9Averagesuccessrate(9PUand8SU)5.3 平均碰撞率图10描述了次用户在进行信道争夺时产生的平均碰撞率。对比图9可以发现虽然用户可以选择不接入信道，但是在以传输速率为期望回报的情况下，次用户都会努力尝试接入信道，故成功率和碰撞率总和接近1。从图中可知Myopic算法和Q-learning算法都表现得不太好，信道的碰撞率较高，这种情况下会造成整个认

38、知无线网络环境通信的干扰加深，影响整个网络的传输速率。相比之下DPEP-DDQN和DoubleDQN算法虽然存在差异但是最终都可达到一个较低的碰撞率，尤其是DPEP-DDQN算法，不仅最终收敛的碰撞率维持最小，而且最终曲线收敛最快。1.00.80.6平均碰撞率0.40.2005101520训练步数/(104 次)MyopicQ-learningDQNDouble DQNDPEP-DDQN25303540图10平均碰撞率(9个主用户与8个次用户)Fig.10Averagecollisionrate(9PUand8SU)第4期何一汕，等：面向多用户动态频谱接入的改进双深度Q网络方法研究91 5.4

39、平均奖励图11描述了次用户在进行信道争夺时产生的平均奖励值，即信道通信的理论传输速率。在参数相同的模拟环境下DPEP-DDQN可以以最快的速度达到最大奖励。这是因为加入了SumTree累计求和的二叉树作为经验池储存结构之后，智能体就不会像传统模型那样进行随机采样，而是对数据加入相应的优先级，这使得神经网络训练时能够更加有效地采集样本，不仅可以优化数据库的容量，而且可以更好地保证整个网络的传输速率。平均奖励/Mbps876543210MyopicQ-learningDQNDouble DQNDPEP-DDQN05101520训练步数/(104 次)25303540图11平均奖励(9个主用户与8

40、个次用户)Fig.11Averagereward(9PUand8SU)5.5 不同次用户数目下的最终平均奖励图12描述了在存在9个主用户的情况下，次用户的数目分别从1增加到8时次用户最终收敛时的平均奖励。可以看出，在这5种算法中最终平均奖励都随着次用户数目的增加而呈现减少趋势。这是因为随着次用户数目的增加，通信资源逐渐短缺，可以使用的信道数目也会逐渐减少，因此理论传输速率就会随之下降。不难看出，在通信资源充足的情况下，各类算法最终都可以达到较好的奖励值，可是随着频谱资源的逐渐减少，各类算法之间的差距也开始渐渐增加。由此可以看出本文提出的DPEP-DDQN算法在面临通信资源减少的时候仍然可以保持

41、一个较好的传输速率。6 结论为了解决认知无线网络中多个次用户需要快速且准确接入频谱信道的问题，本文提出了一种基于分布式优先经验池结合双深度Q网络的多用户动态频谱接入方法，用来帮助次用户在不完美感知频谱环境的情况下，机会式地做出适当的频谱访问决策。实验结果表明，该方法不仅可以保证最高的接入成功率和传输速率，并且在次用户数目不增加的情况下，该算法的最大化理论传输速率和收敛速度仍然可以保持良好水平。不仅可以帮助认知无线网络降低干扰，还有效地提高了整个网络的传输速率。参考文献：SUH,ZHANGX.Cross-layerbasedopportunisticMACprotocolsforQoSprovi

42、sioningsoverCognitiveradiowire-lessnetworksJ.IEEEJournalonSelectedAreasinCom-munications,2008,26(1):118-129.1WANGJ,HUANGY,JIANGH.Improvedalgorithmofspectrumallocationbasedongraphcoloringmodelincog-nitiveradioC/2009WRIInternationalConferenceonCommunicationsandMobileComputing.Kunming:IEEE,2009:353-357

43、.2GAOL,DUANL,HUANGJ.Two-sidedmatchingbasedcooperativespectrumsharingJ.IEEETransactionsonMo-bileComputing,2017,16(2):538-551.3刘新浩,马昕睿,王大为.基于图论模型的认知无线电频谱分配仿真建模研究J.电脑与电信,2021(3):16-20.LIUXH,MAXR,WANGDW.SimulationmodelingofcognitiveradiospectrumallocationbasedongraphtheorymodelJ.Computer&Telecommunicati

44、on,2021(3):16-20.4LIUX,SUNC,ZHOUM,et al.ReinforcementlearningbaseddynamicspectrumaccessincognitiveinternetofvehiclesJ.ChinaCommunications,2021,18(7):58-68.5郑思远,崔苗,张广驰.基于强化学习的无人机安全通信轨迹在线优化策略J.广东工业大学报,2021,38(4):59-64.ZHENGSY,CUIM,ZHANGGC.Reinforcementlearn-ing-basedonlinetrajectoryoptimizationforsecu

45、reUAVcommunicationsJ.JournalofGuangdongUniversityofTechnology,2021,38(4):59-64.6XUF,YANGF,BAOS,et al.DQNinspiredjointcomput-ingandcachingresourceallocationapproachforsoftwaredefinedinformation-centricInternetofThingsnetworkJ.IEEEAccess,2019,7:61987-61996.7CHENY,LIY,XUD,et al.DQN-basedpowercontrolfor

46、8最终平均奖励/Mbps876543210MyopicQ-learningDQNDouble DQNDPEP-DDQN12345次用户数目/个678图12不同次用户数目下的最终平均奖励Fig.12ThefinalaveragerewardfordifferentnumberofSU92广东工业大学学报第40卷IoTtransmissionagainstjammingC/2018IEEE87thVehicularTechnologyConference(VTCSpring).Portugal:IEEE,2018:1-5.SUNY,PENGM,POORHV.Adistributedapproach

47、toimprovingspectralefficiencyinuplinkdevice-to-device-en-abledcloudradioaccessnetworksJ.IEEETransactionsonCommunications,2018,66(12):6511-6526.9KAICH,MENGXW,MEILS,et al.Deepreinforcementlearningbaseduserassociationandresourceallocationford2d-enabledwirelessnetworksC/2021IEEE/CICInterna-tionalConfere

48、nceonCommunicationsinChina(ICCC).Xiamen:IEEE,2021:1172-1177.10ASMUTHJ,LIL,LITTMANML,et al.AbayesiansamplingapproachtoexplorationinreinforcementlearningJ.EprintArxiv,2009,58(7):1805-1810.11ZHANGRB,ZHONGY,GUGC.Anewacceleratingal-gorithmformulti-agentreinforcementlearningJ.Journal12ofHarbinInstituteofT

49、echnology,2005,12(1):48-51.VIRIYASITAVATW,BOBANM,TSAIHM,et al.Vehicularcommunications:surveyandchallengesofchan-nelandpropagationmodelsJ.IEEEVehicularTechno-logyMagazine,2015,10(2):55-66.13MEINILJ,KYSTIP,JMST,et al.WINNERIIchannelmodelsM.NewJersey:JohnWiley&Sons,Ltd,2009.14SUTTONRS,BARTOAG.Reinforce

50、mentlearning:anin-troductionM.Cambridge:MITPress,2018.15傅波.基于交替跟踪的分布式多智能体合作学习算法研究D.长沙:中南大学,2014.16郭瑝清,陈锋.干线动态协调控制的深度Q网络方法J.信息技术与网络安全,2020,39(6):1-6.GUOHQ,CHENF.AdeepQnetworkmethodfordynam-icarterialcoordinatedcontrolJ.CyberSecurityandDataGovernance,2020,39(6):1-6.17（责任编辑：杨耀辉）(上接第66页)吴凯,杨新志.浅述人工智能的深度

展开阅读全文