收藏 分销(赏)

NOMA-VLC系统中最大化总和速率功率分配方法.pdf

上传人:自信****多点 文档编号:885659 上传时间:2024-04-02 格式:PDF 页数:8 大小:3.84MB
下载 相关 举报
NOMA-VLC系统中最大化总和速率功率分配方法.pdf_第1页
第1页 / 共8页
NOMA-VLC系统中最大化总和速率功率分配方法.pdf_第2页
第2页 / 共8页
NOMA-VLC系统中最大化总和速率功率分配方法.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、信息技术XINXIJISHU2023年第9 期NOMA-VLC系统中最大化总和速率功率分配方法王祯旺?,汤璇,魏宪”,郑建漳”,李致锋”,谢宇芳”3(1.福州大学电气工程与自动化学院,福州350 10 8;2.中国科学院福建物质结构研究所,泉州装备制造研究中心,福建泉州36 2 0 0 0;3.福建省光电信息科技创新实验室,福州350 10 8)摘要:非正交多址接入(Non-Orthogonal Multiple Access,NOMA)被认为是提高无线通信系统频谱效率的一种很有前途的技术。文中将NOMA技术应用于可见光通信(Visible Light Communication,VLC)中,

2、提出了一种基于深度Q网络(DeepQ Network,DQN)强化学习算法的功率分配方案来解决可见光通信系统最大化总和速率优化问题,该方案充分考虑了用户的信道条件,能够提升系统总和速率,可为VLC系统的功率分配问题提供新的思路。仿真结果表明,所提算法比Q学习功率分配算法、增益比功率分配算法、随机功率分配算法拥有更高的总和速率,在用户数小于11的范围内,总和速率平均分别提升了6.2 8%、12.2 0%、51.36%。关键词:非正交多址;功率分配;强化学习;深度Q网络中图分类号:TN256D0I:10.13274/ki.hdzj.2023.09.004A maximum summation-ra

3、te power allocation method in NOMA-VLC systemWAN Zhenwang,TAN Xuan,EI ar,HEN Jjan-hangn,L hi-feng,IE Yu-ang.2,3(1.College of Electrical Engineering and Automation,Fuzhou University,Fuzhou 350108,China;2.QuanzhouInstitute of Equipment Manufacturing,Fujian Institute of Research on the Structure of Mat

4、ter,Chinese A-cademy of Sciences,Quanzhou 362000,Fujian Province,China;3.Fujian Science&Technology Innova-tion Laboratory for Optoelectronic Information of China,Fuzhou 350108,China)Abstract:Non-Orthogonal Multiple Access(NOMA)is considered as a promising technology to improvethe spectrum efficiency

5、 of wireless communication systems.This paper applies NOMA technology to VisibleLight Communication(VLC),and proposes a power allocation scheme based on Deep Q Network(DQN)reinforcement learning algorithm to solve the problem of maximum summation-rate optimization of visiblelight communication syste

6、m,which fully considers the channel conditions of users,can improve system per-formance and provide a new idea for power allocation of VLC system.The simulation results show that theproposed algorithm has a higher summation rate than Q learning power allocation algorithm,gain ratio powerallocation a

7、lgorithm,and random power allocation algorithm,in the range of users less than 11,and thesummation rate of the proposed algorithm is increased by 6.28%,12.20%,51.36%,respectively.Key words:Non-Orthogonal Multiple Access;power allocation;reinforcement learning;Deep Q Network文献标识码:A文章编号:10 0 9-2 552(2

8、 0 2 3)0 9-0 0 19-0 7基金项目:福建省中科院STS计划配套项目(2 0 2 0 T3026);泉州市科技计划产学研项目(2 0 2 0 C069);泉州科技计划高新工业项目(2 0 2 0 G 18);中国福建光电信息科学与技术创新实验室主任基金项目(2 0 2 1ZR136)作者简介:王祯旺(19 9 6),男,硕士研究生,研究方向为可见光通信。*通讯作者:汤璇(19 8 4),女,博士,研究员,研究方向为近地面高速红外光通信、室内可见光通信定位与导航等。一19 一NOMA-VLC系统中最大化总和速率功率分配方法-0引 言可见光通信与传统的射频通信相比具有诸多优势,例如频

9、谱无需授权、无电磁干扰、高保密性等,因而引起了学术界和工业界的越来越多的关注。然而,目前商用LED的调制带宽较窄,极大地限制了系统的接人容量和传输速率。针对这一问题,NOMA由于其优越的频谱效率在VLC 中得到应用 2 。NOMA的基本思想是多个用户通过功率复用使用相同的时频资源,从而提升接人容量,系统为每个用户分配不同的功率会有不同的传输速率,所以功率分配是基于NOMA 的VLC系统的重要问题之一。在文献 2 中,提出了一种与信道相关的增益比功率分配算法(GainRatioPowerAllocation,G R P A),与传统的静态功率分配相比,GRPA能够最大化用户的总和速率。在GRPA

10、的基础上,文献 3 通过查表的方式获得信道状态信息,降低了功率分配方案的复杂性。文献 4 通过利用变量变换、辅助变量和泰勒级数,用凸问题逼近非凸问题,提出了一种功率分配算法,该算法比改进的GRPA算法具有更高的总和一王祯旺等速率。目前,强化学习作为一种解决复杂无线环境资源分配问题的工具,在无线通信中得到应用 5。文献 6 提出基于Q学习的功率分配方法(Q Le a r n i n g,Q L),进一步提高了设备到设备通信系统的吞吐量。在文献7 中,使用基于分布式Q学习的功率分配算法应用于异构网络中,降低了系统的功耗。Q学习算法查找和存储数据都需要消耗大量的时间和空间,为了改进算法性能,本文将基

11、于DQN的强化学习算法应用于NOMA-VLC系统的功率分配,充分考虑到用户的信道条件,来提高通信系统的性能。1系统模型采用NOMA技术的室内VLC通信场景如图1(a)所示。该房间被建模为尺寸553米的室内空间,使用单LED光源位于天花板上,控制中心负责控制LED的发射信号,并且有K(1Kdrov的发射信号在功率域中叠加,加入直流偏置Ipc后,调制的电信号x可以表示为:KX=Z/Ps+Inc其中,P.为分配给用户k的功率,满足D(P 为LED的发射总功率),Sh为第k个用户所要(4)发送的信息。第k个用户的传输速率R,可表示为 9 :k+IjKk=K息,根据对环境的观测状态 s,ES(表示t时刻

12、智能体的状态)做出动作,EA(表示t时刻智能体采取的动作),在执行完动作之后,可以获得一个奖励值R(表示t时刻智能体所获得的奖励值),通过最大化累计的奖赏值可获得最优的决策策略。Q学习是一种基于Q函数估计的强化学习算法,Q函数使用状态-动作价值函数Q(s,),即为智能体某一个时刻的状态s下,采取动作能够获得收益的期望值,其更新公式为 :Q(s,a,)=Q(s,a,)+(r+1+ymaxQ(si+1,A)-Q(s,a,)(8)其中,为折扣因子,E(0,1,表示学习率。Q学习的主要思想就是将状态和动作构建成一张表来存储Q值,然后根据Q值来选取能够获得最大收益的动作。当状态空间和动作空间过大时,传统

13、的Q学习算法无法使用表格存储全部可能的情况,为了解决这个问题,可以使用DQN算法。DQN通常做法是把这张表的更新问题变成一个函数拟合问题,利用神经网络以状态作为输人,得到输出的Q值,Q学习和DQN的主要区别在于DQN利用了深度神经网络改进了学习过程。DQN的原理图如图2 所示,在此可利用一个一2 1一(6)K足ZP:=P(7)NOMA-VLC系统中最大化总和速率功率分配方法-a,=arg maxQ(si,a,)通信环境可见光(s,ai,risat)参数为的值网络来近似每个状态下所有可能采取的动作的Q值,并采用经验池回放机制,把智能体与环境交互获取到的数据放入记忆池中,记忆池可打破前后时刻生成的

14、状态之间的相关性,使得学习效率更高,通过式(9)更新参数使Q函数逼近最优Q值 12 :y,=T,+maxQ(si+1,A;0)A定义损失函数L()为目标值与预测值的均方差,如下所示:L(0)=E(yt-Q(s,a,;0)学习过程需要更新神经网络的权重参数,常用梯度下降来更新并最小化损失。2.2基于DQN的功率分配算法本文采用基于DQN的强化学习算法的功率分配方案来为NOMA-VLC系统中的用户分配功率,来满足优化目标。优化目标为最大化系统的总和速率,用公式表示如下:K(P,P.r.=,.,)=max 2 R.(11)将发射基站LED与控制中心作为一个智能体,通过传感器获取与用户间的相对位置信息

15、,计算信道增益,得到状态s,采用神经网络选择相应的动作并且获得一个奖励值,根据奖励对功率分配策略进行优化。下面对智能体的状态、动作以及奖励进行详细说明 13。状态。状态空间是智能体与环境交互获得的信息的集合。假设智能体可以获得当前时刻完美的瞬时信道状态信息(用户在NOMA-VLC系统中的信道增益),使用H,表示。决策过程满足马尔科夫性,一2 2 一一王祯旺等当前时刻的决策会对下一时刻的决策产生影响,损失函数所以将上一时刻对应的用户分配到的功率P,-1及Q(si,a,)个损失梯度maxQ(si+,A;0)值网络SiS+1记忆单元图2 DQN的原理图获得的传输速率R,-1作为神经网络额外的输入,状

16、态空间S,=1H,P,-1,R,-11。动作。动作空间是智能体可选择的所有动作的集合,在本文中即为给用户分配的功率值。由于光发射功率受到总功率的限制,在DQN中动作集合是有限的,将LED基站的发射功率进行离散化处理,共分为15个等级,在最小发射功率Pmin与最大发射功率Pmax之间非均匀取值。动作空间A=(Pmin,Pmxl。奖励。强化学习是通过奖励值来评价动作的好坏程度。用户采取分配具体功率的动作时,系统的速(9)率是直接有效的反馈信息,因此把NOMA-VLC系K统的总和传输速率ZR.奖励函数来优化策略。(10)在强化学习算法的训练过程中通常使用8-greed策略进行“利用策略”和“探索策略

17、”之间的平衡 14。“利用策略 即利用当前的数据总结得到的最好的策略,采用该策略可以得到比较高的奖励;“探索策略”则是尝试不同的动作,去寻找更好的策略,甚至找到最优策略。前者是比较保守的行为,容易陷人局部最优,而后者是进取性行为,为了获得更大的长期奖励,短期的奖励可能会被牺牲。8-greed 的公式如式(12)所示:随机动作,以概率:A=argmaxQ(sr,a,),以概率 1-8其中,(081)是对探索和利用的一个折中所需的参数。基于DQN的功率分配流程图如图3所示,首先对网络进行初始化:包括LED的物理参数和神经网络的参数。初始状态通过随机刷新用户的位置计算后得到信道增益,把生成的状态信息

18、输入DQN网络。智能体选取不同动作获取不同的奖励值,通过&-greed来选择动作,执行后获得奖励值,同时得到下一个状态。经过这样的交互过程得到一个样本,然后把样本存人经验池中。当样本储存到一定数量时,随机从经验池中批量选取(12)NOMA-VLC系统中最大化总和速率功率分配方法3仿真和分析输入DQN本节通过仿真实验来验证本文所提出的算法根据e-greed策略选择动作对NOMA-VLC系统总和传输速率的提升效果。本文仿真中参考了文献 3的取值并对不同参数开始执行动作获取奖励RVLC网络初始化获取下一个状态状态更新DQN网络初始化储存交互数据K个用户位置随机生成否达到训练条件计算用户信道增益是进行

19、DQN训练生成状态个图3基于DQN的功率分配流程数据进行训练。不断重复这个过程,完成训练后,得到用户功率分配策略。本文提出的基于DQN的功率分配算法具体的算法流程如下所示:本文所提算法流程1.初始化网络参数2.For episode=1,M do:3.初始化状态s,4.For t=1,T do:5.以概率:随机选择动作a,,否则选择动作a,=argmaxQ(s r,a,)6.由a,调整LED的发射功率,获取奖励 R,获取下一个状态si+17.8.将交互数据(st,af,st+1,R,)储存在经验池中9.n步后,从经验池中随机采样mini批交互数据(si,i,si+1,R,)进行学习R,i f

20、e p i s o d e 在第i+1步结束10.设置目标y;=lR;+maxQ(si+1,A;0)11.通过梯度下降来更新权重并最小化损失12.S,=St+113.End For14.End For一王祯旺等取值的仿真结果进行比较后确定了如表1所示的参数。表1仿真参数参数参数值带宽B30MHz响应度Rp0.48(A/W)光接收器面积A1cm发射功率P7W否完成训练结束参数接收视场角中rov折射率滤光片增益T(中)学习率LED与接收平面的2m垂直距离D半功率角中1/2首先由LED的朗伯辐射模型信道增益公式(5)可知,用户的信道增益与其在LED辐射范围所处的位置相关。不同的位置有不同的信道增益,

21、以LED辐射范围的中心为原点设置直角坐标系,用户在有效接收平面内的信道增益分布如图4所示,可以看出其分布是具有一定规律的,当用户越靠近中心时信道增益越大,其中在边缘的用户信道增益最小,中心用户的信道增益最大。10-63210-1-2-2-10123X图4信道增益分布图设用户在室内空间随机分布,此时每个用户获得的信道增益也是随机的,相应地,系统的总和速率也会跟着一起变化。为了研究系统的整体水平,仿真采用先循环再求平均的方法来求总和速率。仿真循环一次可以得到一次总和速率,每次一2 3一参数值601.510.001经验池大小1000060批次大小654h321256NOMA-VLC系统中最大化总和速

22、率功率分配方法-循环随机刷新用户的位置,经过多次循环后,取平均值即可得到总和平均速率,循环次数为10 0 0次,通过总和平均速率来对比不同算法的总速率差别。为了突出所提算法的性能,选择了对照组进行对比实验。用于对比的基准算法包括QL算法、GRPA算法和RPA算法。其中,QL属于强化学习相关算法。CRPA考虑到信道条件对用户功率分配的影响,利用用户自身信道条件为用户动态分配功率,但是只能做到局部优化。而RPA在可用功率范围内均匀随机选择发送功率。图5 给出本文所提算法以及3种对比算法的总和速率随复用用户数变化的情况。可以看出本文所提DQN算法和QL算法两种强化学习算法与其他两种算法相比总和速率有

23、较大的提升,这是因为强化学习算法能够充分利用用户信道增益等状态信息,学习到更优的功率分配策略。特别地,DQN算法比QL算法的总和速率更高,这是因为前者的学习效率会高于后者。使用 RPA算法的总和速率随着用户数增多而下降的原因是,有的用户选择了较大的功率值,导致剩下的用户可选的功率不足,同时表明了功率分配对NOMA-VLC系统性能有较大影响。DQN 比QL、G R PA、R PA 拥有更高的总和速率,在用户数小于11的范围内,总和速率平均分别提升了6.2 8%、12.2 0%、5 1.36%。9040234567891011用户数/个(a)D-2m随着用户数量的增加,NOMA可以实现更高的总和速

24、率,LED半功率角的数值选取对系统的总和速率也有影响。图7 所示为4种算法在用户接收半功率角1/2不同时对系统总和速率的影响。选取LED的3种常见半功率角进行实验,可以看出,DQN算法均比其他算法拥有更好的性一2 4一去一王祯旺等另外,可以发现当用户数为9时,总和速率突然下降,这是因为功率的选择范围有限,导致某些用户不能获得充足的功率,因而只考虑用户数小于等于9的情况。90804023456781011用户数/个图5 4种功率分配算法性能对比可见光通信系统性能与LED光源到PD的接收平面的垂直距离D有关。对室内通信常见的三种场景进行实验,假设用户站着进行通信时与LED光源的距离D=2m,用户坐

25、着通信时D=2.25m,躺着通信时D=2.5m。图6 为用户在上述三种场景下4种算法的性能对比图。可以看出,D越大时,各算法的总和速率会降低,这是因为距离光源越远,信道增益会相应的降低,随之速率也会降低。另外可以发现,D越大时,QL算法相对于传统GRPA算法的优势会变弱,而本文所提DQN算法依旧能够保持不错的性能优势。9080807088+DQN,D-2mQL,D-2m+GRPA,D-2m-RPA,D-2m-DQN-QL+GRPARPA-DQN,D-2.25mDQN,D=2.5mQL,D-2.25m60-GRPA,D-2.25m50RPA,D-2.25m40234567891011用户数/个(

26、b)D-2.25m图6 不同应用场景算法性能对比能。当半功率角1/2=45时,系统能获得更大的总和速率,这是因为,半功率角越小,发射光束的能量就越集中,用户的信道增益随着也变大。因此,可以通过优化LED的半功率角来提供新的自由度,以进一步提高 VLC 系统中 NOMA 的性能。-QL,D-2.5m-+GRPA,D-2.5m-RPA,D-2.5m40234567891011用户数/个(c)D-2.5mNOMA-VLC系统中最大化总和速率功率分配方法11010090807060504030234567891011用户数/个(a)n=45图8 所示为不同光电探测器的接收视场角rov对总和速率的影响。

27、选取光电探测器的3种常见视场角进行实验,可以看出,,DQN算法均比其他算法拥有更好的性能。当视场角rov=501101009080706050234567891011用户数/个(a)rov=-504结束语本文研究了室内可见光通信中的下行链路功率分配问题,根据可见光通信的朗伯辐射模型提出了基于强化学习的DQN功率分配算法,能够根据信道增益给用户动态分配功率,从而使NOMA-VLC系统有更高的传输速率。仿真结果表明,所提DQN算法比QL、G R PA、R PA 拥有更高的总和速率。另外,通过优化LED与接收平面的垂直距离、LED的半功率角与光电探测器的接收视场角能够进一步提升系统总和速率。参考文献

28、:1迟楠,卢星宇,王灿,等.基于LED的高速可见光通信J.中国激光,2 0 17,44(3):1-12.2 Marshoud H,Kapinas V M,Karagiannidis G K,et al.Non-Orthogonal Multiple Access for visible light commu-nicationsJ.IEEE Photonics Technology Letters,2015,28(1):51-54.3 Zhao Q,Jiang J,Wang Y W,et al.A low complexity pow-王祯旺等90808-DQN,v2=60-DQN,=45OL

29、.0V=45+GRPA,v/2=45RPA,2=45+DQN,=50Fo500RPA,FOV500DQN,v2=7560QL,01-60GRPA,012=60050RPA,1,=60040234567891011用户数/个(b)12-60图7 不同半功率角的性能对比时,系统能获得更大的总和速率,这是因为,接收视场角越小,为了接收到光信号,用户需要更靠近LED辐射范围的中心,这样导致用户的信道增益随着也变大。908070605040234567891011用户数/个(b)中rov-60图8 不同接收视场角的性能对比er allocation scheme for NOMA-based indoo

30、r VLC sys-tems J.Optics Communications,2020,463(15):125383.4 Yang F,Ji X,Liu X,et al.Powerallocation optimizationfor NOMA based visible light communications C.2021IEEE Wireless Communications and Networking Confer-ence(WCNC).Nanjing,China:IEEE,2021:1-6.5谭俊杰,梁应.面向智能通信的深度强化学习方法J.电子科技大学学报,2 0 2 0,49(2)

31、:16 9-18 1.6聂诗文.基于强化学习的D2D功率控制算法研究D.北京:北京邮电大学,2 0 17.7徐琳,赵知劲.基于分布式协作Q学习的信道与功率分配算法 J.计算机工程,2 0 19,45(6):16 0-16 4.8 Barry J R.Wireless infrared communicationsJ.Proc-eedings of the IEEE,1997,85(2):265-298.9 Dong Z,Shang T,Li Q,et al.Differential evolution-basedoptimal power allocation scheme for NOMA-

32、VLC systemsJ.Optics Express,2020,28(15):21627-21640.(下转第32 页)一2 5 一GRPA,1/2=750-RPA,V=7540230234567891011用户数/个(c)1-758070DQN,rov=608-GRPA,60=600-RPA,0FO-600DQN,Fo=70050-GRPA0P0L=70040-RPA,0YO70030234567891011用户数/个(c)rov-700面向MOOC的学生在线学习行为分析-明显的优势。本文使用孤立森林算法无监督地对学习特征值中的异常值进行筛查,最终以较小的代价去除了异常样本点。对提取到的学

33、习行为特征进行评价,对特征分别使用核概率密度法和逻辑回归进行检验、使用决策树进行权重计算。通过逻辑回归模型与决策树模型对学习行为与学率之间的关系进行了分析与预测,预测模型对于学的预测效果较好。后续还可从以下几个方面进行改进:特征提取算法有较大的提升空间。对于后台日志,本文处理方法参考了截面数据的操作方法,对操作记录中的时间信息处理较为简单,后台日志应该看作是一种复杂的面板数据,因为个人的操作记录涉及复杂的时间序列。异常样本清洗的算法存在提升空间。本文使用孤立森林算法来判定样本间的疏密关系,用路径长度衡量异常情况。如果结合距离综合考虑,在本数据集中检测的效果会更好。在本文使用的方法中,可以进一步

34、对不同分组使用不同的异常点比例,来提升异常样本清洗效果。分析预测的算法与模型存在提升空间。本文采用的预测模型是机器学习中较为基础的算法,进一步的研究将采用较为先进的算法,可能会得到更合理的分析结果与更高的预测准确率。参考文献:1中国教育部.教育部印发指导意见疫情防控期间做好高校在线教学组织与管理工作 EB/OL.(2 0 2 0-一高涛等02-06)2021-08-25.http:/ 的发展及其对高等教育的影响 J.江苏高教,2 0 13(2):5 3-5 7.3 Ho A,Reich J,Nesterko S,et al.HarvardX and MITx:The first year of

35、 open online courses,fall 2012-Summer2013 J.Social Science Electronic Publishing,2014(1):33.4武法提,田浩.挖掘有意义学习行为特征:学习结果预测框架 J.开放教育研究,2 0 19,2 5(6):7 5-8 2.5沈欣忆,刘美辰,吴健伟,等.MO0C学习者在线学习行为和学习绩效评估模型研究 J.中国远程教育,2020(10):1 8,76.6刘中宇,周晓.行为科学理论指导下的高校大学生网络学习行为研究J.中国电化教育,2 0 0 8(5):46-48.7 Liu Z,He J,Xue Y,et al.M

36、odeling the learning behav-iors of massive open online courses C.2015 IEEE In-ternational Conference on Big Data(Bi g D a t a),I EEE,2015:2883-2885.【8 张荣昌.基于数据挖掘的用电数据异常的分析与研究 D.北京:北京交通大学,2 0 17.9 Liu F T,Ting K M,Zhou Z H.Isolation-based anomalydetection J.ACM Transactions on Knowledge Discov-ery fr

37、om Data,2012,6(1):1-39.10王丽红,杨讷华,田志宏,等.非参数核密度法厘定玉米区域产量保险费率研究一以河北安国市为例 J.中国农业大学学报,2 0 0 7,12(1):90-94.(责任编辑:丁晓清)(上接第2 5 页)10 Jiang C,Zhang H,Yong R,et al.Machine learning par-adigms for next-generation wireless networks J.IEEEWireless Communications,2017,24(2):98-105.11 Silva M,Souza R D,Alves H,et a

38、l.A NOMA-based Q-learning random access method for machine type com-municationsJ.IEEE Wireless Communications Let-ters,2020,9(10):1720-1724.12杨宁.基于深度学习的无线资源管理与安全研究D.北京:北京科技大学,2 0 2 0.13王伟,殷爽爽.基于深度双Q网络的多用户蜂窝网络功率分配算法研究 J.计算机应用研究,2 0 2 1,38(5):1498-1502.【14李朝辉,雷维嘉.能量收集通信系统中基于深度Q网络的最大化保密速率功率控制策略 J.重庆邮电大学学报:自然科学版,2 0 2 1,33(3):36 4-37 1.(责任编辑:杨静)一3 2 一

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服