收藏 分销(赏)

基于多臂赌博机的卫星通信系统子载波分配算法.pdf

上传人:自信****多点 文档编号:633834 上传时间:2024-01-19 格式:PDF 页数:9 大小:4.15MB
下载 相关 举报
基于多臂赌博机的卫星通信系统子载波分配算法.pdf_第1页
第1页 / 共9页
基于多臂赌博机的卫星通信系统子载波分配算法.pdf_第2页
第2页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 卷第 期 年 月南 京 邮 电 大 学 学 报(自 然 科 学 版)():基于多臂赌博机的卫星通信系统子载波分配算法刘智鹏,赵 柏,林 敏,孙士勇,欧阳键南京邮电大学 通信与信息工程学院,江苏 南京 中国电子科技集团公司第五十四研究所,河北 石家庄()摘要:为了提升卫星通信系统的频谱效率,在卫星系统采用正交频分多址(,)传输技术的情况下,提出了一种基于多臂赌博机(,)的子载波分配算法。首先,建立基于 的卫星系统上行链路多用户传输模型。然后建立以用户总速率最大化为目标,以用户最大发射功率和用户服务质量为约束条件的资源分配问题。接着,利用 能在环境信息部分未知时在线学习摇臂选择策略的特性来求解

2、该优化问题,并获得子载波分配方案。仿真结果表明,所提算法能实现系统子载波的自适应分配,同时用户总速率与贪婪算法在已知信道状态信息下获得的用户总速率几乎相同。关键词:卫星通信;子载波分配;多臂赌博机中图分类号:文献标志码:文章编号:(),()收稿日期:;修回日期:本刊网址:基金项目:重点国际合作项目()、南京邮电大学引进人才科研启动基金()、基础加强计划技术领域基金()和江苏省研究生科研与实践创新计划()资助项目作者简介:刘智鹏,男,硕士研究生;林敏(通信作者),男,博士,教授,博士生导师,引用本文:刘智鹏,赵柏,林敏,等基于多臂赌博机的卫星通信系统子载波分配算法南京邮电大学学报(自然科学版),

3、():,()(),:;();众所周知,卫星通信凭借其覆盖范围广、传输质量好、对基础设施依赖小、业务兼容性强等优点,已经在无线通信领域显示了广泛的应用前景,并被认为是第 代移动通信的一项关键技术。但是随着卫星通信业务需求的持续增长,频谱资源短缺问题日益严重。此外,卫星信号宽带传输时还伴随着多径效应引起的频率选择衰落特性,导致卫星移动通信系统会产生一定的性能损失。正交频分多址(,)技术作为一种多载波传输技术,具有抗频率选择性衰落能力,以及具备较高的频谱资源利用效率,因此在卫星通信系统中的应用受到了学术界和工业界的广泛关注。基于 技术的卫星通信系统利用多载波技术将频率选择性信道分成多个正交的子载波,

4、每个子载波的信道衰落特性近似平坦,并在接收端进行多载波信息的整合以实现分集接收。根据用户的信道状况将系统资源分配给不同的用户,达到区分用户、提高分集增益的目的。作为提高数据传输业务服务质量(,)的关键,系统分配资源时除了考虑系统各项约束条件外,还需要依据不同用户的信道质量进行自适应分配,以满足多业务、多用户的不同 需求,这使得资源分配问题通常是一个具有复杂约束的混合整数规划问题。在这种情况下,国内外学者对采用 的地面无线通信系统提出了一些相应的解决方案。例如,文献提出了一种基于系统频谱效率的资源分配算法来联合分配子载波和功率,该算法采用逐次凸逼近方法和引入惩罚因子来求解资源分配问题。文献针对资

5、源分配问题的非凸性质,通过非线性规划将原问题转换为凸问题,随后提出了一种基于 的分布式资源分配算法来求解凸问题。文献提出了一种基于 的资源分配算法来提升系统的能量效率,该算法在每次迭代中都能推导出子载波和功率分配的闭式解。文献考虑到多用户分配资源时存在用户冲突问题,提出一种结合改进贪婪算法和迭代注水算法的子载波功率联合分配算法。文献提出了一种基于干扰效率最大的资源分配算法,该算法利用伯恩斯坦近似和 法将非凸问题转换成凸问题,并利用拉格朗日对偶函数法求解。需要指出的是,上述研究都假设 系统中的信道状态信息(,)是先验已知的,然而对于卫星通信系统,由于信道估计存在误差以及卫星信道具有较高的反馈时延

6、,获取用户准确的 是十分困难的。此外,上述基于地面网络的资源分配算法具有较高的计算复杂度,考虑到卫星平台处理器的功耗和计算能力受到了严格的限制,不能直接将上述文献所提算法应用到卫星通信系统中。因此,如何设计一种低复杂度算法,能在未知 的前提下自适应地进行资源分配以及求解相应的混合整数规划问题,从而实现卫星 高效可靠的传输是亟待解决的问题。多臂赌博机(,)作为解决混合整数规划问题的一种强化学习模型,具有十分低的算法复杂度,这个特点非常符合卫星通信系统 资源分配算法的需求。本文针对卫星通信系统中基于 的多用户接入上行链路资源分配问题,建立了以用户总速率最大化为目标,以地面用户、最大发射功率为约束条

7、件的资源分配优化问题,并提出一种基于 的子载波分配算法来求解问题。该算法让卫星作为智能体来分配子载波,在系统未知 的前提下,利用立即奖励来训练分配策略,最终实现在满足各种约束的同时,能对子载波资源进行自适应分配。计算机仿真验证了跟随机资源分配算法相比,所提算法能实现子载波的自适应分配,并且达到的用户总速率接近贪婪算法在已知 情况下所能达到的性能。此外,与基于 的传统优化方案相比,基于 的子载波分配算法还可通过其在线学习的能力达到根据信道环境变化而自适应修正决策的效果,从而更适合于信道条件缓慢变化的卫星通信系统。系统模型如图 所示,本文研究一个采用 传输技术的卫星通信系统,包含一个地球静止轨道(

8、,)卫星和 个地面用户(,),个 处于同一个波束的覆盖范围内。卫星搭载资源分配模块,卫星将系统信息输入该模块,随后该模块输出当前时隙的资源分配结果,卫星反馈数据量较少比特的分配结果至中央控制单元,该单元发送分配结果至各个 完成资源的分配。假设该系统将总带宽分成 个相互正交的子载波,这 个子载波分配给所有 使用,并且每个子载波最多被分配给一个 使用。考虑到卫星通信的无线传输特性,本文研究场景的信道模型和信号模型将分别在 节和 节阐述说明。南京邮电大学学报(自然科学版)年图 多用户卫星通信系统模型 信道模型考虑到地面用户与卫星之间信道小尺度衰落,自由空间损耗和收发天线增益等影响,地面用户 使用子载

9、波 时的信道响应表示为,()式中,表示链路的小尺度衰落系数,信道系数,可表示成,()式中,为光速;为子载波 的工作频率;为到卫星的距离;表示卫星天线的接收增益;表示 的天线发射增益。根据文献,卫星接收天线增益 可表示为()()()式中,表示最大卫星天线增益,()和()分别表示 阶和 阶第一类贝塞尔函数;,表示 和波束视轴线的夹角,为天线增益衰减 角度。以上为本文研究场景的信道模型,接下来阐述上行链路中卫星所接收到的信号模型。信号模型假设 使用子载波 发送信号,()到卫星,并且满足 ,(),那么卫星在子载波 上接收到的信号可表示成,(),()()()式中,二元决策变量,表示子载波的分配,如果子载

10、波 分配给用户 使用,则,否则,。,表示用户 在子载波 上的发射功率。()表示均值为、方差为 的加性高斯白噪声,为玻尔兹曼常数,为噪声带宽,为噪声温度。因此,卫星在第 个子载波上对于第 个用户的接收信噪比可写成,()基于式(),可根据香农公式计算得到 在子载波 上的连续速率值,由于系统采用多进制调制和编码方案,通常得到的速率值是对连续速率值量化后的结果,具体表示形式如下,(,),()式中,为对连续速率值量化后的离散速率值,表示在实际系统中可实现的量化比特率,表示在给定误码率 下所能实现速率 的最低信噪比,若信号信噪比,处于区间,)时,相应的速率值为,和 均为,。在采用格雷编码的 调制下,的关系

11、可近似表示为 ()在计算得到用户 在各个子载波上的速率后,用户 的速率可表示为 ,(,)()那么在给定系统的子载波分配矩阵 ,和功率分配矩阵 ,后,用户的总速率可表示为(,),(,)()由于各个子载波对于不同用户有着不同的信道衰落,因此系统需按照各个用户的信道状况合理地分配资源给不同用户,实现多用户分集增益,提升整个卫星系统的性能。问题建立本文在地面用户信道状态信息未知的条件下,以卫星通信系统的用户总速率最大化为优化目标,以地面用户最大发射功率及其服务质量需求为约束条件,建立一个约束条件下的优化问题。基于式()至式(),速率最大化问题的数学形式表示如下,(,)(),()第 期刘智鹏,等:基于多

12、臂赌博机的卫星通信系统子载波分配算法 ,(),(,),()其中,约束()表示系统子载波 最多只能分配给一个 使用;约束()表示 在所有子载波上的发射功率之和不能超过自身的最大发射功率,;约束()表示 的速率不能低于门限值,。对于上述混合整数规划问题,最大化用户总速率的关键在于依据各个 的信道质量进行资源分配,分配过程通常分两步:第一步是分配子载波,在分配时要尽可能将子载波分配给信道质量高的,在该过程中通常假设各个子载波上的发射功率相等;第二步是功率分配,在完成子载波分配后,优化问题变为功率分配问题,通常采用注水功率分配方案或等功率分配方案来最大化用户的总速率。本文目标是对子载波分配进行优化来提

13、高用户的总速率,与文献 类似,本文功率分配方案采用等功率分配,在子载波 上的发射功率表示为,()在未知 信道系数,的前提下,本文提出了一种基于 的低复杂度算法来进行子载波分配。模型作为一种强化学习模型,能实现在环境信息部分未知的情况下在线学习和优化动作的执行策略,十分适用于解决本文研究场景下的资源分配问题。基于 的子载波分配算法 本文算法在 问题中,智能体有 次机会拉动老虎机的摇 臂,每 次 只 能 从 个 摇 臂(记 为,)中选一个拉动。第 次拉动摇臂 记为,随后智能体以一定概率获得立即奖励()。智能体学习从摇臂集合中选择最优摇臂,从而使 次机会的总回报最大化。智能体通过接收环境的奖励信息,

14、在线学习环境特征,当环境特征改变时,智能体能根据奖励信息快速感知到相应的变化,从而自动调整摇臂的选择策略以适应新的环境。本文提出的基于多臂赌博机的子载波分配算法是利用用户间的信道差异性来提高用户的总速率,直接利用用户的瞬时速率值来分配子载波。考虑到信道的小尺度衰落,相同子载波分配结果的用户速率值是一个期望固定的随机变量,因此可以将子载波分配结果建模为 中的摇臂,根据用户总速率值设置奖励值。那么为了提高一段用户的总速率,系统需要不断选择子载波分配组合来估计各个分配组合的奖励值期望,同时还需提高最优子载波分配组合被选中的概率。在该问题中,最优分配组合的平均奖励值大于非最优分配组合的值,那么在探索过

15、程中最优分配组合的选择次数越多,则最后得到整个过程的总速率值也就越高,提高地面用户总速率的过程等价于 中最大化累积收益的过程,因此基于多臂赌博机模型的算法适用于本文研究的子载波分配问题。在本文所考虑的卫星上行 通信场景中,卫星作为智能体来选择摇臂,次机会对应为 个时隙,摇臂对应的是子载波分配矩阵,即 。那么摇臂的数量 对应的是满足约束()的所有子载波分配矩阵,而最优摇臂则对应上述优化问题的最优解。卫星选择摇臂后,只需反馈数据量较少比特的分配矩阵至中央控制单元,最终发送分配结果至各个地面用户,地面用户根据分配结果使用子载波传输数据,卫星根据各个子载波上的信号计算地面用户总速率,以此作为环境反馈的

16、奖励信息。因此,环境的立即奖励()对应系统在时隙 的总速率,表示如下()(,)()式中,为用户 在时隙 的速率,根据约束()、()表示为 ,(,),()上置信界(,)算法作为解决 问题的常见算法,其基本思想是将历史获得的摇臂奖励值进行线性组合来估计摇臂奖励的期望值,然后加上对应摇臂的置信因子得到摇臂的 索引值,表示如下()()()()()式()中第一项为摇臂 经过 个时隙后对奖励期望的估计,表示如下南京邮电大学学报(自然科学版)年()()()()式中,()表示前 个时隙内摇臂 被选择的次数。式()中第二项为置信因子,其中 为常数,该项的值随着摇臂被选次数的增加而减小,用于指导智能体对历史数据利

17、用的同时仍对其他潜在最优摇臂进行探索,使得在求解问题时不会陷入局部解。智能体在训练过程中,每次选择 索引值最大的摇臂来分配系统子载波,实现探索与利用的平衡。在算法结束时统计训练过程中被选次数最多的摇臂即为子载波分配的最优方案 ()()遗憾值分析在 问题中,期望累积遗憾值是表征学习算法性能的重要指标,其含义为经过 个时隙后,选择非最优摇臂获得累积奖励的期望值,在 个时隙内最优摇臂选择的次数越多,期望累积遗憾值越小。根据式()至式()和优化问题()可知,最大化用户的总速率等价于最小化期望累积遗憾值。期望累积遗憾值表示如下 ()()()式中,为摇臂 的实际奖励期望值,表示最优摇臂在摇臂集合中的序号。

18、下面将分析所提算法的期望累积遗憾值的上界。根据式()可知,只需推导出 个时隙后各个摇臂的选择次数()的期望上限,即可得到期望累积遗憾值 的上限。假设摇臂 不是最优摇臂,则有(),()()(),()()(),()(),()()()(),()()(),(),()()式中,为示性函数,当条件 满足时取值为,否则为,()表示在前 个时隙内摇臂 被选次数。式()中最后一行不等式,(),()成立的条件只需满足式()个不等式中一个即可。,(),()()()当 ()()时,又因为 ,则有()()()因此当 ()()时,式()中第三个不等式不成立。对于第一个和第二不等式,因为各个时隙获得的立即奖励()是相互独立

19、的有界随机变量,则根据切尔洛夫霍夫丁界有,()(),()()()根据式()对式()求期望有(),(),()()()()代入式()中得到期望遗憾累积值为第 期刘智鹏,等:基于多臂赌博机的卫星通信系统子载波分配算法 ()()()()根据式()可知,基于 的子载波分配算法的期望遗憾累积值上界随时间呈对数增长,可表示为()。这说明该算法在迭代过程中,非最优摇臂被选中的次数只会随着时间呈对数趋势缓慢增长,即在 个时隙内有大部分时隙选择的是最优摇臂来进行子载波分配,所以在训练结束后统计各个摇臂被选择的次数即可求出最优解,算法 展示了本文算法的基本流程。此外,该算法作为在线学习算法,能实现卫星资源分配策略的

20、自动优化,不需要像传统算法经过复杂计算得到结果后再分配资源。算法:基于 的子载波分配算法 初始化,(),:选择第 号摇臂进行子载波分配 选择第 号摇臂进行子载波分配 根据式()确定用户在各个子载波上的发射功率,根据分配结果得到用户总速率,得到奖励()根据式()更新第 号摇臂()更新()()根据式()更新 值 获得最优解 ()仿真分析本节通过计算机仿真来验证所提算法的有效性和优越性。考虑到卫星移动通信信道环境处于不断变化当中,存在直射路径、阴影效应、信号反射、散射产生的多径效应、自由空间损耗、雨衰等因素。在现有文献中,卫星链路通常被建模为阴影莱斯衰落模型,进而更加精确地拟合信号的包络和相位波动。

21、跟大多数文献一样,本文在仿真时假设卫星信道采用阴影莱斯衰落模型,它由 个参数决定:信道直射成分平均功率,、散射成分平均功率,和直射成分衰落值,。表 给出了系统的仿真参数,其中卫星链路经历 种不同阴影程度的阴影莱斯衰 落:轻 度 阴 影 衰 落,、中度阴影衰落,和重度阴影衰落,同一用户的不同子载波上所具有的衰落特性分别处于上述 种情况之中。表 系统主要参数设置参数数值卫星轨道工作频率 系统带宽 角度 ()最大卫星天线增益 最大地面用户天线增益 玻尔兹曼常数 ()噪声温度 除本文所提算法外,根据参考文献,增加了两种子载波分配算法进行对比分析,一种是文献中提到的改进贪婪算法,该算法假设用户的瞬时 是

22、准确已知的,并根据 进行子载波分配,通过对各个用户的 进行比较,优先将子载波分配至信道质量最高的用户从而获得子载波分配结果。另一种是文献中提到的 算法,该算法同样假设用户瞬时 是准确已知的,通过比较各个用户间的 来获得子载波分配结果,与改进贪婪算法不同点在于 算法优先考虑用户公平性,保证各个用户速率值之比满足给定的比例系数。此外,本文还加入随机分配算法进行比较分析,该算法将子载波随机分配给各个用户。图 展示了训练过程中的累积遗憾值。从图中看出,随着迭代的进行,期望累积遗憾值呈对数趋势缓慢增长,证明了本文期望累积遗憾值推导的准确性,也说明了在最后统计各个摇臂被选次数时,最优摇臂的次数是最大的。图

23、 累积遗憾值变化过程南京邮电大学学报(自然科学版)年图 展示了摇臂索引值中常数值 取不同值时用户总速率的变化过程。从图中可以看出,常数值 越小则总速率值的收敛速度越快,主要原因在于常数值 影响置信因子在摇臂索引值中的比重,值越小其比重越小,那么选择摇臂时倾向于选择奖励期望高的摇臂,反之 值越大,倾向于选择被选次数少的摇臂。当训练时隙数 远大于摇臂数 时,在训练前期就能保证摇臂奖励期望估计的偏差足够小,因此 值越小就能使得整个训练过程选择最优摇臂的被选次数越多,相应整个过程的累积遗憾值越小。图 ,时不同常数值 下的总速率变化过程图 展示了不同子载波数以及不同用户数情况下用户总速率变化过程。从图中

24、可以看出,随着训练的进行,各种情况下用户总速率值均逐渐提高并最终收敛到某一值,这表明在训练过程中智能体逐渐倾向于选择最优摇臂,将子载波分配至信道质量高的用户。同时,在相同子载波数下不同用户数的收敛速度不同,用户数越多收敛速度越快,这主要是因为用户数的增加使得摇臂数量增加,同时 减小,收敛速度随之增加。图 展示了训练过程中各个算法的用户总速率值变化过程。从图中可以看出,在训练初期本文算法的性能与随机分配算法的性能一致,这主要是因为训练初期智能体记录的历史信息太少,导致对各个摇臂奖励值期望的估计存在很大的偏差,摇臂的索引值不具备参考意义。经过短暂训练后,本文算法所获得的速率值迅速提高,超过 算法并

25、最终收敛到与贪婪算法的速率值一致,这主要是因为随着历史数据的增加以及索引值的更新,摇臂奖励值期望估计偏差逐渐减小,摇臂索引值逐渐具备参考意义。通过该图可以表明,本文提出子载波分配算法可以在未知用户 的前提下在线学习环境特征,优化子载波分配策略,实现子载波的自适应分配。图 不同,情况下的速率变化过程图 ,时不同算法下的速率值图 展示了不同算法下用户总速率与误码率 的关系。从图中可以看出,随着要求满足的误码率降低,用户总速率也随之降低,这是因为根据式()可知为了满足要求的误码率,相同信噪比下可达到的总速率也会随 的降低而减少。相较于随机分配算法,其他 种算法所得到的用户总速率较高。同时,本文所提出

26、的子载波分配算法性能优于 算法,接近贪婪算法的性能。图 展示了不同算法下用户总速率值与用户数目的关系。从图中可以看出,随着用户数的增加,所有算法的速率值随之增加,这体现 的分集增益。同时,从图中可以看出,随机分配算法的性能比其他 种算法的性能都差,这主要是因为随机分配算法在分配子载波时并不考虑用户信道之间的差异性,而其他 种算法分配子载波时会考虑这种差异性,对子载波进行自适应分配。此外,与图 一第 期刘智鹏,等:基于多臂赌博机的卫星通信系统子载波分配算法样,图 中本文提出的子载波分配算法性能优于 算法,接近贪婪算法的性能,其原因在于 算法分配子载波时优先满足各个用户速率之比等于给定的比例系数,

27、会出现用户 约束满足时,子载波分配给信道质量次优用户的情况,造成性能损失,而本文算法则与贪婪算法一致,在满足用户 约束前提下,优先将子载波分配至信道质量最高的用户,避免造成性能损失。图 ,时用户总速率与误码率的关系图 时速率与用户数的关系 结束语针对卫星通信系统中基于 的多用户接入上行链路子载波分配问题,建立了以用户总速率最大化为目标,以地面用户、最大发射功率为约束条件的子载波分配优化问题,并提出一种基于 的子载波分配算法来求解该问题。该算法在系统未知 的前提下,利用立即奖励来训练分配策略,最终实现在满足约束的同时,将系统资源进行自适应分配。随后还分析了所提算法的累积遗憾值上界,最后计算机仿真

28、验证分析的准确性,同时将本文所提算法与随机资源分配算法、算法和贪婪算法进行对比来说明本文算法能在未知 情况下实现资源的自适应分配,在用户的总速率上接近传统算法的性能。参考文献:张晨,张更新,王显煜 基于跳波束的新一代高通量卫星通信系统设计 通信学报,():,():()赵柏,郭雨晴,黄清泉,等 频段航空宽带卫星通信系统性能分析 南京邮电大学学报(自然科学版),():,(),():(),():,:,():,():,():,():,():南京邮电大学学报(自然科学版)年 尤莉,张晶 可避免用户冲突的 下行链路资源分配方案 南京邮电大学学报(自然科学版),():,(),():()徐勇军,杨洋,刘期烈,等 认知网络干扰效率最大稳健功率与子载波分配算法 通信学报,():,():()张晨,彭明阳,张更新 基于联合优化的高通量卫星跳波束图案设计研究 南京邮电大学学报(自然科学版),():,(),():(),():,:,():,():,():,():,():,:,():,:,():,():(责任编辑:李小溪)第 期刘智鹏,等:基于多臂赌博机的卫星通信系统子载波分配算法

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服