1、第48 卷总第52 4期面向星地融合网络的星上管控节点动态部署方法陈少权,杜翠凤,张振,黄星辉(中电科普天科技股份有限公司,广东广州510 310)移动通信【摘要】针对低地球轨道卫星网络节点高动态性的问题,提出一种面向星地融合网络的星上管控节点动态部署方法。首先,基于星地融合网络结构复杂多变和星上节点处理能力受限的特点设计主从协同管控的星地融合组网架构;其次,提出星上管控节点部署模型,该模型以星上管控节点部署成本作为优化目标函数,综合考虑业务QoS和网络负载等约束条件,旨在通过优化控制器的数量和位置来改善卫星组网响应时延;最后,采用强化学习方法快速求解不同网络拓扑状态下的星上管控节点数量和部署
2、位置。仿真实验分析了所提算法、加速粒子群算法(ASPO)及最优搜索算法(OptSearch)在星上管控节点动态部署数量和平均组网响应时延上的对比结果,从而验证所提算法在星上管控节点部署中具有一定的优越性。【关键词】星地融合网络;星上管控节点;动态部署doi:10.3969/j.issn.1006-1010.20231220-0001中图分类号:TN92文献标志码:A文章编号:10 0 6-10 10(2 0 2 4)0 4-0 10 5-0 7引用格式:陈少权,杜翠风,张振,等.面向星地融合网络的星上管控节点动态部署方法.移动通信,2 0 2 4,48(4):10 5-111.CHEN Sha
3、oquan,DU Cuifeng,ZHANG Zhen,et al.Dynamic Deployment Method of Satellite Management and Control Nodes for Satellite-Terrestrial Integrated NetworksJJ.Mobile Communications,2024,48(4):105-111.Dynamic Deployment Method of Satellite Management and Control Nodes forAbstractAiming at the problem of high
4、dynamics of low earth orbit satellite network nodes,a dynamic deployment method ofsatellite management and control nodes for Satellite-Terrestrial Integrated Networks is proposed.First,based on thecomplex and changeable structure of the Satellite-Terrestrial Integrated Networks and the limited proce
5、ssing capabilitiesof satellite nodes,a Satellite-Terrestrial collaborative network architecture with master-slave collaborative managementand control is designed.Secondly,a satellite management and control node deployment model is proposed.Thismodel takes the satellite management and control node de
6、ployment cost as the optimization objective function,andcomprehensively considers constraints such as business QoS and network load.It aims to improve the response delayof satellite networking by optimizing the number and location of satellite control nodes.Finally,the reinforcementlearning method i
7、s used to quickly solve the number and deployment locations of satellite control nodes under differentnetwork topology states.The simulation experiment analyzes the comparative results of the algorithm in this article,theAccelerated Particle Swarm Optimization(ASPO)and the Optimal Search(OptSearch)A
8、lgorithm in terms of the numberof dynamically deployed control nodes on the satellite and the average network response delay,thereby verifying that thealgorithm in this article has certain advantages in the deployment of on-board control nodes.KeywordsSatellite-Terrestrial Integrated Networks;satell
9、ite control nodes;dynamic deployment0引言星地融合网络(STINs,Satellite-Terrestrial Integrated收稿日期:2 0 2 3-12-2 0*基金项目:国家重点研发计划宽带通信和新型网络重点专项“面向海洋覆盖的应用示范网络”(2 0 18 YFB1802300);广东省海洋经济发展(海洋六大产业)专项资金项目“面向海洋产业的探测通信一体化立体海洋无线网络系统研究”(粤自然资合 2 0 2 32 4号)OSID:Satellite-Terrestrial Integrated NetworksCHEN Shaoquan,DU Cu
10、ifeng,ZHANG Zhen,HUANG Xinghui(CETC Potevio Science&Technology Co.,Ltd.,Guangzhou 510310,China)扫描二维码与作者交流Networks)利用卫星网络和地面网络各自的优势,采用软件定义的方式实现控制转发分离,从数据平面缓存优化、高性能控制器部署、分布式控制平面和控制资源优化4个维度实现网络灵活扩展与控制,形成“天星”+“地网”的一体化架构网络,为用户提供灵活的无线网络接人服务,满足人烟稀少的沙漠、高山和海洋等偏远地区用户对泛在互联和高速率业务的需求,并成为第六代移动通信网络重要的架构-2。然而,受到卫星网
11、络节点动态性高、时空大1052024年4月第4期第48 卷研究与探讨1总第52 4期尺度以及星上处理能力受限等因素的影响 3,传统地面集中管控的机制已经无法满足星地融合组网数据低时延、高可靠传输的需求。因此,星地融合网络星上管控节点灵活可靠部署技术的研究成为提升星地融合网络性能的关键。本文的思路是:基于软件定义星地融合组网机制,采用主从协同管控的方式构建星地融合组网架构,使得具有部分网络功能的星上管控节点与地面网络管控节点进行协同,降低信令在星地间频繁交互对数据传输时延带来的影响;在此基础上,以地面集中管控中心为依托提出星上主从协同管控节点动态部署算法,以星上管控节点的部署成本为目标函数,综合
12、考虑业务QoS(链路传输速率、业务时延、系统可靠性)约束、负载均衡系数约束、主从管控节点分配约束,构建星上管控节点动态部署模型;最后,采用强化学习方法实现星上管控节点数量和位置的快速求解,该算法引入策略梯度的方式利用Q值的变化幅度来动态调整学习率,旨在通过控制Q值的更新速度提高算法的稳定性,在确保算法能够快速适应卫星拓扑快速环境变化的同时,也能加快算法的收敛速度。1相关概念1.1星地融合网络星地融合网络的系统架构可分为高空层、地面层和近地端三个部分。高空层由多颗GEO(G e o s y n c h r o n o u s Ea r t hOrbit,地球静止轨道)卫星组成,轨道高度约为358
13、 0 0 km,更高的轨道高度带来传输时延高、空间损耗大以及发射成本高的缺点 4-5。一颗GEO卫星能够覆盖12 0,因此,从理论上说,3颗GEO卫星就能实现全球卫星信号覆盖,由于GEO的运行速度与地球自转速度保持一致,因此GEO卫星对地是静止不动的。近空层则由多颗LEO(Lo w Ea r th O r b it,低地(球)轨道)卫星组成,由于LEO卫星轨道高度约为40 0 2000km,因此其相对于GEO具有传输时延低、空间损耗小以及发射成本低的优点,目前绝大多数对地观测卫星、测地卫星、空间站以及一些新的通信卫星系统都采用近地轨道。地面层则由用户终端、地面站、地面核心网以及地面集中管控中心
14、组成,用户终端通过地面站接人卫星网络(部分用户终端也可以直接接人卫星网络)后,卫星网络作为中继网络完成数据传输后,通过卫星网络连接到地面核心网,整个数据传输方式由地面集中管控中心进行控制 7。地面站是连接地面网络和卫星网络的“桥梁”,在地面移动网络信号不强或者缺少的情况下,可以通过卫星网络实现通信。1.2软件定义卫星文献 9 提出了软件定义卫星技术,该文章认为,软件定义卫星是以天基超算平台和星载操作环境为基础的106移动通信2024年4月第4期新一代开放架构卫星系统,支持有效载荷动态重组、应用软件动态重配、卫星功能动态重构,能够按需重构完成不同功能任务,可以被众多用户共享使用,为众多用户提供服
15、务。软件定义卫星能够实现以下3方面的优势:(1)采用软件定义的开放系统架构,将大幅提升卫星的智能化水平。软件定义卫星具备对环境自主感知、自主决策和自主运行的能力,其智能化水平将能够大幅提升各类数据信息的高效传输和智能处理。(2)软件定义卫星能够实现功能和性能的自学习与自优化。软件定义卫星采用开放式架构,可以动态加载各种软件组件,将各种智能化学习的算法集成到卫星系统中,从而提升卫星功能和性能的自学习和自优化能力。(3)软件定义卫星解除卫星系统软硬件之间的紧耦合关系,支持各类软件组件、硬件部件的即插即用和动态配置。软件组件和硬件部件可以在不同卫星平台之间平滑迁移、无缝接人和灵活重用,可以灵活方便地
16、扩充整个卫星系统的能力。1.3强化学习强化学习作为一种非监督学习的算法,智能体能够通过与环境不断交互的方式来选取对应的策略,从而使得系统达到总体效果最优的目的。一且环境发生改变,智能体将根据环境得到的最新状态采取相应的策略以期得到较高的回报值,回报值越高证明该策略越符合预期10-1。在强化学习中,值函数和贝尔曼方程是强化学习的两个重要的概念。(1)值函数值函数是指在特定状态下,采用特定的策略能够获得期望累积奖励值,也就是对于一个状态s下采取某一个策略,值函数所获得期望累积奖励值。(2)贝尔曼方程贝尔曼方程用来描述当前状态下采取某种策略的值函数与下一个状态和策略值函数之间的关系,贝尔曼方程的核心
17、思想是基于贝尔曼最优的原理,智能体通过与环境进行不断的交互,逐渐学习到一个最优策略所满足的方程,使其在不同状态下做出最佳决策。根据智能体使用算法的类型,强化学习算法可以划分为基于价值的强化学习和基于策略的强化学习两类。基于价值强化学习算法中最有代表性的算法是Q-Learning,其作为异策略(off policy)的时序差分方法 12,在更新值函数时并不完全遵循交互序列,而是选择来自其他策略的交互序列的子部分替换了原来的交互序列。总的来说,Q-Learning是一种结合了价值迭代的更新算法,希望每一次都使用前面迭代累积的最优结果进行更新。而基于策略的强第48 卷总第52 4期化学习算法中最有代
18、表性的算法是 Actor Critic类算法 13,actor是策略网络,用来控制agent的动作;而critic是价值网络,用来给动作打分。算法的核心是通过构造策略网络和价值网络,然后通过环境选取特定的动作进而给对应的动作进行奖励从而以奖励最大化来学习这两个网络。2主从协同管控的星地融合组网架构及星上管控节点动态部署模型2.1主从协同管控的星地融合组网架构图1展示星地融合组网架构中主从控制管控节点的部署方式,该架构的管控节点包含主从管控节点,地面集中管控中心负责整个控制面的控制;主从管控节点都部署到星上,负责星上链路控制与传输管理。LEO卫星具有高度动态性,因此将其设为从管控节点;而GEO卫
19、星与地面保持一致,因此将其设为主管控节点,部署到卫星网络的双层管控节点能够支持一些应急动态组网、灾害环境公网缺乏条件下的短报文传输以及应急救援行动等。卫星网络中So1、So 2 和So3是卫星子网,随着用户业务的变化以及卫星拓扑发生变化,卫星组网会进行扩展或者收缩,经过扩展后的卫星子网会与最近的卫星建立链路,实现数据的传输。而主管控节点则相对稳定,针对卫星子网的扩展或者收缩,重新选择从管控节点以实现卫星网络数据传输的动态控制。2.2主从星上管控节点动态部署模型(1)系统模型假设LEO卫星网络由N颗卫星组成,其可表示为G-(V,C,E),其中V表示为LEO数据面卫星节点集,C表示为LEO控制面卫
20、星节点集,E表示为卫星链路集。数据传陈少权,杜翠凤,张振,等:面向星地融合网络的星上管控节点动态部署方法输节点V-V12V),管控节点C-ci,.m),卫星链路集合E=ejlviyEV。Le,表示LEO卫星链路e,剩余的链路带宽;hope表示消息在卫星节点v与之间传输的平均跳数。(2)星间链路信道模型考虑到星间链路存在随机衰落可能影响数据传输速率,因此,采用星间链路信道模型来计算链路的数据传输速率14。用V,表示t时隙卫星节点v传输数据包u到卫星节点y对应的传输速率,那么传输速率可以表示为:VG,G,P,Lou5=k,T,(E,/No)其中,G,表示卫星节点V,接收天线的增益,G,表示卫星节点
21、v,发送天线的增益,P表示星节点v,的天线发送功率,Le,表示t时隙卫星节点V传输数据包到卫星节点v,的自由空间损耗,E,表示单位比特的能量消耗,N。表示功率谱密度,k,表示玻尔曼兹常数,T,表示系统噪声温度,表示随机衰落因子。Leg,与t时隙卫星之间的距离以及发送信号的频段选择有关,具体表示为:Le4元d随着卫星之间的距离变化,卫星节点v传输数据包u到卫星节点y对应的传输速率具有动态变化的特点,表示电磁波在自由空间中传播速率。(3)网络可靠性模型假设卫星节点v的平均故障间隔为MTBF,卫星节点V的平均故障修复时间为MTTR,,那么卫星节点v,的可靠性r,为:MTBF(3)MTBF,+MTTR
22、,卫星链路e,经过节点集合P所得到的节点可靠性表示为:viePe(4)VV主管控节点GEO卫星(1)(2)主管控节点LEO卫星从管控节点从管控节点SOSo2So3从管控节点卫星网络地面网络地面核心网地面集中管控中心移动通信应急网络图1主从协同管控的星地融合组网架构移动通信网络2024年4月第4期107(13)第48 卷1研究与探讨1总第52 4期假设卫星链路ei发生拥塞的概率与链路中的流量大其中,y。是一个0-1变量,如果y。为0,表示该卫星管控小有关,考虑到卫星的移动性,卫星流量分布概率为P,节点处于关闭状态,否则为激活状态。整个卫星管控节参考文献 15,得到t时隙卫星节点v;传输数据包所需
23、要Zf.y的带宽ue,到卫星节点y的链路拥塞概率为Pe:ceC0,u,VTT。BB。(10)Zple=-1 Vve V,VceC,r=0,1CeC=0XicryRRoy,E(0,1)VcECXver E(0,1)VceC约束(1)部署成本的重要性wi和网络总时延重要性(11)W2之和等于1,实际中可根据运营要求进行设置;约束(2)表示该业务在星链的传输速率Ve,大于该业务的最小速,i=1,2(14)(16)第48 卷总第52 4期陈少权,杜翠凤,张振,等:面向星地融合网络的星上管控节点动态部署方法率阈值Vs;约束(3)表示该业务的处理时延小于该业务的最小时延阈值T;约束(4)表示星上所有管控节
24、点的负载系数小于管控节点的最大负载系数阈值Be;P表示级别r的管控节点v传输节点c的管理关系变量;约束(5)表示每个数据传输节点必须由级别r的管控节点管理;约束(6)禁止将数据传输节点分配到未打开的管控节点;约束(7)中xver是一个0-1变量,表示数据传输节点v仅能由一个级别r的管控节点c管控节点控制;约束(8)表示系统可靠性R于系统最小可靠性阈值Re;约束(9)和约束(18)声明了对应的变量是一个0-1变量。约束条件(2)、(3)和(8)星上管控节点部署时考虑了业务QoS,因为QoS的保证对于容量有限的网络来说是十分重要的。3基于强化学习的星上管控节点部署模型快速求解为了得到星地融合网络管
25、控节点动态部署方案,首先构建星地融合网络的部署成本和网络时延优化函数,然后采用强化学习方法实现星上管控节点数量和位置的快速求解,并通过约束近似解的有效性,得到稳定的优化解。考虑到星上节点的状态具有动态性,采用常规的方法是无法给出精确的解,因此,本文采用强化学习Q-learning的算法求解,该算法引入策略梯度的方式利用Q值的变化幅度来动态调整学习速率,旨在控制Q值的更新速度和提高算法的稳定性,在确保算法很快适应环境变化,满足星上节点拓扑快速变化的要求,也能加快算法的收敛速度。在Q-learning算法中,节点位置部署问题被视为马尔可夫决策过程,状态s表示当前传输节点和管控节点的拓扑状态,决策表
26、示传输节点和管控节点的管控关系,奖励函数R分别表示管控节点部署成本和网络时延归一化后的数值,此时奖励函数可视为一个值F(X)。在星上管控节点数量和位置的选择过程中,基于传输节点和管控节点的管理关系X下得到不同的Q值,可表示为Q(F(X)。智能体通过不断地在网络拓扑状态中不断探索,以更新每个拓扑状态下的最优9 值,从而实现最优部署策略。在Q-learning算法中,策略梯度值代表历史梯度的变化信息,即它与之前动作的相关程度,通过将策略梯度值加入Q值更新的公式中,引人策略梯度值计算来实现学习率(t)的动态调整,使得9 值在更新的时候可以根据学习率的变化幅度调整,以控制Q值的更新速度和提高算法稳定性
27、。在确保星上管控节点部署算法的性能的同时,使得算法能够更快地适应卫星拓扑环境的变化,降低了星上管控节点发生拥塞的概率。与此同时,基于策略梯度值计算来实现学习率(t)的动态调整,使得学习率(t)更能精确地反映历史梯度的信息,从而提升算法的可靠性和收敛速度。因此,Q值更新可以如式(17)表示:Omtate(F(X)=Sstate(F(X)+(t)-AQstate(F(X)其中Qstare(F(X)表示新的网络拓扑状态下管控节点与传输节点的管理关系所对应的Q值;Qstate(F(X)表示当前网络拓扑状态下管控节点与传输节点的管理关系所对应的Q值;AQstate(F(X)表示当前网络拓扑状态下管控节点
28、与传输节点的管理关系所对应的Q值与Q估计值的差值;(t)表示当前时刻t的学习率,可表示为:n(t)=Vg(t)+8其中,g(t)表示当前状态下的强化学习算法中的策略梯度值,取值在0-1之间,当g(t)越接近1,表示变化梯度较大,Q值更新越不稳定,强化学习算法可靠性程度低,算法还需要继续选代。n表示全局学习率(取值在0-1之间),是梯度下降法常用的预设学习率,以用来实现学习率的动态更新;是一个防止分母为0 的平滑项,取值接近于0。由此可知,Q-learning算法利用了策略梯度值实现了模型的自适应性和学习能力。基于策略梯度实现强化学习Q值更新,在网络拓扑状态更新情况下观察不同管控节点数量和位置的
29、选择对值的变化,从而计算策略梯度信息,这个信息可以用来调整学习率(),以提高算法的效率和可靠性。4实验分析本文采用仿真的方式,利用卫星工具包(STK,Sa t e l l i t eToolKit)在Walker星座上对星上管控节点部署方法进行建模,并联合仿真软件完成星上管控节点部署模型进行仿真验证。本文针对LEO层卫星管控节点进行动态选择,其用户终端和业务在区域范围内随机分布,仿真的具体参数参考文献 18 进行设置,如表1所示:表1仿真参数设置参数星座类型轨道高度轨道倾角仿真步长信号传播速率终端发送功率卫星发送功率终端数量终端数据量载波频率噪声功率玻尔曼兹常数系统噪声温度单位比特能耗卫星发送
30、天线增益卫星接收天线增益(17)(18)取值Walker星座48/8/11 400km5260s310m/s0.01 W25W100015Mbits20GHz-104 dBm1.381 0 J/m300K2 J/bit27 dBi24 dBi移动通信2024年4月第4期1091研究与探讨1为了验证本文算法的有效性,本组测试基于上述的仿真系统将本文算法与文献 19 加速粒子群算法(ASPO)及最优搜索算法(OptSearch)在动态星上管控节点部署数量和平均组网响应时延上进行对比。加速粒子群算法(ASPO)采用基于梯度的方法快速求得每个粒子的局部最优解,加速粒子群算法参数包括种群大小、学习因子、
31、最大速度、惯性权重、邻域拓扑、迭代次数和粒子加速条件。输出是最终的星上管控节点部署位置。首先,星上管控节点部署是随机生成的。然后,在每次迭代中,更新粒子位置以及相应的星上管控节点部署。最后,计算每个粒子的适应度值,选择历史上最好的适应度值,如果满足粒子加速度条件,则使用基于梯度的方法更新粒子位置。由此可知,该算法的时间复杂度取决于种群大小、迭代次数和管控节点的规模。最优搜索算法(OptSearch)是一种启发式搜索算法,基于广度优先搜索算法,依赖设定的评价函数对将要遍历的节点进行评价,选择代价小的节点进行遍历,直到找到最优目标点位置。由此可知,该算法的时间复杂度取决于管控节点的规模。本文算法在
32、初始化参数和Q表的基础上,星上管控节点需要不断与环境交互进行决策,从而得到网络的部署成本和网络时延,并更新模型的Q值;在每次更新Q值时,模型基于历史梯度信息的策略梯度值调整学习率参数,直到模型达到最大迭代次数。由此可知,该算法的时间复杂度取决于每个节点与环境的迭代次数和管控节点的规模。综上所述,本文算法在时间复杂度上相对于加速粒子群算法(ASPO)及最优搜索算法(OptSearch)具有一定的优势。随着时间的推进,三种算法在星上管控节点部署数量测试结果如图2 所示。11.51110.59.598.587.512/18 8AM2/189AM 12/1810AM11AM12AM13AM14AM15
33、AM16AM17AM18AM19AM20AM21AM22AM23AM24AM时间本文算法ASPOOptSearch图2 不同算法的星上管控节点数量对比图110移动通信2024年4月第4期由图2 可知,三种算法能够在短时间内随着用户流量需求的变化动态更新星上管控节点的数量,其中,相较于文献 19 的算法,本文算法得到的控制数量相对稳定,与最优搜索算法(OptSearch)得到的解类似。然而,最优搜索算法(OptSearch)的复杂度为O(2n),其中n为卫星数量;而本文算法复杂度为O(nm),其中n为卫星数量,m为迭代次数。由此可知,随着卫星节点数量的增加,最优搜索算法(OptSearch)的复
34、杂度将会大大增加,届时,将会降低星上管控节点的部署速度,影响卫星网络的整体性能。进一步,本文测试三种算法在平均响应时延的结果,以评估不同算法对网络性能的影响,如图3所示。在组网响应时延方面,本文算法与ASPO算法结果较OptSearch算法更加接近,与OptSearch相比,本文算法在数据流平均组网响应时延上减少16%,这是因为本文算法引人策略梯度的方式利用Q值的变化幅度来动态调整学习速率,当卫星拓扑变化较大时,本文算法采用较大的学习率来更新Q值,这与ASPO算法中粒子位置更新的方式类似,都能提升星上管控节点部署位置的收敛速度,因此两者的组网响应时延差异不大。5结束语本文针对星地融合网络星上组
35、网管控灵活性受限的问题,基于SDN技术采用主从协同管控的方式构建星地融合组网架构,提出主从星上管控节点动态部署模型,并利用强化学习的星上管控节点部署模型快速求解。仿真表明,本文算法求解星上管控节点部署方案在满足业务QoS和网络负载系数条件下能够降低约16%的组网响应时延,在一定程度上实现在卫星网络拓扑动态变化下管控节点的自适应部署。111101010109911101012/18111099988812/1812/1810999912/1812/181099912/1812/1899812/1812/189812/1812/1898812/1898812/18812/18第48 卷总第52 4
36、期陈少权,杜翠凤,张振,等:面向星地融合网络的星上管控节点动态部署方法800700600400300200100012/188AM12/189AM12/1810AMI2/1811AMI2/1812AMI2/1813AMI2/1814AMI2/1815AMI2/1816AMI2/1817AMI2/1818AMI2/1819AMI2/1820AMI2/1821AMI2/1822AMI2/1823AMI2/1824AM参考文献:朱琳,任智源,国晓博,等,基于稳态化的卫星网络低时延路由1 Lin Z,Lin M,Champagne B,et al.Secrecy-energy efficient hy
37、bridbeamforming for satellite-terrestrial integrated networksJ.IEEETransactions on Communications,2021,69(9):6345-6360.2 Li J,Xue K,Liu J,et al.An ICN/SDN-based network architectureand efficient content retrieval for future satellite-terrestrial integratednetworksJ.IEEE Network,2019,34(1):188-195.3G
38、ao Z,Liu A,Han C,et al.Max completion time optimization forInternet of Things in LEO satellite-terrestrial integrated networksJ.IEEE Internet of Things Journal,2021,8(12):9981-9994.4 Abood D D,Abdul-rahman H S.Calculation of the Best StabilityOrbit of the Satellite around the Earth before Transferri
39、ng to Orbitaround Mars3.Iraqi Journal of Science,2023:4876-4891.5 Zakharenkova I,Cherniak I,Gleason S,et al.Statistical validationof ionospheric electron density profiles retrievals from GOESgeosynchronous satellitesJ.Journal of Space Weather and SpaceClimate,2023,13:23.6Fraire J A,Cespedes S,Accett
40、ura N,Direct-to-satllite IoT-a surveyof the state of the art and future research perspectives:Backhaulingthe IoT through LEO satellitesC/International Conference onAd-Hoc Networks and Wireless.Cham:Springer InternationalPublishing,2019:241-258.7Liu Y,Chen Y,Jiao Y,et al.A shared satellite ground sta
41、tion usinguser-oriented virtualization technologyJ.IEEE Access,2020,8:63923-63934.8Guo H,Li J,Liu J,et al.A survey on space-air-ground-sea integratednetwork security in 6GJ.IEEE Communications Surveys&Tutorials,2021,24(1):53-87.9赵军锁.软件定义卫星及共享星座的应用与前景.卫星应用,2022(8):29-35.10Fawzi A,Balog M,Huang A,et a
42、l.Discovering faster matrixmultiplication algorithms with reinforcement learning.Nature,2022,610(7930):47-53.11 I Agarwal R,Schwarzer M,Castro P S,et al.Reincarnatingreinforcement learning:Reusing prior computation to accelerateprogress.Advances in Neural Information Processing Systems,2022,35:28955
43、-28971.12TESAURO G.Temporal difference learning and TD-GammonJ.Com munications of the ACM,1995,38(3):58-68.13金彪,李逸康,姚志强,等.GenFedRL:面向深度强化学习智能体的通用联邦强化学习框架.通信学报,2 0 2 3,44(6):18 3-19 7.14 何榕,张羽,章开铃,等,基于中短距离星间链路的可见光通信及性能分析.中国新通信,2 0 2 0,2 2(2):3-4.15万颖,钱克昌,邢鹏,等.改进NSGA-的卫星网络多控制器6595726026036056365976015
44、406266055916225806416826133547509544495图3不同算法在数据流平均组网响应时延大学,2 0 2 2.19 Wu S,Chen X,Yang L,et al.Dynamic and static controllerplacement in software-defined satellite networkingJ.ActaAstronautica,2018,152:49-58.陈少权(orcid.0rg/0009-0000-3412-5109):高级工程师,毕业于南昌大学,现任职于中电科普天科技股份有限公司,从事电子、通信工程等相关工作。杜翠凤(orcid
45、.org/0000-0002-9055-6381):高级工程师,硕士毕业于广东外语外贸大学,现任职于中电科普天科技股份有限公司运营商事业部,研究方向为空天地一体化网络、人工智能、边缘计算等。张振(orcid.org/0000-0002-9211-9935):高级工程师,毕业于西安电子科技大学,现任职于中电科普天科技股份有限公司,主要从事电子与通信相关工作。黄星辉(orcid.0org/0009-0000-4758-9797):正高级工程师,毕业于兰州交通大学,现任职于中电科普天科技股份有限公司,主要从事电子与通信相关工作。111619584567567567508本文算法ASPOOptSearch640605590561时间部署方法.电子设计工程,2 0 2 3,31(12):16-2 2+2 7.16 策略.无线电通信技术,2 0 2 1,47(5):6 0 3-6 10.17汪伊婕,赵伟,成飞,等.基于负载均衡的大规模低轨卫星互联网路由算法.天地一体化信息网络,2 0 2 2,3(1):2 7-34.18陈米铃星地融合网络资源管理算法研究 D.重庆:重庆邮电作者简介移动通信2024年4月第4期615574560700671648537517682528560497497588593556494527