收藏 分销(赏)

基于强化学习的TTE网络调度规划方法设计与实现_陈春燕.pdf

上传人:自信****多点 文档编号:275114 上传时间:2023-06-26 格式:PDF 页数:11 大小:1.72MB
下载 相关 举报
基于强化学习的TTE网络调度规划方法设计与实现_陈春燕.pdf_第1页
第1页 / 共11页
基于强化学习的TTE网络调度规划方法设计与实现_陈春燕.pdf_第2页
第2页 / 共11页
基于强化学习的TTE网络调度规划方法设计与实现_陈春燕.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 实 验 技 术 与 管 理 第 40 卷 第 4 期 2023 年 4 月 Experimental Technology and Management Vol.40 No.4 Apr.2023 收稿日期:2022-09-15 作者简介:陈春燕(1982),女,江西高安,硕士,高级工程师,主要研究方向为飞行器电气总体设计,。引文格式:陈春燕,王红春,王小辉.基于强化学习的 TTE 网络调度规划方法设计与实现J.实验技术与管理,2023,40(4):52-61.Cite this article:CHEN C Y,WANG H C,WANG X H.Design and implementat

2、ion of reinforcement learning-based scheduling panning method for TTE networkJ.Experimental Technology and Management,2023,40(4):52-61.(in Chinese)ISSN 1002-4956 CN11-2034/T DOI:10.16791/ki.sjg.2023.04.007 基于强化学习的 TTE 网络调度规划方法设计与实现 陈春燕1,王红春2,王小辉1(1.中国运载火箭技术研究院研究发展部,北京 100076;2.西安云维智联科技有限公司,陕西 西安 710

3、025)摘 要:为了给时间触发以太网中的事件触发类消息合理地提供时隙、获得更均衡的消息调度时刻,该文提出了基于 Q 学习的调度规划算法,将消息调度在时间轴上的求解转化为在三维空间上的多宝箱探索问题,实现基于强化学习的网络调度规划算法求解调度时刻表。针对提出的算法进行了仿真实验,并对实验结果进行分析验证,与传统的基于可满足性模理论(SMT)的调度规划算法相比,基于 Q 学习的调度算法对 TTE 网络负载均衡性的优化显著超越 SMT 算法,能更合理地分配网络资源。关键词:时间触发以太网;强化学习;调度规划 中图分类号:TP393 文献标识码:A 文章编号:1002-4956(2023)04-005

4、2-10 Design and implementation of reinforcement learning-based scheduling panning method for TTE network CHEN Chunyan1,WANG Hongchun2,WANG Xiaohui1(1.R&D Department,China Academy of Launch Vehicle Technology,Beijing 100076,China;2.Xian Yunwei Zhilian Technology Co.,Ltd.,Xian 710025,China)Abstract:In

5、 order to provide reasonable time slots for event-triggered messages in time-triggered Ethernet and obtain more balanced message scheduling moments,this paper proposes a Q-learning-based scheduling planning algorithm,which transforms the solution of message scheduling on the time axis into a multi-b

6、ucket exploration problem on the three-dimensional space,and implements a reinforcement learning-based network scheduling planning algorithm to solve the scheduling schedule.Simulation experiments are conducted for the proposed algorithm,and the experimental results are analyzed and verified.Compare

7、d with the traditional scheduling planning algorithm based on satisfiability mode theory(SMT),the Q-learning-based scheduling algorithm is significantly superior to the SMT algorithm in load balancing for TTE networks and can allocate network resources more rationally.Key words:time-triggered Ethern

8、et;reinforcement learning;scheduling planning 近年来,随着机载网络、车载网络、医疗监测、金融领域对通信服务的高质量要求,对可靠、实时的通信网络有着越来越高的需求1。传统的以太网可靠性差,消息的实时传输无法得到保证。为了满足通信服务强实时、无冲突的需求,高效地实现消息的调度规划成为时间触发以太网(time-triggered Ethernet,TTE)研究的重点2。时间触发以太网是通过同步机制控制网络中的各模块、终端系统、交换机等设备,再通过规划调度时刻表的方式,来实现消息的调度规划3-4。目前生成调度时刻表的算法主要有基于 SMT(satisfia

9、bility mode theory)的调度算法5、基于 SMT 的分区调度算法等。然而时间触发以太网的消息规模巨大6,传统的基于SMT 的调度算法只能得到可行解,难以支持大时延或者消息抖动等各式各样的问题。本文以上述问题为优化目标,旨在寻找新的解决方案。陈春燕,等:基于强化学习的 TTE 网络调度规划方法设计与实现 53 TTE 网络调度规划属于决策、资源分配问题7,而强化学习(reinforcement learning,RL)在这方面具有显著优势8-9。在传统的 TTE 调度算法研究中,调度结果的正确与否很容易界定,但是在考虑到非实时消息的调度和消息抖动容忍度时,却难以给出优化目标。强化

10、学习通过奖励函数的规范,在智能体与网络调度环境交互过程中,可以得到相对均衡的 TT 消息调度时刻,使结果达到满足时间触发消息调度的情况下,也尽可能为事件触发消息留有时隙10。综上考虑,本文提出了基于 Q 学习的调度规划算法11。将消息调度在时间轴上的求解转化为在三维空间上的多宝箱探索问题,为消息的调度过程设计动作、状态和相应奖励机制,并使智能体通过平衡与贪婪的自适应探索策略进行学习,以过往经验为依托、以目标函数为导向,在与环境交互的过程中寻找更优解,同时通过自适应变化的 参数进行平衡探索,避免陷入局部最优12。1 时间触发以太网调度建模 为了使时间触发调度问题更加形象具体,本节主要对时间触发以

11、太网的调度问题进行数学建模,通过数学符号对网络中的拓扑环境信息、消息数据、网络配置、调度规则和调度时刻表等进行符号化描述。1.1 TTE 调度模型 在 TTE 网络调度过程中,拓扑中所有的终端系统、链路、交换机节点和网络消息均参与调度求解过程。网络拓扑中交换机和终端系统在抽象为数学模型时均视为有向图中的节点,物理链路视为有向图中的边,网络配置信息和参数作用于全局,最终的输出结果是调度时刻表,每一行记录代表某条消息在某一节点的发送时刻13。1)网络中的所有节点统一定义为 D,同时为方便描述,将终端系统则定义为 ED,中间经过的交换机,定义为 SW,SWD 且EDD,终端系统和交换机具有互补的关系

12、,针对节点swSW 的交换机,做出如下定义:(1)交换机 sw 最大转发延迟为 sw.madelay;(2)交换机 sw 最小转发延迟为 sw.midelay;2)在 TTE 网络中的链路集合定义为 P,对于网络中任意的链路 pc,均属于集合 P,即pcP,有如下约定:(1)物理链路 pc 表示特定物理链路,而在链路pc 的两端分别为节点(12,dd),且物理链路 pc 与有序二元组合(12,dd)唯一对应。其中SWEDidD=(2)网络当中使用同一介质,因此物理链路的带宽被统一定义为 NET.bw,NET 代表网络。3)网络中所有消息的集合使用 MF 表示,包含网络当中所有的消息,对于消息m

13、fMF,做出如下定义:(1)消息的帧长度定义为 mf.len;(2)消息的周期定义为 mf.period;(3)消息在一个端口的传输时延定义为 mf.tra_time;(4)消息的源终端系统定义为 mf.sd,消息的目的终端定义为 mf.ed;(5)消息的调度时刻表示为 mf.dsip。4)网络当中的虚链路是一条完整的路径集合,V表示虚链路的集合,对于任意vlV,表示一个有序的 pc 集合,例如第 i 个通信消息完整的从端到端的路径可以表示为:12vlpc,pc,pciin=,其中 ni表示第 i 个消息的虚链路长度。1.2 TTE 调度约束 TTE 网络拓扑由终端系统、交换机以及全双工通信的

14、物理链路组成网络结构,终端系统为通信消息的源节点和目的节点,交换机提供消息转发的能力,通信物理链路为消息在网络中的传输提供能力14。TTE通信调度的目标是为网络当中的所有消息生成一个调度时刻表,为网络当中的消息通信调度提供依据,所有的消息都严格按照时刻表进行发送、接收和转发,而相应的调度约束是保证最终调度时刻表结果正确的最基本条件15,当然,在实际工业应用场景中还需要考虑到网络结构、硬件等条件进行约束,在此不做描述。1.2.1 调度时刻非负约束 调度时刻非负约束是对所有消息调度时刻的一项约束,调度时刻是一个周期内的相对时间点,在最终生成的调度结果中,对于所有具有周期特性的消息而言,其最终的调度

15、时刻均应在 0 和 0 时刻之后,以及相应的周期结束时刻之前。例如消息 msg 的周期为 2 ms,那么该消息的调度结果一定在0,2)ms 范围内。mfMF,mf.disp0,mf.dispmf.periodllppiiii=(1)式中,mfi为网络当中的第 i 条通信消息;lp为某一条物理链路;mf.displpi为第 i 条通信消息在链路当中的调度时刻。1.2.2 单周期完成约束 对于网络当中的 TT(time-triggered)消息而言,严格遵循时间触发机制,必须要遵循相应的周期性规律,因此单条消息的调度任务必须在自己的执行周期内结束,否则将会干扰到下一个周期内的消息调度。例如某一消息

16、的执行周期为 2 ms,当前的网络带宽必须至少能够满足消息在该周期内完成一次从源节点发送到目的节点发接收的动作。在实际情况中由于网络延迟、消息抖动等原因在当前周期没有进行消息的调度,也仍然需要预留相应的时间片资源,以便在下一54 实 验 技 术 与 管 理 周期相同的时间片来临时可以正常执行消息调度任务16。单周期完成是支持消息周期性调度的基础。1pcmfMF,mf.dispmf.periodiii(2)pcmf.dispmf.tra _ timemf.periodiniii+(3)mf.tra _ timei为第 i 条通信消息从开始传输到完全走出端口所需要的传输时延;1pcmfi为第 i

17、条通信消息在周期内第一跳的调度时刻;pcmfini为第 i 条通信消息在周期内最后一跳的调度时刻;mf.periodi为第 i 条通信消息自身的周期属性。传播时延是由硬件属性和电磁波属性共同决定的。为了简化模型,本文在此忽略传播时延。1.2.3 调度时序约束 调度时序约束限定了消息在从源终端系统到目的终端系统的调度顺序,即表示消息在一条虚链路调度的过程中在各物理链路上需要遵循的时序,该约束是针对消息内部的约束。消息的时序关系如式(4)所示。123212mfMF,vl,vl,mf.vlvlmf.dispmf.tra _ timemf.disp,mf.dispmf.tra _ timemf.dis

18、pmf.dispiniiiniiippiiippiiipipppV=+(4)式中,mf.vli为第 i 条通信消息所要经历的完整路径,即虚链路;12,inppp为第 i 条通信消息虚链路中包含的物理链路。1.2.4 冲突避免约束 TTE 的网络调度是在全双工通信的环境下进行的,采用全双工的目的之一就是降低消息碰撞的可能性,在该调度机制过程中,所有消息调度均严格遵循调度时刻表,若在实际情况下仍然出现消息碰撞,只能选择丢弃特定消息或者在调度求解时预留冗余时间片资源以备不时之需。在进行消息调度时,各消息在相同时间片下独享对同一端口和同一传输链路的资源。由于各消息周期属性的不同,会导致具有相同或者部分

19、重叠传输路径的消息在若干个周期内占用时间片的相对位置产生差异,差异的变换轨迹具有周期性规律,因此,这里引入了集群周期概念,集群周期为具有相同端口和路径消息周期的最小公倍数,是可以正确检验相同端口下不同消息之间的调度是否满足冲突避免约束的最小时间单元。在集群周期下,保证消息的冲突避免约束即是保证网络在消息调度过程中可以有序进行的最基本条件之一。在这里可以借鉴时分多址9(time division multiple access,TDMA)的思想,即把时间划分为互不重叠的时间片,供不同的消息使用。(,)(,)(,)lcmLCMpc,mfMF,pcmf.vl,pcmf.vl,(mf.period)m

20、f.dispmf.tra _ timemf.disp(mf.period)mf.displcmlcm0,0,mf.periodmf.periodlllllililji jppiiijpji ji jijpjPhbijhbhb +|NNmf.tra _ time(mf.period)mf.disp(mf.period)llpjjpiibh+-+(6)式中,swj为SW集合中的某个交换机;,lmpp为相邻的两条路径,分别映射着交换机swj的输入端口和输出端口;mf.displpi,mf.dispmpi为消息mfi在路径,lmpp的调度时刻;sw.midelayj为交换机swj所要求的最小延迟;sw

21、.madelayj为交换机swj所允许的最大延迟。1.2.6 端到端时延约束 该约束限定了消息从源端系统最终到达目的端系统的最大容忍延迟。即表示消息在调度过程中,从源端系统发送开始,中间可能经过若干个交换机节点,陈春燕,等:基于强化学习的 TTE 网络调度规划方法设计与实现 55 最终到达目的端系统的最大耗时应当限制在某个范围内。一般情况下,消息的端到端时延就是该消息的周期。1mfMF,mf.disp mf.tra _ time mf.dispmf.delayinppiiiii+-(7)式中,mf.delayi为消息mfi的端到端延迟约束。消息在某一端口的时延计算方式为 mf.lenmfMF,

22、mf.tra _ timeNET.bwiii=(8)在一个单跳拓扑链路中即一条消息需要从源终端系统经过一个交换机节点到达目的终端系统(路径es0-sw0-es2)总的传输时延为 mfMF,mf.tratime_alltratime_es0tratime_sw0mf.lenmf.lenmf.len2NET.bwNET.bwNET.bwiiiii=+=+=(9)式中,mf.tratime_alli表示第 i 个消息的传输总时延,mf.leni表示第 i 个消息的消息帧长。消息在一个二级跳拓扑链路中即一条消息需要从源终端系统经过两个交换机节点到达目的终端系统,消息在路径 es0-sw0-sw1-es

23、2 上总的传输时延计算方式为 mfMF,mf.tratime_alltratime_es0tratime_sw0tratime_sw1mf.lenmf.lenmf.lenmf.len3NET.bwNET.bwNET.bwNET.bwiiiiii=+=+=(10)故消息的传输耗时与消息将要经历的跳数相关,如式(11)所示:mfMFmf.lenmf.tratime_all,NET.bwiiikk=+N(11)所以,消息的端到端时延和消息长度与其所要经历的跳数、长度和消息在交换机的转发时延息息相关。以上调度约束均为网络中消息调度求解过程中的基本约束要求,即在进行消息调度的求解时所有消息必须遵守的规则

24、,如果无法满足其中任意一条,即认为该问题无解或者该次结果失败。2 基于 QLearn 的调度规划算法 2.1 解空间设计 QLearn 是强化学习中的一种无模型(model free)的值评估(value-based)算法。无模型的特点是不依赖于环境,具有应对不同环境的自适应能力,该算法通过智能体与网络环境交互的过程来进行算法的迭代,将每次与网络环境交互的行为价值(Value)保存在 Q 表中,然后依赖 Q 表中的行为价值导向继续与网络环境交互,追求利益最大化。QLearn 是一种时序差分离轨策略控制,也叫 TD(0)控制方法。其更新公式为 (,)(,)(,)(,)aQ s aQ s aRma

25、x Q s aQ s a=+-(12)式中,(,)Q s a为执行当前某个动作的价值;为学习效率,表示此次行为需要学习的误差占比;为折扣因子,表示对未来回报值的衰减程度;max(,)aQ s a为对未来行为价值的最大估计;R 为回报值,通常设置为 1,0,1,分别表示调度结束、调度中途以及调度失败。QLearn 算法需要先初始化 Q 表,然后依据该表内 Q 值使用-greedy 策略进行探索,通过与环境交互的回报值 R 更新 Q 表,直至达到循环终止条件。在 Q 表中,假设当前网络拓扑环境下存在N个消息,每个消息都有mN个发送帧,其中第i个消息依据它的路由器路径产生miN个传输帧。每个传输帧都

26、有cc个可选的发送时刻,cc为当前网络坏境下消息的超周期。因此 Q 表可以由ccmNN的矩阵表示,则ijkQ表示第 i 个消息,第 j 个发送帧,在第 k 个发送时刻的动作价值。基于Q学习调度基本思想的流程如图1所示。图 1 QLearn 调度算法流程图 在算法流程中,首先初始化消息集群和Q表集群,Q 表集群中 Q 表数目为网络中消息的跳数总和,每跳消息独享一个 Q 表,依赖 Q 表进行决策;在决策时采用-greedy 策略进行动作选择,在每次动作选择之后要对该动作进行约束检查,若未能满足约束,则通过回报函数计算出负反馈;若满足约束,则继续迭代,让其他消息进行动作选择,直至全部消息调度完毕;每

27、逢一条消息完整调度完毕后会给予智能体一个极小的奖励 6;若不满足调度约束,则进行负反馈;无论调度成功或者失败,均按照动作选择记录来更新 Q表;在每一次迭代结束之后需要对环境进行重置,以便下56 实 验 技 术 与 管 理 一次迭代的有效进行;算法迭代次数通过人为指定。算法流程如下:输入:网络拓扑数据信息,约束配置参数,待调度消息集群,训练迭代次数 episodes;输出:消息调度时刻表;初始化:网络拓扑信息NET,调度环境 Environment,Q 表集群,消息集群信息 MF 并按照困扰程度排序,选择策略,消息发送时延的计算;将初始结果价值映射在 Q 表当中;for episode 1,ep

28、isodes do:for msg 1,N do:消息执行自适应探索策略在动作空间进行选择,并记录在 choose 集合中;进行约束检查;if 满足约束条件:在 Environment 执行标记;if 消息最后一跳调度结束:给予微小奖励 6,并通过 choose 记录更新 Q 表;else:执行惩罚机制,根据choose记录更新Q表;break;if 最后消息最后动作执行完毕且满足约束:执行奖励机制,根据choose记录更新Q表;调度结果均衡计算,将 R 放入经验池当中;end for;end for;2.2 面向 TTE 网络调度规划的 Q 学习算法要素 本文在面对 TTE 网络消息调度规划

29、时,结合了 Q学习算法的基本要点,并引入了时间离散化和时间转化为空间的思想。时间离散化指将连续的时间区间结合自身最终结果的精度需要,离散成有限的时间点;时间转化为空间指将智能体为消息集群在调度时刻上的选择转化为三维空间中的探索问题。1)调度状态设计。在消息调度求解过程中,成功的标志为所有消息生成的调度结果均符合规定的约束,这也是问题有解的最基本要求。一个有效的最终求解状态示意如图 2所示,该图为 3 条 TT 消息 TT1、TT2、TT3 在从节点A 去往节点 B 过程中时间片占用的示意图。在图 3 中,TT3 和 TT4 调度时间片有明显的重叠,因此该状态是 图 2 调度成功状态示意图 图

30、3 调度冲突状态示意图 失败的,但在实际场景中,会采取相应的容错机制,一种比较简单的办法就是丢弃TT3或者TT4中任意一条,便于调度进程可以执行下去。时间触发以太网的调度可以看作是一个三维空间下的多宝箱探索问题,有 MC(message count)个(总共的消息数量)消息主体进行探索,每个主体又将执行 SMC(small message count)次探索任务,主体之间按照次序执行,主体的每个任务之间也将保证一定的顺序。调度状态转换示意如图 4 所示。图 4 调度状态转换示意图 2)调度动作设计。TTE 的网络消息调度是将 TTE 消息从源节点到目的节点的调度行为进行拆分,宝藏探索的主体为消

31、息,在消息探索过程中会执行两次及两次以上的探索动作,一个消息主体的多次探索动作之间满足时序约束,例如,有一条待调度的消息,其路径为 es0-sw0-es2,消息从终端系统 es0 到 sw0 的调度可以看作一次宝藏探索动作,消息从 sw0 到 es2 为宝藏探索的第二次探索动作,且两次动作之间需要满足时序,即第一次动作执行之后才可以执行第二次动作,即满足时序约束要求,如式(12)所示:es0sw0mfMF,actionmf.tra _ timeactioniiii+100 由表3可知,基于QLearn的调度算法其调度时隙各子链路负载均值优化能力显著优于基于SMT的调度算法,在该实验中基于SMT

32、的优化能力最差,基于VNS-SMT次之,二者由于SMT算法本身的局限,不具备探索的能力,只与所处环境有关。表 3 实验 1 中各算法对子链路负载均值对比 SMT VNS-SMT QLearn 最大值 447.23 447.23 420.99 最小值 447.23 394.99 251.09 优化力度 0 52.54 169.90 2)实验2。拓展该网络中的消息规模,网络中待调度的消息共103条,每条消息的跳数即经过的交换机数量不等,共292跳,其消息集群周期为8 000 s,因此在集群周期中共有857条消息帧。其中算法迭代上限即初始温度为50 000,学习效率设为0.6,衰减因子设为0.9,动

33、作选择策略的参数取0.01,邻域数量为5,参数通过调参方式得来。图9显示了各算法在调度求解过程中调度结果时隙标准差均值最优值更新曲线,基于强化学习的调度算法在优化方面依然显著优于基于SMT的调度算法。表4记录了各方法得到初始解的效率,在初始解的求解效率方面,基于SMT的调度算法优于基于QLearn的调度算法,强化学习的计算耗时主要体现在探索学习方面。表5记录了不同方法的调度时隙优化情况,实验2中网络消息较为密集,基于QLearn的调度算法其调度时隙各子链路负载均值的优化能力同样显著优于基于SMT和VNS-SMT的调度算法。3.3 拓展星型网络拓扑环境 星型网络是一个中心连接多个节点,管理简单,

34、60 实 验 技 术 与 管 理 图 9 实验 2 中子链路负载均值变化 表 4 实验 2 不同算法初始求解时间对比 SMT VNS-SMT QLearn 求解效率/s 9.65 12.51 100 表 5 实验 2 中各算法对子链路负载均值对比 SMT VNS-SMT QLearn 最大值 448.85 448.85 361.89 最小值 448.85 339.19 190.75 优化力度 0 109.66 171.14 易于维护,但是中心节点故障则整个网络崩溃,因此出现了拓展星型网络拓扑,其在普通星型网络拓扑的设备之间添加了冗余链路。如图10所示,该网络中共有12个终端系统,4个TTE交换

35、机设备,16条物理链路。在本拓扑环境中同样采用不同消息规模来进行实验,两组实验分别编号为实验3、4。数据中的消息随机生成,且假设消息的路径已经通过特定算法完成对最优路径的求解。1)实验3。在本实验中,网络中待调度的消息共60条,每条消息的跳数即经过的交换机数量不等,共153跳,所有消息集群周期为16 000 s,在集群周期中共有504条消息帧。其中算法迭代上限即初始温度为70 000,学习效率设为0.6,衰减因子设为0.9,动作选择策略的参数取0.001,变邻域搜索中邻域数量为7,参数通过尝试的方式进行设置。图11为各算法在实验3拓扑环境下的调度结果最优值更新变化曲线。首先,基于QLearn的

36、调度算法 图 10 拓展星型网络拓扑环境 对网络的优化能力显著高于基于SMT的调度算法,这得益于QLearn中探索学习的特点,基于SMT调度算法只与所处环境有关。由表6可知,基于SMT的调度算法求解在本实验中数据较快,基于QLearn的调度算法,尤其是本实验中是基于无模型调度算法,因此在学习过程中会耗费较多的学习时间,QLearn耗费时间最长。由表7可知,基于QLearn算法调度结果优化能力最强,优化力度最大,显著优于基于SMT的调度算法。2)实验4。在本实验中,网络拓扑中待调度的消息共130条,每条消息的跳数即经过的交换机数量不等,共335跳,其消息集群周期为32 000 s,在集群周期中共

37、有2 138 图 11 实验 3 中子链路负载均值变化 陈春燕,等:基于强化学习的 TTE 网络调度规划方法设计与实现 61 表 6 实验 3 不同算法初始求解时间对比 SMT VNS-SMT QLearn 求解效率/s 1.55 2.43 100 表 7 实验 3 中各算法对子链路负载均值对比 SMT VNS-SMT QLearn 最大值 1 356.61 1 415.75 1 472.30 最小值 1 356.61 1 041.76 504.47 优化力度 0 373.99 967.83 条消息帧。其中算法迭代上限即初始温度为70 000,学习效率设为0.6,衰减因子设为0.9,动作选择策

38、略的参数取0.001,变邻域搜索中邻域数量为7,参数通过调参方式进行设置。图12表示实验4中各算法调度结果最优值更新曲线。基于QLearn的调度算法其优化能力显著高于基于SMT的调度算法,在本实验相对实验3而言消息较为密集,消息周期较大,基于VNS-SMT的方法在大周期消息调度中也有着不错的表现,整体仍逊色于基于QLearn调度算法的表现。由表8可知,基于SMT的调度算法求解在本实验中数据较快,基于QLearn的调度算法,因在学习过程中会耗费较多的学习时间,所以耗费时间最长。图 12 实验 4 中子链路负载均值变化 表 8 实验 4 不同算法初始求解时间对比 SMT VNS-SMT QLear

39、n 求解效率/s 10.40 18.28 1000 表9为实验4中各算法调度结果各子链路负载均值最值对比,可以看出,基于QLearn的调度算法其调度时隙各子链路的负载均值的优化能力显著优于基于SMT和VNS-SMT调度算法。通过以上实验14,本文所提方法在耗时上均相对较长,但是在优化力度上较其他方法有很大提升。在复杂环境下面对网络中其他流量信息的传输需求的优化目标时,具有良好优化效果的QLearn算法可以更好地求得优化解。表 9 实验 4 中各算法对子链路负载均值对比 SMT VNS-SMT QLearn 最大值 975.30 975.30 944.98 最小值 975.30 615.39 4

40、78.50 优化力度 0 359.91 466.48 4 结论 随着机载网络、医疗监测、车载网络等技术的飞速发展,TTE网络消息调度规划的地位日益重要。传统的基于SMT的TTE网络调度规划算法完全依赖于约束,并且不具备探索的能力,不利于事件触发消息的调度。基于QLearn的调度规划算法将调度问题转化为三维空间下的多解搜索问题,通过人为指定奖励函数,使得智能体在与环境交互的过程当中尽可能地探索出更优的结果,实现了自我学习。通过经典的基于SMT的调度算法以及由变邻域思想而来的VNS-SMT调度算法,与本文所提出的算法在不同的网络拓扑环境进行对比,可以得知,基于QLearn思想的调度算法总能够得到比

41、基于SMT思想的调度算法更优的结果,从而证明TTE网络调度和强化学习可以实现有效结合,并且总可以得到更优解。参考文献(References)1 MA X F,HAMDULLA A.Hybrid scheduling technology of time-triggered Ethernet switches:A reviewC/2020 6th Annual International Conference on Computer Science and Applications.Guangzhou,China,2020,1673:012024.2 DVOK J,HELLER M,HANZLE

42、K Z.Makespan minimization of Time-Triggered traffic on a TTEthernet networkC/2017 IEEE 13th International Workshop on Factory Communication Systems(WFCS).Trondheim,Norway,2017:110.3 罗泽雄,曲国远,严龙,等.基于重要性抽样的时间触发调度表生成方法J.航空学报,2022,43(3):492504.4 LI Z,WAN H,PANG Z,et al.An Enhanced reconfiguration for det

43、erministic transmission in time-triggered networksJ.IEEE/ACM Transactions on Networking,2019(99):114.(下转第74页)74 实 验 技 术 与 管 理 cooking oil quality testing system based on conductivityJ.Applied Mechanics&Materials,2014(701702):480487.6 FARHOOSHR,TAVASSOLI-KAFRANI M H.Polar compounds distribution of su

44、nflower oil as affected by unsaponifiable matters of bene hull oil(BHO)and tertiary-butylhydroquinone(TBHQ)during deep-fryingJ.Food Chemistry,2010,122(1):381385.7 REJEB I B,ARDUINI F,ARVINTE A,et al.Development of a bio-electrochemical assay for AFB1 detection in olive oil.J.Biosensors and Bioelectr

45、onics,2009,24(7):19621968.8 BERGHIAN-GROSANC,MAGDAS D A.Raman spectroscopy and machine-learning for edible oils evaluationJ.Talanta,2020,218(prepublish):121176.9 黎远鹏.基于拉曼光谱法的食用油定性鉴别与掺伪含量检测研究D.暨南大学,2016.10 LONG D A.Characterization of Chemical Purity:Raman spectroscopyM.Butterworth,1971:149161.11 KNE

46、BL A,YAN D,POPP J,et al.Fiber enhanced raman gas spectroscopyJ.TrAC Trends in Analytical Chemistry,2018(103):230238.12 KNEBL A,DOMES C,DOMES R,et al.Hydrogen and C2C6 Alkane sensing in complex fuel gas mixtures with fiber-enhanced Raman spectroscopyJ.Analytical Chemistry,2021,93(30):1054610552.13 WA

47、NGJ,CHENW,WANGP,et al.Fiber-enhanced Raman spectroscopy for highly sensitive H2 and SO2 sensing with a hollow-core anti-resonant fiberJ.Optics Express,2021,29(20):3229632311.14 AZKUNEM,FROSCHT,ARROSPIDEE,et al.Liquid-core microstructured polymer optical fiber as fiber-enhanced Raman spectroscopy pro

48、be for glucose sensingJ.Journal of Lightwave Technology,2019,37(13):29812988.15 YAND,FROSCHT,KOBELKEJ,et al.Fiber-enhanced Raman sensing of cefuroxime in human urineJ.Analytical Chemistry,2018,90(22):1324313248.16 陶少华,刘国根.现代谱学M.北京:科学出版社,2015.17 杨序刚,吴琪琳.拉曼光谱的分析与应用M.北京:国防工业出版社,2008.18 HUANG G B,ZHOU H

49、,DING X,et al.Extreme learning machine for regression and multiclass classificationJ.IEEE Transactions on Systems Man&Cybernetics Part B,2012,42(2):513529.19 彭恒,候华毅,陈相柏.三种不饱和脂肪酸的拉曼光谱及 DFT计算快速鉴别方法的研究J.武汉工程大学学报,2018,40(6):597600.20 杨坤,褚昆昆,朱祥,等.几种典型食用油脂拉曼光谱分析研究J.粮食与油脂,2015,28(11):5658.(编辑:张文杰)(上接第 61 页

50、)5 STEINER W.An evaluation of SMT-based schedule synthesis for time-triggered multi-hop networksC/Proceedings of the 2010 31st IEEE Real-Time Systems Symposium.San Diego,California,USA,2010:375384.6 WISNIEWSKI L.New methods to engineer and seamlessly reconfigure time triggered Ethernet based systems

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 通信科技 > 网络/通信

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服