收藏 分销(赏)

基于选址机制与深度强化学习的WRSN移动能量补充.pdf

上传人:自信****多点 文档编号:2334683 上传时间:2024-05-28 格式:PDF 页数:7 大小:2.07MB
下载 相关 举报
基于选址机制与深度强化学习的WRSN移动能量补充.pdf_第1页
第1页 / 共7页
基于选址机制与深度强化学习的WRSN移动能量补充.pdf_第2页
第2页 / 共7页
基于选址机制与深度强化学习的WRSN移动能量补充.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、现代电子技术Modern Electronics Technique2023年11月1日第46卷第21期Nov.2023Vol.46 No.210 引 言无 线 可 充 电 传 感 器 网 络(Wireless Rechargeable Sensor Network,WRSN)1通 过 配 备 可 移 动 充 电 装 置(Mobile Charger,MC)能从根本上解决传感器能量受限的问题,被广泛应用于战场监测2、生态系统监测34、交通监测5等信息感知领域,具有传感器节点密集且分布范围广泛的特点。一对多能量补充技术通过适当调整发送器和接收器线圈的工作频率6,MC 可以同时为多个传感器充电,从

2、而有效提高能量传输效率,更能适应规模较大、节点数目众多WRSN的应用场景。在 WRSN 一对多充电方案中 MC 充电驻点的选取基于选址机制与深度强化学习的WRSN移动能量补充王 倩1,2(1.昆明理工大学 信息工程与自动化学院,云南 昆明 650500;2.昆明理工大学 云南省计算机技术应用重点实验室,云南 昆明 650500)摘 要:无线充电已成为彻底解决无线传感器网络能量受限问题最有前景的技术之一。针对传感器网络应用场景中的高能量补充需求,提出一种基于选址机制与深度强化学习的一对多充电策略MSRL,利用带权集合覆盖问题求解移动充电装置(MC)的近似最优充电驻点集;基于Dueling DQN

3、算法,综合考虑传感器的能量消耗率、地理位置、剩余能量等因素确定MC访问充电驻点的顺序。通过捕捉充电动作在时间序列中的关系,使用奖励反馈评估充电决策的质量,自适应调整充电路径,实现 MC充电调度的优化。进一步对 Dueling DQN算法进行改进,利用 Gradient Bandit策略提高奖励值高的样本被采样的概率,加快算法训练速度。大量仿真实验结果表明,MSRL策略不仅可以显著减少传感器节点的死亡数和网络平均能量消耗,延长网络的生存时间,并且优于其他比较方法。关键词:无线可充电传感器网络;一对多能量补充方案;深度强化学习;选址机制;带权集合覆盖;奖励反馈中图分类号:TN71134;TP393

4、 文献标识码:A 文章编号:1004373X(2023)21008207Mobile energy replenishment based on location mechanism and deep reinforcement learning for WRSNWANG Qian1,2(1.Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China;2.Yunnan Key Laboratory of Computer T

5、echnologies Application,Kunming University of Science and Technology,Kunming 650500,China)Abstract:Wireless charging has become one of the most promising technologies to completely solve the problem of energy limitation in wireless sensor networks.In this paper,a onetomany charging strategy based on

6、 location mechanism and deep reinforcement learning(MSRL)is proposed to meet the high energy supplement requirements in sensor network application scenarios.The approximate optimal charging stagnation point set of the mobile charger(MC)is solved by the weighted set coverage problem.On the basis of d

7、ueling DQN(deep Qnetwork)algorithm,the sequence of MC visiting charging stagnation point is determined by comprehensively considering the energy consumption rate,geographical location,residual energy and other factors of sensors.MC charging scheduling is optimized by capturing the relationship betwe

8、en charging actions in time series,using reward feedback to evaluate the quality of charging decision,and adaptively adjusting the charging path.In this paper,the dueling DQN algorithm is further improved by using the gradient bandit strategy to improve the sampling probability of samples with high

9、reward values and speed up the algorithm training.The results of a large number of simulation experiments show that the MSRL strategy can not only significantly reduce the deaths of sensor nodes and the average energy consumption of the network,but also prolong the network lifetime.Therefore,the pro

10、posed MSRL strategy outperforms the comparison methods.Keywords:wireless rechargeable sensor network(WRSN);onetomany energy supplement scheme;deep reinforcement learning;site selection mechanism;weighted set coverage problem;reward feedbackDOI:10.16652/j.issn.1004373x.2023.21.016引用格式:王倩.基于选址机制与深度强化学

11、习的WRSN移动能量补充J.现代电子技术,2023,46(21):8288.收稿日期:20230322 修回日期:202304188282第21期以及充电路径的规划是实现高效能量补充的两个关键因素,目前大多数相关研究将其构造为组合优化问题。文献7将一对多充电问题归约成覆盖TSP问题,首先采用PSO算法得到 MC充电驻点,然后采用 LKH算法构造遍历这些驻点的最小 TSP 回路。文献8提出一种基于加权启发式的充电策略 GOCS,计算出充电优先级,抢占式按需充电。随着机器学习的发展,文献9引入时间窗的概念表示充电需求,基于传感器的时间窗信息和能量信息,将 DQN 引入用于确定 MC 的充电路径。可

12、以看到,将机器学习与充电策略相结合有利于提高 MC的自主性,实时响应充电请求。由于同时考虑组合优化问题的解空间复杂度过大,本文将能量补充问题离散化为驻点选取和路径规划两个子问题进行求解。针对上述问题,本文提出一种基于选址机制与深度强化学习的一对多充电策略(Onetomany Charging Strategy Based on Reinforcement Learning,MSRL)。本文采用预先设置驻点的方式对传感器节点进行能量分批管理,实现网络的全覆盖。首先将充电驻点选取问题抽象为选址问题中的集合覆盖问题,通过WSC_RA10算法求解出最优充电驻点集。在确定驻点位置后,引入充电奖励,基于

13、Dueling DQN 得到充电调度的最优策略,实时动态提供充电方案,延长 WRSN网络寿命。1 网络模型与问题描述1.1 网络模型本文的网络模型如图1所示,在网络覆盖区域随机部署N个传感器节点V=v1,v2,vn,vi代表第i个传感器节点,节点具有监控自身剩余能量、数据融合的能力;基站位置固定位于网络中心,为 MC供应能量且能量不受限。当传感器剩余能量低于充电阈值时,传感器节点会通过多跳通信的方式向基站发送充电请求,基站再将充电请求转发给 MC。MC为带有高容量无线充电电源的移动设备,具有强大的计算能力和足够的服务池来接收充电请求,当收到充电请求后沿着充电路径访问充电驻点P=p1,p2,pm

14、,并为覆盖范围内的传感器节点以一对多的方式充电。因此根据模型假设和相关定义,在表1中列出了主要的参数符号,此外还进一步给出了充电驻点的定义。定义 1:充电驻点即 MC预设停靠位置。MC在网络中停靠时才对传感器进行充电行为。1.2 问题描述WRSN可持续稳定工作对确保监控质量至关重要,为了衡量 MC 的充电性能,将一次充电周期结束后,网络中所有传感器节点的平均剩余能量定义为网络平均剩余能量,如式(1)所示:-RE=1Ni=1Nrei(1)图1 网络模型表1 主要参数符号名称NemaxreiceiEthPtCrvc描述传感器数量传感器节点电池容量第i个传感器节点实时电量第i个传感器节点能量消耗率充

15、电阈值MC充电功率MC充电半径MC移动速度MC运动单位距离能耗与此同时,传感器节点失效时无法保证网络的连通性,会产生数据丢失、网络断开等问题11,如何最小化节点失效数,是充电方案中要解决的关键问题。因此,本文引入传感器节点死亡数DN作为衡量充电方案性能的主要指标之一,并且假设t时刻 MC剩余电量为Et,此时距离基站距离为dt。表述受限的组合优化问题为:min DNmin-REEt cdt,t T(2)式中:Et cdt表示限制 MC 在移动过程中任意时刻的电量,可以保证其返回基站。2 MSRL策略设计与实现2.1 确定候选充电驻点集以优化 MC 移动距离为目标,为 MC 确定合适的充电驻点位置

16、,实现全覆盖的同时充电驻点数最少。确定王 倩:基于选址机制与深度强化学习的WRSN移动能量补充83现代电子技术2023年第46卷候选充电驻点位置的具体步骤如下:1)以每个传感器为圆心,充电距离为Cr半径作圆,求出圆与圆之间的交点。2)当两圆之间存在两个交点时,基于向心法则选择距离基站位置较近的交点,将其加入候选充电驻点集合U。3)当两圆之间只有一个交点时,则将该点加入候选充电驻点集合U。4)若存在独立的圆,即不与其他圆相交,则将该圆圆心加入候选充电驻点集合U。如图 2所示,以传感器节点为圆心作圆,黑色菱形即为候选充电驻点位置。由于此方法得出的充电驻点数量较大,不利于求解最短充电路径,接下来将基

17、于选址问题中的带权集合覆盖问题,求得最优充电驻点集。图2 确定候选充电驻点2.2 确定最优充电驻点集考虑到驻点选取问题与选址问题的相似性,将驻点选取问题抽象成带权集合覆盖问题,则是求解满足覆盖所有传感器节点的前提下,充电驻点总的位置个数最少且 距 离 最 小 的 问 题。对 于 传 感 器 节 点 集 合V=v1,v2,vn,候选充电驻点集合U=u1,u2,um,定义候选充电驻点到基站的距离为权值。将驻点选取问题转换为求解带权集合覆盖问题,其形式化定义如下:输 入:V=v1,v2,vn,U=u1,u2,um,W(U)=w(r1),w(r2),w(rm)(w(ri)0,1 i m),其中ui V

18、,1 i m。输出:C U,uk=V,且最小化w(uk),uk C。为确定最优驻点集合,本文通过带权集合覆盖问题的一种随机近似算法 WSC_RA,从概率的角度出发,多次运行求得最优覆盖集合。此外该算法时间复杂度O(n)远小于解决集合覆盖问题最常用的贪婪算法,其优化结果如图3所示,五角星位置表示最终确定的充电驻点。图3 确定最优充电驻点2.3 基于竞争深度Q网络的充电路径规划算法2.3.1 学习模型本文基于马尔科夫模型对文中描述的充电场景进行建模,将无线可充电传感器网络视为强化学习中的环境,将负责执行充电决策的 MC视为智能体。该模型可以由四元组表示,其中S是状态空间,A是动作空间,P是状态迁移

19、模型,R是即时奖励12,具体建模如下:1)状态空间S:该模型的状态由 MC的剩余电量和WRSN中所有传感器节点的状态两部分组成。S=(3)Snetwork=s1,s2,sn(4)式中:EMC表示MC的剩余电量;Snetwork表示传感器节点的状态集合;si表示第i个传感器节点的状态,由两部分组成,即坐标位置信息(xi,yi)、剩余能量信息rei。si的表达式如式(5)所示:si=(xi,yi,rei)(5)2)动作空间A:MC 的基本动作集合A中包含 2 种基本动作,如式(6)所示:A=|a a 1,2,m+1(6)当a=m+1,表示 MC 返回基站进行能量补充;当a=i(i 1,2,m),表

20、示 MC移动到第i个充电驻点处进行充电任务。为避免电池过度充电,只给 MC充电覆盖范围内低于能量阈值的传感器充电。3)即时奖励:智能体通过即时奖励的反馈来评价动作的好坏,因此奖励函数的设定对于强化学习至关重要。在本文中,MC在t时刻执行动作结束后得到的即时84第21期奖励从三个方面综合考虑,定义为:Rt=Rlt+Rdt+Rpt(7)Rlt表示路径奖励,用于引导优先考虑距离较近的充电驻点,其与 MC从上一个充电驻点移动到当前充电驻点的距离l成反比,如式(8)所示:Rlt=e-l(8)Rdt用于惩罚网络中的传感器节点死亡,如果当前执行的动作导致传感器节点能量耗尽失效,则给 MC一个负奖励值,见式(

21、9):Rdt=DN*(-K)(9)式中:DN代表一次充电动作结束后传感器节点死亡数;K代表常数系数。Rpt表示充电奖励,用于引导优先给能量较低的传感器节点进行充电,一方面可以避免传感器节点死亡,另一方面可以提高MC的充电效率,见公式(10):Rpt=i=1k(emax-rei)i=1kemax(10)式中k表示 MC 在当前充电驻点时,其充电覆盖范围内传感器节点的数量。综上所述,奖励函数可以表示为式(11):Rt=e-l+DN(-K)+i=1k(emax-rei)i=1kemax(11)2.3.2 基于Gradient Bandit策略采样强化学习中通常认为奖励值越高的动作与环境交互表现越好,

22、越具有学习价值。基于 Gradient Bandit策略采样,根据奖励值进行重要性评估,给每条经验数据设置一个偏好度。当经验奖励值越高,偏好度越高,经验被选中的概率也就越高;反之亦然。在该方法中,首先将所有经验的偏好度Ht(ei)初始化为 0,将经验数据的平均奖励值作为基线,根据基线设置各个经验的偏好度。每个时间步t时,当有新的经验数据加入经验池,会更新平均立即奖励值,从而更新偏好度。偏好度Ht(ei)的更新公式见式(12):Ht(ei)=Ht-1(ei)+(ri-r)(1-Pt-1(ei),ri r Ht-1(ei)+(ri-r)(0-Pt-1(ei),ri r(12)式中:为步长影响因子;

23、ri表示经验池中第i条经验的立即奖励值;r 为平均立即奖励值;Pt-1(ei)表示第t-1时间步时采样第i条经验的概率,其计算公式如式(13)所示:Pt(ei)=eHt(ei)j=1DeHt(ej)(13)2.3.3 基于竞争深度Q网络的充电路径规划算法实现在WRSN能量补充场景中,当网络中死亡节点较多时,无论 MC采取何种动作所得到的即时奖励可能还是很小的,此时下一步的状态主要取决于当前状态。考虑到这种情况,将原网络的输出层替换成基于竞争架构的两个全连接层:价值函数V和动作优势函数A。其中V表示状态环境本身具有的价值,A表示选择某个动作额外带来的价值。为体现动作优势贡献的唯一性,一般要将动作

24、优势函数设置为动作优势减去当前状态下所有动作优势的均值,这样可以保证在该状态下各动作的优势函数相对排序不变,提高算法稳定性。Q函数如公式(14)所示:Q(S,A;,)=V(S;,)+(A(S,A;,)-)1|Aa AA(S,a;,)(14)式中:S、A分别表示当前状态和当前选择的动作;、分别是神经网络参数、价值函数的参数、动作参数。本文提出基于竞争深度Q网络的充电路径规划算法执行框架如图4所示,执行算法见算法1。图4 充电路径规划算法框架算法1:基于竞争深度Q网络的充电路径规划算法 初始化网络参数 For each learning episode e do 初始化充电环境,得到初始状态s0F

25、or each time step t do根据greedy 策略选择动作at,并执行获得相应的状态st+1与奖励rt存储ei=st,at,rt,st+1到经验池D和初始化Ht(ei)更新平均奖励值:r =j=1NrjN通过公式(12)更新偏好度王 倩:基于选址机制与深度强化学习的WRSN移动能量补充85现代电子技术2023年第46卷利用公式(13)计算样本被采样的概率从回放经验池D中根据采样概率采样 计算Q网络标签:yt=rt,如果MC返回基站rt+max Q(st,at;),其他 计算损失函数loss=(yt-Q(st,at;)2,更新参数 每C步复制一次参数,Q=Q End for En

26、d for3 实验与分析3.1 实验设置本文构建了一个无线传感器网络仿真环境,在100 m100 m 的二维平面区域内随机部署 90150个传感器节点,基站位于网络中心位置,MC初始从基站出发,每充电一轮后回到基站进行能量补充。表 2中列举出了所有的仿真参数。表2 参数定义仿真参数网络大小传感器节点基站位置MC电池容量/kJMC充电半径/mMC移动速度/(m/s)MC移动能量消耗率/(J/s)MC充电速率/W传感器电池容量/kJ传感器能量消耗率/(J/s)奖励折扣因子Batch size参数值100 m100 m9015050,502 00055502010.80.10.50.9643.2 比

27、较方法为了有效地评估本文提出的MSRL算法,将与以下3种算法进行实验性能比较分析,其方法介绍如下所示:1)TSCA13:始终选择最先发出充电请求的驻点位置。2)NJNP14:选择发出充电请求距离最近的驻点位置。3)GOCS8:是一种一对多充电算法,根据剩余能量、贡献价值、欧氏距离等计算出充电权重,抢占式的按需充电。3.3 MSRL算法收敛性实验基于 Pytorch深度强化学习框架对 MSRL 算法的神经网络部分进行训练,设置 1 200 个训练周期,其中从MC任务开始直到返回基站为一个周期。算法的收敛性训练结果如图 5所示,展示了算法周期奖励回报曲线。在智能体自探索阶段,被设置为一个较大的数值

28、,以确保较高的探索可能性。随着训练周期的增加,经验的逐步累积,逐渐降低其探索率,减少至 0.1 时不再明显变化,直到完全收敛。图5 训练过程中周期奖励回报收敛曲线3.4 传感器节点死亡数量比较分析实验本组实验考虑各算法在不同节点数量和不同充电速率下的网络中节点死亡情况。图 6a)表示充电速率为 20 W 时,节点死亡数随着网络中传感器节点数量增加的变化曲线图,可以看出当网络中传感器数量较少时,需要充电的节点也较少,MC 可以满足充电任务,MSRL相比其他 3种算法的提升较少;当传感器数量较多时,需要充电的节点也增多,这时MSRL相较其他3种算法优势更加明显。这是由于随着网络中传感器数量的增加,

29、网络中的充电请求增加,MSRL 算法优先引导MC给能量较低的传感器节点进行充电,从而减少节点死亡数。而GOCS算法的引导作用有限,NJNP、TSCA算法无法优先给能量较低的节点进行充电,节点死亡数较高。而通过图 6b)可以发现,当充电速率与节点死亡数呈负相关时,MSRL算法依然优于其他3种比较算法。3.5 网络生存时间比较分析实验网络生存时间被定义为 MC从基站出发后,直到网络中第一个传感器死亡的时间,是无线传感器网络的重要衡量标准之一。图 7a)中网络生存时间随着传感器节点数的增加而降低,这是由于随着节点数量增多,网络中的充电请求增多。MC 无法应对那么多的充电请求,传感器节点的等待时间变长

30、,导致节点能量耗尽而死亡,网络生存时间自然降低了。TSCA优先为最先发出充电请求的传感器进行充电;GOCS也对剩余能量较低的传感器增加其充电优先级,故表现较为良好;而MSRL 相比其他三种算法(NJNP、TSCA、GOCS)表现更86第21期好,这是因为 RL 的探索机制增加了 MC 为能量较低的传感器提供充电服务的可能性,从而延长了网络生存时间,其实验结果具体如图7b)所示。图6 网络中节点死亡变化趋势图7 网络生存时间变化趋势3.6 能量消耗情况比较分析实验网络中所有传感器节点的平均剩余能量值如图 8所示。其中通过图 8a)可以发现,随着网络中传感器数量的增加,4 种算法的平均剩余能量值均

31、有所下降,但MSRL算法执行的结果始终优于其他 3种算法,这是由于 MSRL可以减少 MC 的移动能耗,使更多的能量用于传感器充电。当网络中传感器数量为 100、充电速率为20 W 时,相 比 NJNP、TSCA 和 GOCS 分 别 有 20.41%、28.71%、10.32%的提升。由此可以看出算法在降低能耗方面效果显著,可以有效延长网络寿命。而图 8b)则展示了网络中平均剩余能量值与充电速率的关系,实验结果表明MSRL方法在同等情况下依旧要优于另外3种比较算法。图8 网络中传感器节点的平均剩余能量变化趋势4 结 论本文设计了一种基于选址机制与深度强化学习的一对多充电策略用于解决 WRSN

32、 中的能量补充优化问题。首先,MSRL基于选址问题中的带权集合覆盖问题求解出近似最优充电驻点集合,实现对传感器网络全覆盖的同时驻点数最小;其次,设计了一种基于竞争Q网络的充电路径规划算法动态地调整充电路径。仿真实验结果表明,本文提出的 MSRL在降低传感器节点死亡数和延长网络寿命等方面都优于比较方法。此外,王 倩:基于选址机制与深度强化学习的WRSN移动能量补充87现代电子技术2023年第46卷MSRL 策略存在通过预设驻点导致充电移动距离增加的局限性,因此未来将考虑通过动态选取驻点位置来进一步地降低充电代价作为研究方法。注:本文通讯作者为王倩。参考文献1 YANG Y,WANG C.Wire

33、less rechargeable sensor networks M.Cham,Switzerland:Springer International Publishing,2015.2 SUHAG D,GAUR S S,MOHAPATRA A K.A proposed scheme to achieve node authentication in military applications of wireless sensor network J.Journal of statistics and management systems,2019,22(2):347362.3 CHEN J,

34、SHU T,LI T,et al.Deep reinforced learning tree for spatiotemporal monitoring with mobile robotic wireless sensor networks J.IEEE transactions on systems,man,and cybernetics:systems,2019,50(11):41974211.4 MUDULI L,MISHRA D P,JANA P K.Application of wireless sensor network for environmental monitoring

35、 in underground coal mines:A systematic review J.Journal of network and computer applications,2018,106:4867.5 KAFI M A,CHALLAL Y,DJENOURI D,et al.A study of wireless sensor networks for urban traffic monitoring:applications and architectures J.Procedia computer science,2013,19:617626.6 KURS A,MOFFAT

36、T R,SOLJAI M.Simultaneous midrange power transfer to multiple devices J.Applied physics letters,2010,96(4):044102.7 LI K,LUAN H,SHEN C C.Qiferry:Energyconstrained wireless charging in wireless sensor networks C/2012 IEEE Wireless Communications and Networking Conference.New York:IEEE,2012:25152520.8

37、 KUMAR N,SWAIN G,ROUTRAY S.On demand charging planning for WRSNs based on weighted heuristic method J.International journal of information technology,2022,14(2):667674.9 CAO X,XU W,LIU X,et al.A deep reinforcement learningbased ondemand charging algorithm for wireless rechargeable sensor networks J.

38、Ad hoc networks,2021,110:102278.10 姚国辉,朱大铭,马绍汉,等.带权集合覆盖问题的一种随机近似算法J.吉林大学学报(工学版),2007,37(2):429432.11 YANG M,LIU N,ZUO L,et al.Dynamic charging scheme problem with actorcritic reinforcement learning J.IEEE Internet of Things journal,2020,8(1):370380.12 HU W,JIN Y,WEN Y,et al.Toward WiFi APassisted co

39、ntent prefetching for an ondemand TV series:A learningbased approach J.IEEE transactions on circuits and systems for video technology,2017,28(7):16651676.13 LIN C,ZHOU J,GUO C,et al.TSCA:A temporalspatial realtime charging scheduling algorithm for on demand architecture in wireless rechargeable sensor networks J.IEEE transactions on mobile computing,2018,17(1):211224.14 HE L,KONG L,GU Y,et al.Evaluating the ondemand mobile charging in wireless sensor networks J.IEEE transactions on mobile computing,2014,14(9):18611875.作者简介:王 倩(1999),女,安徽池州人,硕士研究生,主要研究方向为无线传感器网络中的能量补充。88

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服