基于深度强化学习的可信分簇路由协议.pdf

资源描述

1、2024 年第 2 期仪表技术与传感器Instrument Technique and Sensor基金项目:山西省自然科学基金项目(20210302123075)收稿日期:2023-07-12基于深度强化学习的可信分簇路由协议段辉,石琼,师智斌中北大学计算机科学与技术学院摘要:针对分簇路由协议中恶意节点充当簇头的安全性问题以及基于深度强化学习的路由协议存在收敛慢、波动大的难题,提出了一种基于信任机制和深度强化学习算法 soft actor-critic(SAC)的分簇路由协议。该协议首先运用改进的标签传播算法对网络进行分簇。然后采用基于信任的簇头选举机制从簇内选出可信簇头

2、,并采取主-从簇头机制防止簇头“叛变”成为恶意节点。最后利用 SAC 算法,将簇头作为智能体,实现动态路由决策。实验结果表明:该协议相较于 RTRPT、SCR-TBE 以及基于DQN、D3QN、PPO 的路由协议,具有更优的性能和更好的收敛性。其丢包率、平均时延和网络吞吐量指标均为最优。在多个测试场景下,相较于 PPO 方案性能最小提升 3.97%,最大提升 22.39%。关键词:无线传感器网络;分簇路由协议;网络安全;深度强化学习;信任机制中图分类号:TP393 文献标识码:ATrusted Clustering Routing Protocol Based on Deep Reinforc

3、ement LearningDUAN Hui,SHI Qiong,SHI ZhibinSchool of Computer Science and Technology,North University of ChinaAbstract:Addressing the security issues caused by malicious nodes acting as cluster heads in clustering routing protocols,as well as the challenges of slow convergence and substantial volati

4、lity encountered in deep reinforcement learning-based routing pro-tocols,a clustering routing protocol was proposed based on trust mechanism and deep reinforcement learning algorithm Soft Actor-Critic(SAC)was proposed.This protocol integrates a trust mechanism and leverages the advanced deep reinfor

5、cement learning algorithm,Soft Actor-Critic(SAC).The protocol employed an enhanced label propagation algorithm to efficiently cluster the net-work.Then,a trust-based cluster-head election mechanism was utilized to carefully elect trustworthy cluster heads from within the cluster,and a master-slave c

6、luster-head mechanism was adopted,effectively safeguarding against cluster heads transforming into malicious nodes.At last,the SAC algorithm was leveraged to make dynamic routing decisions,with the elected cluster heads acting as agents.Experimental results demonstrate that the protocol has better p

7、erformance and convergence than RTRPT,SCR-TBE,DQN,D3QN and PPO routing protocols.Its packet loss rate,average delay and network throughput are the best.In multiple test scenarios,the performance of the protocol was improved by 3.97%and 22.39%compared with the PPO scheme.Keywords:wireless sensor netw

8、ork;clustering routing protocol;network security;deep reinforcement learning;trust mechanism0 引言无线传感器网络(wireless sensor network,WSN)是由部署在监测区域内大量的传感器节点组成,通过无线通信方式形成一个多跳的、自组织的网络系统1。WSN 的开放、分布式和动态特性使多跳路由非常容易受到各种类型的恶意攻击2,对网络的安全和性能造成严重影响。由于节点能量和网络通信能力的限制,如果让所有节点均和汇聚节点直接进行数据传输,将严重影响网络寿命并降低网络传输效率。针对这一问题,研究

9、人员提出了基于分簇的解决方案。例如,LEACH 协议3、PEGASIS 协议4、HEED 协议5、TEEN 协议6等。然而,上述路由协议在对网络进行分簇时,仅考虑簇内节点与簇头之间传输数据的能耗,而没有考虑簇内节点之间的关系。目前有学者对这一问题提出了一些解决方案7-8,但是这些方案仍存在一些问题,比如,分簇时未考虑恶意节点的存在,选择加入恶意节点所在的簇,恶意攻击导致簇头失效或频繁更换,增加了网络的安全风险。WSN 恶意攻击分为内部攻击和外部攻击。针对外部攻击,可采用加密认证的方式来应对攻击者,而对于内部攻击,国内外学者提出基于信任机制的解决方案。例如,文献9将节点可信度与群体智能优化算法相

10、结合,在路由中引入节点可信度,建立可信安711 仪表技术与传感器第 2 期全路由。文献10将节点信任评估模型引入到蚁群路由算法中,以节点可信度为依据隔离恶意节点,增强网络安全性。文献11采用惩罚因子和直接信任值根据交互次数更新的方案,防止恶意节点的攻击。传统的分簇路由协议通常采取随机或轮流的方式确定簇头,这些方法都基于一个共同的前提,即所有节点都是诚实节点。而忽略了恶意节点充当簇头的情况,其主要存在两种形式:恶意节点被选举为簇头和簇头“叛变”成为恶意节点。针对前一种情况,研究人员提出基于信任的投票选举方案12,而对于后一种情况,相关学者提出双簇头13的方法。但是,目前同时针对上述

11、两种情况的解决方案相对较少。传统路由协议大多基于固定的路由规则,针对复杂多变的网络环境,难以根据实时网络状态与实际应用场景的需要,自适应地做出智能化的路由决策14。为解决此类问题,研究人员提出基于强化学习(rein-forcement learning,RL)的智能路由算法。例如,文献15将强化学习 Q-learning 算法扩展到多智能体场景中,在智能体之间建立通信机制,使智能体在训练时可以根据其他智能体传递的消息进行学习。文献16 提出了一种基于强化学习 Deep Q-Network(DQN)算法的机会路由协议,使智能体通过训练学习到最优的路由策略。文献17提出了基于消息传递神经网络(me

12、ssage passing neural network,MPNN)和深度强化学习(deep reinforcement learning,DRL)的智能路由算法,利用 MPNN 对不规则的网络拓扑进行学习,使其在网络拓扑动态变化时仍能做出有效的路由决策。目前现有的基于 RL 的智能路由算法大多采用 DQN 算法,但是,DQN 算法本身存在“冷启动”、波动大、难收敛的问题,使得将其应用到无线网络路由决策问题时,需要采取其他措施来应对这些问题。比如,预训练的方法、样本拼接的方法和可变学习率的方法等。本文主要研究 WSN 分簇路由协议在恶意攻击持续存在和网络环境动态变化的情况下,如何对传感器节点进

13、行分簇、如何在簇内选举可信簇头、如何防止簇头“叛变”成为恶意节点以及如何实现簇头的动态路由决策问题,提出了一种基于信任机制和深度强化学习 SAC 算法的分簇路由协议。在分簇阶段,利用改进的标签传播算法,综合考虑邻居空间相似度、链路稳定性和可信度3 个指标,将通信频繁、彼此可信的节点划分到同一个簇内。在簇头选举阶段,利用基于信任的簇头选举机制在簇内进行可信簇头的选举,同时利用主-从簇头机制防止簇头“叛变”成为恶意节点。在数据传输阶段,利用 SAC 算法,将主簇头作为智能体,通过智能体与无线网络环境的不断交互进行路由决策的优化和调整。1 网络模型及相关定义1.1 网络模型分簇路由的网络模型如图 1

14、所示,根据传感器节点的任务类型从逻辑上将其划分到 L1、L2两个层面。其中,L1层由簇内节点和从簇头组成,簇内节点负责感知、采集数据,从簇头负责监视主簇头的通信行为、接替因故障而失效的主簇头。L2层由主簇头节点组成,主簇头负责聚合、转发数据。图 1 网络模型假设整个监测区域中共存在 H 个传感器节点,将其划分为 M 个簇,第 i 个簇内有一个主簇头节点MCHi(1iM)、一个从簇头节点 SCHi(1iM)和Hi(H=H1+H2+Hi+HM-1+HM)个簇内节点CS1,i,CS2,i,CSHi-1,i,CSHi,i。CSj,i(1iM,1jHi)可以通过单跳的方式与 MCHi进行通信。为了便于

15、描述,下文 CSj,i将简写为 CSj。令 T 表示 WSN 的网络生命周期,T 被均匀划分为 x 个大小相等的时隙Tt(1tx),即T=T1+T2+Tt+Tx-1+Tx(T1=T2=Tx-1=Tx)。其中,Tt(1tx)表示时间区间 Tt的宽度。将时隙 Tt(1tx)进一步均匀划分为 y 个大小相等的子时隙 Tt(1ty),子时隙 Tt的划分方式与时隙 Tt相同,此处不再赘述。在每个子时隙结束时,簇内节点采取时分复用(time division multiplexing,TDM)的数据传输方式,将其采集的感知数据发送给主簇头。1.2 模型指标定义1.2.1 直接信任值 DTi,j节点 i 对

16、节点 j 的直接信任值由两节点间的通信信任值和能量信任值加权构成。811 第 2 期段辉等:基于深度强化学习的可信分簇路由协议 DTi,j=mMTi,j+eETi,j(1)式中:MTi,j为通信信任值;ETij为能量信任值;m和e分别为 MTi,j和 ETi,j的权重,均为可调参数。MTi,j是节点 i 与节点 j 成功通信次数占总通信次数的比值,表示为MTi,j=CSNi,j+1CSNi,j+CFNi,j+2(2)式中:CSNi,j为节点 i 与节点 j 成功通信次数;CFNi,j为节点 i 与节点 j 通信失败次数。ETi,j是节点 j 当前剩余能量占初始能量的比值,表示为ETi,j=RE

17、j/Ej(3)式中:REj为节点 j 的当前剩余能量;Ej为节点 j 的初始能量。1.2.2 间接信任值 ITi,j节点 i 对节点 j 的间接信任值由其公共邻居节点提供的推荐信任值计算而来。ITi,j=1NckNc(DTi,kDTk,j)(4)式中:Nc为节点 i 和节点 j 的公共邻居节点集合;k 为节点 i 和节点 j 的公共邻居节点;DTi,kDTk,j为公共邻居节点 k 的推荐信任值。1.2.3 综合信任值 CTi,j节点 i 对节点 j 的综合信任值由直接信任值和间接信任值加权构成。CTi,j=dDTi,j+iITi,j(5)式中:d和 i分别是 DTi,j和 ITi,j的权重,均

18、为可调参数。1.2.4 邻居空间相似度 nsim(i,j)节点 i 和节点 j 的邻居空间相似度是其公共邻居节点的数目占节点 i、节点 j 邻居节点数目总和的比值。nsim(i,j)=1-(NiNj)(NjNi)Ni+Nj(6)式中:Ni和 Nj分别是节点 i、节点 j 的邻居节点集合。1.2.5 链路稳定性 Lstab(i,j)节点 i 和节点 j 的通信链路稳定性可以用两节点间的丢包率来衡量。丢包率越大,链路稳定性越小。丢包率 PRloss(i,j)是两节点在数据传输过程中丢失数据包数目与总数据包数目的比值。PRloss(i,j)=Si-Rj+1Si+1(7)Lstab(i,j)=1PRl

19、oss(i,j)(8)式中:Si为节点 i 发送的数据包数目;Rj为节点 j 接收的数据包数目。2 可信分簇路由协议为实现数据传输和传感器节点信息共享,首先定义数据包的格式,如图 2 所示。图 2 数据包格式在当前时间区间 Tt(1tx)结束时,传感器节点Si(1iH)将自己的簇标签、邻居节点列表、剩余能量和负载信息以广播包的形式发送给邻居节点。传感器节点 Sj(1jH,jNi)存储邻居节点 Si的相关信息,用于簇标签更新和路由决策。Data 包定义局部奖励字段,用于鼓励邻居节点参与数据传输。Reward包定义路由奖励字段,主簇头完成一个 Data 包的转发后,从簇头发送给主簇头一个 Rewa

20、rd 包,用于环境对主簇头路由决策的奖励。下面依次从传感器节点分簇、可信簇头选举和簇头数据传输 3 个阶段,详细介绍可信分簇路由协议的具体内容。2.1 传感器节点分簇改进的标签传播算法通过节点簇标签传播实现簇的划分,即当前节点将邻居节点簇标签按照一定的规则进行融合,得到更新后的簇标签。在节点簇标签更新时考虑节点的社交关系和节点本身特征,以邻居空间相似度、链路稳定性、可信度加权和的形式计算邻居空间中每个簇标签的偏好程度值,将当前节点簇标签更新为偏好程度累计值最大的邻居节点簇标签。在时间区间 Tt(1tx)开始时刻,节点 Si(1iH)根据在时间区间 Tt-1内存储的邻居节点相关信息进行簇标签更新

21、,具体的簇标签更新流程如下:步骤 1:节点 Si利用式(6)计算与节点 Sj的邻居空间相似度 nsim(i,j),利用式(1)、式(4)、式(5)计算节点 Sj的综合信任值 CTi,j,利用式(7)、式(8)计算与节点 Sj之间的通信链路稳定性 Lstab(i,j)。步骤 2:节点 Si计算 nswim(i,)、CTi,j、Lstab(i,j)的加权和,作为对于节点 Sj簇标签的偏好程度值 PiC(Sj)。PiC(Sj)=1nsim(i,j)+2CTi,j+3Lstab(i,j)(9)911 仪表技术与传感器第 2 期式中:1、2、3分别为 nsim(i,j)、CTi,j、Lst

22、ab(i,j)的权重,均为可调参数;C(Sj)为节点 Sj的簇标签。步骤 3:节点 Si计算邻居空间中每个簇的偏好程度累加值,根据式(10)选择累加值最大的簇作为当前时间区间 Tt内的簇标签。C(Si)=argmaxcCiSjNiC(Sj)=cPiC(Sj)(10)式中:Ni为节点 Si的邻居节点集合;Ci为节点 Si邻居空间中存在的簇标签集合。基于改进标签传播算法的 WSN 分簇机制的详细过程如算法 1 所示。算法 1:基于改进标签传播算法的分簇机制。输入:无线传感器网络 G=(V,E)。输出:网络 G 的分簇结果 ClusterLabel。Begin初始化簇标签:C(Si)=iwhile

23、not TerminationCondition()do S=Shuffle(V)for each Si in S do Score=/存储邻居空间簇标签的累加值 MaxScore=0/记录邻居空间中最大的簇标签累加值for each Sj in Ni doScoreC(Sj)+=Pi(C(Sj)if ScoreC(Sj)=MaxScore thenC(Si)=C(Sj)MaxScore=ScoreC(Sj)end ifend forend forend whilereturn ClusterLabel/簇标签相同的节点为一个簇,得到G 的分簇结果End2.2 可信簇头选举在时间区间 Tt(1

24、tx)初始时刻,节点完成分簇之后,首先进行簇头的初始化操作,即簇内随机选择一个初始主簇头 MCH0i(1iM)。MCH0i从其邻居空间中选择可信度最高的节点作为从簇头 SCH0i。主簇头负责数据聚合和转发数据包,从簇头负责监视主簇头的通信行为、接替因故障而失效的主簇头。基于信任机制的可信簇头选举流程如下:步骤 1:主簇头 MCHri的剩余能量 REMCHri低于能量阈值 Eth或者簇头持续时间 Tduration(MCHri)大于时间阈值 Tth时,主簇头向簇内广播消息 Mvote,用于选举新一轮的 MCHr+1i。步骤2:簇内节点 CSj收到 Mvote后,采取不记名的投票方式选举新一轮 M

25、CHr+1i。利用式(1)、式(4)、式(5)计算邻居节点的可信度,推荐最高可信度的邻居节点作为候选节点,然后将投票结果 Mrep发送给 MCHri。步骤 3:MCHri根据票数裁决簇头选举的获胜者Wi,如果最高票数的节点有多个,则从中随机选择一个作为 Wi。然后验证 Wi是否具备充当主簇头的能力,若验证通过,向簇内广播新一轮 MCHr+1i的相关信息,否则,开启新一轮簇头选举。步骤 4:获胜者成功竞选主簇头后,选择可信度最高的邻居节点作为从簇头 SCHr+1i,并在簇内广播其相关信息。SCHr+1i监视 MCHr+1i的通信行为,判断其是否“叛变”成为恶意节点、是否因故障而失效。步骤 5:S

26、CHr+1i发现 MCHr+1i“叛变”或失效时,向簇内广播消息 Mvote,进行新一轮簇头选举。此 SCHr+1i暂时接替 MCHr+1i的职责,在选举出新一轮主簇头后,再进行主簇头权限的交接。基于信任机制的可信簇头选举算法如算法 2 所示。算法 2:基于信任机制的可信簇头选举算法。输入:主簇头 MCHri、从簇头 SCHri、簇内节点 CSj(1jHi)输出:新一轮主簇头 MCHr+1i、新一轮从簇头SCHr+1i。Beginif REMCHriTth then Broadcast Message Mvote Count Candidate/统计候选节点的票数 Top_

27、Candidate=Max(Candidate)if Unique_Winner then Final_Winner=Top_Candidate else Final_Winner=Random(Top_Candidate)end ifif Verification_Test=pass then MCHr+1i=Final_Winner SCHr+1i=maxjNi(CTij)else 跳转到第 2 行 end if Broadcast Message Mans/向簇内广播主、从簇头的相关信息if SCHr+1i discovers that MCHr+1i is malicious or f

28、ailed then021 第 2 期段辉等:基于深度强化学习的可信分簇路由协议跳转到第 2 行 end ifend ifreturn MCHr+1i、SCHr+1iEnd2.3 簇头数据传输子时隙 Tt(1ty)结束时刻,CSj将其在 Tt内采集的数据发送给 MCHri。此时,MCHri一方面将 CSj上传的数据进行聚合后,发送给汇聚节点,另一方面转发邻居节点的数据包。将 WSN 路由决策问题建模为马尔科夫决策过程,MCHri作为强化学习中的智能体,在与无线网络环境交互过程中不断优化路由决策。基于 SAC 算法的路由决策和优化过程如图 3 所示。图 3 基于 SAC 算法的路由决策和优化S

29、AC 是一种基于熵最大化的演员评论家算法,其目标是最大化熵的同时最大化累积期望收益。文献18详细介绍了 SAC 算法的策略评估和策略迭代过程,此处不再赘述。下面分别介绍强化学习的三要素:状态空间、动作空间、奖励函数。2.3.1 状态空间本文将状态信息 st定义为主簇头的邻居节点可信度、邻居节点剩余能量、邻居节点负载、当前待处理数据包的目的地址和跳数。状态的具体定义为st=tNi,eNi,lNi,dpacket,hpacket(11)式中:tNi为邻居节点的可信度;eNi为邻居节点的剩余能量;lNi为邻居节点负载;dpacket为当前待处理数据包目的地址;hpacket为当前待处理数据包的跳数。

30、2.3.2 动作空间本文将主簇头路由决策的动作 at定义为从邻居空间中选择一个节点作为下一跳转发节点。动作的具体定义为at=nj,njNi(12)式中 nj为主簇头的邻居节点。2.3.3 奖励函数强化学习中智能体学习的本质是在奖励函数的指导下,对神经网络进行参数更新。本文主簇头学习的目标是从邻居空间中选择一个具有较高可信度、较高剩余能量、较低时延的节点,作为数据包转发的下一跳节点。因此,奖励函数由可信度奖励 Rt、能量奖励 Re和延迟奖励 Rd构成。Rt=CTi,jkNiCTi,k(13)Re=EjkNiEk(14)Rd=TDi,j+QDi,j(15)式中:CTi,k为节点 i 对节点 k 的

31、综合信任值;Ek为节点 k 的初始能量;TDi,j为数据包一跳传输时延;QDi,j为数据包排队时延。由(13)、式(14)和式(15)可得到奖励函数的详细表示:R(st,at)=N at为目标节点Pat为无效节点Kexp-(tRt+eRe+dRd)at是普通节点(16)式中:t、e、d分别为 Rt、Re、Rd的权重。当 at是数据包目标节点时,当前节点获得奖励值为 N 的正向反馈;当 at是无效节点时,当前节点获得奖励值为 P 的负向反馈;当 at为普通节点时,当前节点获得奖励为 Kexp-(tRt+eRe+dRd)。当 N=-10,P=-15,K=-10 时,使奖励均为负值,其目的是避免智能

32、体为获取更多的路由奖励而把数据包转发给非目标节点。无线网络环境根据智能体的路由决策反馈路由121 仪表技术与传感器第 2 期奖励,但是目前大多数相关研究仍未解决反馈路由奖励的难题。针对此问题,结合本文的网络模型,提出由从簇头根据主簇头的路由决策,反馈主簇头相应的路由奖励。路由奖励的反馈过程如图 4 所示。图 4 路由奖励反馈过程3 实验3.1 实验环境本文的网络仿真平台采用 python 3.7 编写,运行在 Ubuntu22.04 操作系统上,硬件平台包括 Intel Xeon(R)E5-2680v4 CPU、32 GB 内存以及 2 张 GeForce RTX 3080Ti

33、GPU。使用 Pytorch 深度学习框架实现基于 DRL 的路由算法,使用 Networkx 库搭建 WSN 环境、Pymobility 库实现节点移动。3.2 实验设置为验证所提方案在不同网络规模下的路由性能,分别在 Net_20、Net_30、Net_40 和 Net_50 这 4 种网络上进行了性能测试。4 种网络拓扑结构如图 5 所示,图中的节点表示主簇头,节点之间的连线表示两节点可进行通信。图 5 本文所用网络的拓扑结构无线网络中的恶意节点可以发起黑洞、灰洞和蠕虫等类型的路由攻击,本文主要考虑黑洞和灰洞两种攻击类型。恶意节点在发起黑洞攻击时,将接收到的数据包全部丢弃;在发起灰洞攻击

34、时,在接收到的数据包中随意选择 60%80%进行丢弃。为验证所提方案在恶意攻击下的路由性能,本文设置了 5 种不同恶意节点比例的测试场景,分别为 2%、4%、6%、8%和10%的恶意节点。此外,在实验中设置10,20,30,40,50这 5 种数据包生成速率,其单位为 pps(packets per second),用于测试所提方案在不同流量需求下的性能表现。在路由性能对比实验中,选择文献19 提出的RTRPT 路由协议和文献20提出的 SCR-TBE 路由协议,这 2 种路由方案都是基于信任机制的分簇路由协议;此外,本文在仿真平台上还实现了基于DQN21、Duel

35、ing Double DQN(D3QN)22-23和 proximal policy optimization(PPO)24算法的路由方案。这 3 种方案与本文所提基于 SAC 算法的路由方案仅是深度强化学习算法的不同,其他实验设置均保持相同。此外,簇头队列长度为 300 个数据包,簇头间无线链路的带宽服从均匀分布,数据包为 1 000 Byte,随机生成数据包的源节点 ID 和目标节点 ID。其他参数配置如表 1 所示。表 1 仿真参数表仿真时间/s仿真区域/m2通信半径/m1 00010010010节点初始能量/J发送能耗/(nJbit-1)接收能耗/(nJbit-1)11001003.3

36、模型训练过程SAC 算法的学习率和折扣因子等主要参数取值如表 2 所示。表 2 SAC 算法主要参数参数取值说明actor_lr0.000 1策略网络学习率critic_lr0.000 5价值网络学习率alpha_lr0.015 5温度系数target_entropy-1目标熵gamma0.95奖励折扣因子batch_size64样本批次大小memory_size10 000经验回放缓冲区大小 SAC 算法有 5 个神经网络,包括 1 个策略网络和4 个 Q 网络,每个神经网络包含 5 层,即输入层、输出层和 3 个隐藏层,隐藏层神经元数量分别为 256、128、64。基于 DQN、D3QN

37、、PPO 和 SAC 的路由方案,训练过程如图 6 所示。图 6(a)表示 4 种算法关于每个回合平均累积奖励的对比,测试场景为 Net_20 网络,数据包生成速率为 30 pps。SAC 大约经过 30 次迭代后,221 第 2 期段辉等:基于深度强化学习的可信分簇路由协议(a)奖励曲线对比图(b)流量需求动态变化对比图(c)数据包交付率曲线对比图图 6 模型训练平均奖励收敛至-3 200 左右;PPO 大约经过 45 次迭代后,平均奖励收敛至-4 000 左右;D3QN 大约经过62 次迭代后,平均奖励收敛至-4 800 左右;DQN 大约经过 75 次迭代后,平均奖励收敛至-5 200

38、左右。SAC拥有最大的平均奖励,表明相较于其他算法,SAC 学习到最优的策略。图 6(b)表示 4 种算法收敛后,增大网络流量,数据包交付率的变化曲线图,测试场景为Net_30 网络,数据包生成速率为 10 pps。回合数 150和 300 时分别增大网络流量为初始时的 2 倍和 3 倍。SAC 再次收敛的回合数大约在 164 和 332,PPO 大约在 172 和 355,D3QN 大约在 199 和 374,而 DQN 则需要更多回合训练才有可能再次收敛。以上数据表明SAC 对网络流量骤增具有更好的收敛性,从曲线图可以看出 SAC 具有更小的波动性。图 6(c)表示数据包交付率的曲线图,测

39、试场景为 Net_50 网络,数据包生成速率为 10 pps。SAC 经过 63 次迭代后收敛至 0.98左右,PPO 经过104 次迭代后收敛至0.94 左右,D3QN经过 135 次迭代后收敛至 0.92 左右,DQN 经过 240次迭代后收敛至 0.90 左右。综合图 6(a)图 6(c)可以看到,DQN 具有收敛慢、波动大的特征,而 SAC 更加稳定,能更快地收敛至更优的策略。3.4 路由性能评估WSN 路由协议的性能评估指标主要包括:能量消耗、平均时延、丢包率和网络吞吐量。上述性能指标在文献10有详细的定义,本文不再赘述。3.4.1 无恶意攻击下的路由性能6 种路由方案在 4 种网络

40、上的性能对比如图 7 所示。图7(a)、图7(e)、图7(i)、图7(m)给出了节点的能量消耗与数据包生成速率的关系,可以看出 RTRPT的能量消耗最少,DQN、D3QN、PPO 和 SAC 的能量消耗均高于 RTRPT。SAC 的能量消耗相较于 PPO 最大降低了 14.74%,最小降低了 4.85%。图 7(b)、图 7(f)、图 7(j)、图 7(n)给出了平均时延与数据包生成速率的关系,SAC 的平均时延最小,SCR-TBE 的平均时延最大。SAC 的平均时延相较于 PPO 最大降低了19.59%,最小降低了 6.96%。图 7(c)、图 7(g)、图 7(k)、图 7(o)给出了丢包

41、率和数据包生成速率的关系,SAC 的丢包率始终处于最低水平,其次是 PPO,而最高的是 SCR-TBE。SAC 的丢包率相较于 PPO 最大降低了 22.39%,最小降低了 17.81%。图 7(d)、图 7(h)、图 7(l)、图 7(p)给出了网络吞吐量和数据包生成速率的关系,数据包生成速率较高时,网络流量负载也处于较高水平,传统的路由方案吞吐量呈先升高后降低的趋势,原因在于产生了流量拥堵问题。而基于 DRL 的路由方案根据实时的网络状况,动态调整路由决策,有效避免流量拥堵问题,吞吐量保持相对稳定。SAC 的网络吞吐量相较于 PPO 最大提升了12.52%,最小提升了 3.97%。总之,在

42、能量消耗方面,SAC 要略高于传统的路由方案,原因在于分簇和簇头选举阶段消耗较多能量。但是 SAC 的平均时延、丢包率和网络吞吐量远高于传统路由协议,显著提升了路由性能。上述实验数据表明基于 SAC 算法的路由方案不仅具有良好的收敛性,而且具有更好的路由性能。321 仪表技术与传感器第 2 期(a)Net_20 能量消耗(b)Net_20 平均时延(c)Net_20 丢包率(d)Net_20 吞吐量(e)Net_30 能量消耗(f)Net_30 平均时延(g)Net_30 丢包率(h)Net_30 吞吐量(i)Net_40 能量消耗(j)Net_40 平均时延(k)Net_40

43、丢包率(l)Net_40 吞吐量(m)Net_50 能量消耗(n)Net_50 平均时延(o)Net_50 丢包率(p)Net_50 吞吐量图 7 无恶意攻击路由性能对比3.4.2 恶意攻击下的路由性能在数据包生成速率为10 pps 的 Net_50 网络上,设置了 5 种不同比例的恶意节点,路由性能对比如图 8所示。图 8(a)、图 8(d)给出了恶意节点比例逐渐增大时,6 种路由方案在平均时延上的性能表现。SAC的平均时延始终小于其他方案,其相较于 PPO 在黑洞攻击下降低了 15.6%,在灰洞攻击下降低了 11.87%。图 8(b)、图 8(e)给出了丢包率和恶意节点比例之间的关系,PP

44、O 和 SAC 的丢包率增加幅度相对较小,表明其具有更强的恶意节点识别能力。SAC 的丢包率相较于PPO 在黑洞攻击下降低了21.4%,在灰洞攻击下降低了15.67%。图 8(c)、图 8(f)给出了网络吞吐量和恶意节点比例之间的关系,网络吞吐量在持续减小。但是 SAC在恶意节点比例超过 6%时,吞吐量才会有较大幅度的421 第 2 期段辉等:基于深度强化学习的可信分簇路由协议减小。SAC 的网络吞吐量相较于 PPO 在黑洞攻击下提高了 10.64%,在灰洞攻击下提高了 6.07%。(a)黑洞攻击平均时延(b)黑洞攻击丢包率(c)黑洞攻击吞吐量(d)灰洞攻击平均时延(e)灰洞攻击丢包率(f)

45、灰洞攻击吞吐量图 8 恶意攻击路由性能对比总之,灰洞攻击相较于黑洞攻击,路由性能指标变化更加显著。原因在于灰洞攻击更具隐蔽性,更难以识别,对路由性能的影响也更大。以上实验结果说明基于 SAC 算法的路由方案,在黑洞和灰洞攻击持续存在的网络环境下具有更好的路由性能。4 结束语针对簇头的安全性问题和现有的基于 DRL 的智能路由算法存在收敛慢、波动大的问题,提出了一种基于信任机制和 SAC 算法的 WSN 可信分簇路由协议。该协议包含“基于改进标签传播算法的网络分簇”、“基于信任机制的可信簇头选举”以及“基于 SAC算法的路由决策”三个层次和阶段,将节点可信度应用于分簇、簇头选举和路由决策的各个

46、阶段,提升无线网络的安全性;将 SAC 算法应用于簇头路由决策,使智能路由算法具有更快的收敛性和更优的路由性能。参考文献:1LIAO Y,QI H,LI W.Load-balanced clustering algorithm with distributed self-organization for wireless sensor networksJ.IEEE Sensors Journal,2012,13(5):1498-1506.2 秦丹阳,贾爽,杨松祥,等.基于信任感知的无线传感器网络安全路由机制研究J.通信学报,2017,38(10):60-70.3 ABU SALEM A O,S

47、HUDIFAT N.Enhanced LEACH proto-col for increasing a lifetime of WSNs J.Personal and UbiquitousComputing,2019,23:901-907.4 WANG J,GAO Y,YIN X,et al.An enhanced PEGASIS al-gorithm with mobile sink support for wireless sensor networksJ.Wireless Communications and Mobile Computing,2018,2018:1-9.5GUPTA P

48、,SHARMA A K.Clustering-based heterogeneous optimized-HEED protocols for WSNsJ.Soft Computing,2020,24:1737-1761.6 JUNG K D,LEE J Y,JEONG H Y.Improving adaptive cluster head selection of teen protocol using fuzzy logic for WMSNJ.Multimedia Tools and Applications,2017,76:18175-18190.7 HERBIET G J,BOUVR

49、Y P.SHARC:community-based par-titioning for mobile ad hoc networks using neighborhood sim-ilarity C/2010 IEEE International Symposium on“A World of Wireless,Mobile and Multimedia Networks”(WoWMoM).IEEE,2010:1-9.8HERBIET G J,BOUVRY P.On the generation of stable com-munities of users for dynamic mobil

50、e ad hoc social networksC/The International Conference on Information Networking 2011(ICOIN2011).IEEE,2011:262-267.9 王潮,贾翔宇,林强.基于可信度的无线传感器网络安全521 仪表技术与传感器第 2 期路由算法J.通信学报,2008,29(11):105-112.10 张智威,孙子文.基于蚁群算法的无线传感器网络节点可信安全路由J.传感技术学报,2016,29(2):256-263.11 孙子文,吴平.基于信任评估模型的 IWSN 安全路由研究J.传感技术学报,20

展开阅读全文