收藏 分销(赏)

基于深度迁移学习的动态频谱快速适配抗干扰方法.pdf

上传人:自信****多点 文档编号:2988589 上传时间:2024-06-12 格式:PDF 页数:13 大小:3.84MB
下载 相关 举报
基于深度迁移学习的动态频谱快速适配抗干扰方法.pdf_第1页
第1页 / 共13页
基于深度迁移学习的动态频谱快速适配抗干扰方法.pdf_第2页
第2页 / 共13页
基于深度迁移学习的动态频谱快速适配抗干扰方法.pdf_第3页
第3页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第3卷第1期2 0 2 4年1月信 息 对 抗 技 术I n f o r m a t i o n C o u n t e r m e a s u r e T e c h n o l o g yV o l.3 N o.1J a n.2 0 2 4引用格式:李思达,徐逸凡,刘杰,等.基于深度迁移学习的动态频谱快速适配抗干扰方法J.信息对抗技术,2 0 2 4,3(1):3 3-4 5.L I S i d a,XU Y i f a n,L I U J i e,e t a l.R a p i d a d a p t i o n t o d y n a m i c s p e c t r u m a n

2、 t i-j a mm i n g a p p r o a c h b a s e d o n d e e p t r a n s f e r l e a r n i n gJ.I n f o r m a t i o n C o u n t e r m e a s u r e T e c h n o l o g y,2 0 2 4,3(1):3 3-4 5.(i n C h i n e s e)基于深度迁移学习的动态频谱快速适配抗干扰方法李思达1,徐逸凡1*,刘 杰1,林凡迪1,韩 昊1,易剑波2,徐煜华1(1.陆军工程大学通信工程学院,江苏南京,2 1 0 0 0 0;2.海南宝通实业公司,

3、海南海口,5 7 0 1 0 0)摘 要 机器学习逐渐发展成为一种成熟强大的技术工具,并被广泛应用于无线通信抗干扰领域。其中,较为典型的有基于深度强化学习的抗干扰方法,通过与动态、不确定通信环境的不断交互来学习最优用频策略,有效解决动态频谱接入抗干扰的问题。然而,由于外界电磁频谱空间复杂、干扰模式样式动态多变,从头开始学习复杂的抗干扰通信任务往往时效性差,导致学习效率和通信性能显著下降。针对上述问题,提出基于深度迁移学习的动态频谱快速适配抗干扰方法。首先,通过构建预训练模型对已知干扰模式进行学习;其次,使用卷积神经网络提取现实场景下的感知频谱数据,重用过往经验优先启动加速适配;最后,运用微调策

4、略辅助强化学习实施在线抗干扰信道接入。仿真结果表明,相较于传统强化学习算法,所提方法能够有效加快算法收敛速度,提升通信设备抗干扰性能。关键词 动态频谱抗干扰;深度迁移学习;强化学习;快速适配中图分类号 TN 9 7 3.3+2 文章编号 2 0 9 7-1 6 3 X(2 0 2 4)0 1-0 0 3 3-1 3文献标志码 A D O I 1 0.1 2 3 9 9/j.i s s n.2 0 9 7-1 6 3 x.2 0 2 4.0 1.0 0 4R api d a d apt i o n t o dyn a m i c spe c t r u m a n t i-ja mm i ng

5、ap pr o a c h b a s e d o n d e ep t r a n s f e r l e a r n i ngL I S i d a1,XU Y i f a n1*,L I U J i e1,L I N F a n d i1,HAN H a o1,Y I J i a n b o2,XU Y u h u a1(1.C o l l e g e o f C o mm u n i c a t i o n s E n g i n e e r i n g,A r m y E n g i n e e r i n g U n i v e r s i t y o f P L A,N a n

6、j i n g 2 1 0 0 0 0,C h i n a;2.H a i n a n B a o t o n g I n d u s t r i a l C o m p a n y,H a i k o u 5 7 0 1 0 0,C h i n a)A b s t r a c t M a c h i n e l e a r n i n g h a s b e c o m e a m a t u r e a n d p o w e r f u l t e c h n i q u e a n d h a s b e e n w i d e l y u s e d i n t h e f i e

7、l d s o f w i r e l e s s a n t i-j a mm i n g c o mm u n i c a t i o n.D e e p r e i n f o r c e m e n t l e a r n i n g(D R L),o n e o f t h e t y p i c a l a n t i-j a mm i n g a p p r o a c h e s,t h a t e n a b l e s a n a g e n t t o l e a r n a n o p t i m a l f r e q u e n c y-u s i n g p o

8、l i c y b y c o n s t a n t l y i n t e r a c t i n g w i t h d y n a m i c a n d u n c e r t a i n c o mm u n i c a t i o n s e n v i r o n m e n t s,h a s b e e n p r o p o s e d a s e f f e c t i v e t o o l s t o s o l v e t h e p r o b l e m o f d y n a m i c s p e c t r u m a c c e s s i n g.H

9、 o w e v e r,l e a r n i n g a c o m p l e x t a s k f r o m s c r a t c h o f t e n r e s u l t s i n p o o r t i m e l i n e s s d u e t o t h e c o m p l e x i t y o f t h e s t a t e s p a c e o f t h e e x t e r n a l e l e c t r o m a g n e t i c s p e c t r u m a n d t h e v o l a-t i l e v a

10、 r i a t i o n f o r t h e j a mm i n g p a t t e r n s,w h i c h m a y c a u s e a s i g n i f i c a n t d e c l i n e o f t h e l e a r n i n g e f f i c i e n c y a s w e l l a s c o mm u n i c a t i o n p e r f o r m a n c e i n s t e a d.F o r t h e s e p r o b l e m s m e n t i o n e d a-b o v

11、 e,t h i s p a p e r p r o p o s e s a r a p i d a d a p t i o n t o d y n a m i c s p e c t r u m a n t i-j a mm i n g(D S A L)m e t h-o d b a s e d o n d e e p t r a n s f e r l e a r n i n g(D T L).F i r s t l y,a n a d e q u a t e l y p r e-t r a i n e d m o d e l i s e s t a b-收稿日期:2 0 2 3-0 2-

12、1 7 修回日期:2 0 2 3-0 8-1 3通信作者:徐逸凡,E-m a i l:y i f a n x u 1 9 9 51 6 3.c o m基金项目:国家自然科学基金资助项目(6 2 0 7 1 4 8 8,U 2 2 B 2 0 2 2);江苏省自然科学基金资助项目(B K 2 0 2 3 1 0 2 7)信 息 对 抗 技 术2 0 2 4年l i s h e d l e a r n e d f r o m k n o w n j a mm i n g p a t t e r n s.F u r t h e r,c o n v o l u t i o n n e u r a l

13、n e t w o r k(C NN)i s u s e d t o e x t r a c t j a mm i n g f e a t u r e s f r o m s e n s e d s p e c t r u m d a t a i n r e a l-w o r l d s c e n a r i o a n d r e u-s i n g k n o w l e d g e t h a t c o m e s f r o m p r e v i o u s e x p e r i e n c e c o n t r i b u t e s t o s c a l e u p

14、p r i o r i t y-s t a r t u p a n d f a s t-a d a p t i o n.I n a d d i t i o n,f i n e-t u n e s t r a t e g y i s a d o p t e d t o a s s i s t r e i n f o r c e m e n t l e a r n i n g(R L)a l g o r i t h m t o i m p l e m e n t t h e t a s k o f o n-l i n e c h a n n e l a c c e s s i n g f o r

15、a n t i-j a mm i n g t a s k s.T h e s i m u l a t i o n r e s u l t s s h o w t h a t,c o m p a r e d w i t h t r a d i t i o n a l R L a l g o r i t h m,o u r i m p r o v e d m e t h o d c a n i n c r e a s e t h e c o n v e r g e n c e s p e e d a n d r e a c h b e t t e r a n t i-j a mm i n g p

16、e r f o r m a n c e.K e y w o r d s D S A L;D T L;R L;r a p i d a d a p t i o n0 引言随着人工智能技术和软件无线电技术的发展,恶意用户(如恶意干扰机)可以方便地发射低成本的噪声信号实施干扰攻击,从而使通信设备面临严重的安全威胁,因此,通信抗干扰研究已成为无线通信领域中的重要课题之一1。近年来,为了应对无线通信中的恶意干扰攻击,特别是针对频谱的干扰攻击,研究者提出了多种智能抗干扰决策方法2。例如,文献3 提出了一种新的通信抗干扰的方法范式,即动态频谱抗干扰(d y n a m i c s p e c t r u m

17、a n t i-j a mm i n g,D S A J)。通过感知、学习和自我决策的一体化设计,通信设备可充分利用感知到的频谱信息来学习干扰模式,找到有效应对的抗干扰策略,自适应地优化频谱接入方案,从而提高频谱利用的有效性和灵活性,解决频谱资源稀缺和资源浪费等现实问题。基于动态频谱抗干扰框架,机器学习技术已被用于无线通信抗干扰中4-6,并取得了一些具有开创性的研究成果。其中,强化学习(r e i n f o r c e m e n t l e a r n i n g,R L)采用决策反馈调整的在线学习框架,常被应用于无线通信中的抗干扰决策问题中7-1 0。由于电磁频谱环境具有动态变化的特点,

18、从中提取出包含原始频谱信息的状态空间观测值是非常必要的。而由于外界电磁环境的不确定性以及复杂性,恶意干扰呈现出干扰种类复合多样、类型特征各不相同等特点。基于强化学习的方法虽然可以实时感知环境并采取相应的频谱接入决策,但由于电磁频谱环境中状态空间庞大、决策维度复杂等问题,此类方法通常难以收敛至最优策略1 1。为解决此问题,利用深度神经网络拟合复杂状态空间的优势,将强化学习决策与深度神经网络相结合,可解决复杂状态空间下的智能抗干扰决策问题。与强化学习 不 同 的 是,深 度Q-网 络(d e e p Q-n e t w o r k,D QN)的Q值不是由状态值函数计算而来的,而是基于人工神经网络通

19、过对表征信息的感知学习得到的。深度学习结构利用原始频谱数据提高了通信抗干扰的性能,但也带来了训练时间和计算复杂度大大增加的代价。由于深度强化学习算法对于感知到外界干扰的规律性要求较高,因此会带来算法在前期探索阶段收敛较慢的问题。每当干扰模式进行了切换,则需智能体对通信环境重新进行学习,造成现有算法在实际应用中的局限性大大增加,对抗智能干扰的效果变差,如若处于干扰模式快速切换的动态环境下,深度强化学习的方法很难甚至不能收敛。为 了 解 决 上 述 问 题,迁 移 学 习(t r a n s f e r l e a r n i n g,T L)成为一种可采取的解决方案1 2-1 3。迁移学习可以利

20、用数据、任务或模型之间的相似性,将在旧领域学习过的模型和知识应用于新的领域。结合迁移学习的方法,能够帮助解决部分强化学习在初期的探索学习阶段因环境动态未知而导致迭代经验不足、收敛速度缓慢、算法性能不佳等问题。迁移学习中,使用最广泛的方法是“预 训 练 和 微 调”(p r e-t r a i n a n d f i n e-t u n e)范式 一种与神经网络相结合的深度迁移学习(d e e p t r a n s f e r l e a r n i n g,D T L)方法,已被证明在获取可迁移知识方面是可行、有效的,并适用于各种下游任务1 4-1 6,即对大量源域数据集中和目标域数据相似的

21、参数在深度神经网络上进行训练,并导出到目标深度神经网络模型中,使用来自新场景的有限数据进行训练和微调。该方法的优势主要表现在:在相同的任务上,预训练模型与从头开始训练(t r a i n f r o m s c r a t c h)相比,大大缩短了训练时间,加快了训练的收敛速度,当训练数据较少时,能够带来较为显著的性能提43第1期李思达,等:基于深度迁移学习的动态频谱快速适配抗干扰方法 升。文献1 7-1 8 中相关研究证明,此方法对于深度迁移网络的学习和优化来说有着非常好的促进作用,且预训练好的模型通常都是在大数据集上进行的,无形中扩充了训练的数据量,提升了模型的鲁棒性和泛化能力;在这种设定

22、下,使用给定的无线通信场景训练机器学习模型,然后将模型迁移部署到一个全新的无线通信环境中,可以用于预测无线通信系统的频谱状态、信道容量、信号能量等各项参数指标。综上所述,本文主要考虑现实场景下的 抗干扰通信,针对复杂频谱环境下干扰模式动态变化导致算法收敛较慢甚至难以收敛的问题,侧重从节约抗干扰重新适配时间成本的角度出发,在现有的抗干扰研究算法的基础上,结合深度强化学习、基于模型的迁移学习等理论和方法,以最大化用户吞吐量为优化目标,力求实现模型共享、参数复配、经验重用,降低计算算力要求,加 快 算 法 收 敛 速 度,提 升 抗 干 扰 通 信 性能,打破传统算法因方法重塑、模型重建、数据重训导

23、致的时间成本大打折扣的壁垒,在战场或应急 救 援 等 时 间 要 素 致 胜 的 场 景 下 抢 占 先机,掌握主动权。1 系统模型与问题建模1.1 系统模型考虑一个典型的通信场景,如图1所示,其中设置了一对合法用户(由一个发射端和一个接收端组成)和一个或多个干扰机。受频谱瀑布图1 9的启发,为了便于理解问题,考虑了“时间 频率”的双重维度结构:从时间的维度出发,把连续的时间(t 0,)分成一个个离散的小时隙。在持续感知的每个时隙中,在接收端所配置的智能体对频谱环境进行感知,实时生成抗干扰频谱策略,并引导发送端选择某一特定频率进行通信。当每个时隙结束时,发送端还会接收到一个指示传输是否成功的A

24、 C K信号;从频率的维度出发,将整个频率范围平均分配成多个离散的信道(即“信道化”),用Bu和Bj(jJ,假定共有J个干扰机)分别表示合法用户和恶意干扰的频带带宽,用于通信的共享信道数即为N=Bu/bu,其中bu表示用户基带信号的带宽。由此,将可供选择的传输信道集定义为Au=d0,d1,dN-1 。图1 系统模型F i g.1 S y s t e m m o d e l 图2所示为同一时隙下选择不同信道通信时的不同状态示意图。指引用户决策的智能体和恶意干扰机同时在时隙t内选择干扰和通信的信道和频率,且时隙t内选择的信道保持不变。在时刻t,智能体选择信道atAu传输数据包并进行通信。干扰机则可

25、以在每个时隙t内对一个或多个信道实施干扰攻击,力求通过功率压制覆盖信道中的通信频率,以干扰通信链路的传输。当给定时隙t内用户选择的通信信道没有受到干扰频率的冲击,则被认定为传输成功,否则抗干扰决策失利。研究中,经常通过功率谱密度(p o w e r s p e c-t r a l d e n s i t y,P S D)来描述信号频率的分布,并通过图像的R G B值来生动表征信号强度1 9。考虑到背景噪声的影响,接收端在时刻t接收到的P S D函数可以表示为:St(f)=guU f-ft +Jj=1gjJjtf-fjt +N(f)(1)式中,U(f)、Jjt(f)、N(f)分别表示用户、干扰机

26、和高斯白噪声的P S D函数。用户在智能体的指53 信 息 对 抗 技 术2 0 2 4年引下,选择中心频率为ftfL,fH 的频段进行信号传输,其中fL和fH分别表示所选频率的上界和下界。传输功率可以看作是对用户信号在整个带宽范围上的积分,即bu2-bu2U(f)df。系统中的干扰机可以任意频率实施干扰攻击,用fjt来表示所选择的频率,并用gu表示从发射机到接收机的信道功率增益,用gj表示从干扰机到接收机的信道功率增益。图2 不同信道选择下的通信状态示意图F i g.2 A s c h e m a t i c d i a g r a m o f t h e c o mm u n i c a

27、t i o n s t a t e s u n d e r t h e d i f f e r e n t c h a n n e l s e l e c t i o n s使 用 信 干 噪 比(s i g n a l-t o-i n t e r f e r e n c e-p l u s-n o i s e r a t i o,S I N R)来评估通信信道的质量。因此,从接收端接收到的用户S I N R值可以表示为:ft =guptft+bu2ft-bu2Jj=1gjJjtf-fjt +N(f)df(2)式中,pt为用户t时刻下接收到的信号功率。更进一步地,将在接收端持续感知到的整个通信

28、频带 的 离 散 频 谱 采 样 向 量 表 示 为Pt=pt,1,pt,2,pt,i,pt,n ,其 中t时 刻 下 对 第i(i 0,1,n-1 )个频段感知到的频谱能量分量表示为pt,i=1 0 l gfb+i+1 ffb+ifSt(f)df ,其中fb表示频谱感知的起始频率,样本数量n取决于用户的通信传输带宽bu和频谱分析的分辨率f。1.2 问题建模考虑到强化学习中用户外界环境一般受到当前状态和采取动作的影响,将这样一个动态频谱接入的序贯决策问题建模为一个确定性的马尔 可 夫 决 策 过 程(M a r k o v d e c i s i o n p r o c e s s,MD P)

29、。使 用 五 元 组 来 描 述MD P,其中S表示频谱环境状态集,A表示可选的动作集,P表示状态转移概率,R表示奖励函数,表示用于计算累积奖励的折扣因子。由于MD P的 性 质,使 用 一 种 基 于 网 络(n e t w o r k-b a s e d)2 0的迁移学习方法,即“预训练和微调”,将深度迁移学习应用到这样一个连续迭代的抽象过程中。将元组中各分量分别定义如下:1)状态空间。对连续采样到的状态矩阵St(即频谱瀑布)可以看作是由每个离散感知向量Pt叠加的时频特征热力学图,其中包含了背景频谱的历史信息:St=Pt,Pt-1,Pt-m+1 =pt,1pt,2pt,npt-1,1pt-

30、1,2pt-1,npt-m+1,1pt-m+1,2pt-m+1,n (3)表示为一个mn的二维矩阵,其中m表示回溯的历史状态数目。2)动作空间。可用于通信的频段被划分为N个信道,智能体根据感知到的环境状态采取相应的动作at。于是,智能体选择转换通道的动作空间定义为:Aat:atd0,d1,dN-1 (4)3)瞬时奖励函数。用户在智能体的引导下,采取动作atAu选择信道接入实施抗干扰决策,并获得即时奖励,用来评估通信效果,同时用来验证知识迁移的有效性,定义为:R St,at =Ft()(5)式中,Ft()为判断迁移效果好坏的评价函数,即根据效果评估是正迁移(p o s i t i v e t r

31、 a n s f e r)还是负迁移(n e g a t i v e t r a n s f e r)2 1。考虑到在频域维度上,射频(r a d i o f r e q u e n-c y)设备需要额外的启动时间来重建传输链路,由于在不同频率上可能具有不同的传输特性,这导致在数字信号处理时可能存在差异2 2。因此,本文将用户在相邻时隙之间的信道切换成本视为一定程度上的性能损失,改进的吞吐量和频道切换成本的奖励函数定义为:R St,at =(at)-(at)(6)式中,(at)=ft *=1,(ft)*0,(ft)I;步骤8 输出用户信道选择接入策略,保存迭代模型。3 仿真实验与结果分析3.1

32、 实验设置参照文献1 9 的数值设置仿真实验参数,采用大小为2 0 02 0 0的二维矩阵图谱作为状态St的输入卷积神经网络:时间维度上,频率持续感知的更新窗口范围为2 0 0 m s,用户在每个时隙帧内进行一轮信息传输、频谱感知、学习反馈、策略生成并实施决策,时隙帧长5 m s,用户每帧可以选择进行信道切换(或不切换)1次;频率维度上,通信场景中用户和干扰机可用带宽2 0 MH z,频谱感知的频率分辨率为1 0 0 k H z,用户信号带宽2 MH z,步进2 MH z,可供选择的信道数量为1 0个。用户和干扰的信号波形均为升余弦波,滚降系数=0.5。干扰功率为3 0 d B m,用户的信号

33、功率为0 d B m,解调门限S I N R阈值*=1 0 d B,信道切换代价因子=0.2。仿真实验参数设置见表2所列。设置深度强化学习算法的学习速率为=0.1,折扣因子=0.5,初始贪婪度s t a r t=1,最终贪婪度e n d=0.0 5。本文系统仿真采用P y t h o n语言,基于T e n s o r F l o w深度学习框架。实验环境为1 1 t h G e n I n t e l(R)C o r e(TM)i 7-1 1 6 5 G 7 2.8 0 GH z型号G P U,NV I D I A G e F o r c e MX 4 5 0显卡。“梳状”和“扫频”这2种“

34、单一”的干扰模式,通过演变、交错、叠加等方式演变成为“动态”“复合”模式,是本文预训练学习的干扰模式的基础。其频谱瀑布图例如图6所示,参数设置如下:梳状干扰的梳状条数M=1M1 0,MZ ,干扰机可自主选择一条或同时选择多条梳状体实施干扰,1 0个梳状体的带宽均为2 MH z,梳状体之间无重叠,步进2 MH z;扫频干扰可以分为左行单扫频、右行单扫频、双扫频干扰,扫频速率可以设置为1 GH z/s或5 0 0 MH z/s。表2 仿真实验参数设置T a b.2 P a r a m e t e r s s e t t i n g o f s i m u l a t i o n e x p e r

35、 i m e n t参数名称参数值窗口感知时间/m s2 0 0时隙帧长/m s5可用频率/MH z02 0可用信道数量1 0恶意干扰功率/d B m3 0用户信号功率/d B m0信干噪比解调阈值/d B1 0图6 梳状干扰和扫频干扰的频谱瀑布图例F i g.6 T h e r m o d y n a m i c c h a r t o f c o m b a n d s w e e p j a mm i n g p a t t e r n3.2 初步仿真论证为了初步评估所提方法的优化效果,首先测试其在单一模式下的适配能力。选取2种“单一”的干扰模式:梳状干扰(选择3个梳状体,中心频率分别为

36、2、1 0、1 8 MH z)和扫频干扰(左行单扫频,扫频速率为1 GH z/s)进行预训练,同时在场景中施加一种“动态”的干扰模式(梳状和扫频模式周期性交替干扰(如图4(g)所示),并设置干扰切换时间为3 0 m s),且通信过程中模式始终不发生变化。使用表征通信传输成功与否的(归一化)奖励值函数曲线来衡量抗干扰效果,将其与基准算法进行对比。本小节中,强化学习算法在随机探索阶段的迭代步数为1 0 0步,学习训练阶段为1 1 0 0步,验证测试阶段为3 0 0步。学习训练阶段中采用了-贪婪策略,值的选取决定了智能体在已知的全部(状态 动作)二04第1期李思达,等:基于深度迁移学习的动态频谱快速

37、适配抗干扰方法 元组分布之外,选择其他未知动作的概率,即以一个正数(0,1)的概率随机“试探”未知的一个动作策略,最大化长期收益;同时以1-的概率“利用”已有经验中价值回报最大的动作at+1=a r g m a xatAuQ St,at;i 。图7展示了采取不同值下的所提方法与原始算法之间的对比仿真结果,即分别取=0(纯贪婪策略)以及-贪婪衰减策略(值从设定的初始值在整个训练阶段内逐步下降至最终值)。图7 初步仿真结果F i g.7 P r e l i m i n a r y s i m u l a t i o n r e s u l t s由图7的奖励值曲线可知,随着迭代步数的增加,奖励值曲

38、线均呈现出逐步提升的趋势,且无论是选择哪种贪婪策略,所提方法在绝大多数情况下取得的归一化奖励值均高于原始算法,在抗干扰的表现上更为优越。采取纯贪婪策略时,2种算法在测试阶段均未能收敛至最优解(归一化奖励值达到1.0),其原因在于算法对未知环境的探索不够,导致未能及时探索并储备较为全面的经验策略;采取-贪婪衰减策略之后,原始算法仍未能收敛至最优解,由此表明:在适应单一干扰模式场景时,原算法能够通过逐步学习,最终收敛于信道选择最优解,然而在相对更为复杂的干扰环境(更为有限的可供选择信道数量)下却不能找到最优策略,其中原因可能在于对策略选择的探索经验不够,导致最终的决策方式固化,并在测试阶段出现策略

39、选择陷入局部最优的情况;相反,所提算法具备通过预先训练获得的经验数据,能够更为快速地对感知环境有针对性地进行场景适配,并最终收敛于更优解。总之,通过使用“预训练和微调”的方法,在性能优化上带来显著的效果提升,由此证明了此方法的可行性,适用于动态频谱抗干扰通信的场景中。3.3 仿真结果与分析本小节中,主要分为3个部分将所提方法与原算法1 9(对比算法)进行仿真实验对比。首先,改变预训练阶段冻结和微调的网络层数,比对迁移效果;其次,在算法探索阶段,以相同的贪婪策略对环境进行感知学习,比对收敛速度;最后,在算法适应一种场景达到收敛之后对干扰模式进行变换,比对收敛速度和抗干扰效果。通过尽可能多干扰模式

40、的学习,期望构建一个能够适应多变频谱环境的普适化预训练模型,并且通过不断地感知、学习、存储新的干扰迭代模式,使得模型适应能力更稳健、更鲁棒。在模型构建上,预先对“单一”“动态”“复合”3类1 0种干扰模式进行训练,具体做法是:将智能体设置在1 0种模式交替变换的通信场景中,每对一种模式进行探索学习就保存1组配置参数,每种模式迭代次数不少于5 0 0步且满足算法达到收敛的最少步数条件。仿真设置上,考虑了2种通信应用场景下的干扰模式:1)动态干扰。梳状(选择3个梳状体,中心频率分别为2、1 0、1 8 MH z)和扫频模式(左行单扫频,扫频速率为1 GH z/s)周期性交替干扰(如图4(g)所示)

41、,并设置干扰切换时间为3 0 m s;2)复合干扰。在上述动态干扰的基础上,叠加一个单一的扫频干扰(右行单扫频,扫频速率为5 0 0 MH z/s)(如图4(h)所示)。以上设置的2种复杂干扰模式,均能满足在任何时隙都存在可供选择的未被干扰的通信空闲信道。本小节中,强化学习算法在随机探索阶段的迭代步数为1 0 0步,学习训练阶段为1 2 0 0步,干扰模式在训练阶段4 0 0步后进行切换,验证测试阶段为3 0 0步。采取的-贪婪衰减策略的贪婪度值在整个训练阶段内,从设定的初始值在2 0 0步内逐渐递减至最终值。预训练模型的特点是通过大量数据的训练,逐步具备提取浅层基础特征和深层抽象特征的能力1

42、 4。用于提取浅层通用特征和深层特定特征的网络之间的界限是模糊的,为了更好地区分它们,使迁移效用最大化,分别对比了冻结1层、2层、3层权重参数(即分别取l=1、l=2、l=3,L=4)时的仿真结果,截取迭代7 0 01 6 0 0步的部分,如图8所示。14 信 息 对 抗 技 术2 0 2 4年图8 冻结不同卷积神经网络层数时的仿真结果F i g.8 S i m u l a t i o n r e s u l t s f r e e z i n g d i f f e r e n t C N N l a y e r s由图8可知,3种微调方案的仿真结果在曲线走势上较为相似,相差不大。对于本文的

43、建模条件来说,由于网络层数有限且受不确定性实验环境的影响等原因,致使从图中不易看出冻结不同层数的明显变化。依据选择获得的总奖励值(曲线下方与横轴围成的面积)最大方案的原则,综合选择“冻结2层神经网络的权重参数、对剩余2层进行初始化并更新梯度”作为所提算法适用于本文通信抗干扰场景中微调部分的操作方法。上文提到,本文所提方法的性能优化提升来源于“预训练”和“微调”2个部分。图9给出了对比所提“预训练和微调”方法“只预训练不微调”“只微调未预训练”以及原算法4种条件下的仿真结果。从中可以看出,启动速度方面:结合迁移学习方法的3组曲线,在仿真测试的初期阶段,都能够相较于原始方法更早更快启动,加快智能体

44、对新场景环境的学习收敛速度。重新适配方面:在感知的干扰模式发生变化之后,原算法和“只微调未预训练”方法的奖励值曲线均出现较大范围的下跌趋势,且回升速度较为缓慢,通信中断时间较长;相反,结合“预训练和微调”方法的曲线趋势相较更为平缓且能够耗费更短的时间重新达到收敛状态。由此表明:所提算法能够基于模型历史经验数据对环境进行重新学习并迅速收敛,受到复杂频谱环境的影响冲击明显小于原算法,适应性更强,且测试阶段更能找到并选择更优策略。图9 4种实验条件下的对比仿真结果F i g.9 C o m p a r a t i v e s i m u l a t i o n r e s u l t s u n d

45、 e r f o u r e x p e r i m e n t a l c o n d i t i o n s3.4 评价指标及结果分析为了进一步描述模型的性能表现,量化评估性能提升效果的程度,根据文献2 7 总结提出的方法标准,结合本文通信场景实际,设置衡量迁移效果的多重评价指标,侧重于比较适用于应用场景的快速反应能力以及场景发生切换之后迅速恢复原有性能水平的稳健适应能力。如图1 0所示,本文主要从优先启动、性能提升和快速适配3个方面进行评估,评价指标包括平均优先启动比率(m e a n j u m p i n i t i a t i o n r a t i o,M J I R)、平均性能

46、提升比率(m e a n p e r f o r m a n c e i m p r o v e m e n t r a t i o,MP I R)、建立通信缩短步数比率(i t e r a t i o n s s h o r t e n e d r a t i o f o r e s t a b l i s h i n g c o mm u n i c a t i o n,I S R E C)和 恢 复 通 信 缩 短 步 数 比 率(i t e r a t i o n s s h o r t e n e d r a t i o f o r r e c o v e r i n g c o m

47、m u n i c a t i o n,I S R R C)。24第1期李思达,等:基于深度迁移学习的动态频谱快速适配抗干扰方法 图1 0 评估迁移效果的评价指标F i g.1 0 E v a l u a t i o n i n d i c e s e s t i m a t i n g t h e e f f e c t i v e n e s s o f t r a n s f e r r i n g1)优先启动。由于迁移学习在适应目标域任务时利用了源域的知识经验,因此一个良好的迁移过程在训练开始的时候就应该具有比从头学习 的 模 型 更 好 的 表 现。平 均 优 先 启 动 比 率M

48、J I R指用户开机时所提方法率先于原始算法获得的平均初始奖励值提升的比例,即rM J I=E Ro s-Ri sE Ro s (1 3)式中,Ro s是原始算法取得的初始奖励值,Ri s是所提方法取得的初始奖励值。2)性能提升。对于复杂的任务场景来说,智能体往往无法找到最优决策策略,进而收敛至一个次优解。通过使用迁移学习的方法,能够帮助找到尽可能趋近于最优解的决策方案;同时,在整个训练过程中,迁移学习获得的总奖励理论上会高于原始方法。本文通过平均性能提升比率MP I R表示测试阶段所提方法最终收敛的平均奖励值相较于原始算法提升的比例,即rMP I=E Ro f-Ri fE Ro f (1 4

49、)式中,Ro f是原始算法最终收敛的奖励值,Ri f是所提方法最终收敛的奖励值。3)快速适配。为了更为直观地对比性能提升效果,通过人为设置能够满足达到必要通信质量门槛的阈值,使用一条平行与横轴的门限值基准线y=b,其中b表示截距,即设定的门限奖励值,取决于通信双方能够保持全时不间断通信的实际需求。本文通过所提方法相较于原始算法迭代步数平均缩减的比例来评估快速适配效果,表示为:rI S=E C Ro r ib -C Ri m pb E C Ro r ib (1 5)式中,Ro r i表示原始算法取得的奖励值,Ri m p表示所提方法取得的奖励值,C()表示迭代次数的计数函数。具体评估以下2项指标

50、:1)通信系统处于初始场景环境中,结合迁移学习的方法,在训练开始阶段达到特定性能阈值水平所需迭代步数(时间)相较于原算法压缩的比例rI S E C;2)频谱环境发生变化(干扰机切换至新的干扰模式)后,结合迁移学习的方法,通信质量恢复至特定性能阈值水平所需迭代步数(时间)相较于原算法压缩的比例rI S R C。表3给 出 了 设 定 的 门 限 奖 励 值b分 别 取0.8 0、0.8 5、0.9 0时,所提方法相较原始算法在各性能指标上的提升贡献程度。可以看出:在通信链路建立初期,结合所提方法能够获得接近5 0%的开机起点的提升,但最终测试集上的性能提升并不明显,提升率不足1 0%;训练阶段,

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服