1、第 49卷 第 9期2023年 9月Computer Engineering 计算机工程基于多尺度特征融合与双注意力机制的多元时间序列预测韩璐1,霍纬纲1,张永会2,刘涛2(1.中国民航大学 计算机科学与技术学院,天津 300300;2.潍坊学院 计算机工程学院,山东 潍坊 261061)摘要:多元时间序列的各子序列包含不同时间跨度的多尺度特征,现有时间序列预测模型不能有效地捕获多尺度特征以及评估其重要程度。提出一种基于多尺度时序特征融合与双注意力机制的多元时间序列预测网络FFANet,有效融合多尺度特征并关注其中重要部分。通过多尺度时序特征融合模块中并行的时序膨胀卷积层,使模型具有多种感受域
2、,从而提取时序数据在不同尺度上的特征,并根据重要性对其进行自适应融合。利用双注意力模块对融合的时序特征进行重新标定,通过分配时序和通道注意力权重并加权至对应的时序特征,使 FFANet聚焦对预测有重要贡献的特征。实验结果表明,相比 AR、VARMLP、RNN-GRU、LSTNet-skip、TPA-LSTM、MTGNN和 AttnAR 时间序列预测模型,FFANet在 Traffic、Solar Energy和 Electricity数据集上的 RRSE 预测误差分别平均降低 0.152 3、0.120 0、0.074 3、0.035 4、0.021 5、0.012 1、0.020 0。关键词
3、:多元时间序列预测;卷积神经网络;多尺度特征;特征融合;注意力机制开放科学(资源服务)标志码(OSID):源代码链接:https:/ J.计算机工程,2023,49(9):99-108.英文引用格式:HAN L,HUO W G,ZHANG Y H,et al.Multivariate time series forecasting based on multi-scale feature fusion and dual-attention mechanism J.Computer Engineering,2023,49(9):99-108.Multivariate Time Series Fo
4、recasting Based on Multi-Scale Feature Fusionand Dual-Attention MechanismHAN Lu1,HUO Weigang1,ZHANG Yonghui2,LIU Tao2(1.School of Computer Science and Technology,Civil Aviation University of China,Tianjin 300300,China;2.School of Computer Engineering,Weifang University,Weifang 261061,Shandong,China)
5、【Abstract】Each subsequence of the Multivariate Time Series(MTS)contains multi-scale characteristics of different time spans,comprising information such as development process,direction,and trend.However,existing time series prediction models cannot effectively capture multi-scale features and evalua
6、te their importance.In this study,a MTS prediction network,FFANet,is proposed based on multi-scale temporal feature fusion and a Dual-Attention Mechanism(DAM).FFANet effectively integrates multi-scale features and focuses on important parts.Utilizing the parallel temporal dilation convolution layer
7、in the multi-scale temporal feature fusion module endows the model with multiple receptive domains to extract features of temporal data at different scales and adaptively fuse them based on their importance.Using a DAM to recalibrate the fused temporal features,FFANet focuses on features that make s
8、ignificant contributions to prediction by assigning temporal and channel attention weights and weighting them to the corresponding temporal features.The experimental results show that compared with AR,VARMLP,RNN-GRU,LSTNet-skip,TPA-LSTM,MTGNN,and AttnAR time series prediction models,FFANet achieves
9、average reduction of 0.152 3、0.120 0、0.074 3、0.035 4、0.021 5、0.012 1、0.020 0 in RRSE prediction error on Traffic,Solar Energy,and Electricity datasets,respectively.【Key words】Multivariate Time Series(MTS)forecasting;Convolutional Neural Network(CNN);multi-scale feature;feature fusion;attention mecha
10、nismDOI:10.19678/j.issn.1000-3428.0065846基金项目:山东省自然科学基金面上项目(ZR2021MF026,ZR2021MC044);潍坊学院博士科研启动基金(2022BS33)。作者简介:韩 璐(1997),女,硕士研究生,主研方向为时间序列预测;霍纬纲,教授、博士;张永会,副教授、博士;刘 涛(通信作者),讲师、博士。收稿日期:2022-09-26 修回日期:2022-11-09 Email:.人工智能与模式识别文章编号:1000-3428(2023)09-0099-10 文献标志码:A 中图分类号:TP2732023年 9月 15日Computer E
11、ngineering 计算机工程0概述 多元时间序列(Multivariate Time Series,MTS)是指在一段时间内依照固定的采样率对某种过程进行观测并记录一组包含多个变量的数据1,本质上是反映这些变量随着时间不断变化的趋势。对 MTS的历史观测值进行分析,并估计未来某个时刻值的过程称为时间序列预测。多元时间序列预测在商业、医学、气象等领域具有重要的研究价值。时间序列预测方法可大致分为统计方法、传统机器学习方法和深度学习方法。统计方法主要采用统计学知识对时间序列中蕴含的发展过程、方向和趋势进行建模并预测,常见的模型有自回归(Auto-Regressive,AR)模 型、移 动 平
12、均(Moving Average,MA)模型等。然而,此类方法具有较低的表达能力,不能处理复杂数据中的非线性关系,因此,预测准确率 比 较 有 限。传 统 机 器 学 习 方 法 包 括 支 持 向 量机2、贝叶斯网络3、高斯过程4等,克服了统计方法的弊端,在时间序列预测方面展现出较优的效果。但是传统机器学习方法往往需要复杂的特征工程且特 征 适 应 性 差,导 致 预 测 精 度 呈 现 一 定 的 不 稳定性5。深度学习因其强大的表征和拟合能力而受到研究人员的关注,已经被广泛应用于时间序列分析的相关领域6-8。深度学习方法主要有循环神经网络9(Recurrent Neural Networ
13、k,RNN)及其变体长短时记忆10(Long Short-Term Memory,LSTM)网络和卷积神 经 网 络(Convolutional Neural Network,CNN)11-12 2 类模型结构。将循环神经网络及其变体长短时记忆网络作为单元组件,对时序数据进行预测。文献 13 通过结合 RNN 和概率模型提出一种混合预测方法,在提取全局非线性特征的同时估计局部随机性变化趋势,提高预测精度。以卷积神经网络作为特征提取器,通过构建深层卷积模型以获得强大的特征提取及预测能力。与循环神经网络模型结构相比,基于 CNN 的时间序列预测模型具有计算效率高、训练难度低等特点,在多元时间序列预
14、测方面具有一定优势。文献 14 提出 DeepGLO 模型,利用时序卷积解决极高维时间序列的预测问题。上述工作都只针对深度学习的直接应用,而没有结合 MTS 数据及其特征的特点。在时间序列中各变量的变化往往具有不同的时间跨度,存在多种尺度特征。对于 MTS 预测任务,充分利用多尺度特征 能 够 增 强 网 络 的 预 测 能 力。文 献15提 出 的LSTNet 通过结合 CNN 和 RNN 捕获 MTS 中的短期和长期尺度特征,大幅提高预测准确率。针对负荷数据中的周期性波动特征,文献 16 基于 LSTM 结构构建一种 Seq2seq模型,实现数据相关性建模并对其进行预测。在计算机视觉领域,
15、文献17所提GoogleNet 的核心是通过 Inception 结构处理图像中不同尺度的语义信息。基于此,MTGNN 模型18将Inception 结构引入到 MTS 预测中,利用多个不同大小卷积核和膨胀卷积19提取多尺度特征,在预测方面表现更优的性能。CNN 卷积核是一种特征检测器,各卷积核捕获数据中不同方面的特征20,这些特征对预测的重要程度不尽相同。为此,研究人员需要利用注意力机制以聚焦对预测有重要贡献的关键时序特征,抑制其他无用特征。文献 21 提出 TPA-LSTM 模型,利用时序模式注意力机制关注与待预测值更相关的时序区间。文献 22 提出 DAFDC-RNN 模型,利用注意力机
16、制对时间序列的特征相关性进行建模,通过学习其中的长期时间依赖来提升预测精度。文献 23 提出的 AttAR 模型引入时不变注意力机制,进一步区分性地利用时序特征。上述研究表明多尺度特征及注意力机制在 MTS预测方面具有较优效果,但是依然存在不足之处。时间序列在不同时间跨度下呈现完全不同的走势,其对应的尺度特征也对预测发挥不同程度的作用。现有方法不能自适应提取、选择并融合这些尺度特征,限制了模型的预测性能。上述注意力机制只从时间维度聚焦相关影响因素,而没有对特征的长时序、多通道方面重要程度加以区分。本文提出一种基于多尺度时序特征融合与双注意力机制的多元时间序列预测网络 FFANet。利用多尺度时
17、序特征融合模块从时间序列中提取多尺度特征,并自适应选择和融合多尺度时序特征。双注意力模块(Dual-Attention Module,DAM)分别对每个变量特征从时序和通道 2个维度计算特征重要程度并分配权重,使FFANet有区分地利用多尺度特征。1问题定义及符号表示 本 文 将 MTS 的 观 测 样 本 表 示 为X=(X1X2XT)RN T,其中,T为该 MTS观测样本的时间步总数,N为变量数目。将单个时间步上的MTS 样本表示为Xt=(xt1,xt2,xtN)RN,xtn表示第n个变量在第t个时间步上的观测值,其中,1tT,100第 49卷 第 9期韩璐,霍纬纲,张永会,等:基于多尺度
18、特征融合与双注意力机制的多元时间序列预测1 n N。本文的目标是基于历史d个时间步的观测值t=(Xt-dXt-d+1Xt)RN d,预测未来第h个时间步的值Xt+h RN,其中,d是在指定的训练预测模型时 MTS样本时间步长。MTS预测是滚动预测过程。在t时刻,基于历史观测值t=(Xt-dXt-d+1Xt)预测未来第h个时间步的值Xt+h。类似地,在t+1时刻,基于历史观测值t+1=(Xt-d+1Xt-d+2Xt+1)预测值Xt+h+1。2FFANet模型 2.1整体架构本 文 设 计 FFANet 模 型 的 整 体 架 构 如 图 1 所示,该 模 型 由 多 尺 度 时 序 特 征 融
19、合 模 块 FFM、双注 意 力 模 块、压 缩 层 和 输 出 模 块 构 成。FFANet模 型 中 多 次 使 用 FFM、DAM、图 卷 积 模 块 和 压缩 层 的 结 构,下 文 中 将 该 结 构 称 为“Section”结构。给定 MTS 样本t RN d,FFANet模型首先利用一维卷积层将其映射为 3维特征F0 RN d C,d为时序特征长度,C为特征通道数。F0的计算如式(1)所示:F0=HSF(t)(1)其中:HSF()为卷积操作。FFANet 模型的主干部分由 4 个 Section 结构组成,用于挖掘特征F0的深层多尺度特征。为了避免梯度消失,在每个 Section
20、 内设计 Section 结构的输入与图卷积模块输出相加的残差连接,同时,将对每个 Section 的输出进行压缩时序长度后,通过跳跃连接求和得到Fd RN 1 C,即输出模块的输入特征为Fd。最后,通过卷积操作将输出模块特征Fd映射为最终预测值Xt+h RN。FFANet模型通过训练最小化真实值Xt+h与预测值f(t)=Xt+h之间的l1损失以更新网络参数,具体损失函数如式(2)所示:L()=1Tt=1Tf(t)-Xt+h1(2)其中:f()表示 FFANet模型函数;表示其中的网络参数。2.2多尺度时序特征融合模块为了有效利用 MTS 中的多尺度时序特征,本文提出多尺度时序特征融合模块,包
21、含多尺度时序特征提取、多尺度时序特征选择和多尺度时序特征融合 3个阶段。在多尺度时序特征提取阶段,本文引入时序卷积层18,使用J组尺寸为1 j(1 j J)的一维膨胀卷积提取 Section 结构的输入特征,以获取不同尺度的时序特征。给定第i(1 i I)层 Section 结构的输入FSeci RN d C,每组特征提取过程如下:图 1FFANet的整体结构Fig.1Overall structure of the FFANet1012023年 9月 15日Computer Engineering 计算机工程pi=qi-1hn=FSeci(n)Fji(ntpi)=()=0j-1fji()ht
22、-pin(3)其中:q表示膨胀因子;pi表示该层卷积膨胀率;htn RC表示输入特征FSeci中第n个变量在t时刻的隐状态;fji R C表示尺寸为1 j的膨胀卷积核;Fji(ntpi)表示由尺寸为1 j的膨胀卷积(膨胀率为pi)对 第n个 变 量 提 取t时 刻 的 隐 状 态;表 示Re LU激活函数。在多尺度时序特征选择阶段,FFANet模型自适应调节上述多尺度时序特征权重,以实现特征选择。首先,多尺度时序特征选择阶段接收来自提取阶段4个并行的不同尺度时序特征,对该特征进行元素求和,生成包含全局信息的特征Seli RN d C,计算式如下:Seli=j=1JFji(4)随后,在变量和时序
23、维度上利用全局平均池化层(Global Average Pooling,GAP)对特征Seli生成特征si RC,对于sci si,计算式如下:sci=fGAP(Seli)=1N dn=1Nm=1dSelci(nm)(5)其中:fGAP()表示全局平均池化操作。FFANet 模型进而利用卷积操作提取特征si的全局特征zi RC/r,r表示通道压缩率。最后,特征zi通过J组并行的卷积层(每个尺度特征对应一层卷积层)生成J个特征描述符zji R1(1 j J)。最后,根据式(6)将上述 4 个特征描述符生成不同尺度特征对应权重:wji=Softmax(zj,i)=ezj,ik=1Jezki,1 j
24、 J(6)其中:wji为第i(i 1)层 Section 结构由尺寸为1 j的膨胀卷积所提取特征的权重。在多尺度时序特征融合阶段,FFANet模型将上述权重分别通过相乘作用于对应尺度特征并求和,实现多尺度时序特征融合,具体计算如下:FFFMi=j=1Jwji Fji(7)2.3双注意力模块本文设计了双注意力模块,该模块的结构如图 2所示。双注意力模块由时序注意力机制 TA 和通道注意力机制 CA组成。在双注意力模块中,首先将第 2.2节多尺度时序特征融合模块输出的特征FFFMi RN d C作为输入,由卷积层、ReLU激活函数和卷积层构成的卷积组提取特征,计算式如下:Fatti=Groupat
25、ti(FFFMi)=W(att-2)i(W(att-1)i(FFFMi)(8)其中:Groupatti()表示第i层 Section 结构中双注意力模块首端的卷积组;W(att-1)i和W(att-2)i分别表示该卷积组中的 2层1 3卷积核的权重;Fatti RN d C表示该卷积组的输出。2.3.1时序注意力机制为了从 MTS 中区分与待预测点更相关的时序,进而对其进行聚焦,本文设计时序注意力机制。首先,在通道维度上利用平均池化层和最大池化 层 对 输 入 特 征Fatti进 行 降 维,分 别 生 成 特 征F(avg-t)i RN d 1和F(max-t)i RN d 1;然后,将两者
26、拼接后通过卷积将双通道特征压缩为单通道;最后,使用Sigmoid激活函数对时序权重进行归一化,生成时序注意力权重Ti RN d;最终,将时序注意力权重与输入特征对应元素相乘,生成不同权重的时序特征。时序注意力机制的运算过程如式(9)所示:Ti=(Htempi(F(avg-t)iF(max-t)i)=(Htempi(AvgPoolC(Fatti)MaxPoolC(Fatti)(9)其中:表示Sigmoid激活函数;Htempi()表示卷积操作;F(avg-t)iF(max-t)i表 示 池 化 并 拼 接 后 的 特 征;AvgPoolC()和MaxPoolC()分别表示通道维度的平均图 2双注
27、意力模块结构Fig.2Structure of the dual-attention module102第 49卷 第 9期韩璐,霍纬纲,张永会,等:基于多尺度特征融合与双注意力机制的多元时间序列预测池化和最大池化层;Ti表示时序注意力权重。2.3.2通道注意力机制本文引入的通道注意力机制24如图 2 所示。首先,CA 采用与 TA 同样的方式,通过全局平均池化和全局最大池化层对特征Fatti各通道的全局时序和变量特征进行压缩,生成 2组特征F(avg-c)iF(max-c)i RC;然后,将上述 2 组特征的对应元素求和后通过卷积组建模通道之间的相互依赖性,自适应地判别各通道的重要程度;最后
28、,由Sigmoid激活函数生成通道注意力权重Ci RC,并通过逐元素相乘将权重应用于 特 征Fatti中。通 道 注 意 力 机 制 的 运 算 过 程 如式(10)所示:Ci=(Groupchanneli(F(avg-c)i+F(max-c)i)=(Groupchanneli(AvgPoolNT(Fatti)+MaxPoolNT(Fatti)(10)其中:Groupchanneli表示由卷积层、ReLU激活函数和卷积层构成的卷积组;AvgPoolNT()和MaxPoolNT()分别表示时序和变量维度的平均池化和最大池化层;Ci表示通道注意力权重。时序注意力权重和通道注意力权重通过相乘应用 于
29、 特 征Fatti后 生 成 双 注 意 力 模 块 的 输 出FDAMi RN d C:FDAMi=FattiTiCi(11)2.4图卷积模块在 MTS 变量对之间通常具有潜在的依赖关系。为此,本文引入图卷积模块18,包含图学习层和图卷积层,自适应捕获变量对之间的关联关系。图学习层的目标是学习变量间的动态空间依赖关系,并用邻接矩阵表达。首先,将随机初始化的嵌入矩阵E1E2 RN e表示特征M1M2 RN e,N和e分别表示图节点(变量)数量及图节点嵌入维度。M1、M2、邻接矩阵A RN N计算过程为:M1=tanh(E1q1)M2=tanh(E2q2)A=(tanh(M1MT2-M2MT1)
30、(12)其中:q1和q2表示全连接网络参数。图卷积层计算过程如下:Fgi=FDAMig=1F1i+(1-)AF(g-1)i1 g G(13)其中:G为图卷积层数;Fgi为第g层图卷积输出;为图卷积层的超参数;A=D-1(A+Ie)表示归一化的邻接矩阵,D为A矩阵的度矩阵,Dii=1+jAij,Ie表示单 位 矩 阵。最 后,根 据 式(14)对 图 卷 积 层 结 果F1iF2,iFGi进行计算:FGraphi=HGraphi(F1iF2iFGi)(14)其中:FGraphi RN d C表示图卷积模块的输出特征。2.5压缩层与输出模块在 FFANet 模型中,特征F0和各 Section 结
31、构的输出特征都经过压缩层以缩短特征长度,其本质是利用与给定输入等长的卷积核逐变量卷积。给定的时序特征Fdowni RN d C为:Fdowni=F0i=0FSeci+FGraphi1 i 4(15)特征Fd RN 1 C通过跳跃连接对各压缩特征求和获得,计算过程如下:Fd=i=04Hdowni(Fdowni)(16)其中:Hdowni代表特征Fdowni所对应的压缩层函数。输出模块由卷积层、Re LU激活函数和卷积层构 成,根 据 式(17)将 特 征Fd映 射 为 最 终 预 测 值Xt+h RN:Xt+h=Wout-2(Wout-1(Fd)(17)其中:Wout-1和Wout-2分别表示
32、2层卷积核的权重。3实验结果与分析 3.1实验设置3.1.1数据集为验证本文模型的性能,本文实验选取 UCI 机器学习库中 4种不同领域的公开数据集。该数据集的相关统计信息如表 1所示。Traffic 为交通数据集,统计了在美国旧金山湾区高速公路 48 个月(2015 年 1 月 1 日2016 年 12 月31日)内通过 862个传感器测量得到的道路占用率。Solar Energy为太阳能数据集,统计了 2006年阿拉巴马 州 137 个 光 伏 发 电 厂 的 太 阳 能 发 电 记 录。Electricity为电力数据集,统计 20122014年葡萄牙321 个用户每小时的电力消耗量。E
33、xchange Rate 为汇率数据集,统计了从 19902016 年内包含澳大利亚、英国、加拿大、瑞士、中国、日本、新西兰和新加坡8 个国家的每日汇率。本文实验的所有数据集被划分为训练集(60%)、验证集(20%)、测试集(20%)。从4个数据集抽样的部分变量如图 3所示。表 1时间序列数据集详细信息 Table 1Details information of time-series datasets数据集TrafficSolar EnergyElectricityExchange Rate采样总数/个17 54452 56026 3047 588变量数/个8621373218采样时间/mi
34、n6010601 4401032023年 9月 15日Computer Engineering 计算机工程3.1.2实验细节数据指标:本文实验采用相对平方根误差(Root Relative Squared Error,RRSE)和 经 验 相 关 性 系 数(Empirical Correlation Coefficient,CORR)作为评价指标。RRSE是评价预测结果与真实值的偏离程度,CORR 是评价模型滚动预测步序列取值与真实值的相关程度。RRSE越低表示预测效果越好,CORR 越高表示预测效果越好。实验环境:FFANet模型代码全部由 Python3.6实现,使用 PyTorch 深
35、度学习框架搭建,并在 NVIDIA GeForce RTX 3080 Ti GPU上进行训练。参数设置:FFANet 模型的相关超参数取值如表 2所示。模型使用 Adam 优化器,学习率为 0.001,梯度衰减率为 0.000 1,epoch为 100。3.2结果分析3.2.1对比实验为评估本文模型的预测效果,本文选择以下7 种主流的 MTS 预测模型:1)AR 是一种自回归模型;2)VARMLP25是一种基于自回归方法和全连接网络的混合模型;3)RNN-GRU 是一种使用 GRU 隐藏层的循环神经网络;4)LSTNet-skip15是一种结合卷积神经网络和递归神经网络的深度预测网络;5)TP
36、A-LSTM21是 一 种 注 意 力 递 归 神 经 网 络;6)MTGNN18是一种图神经网络;7)AttnAR23是一种基于时不变注意力机制的卷积神经网络。预测时间步与文献 15 保持一致设置为 3、6、12和 24,时间步越大表示预测时间间隔越长,预测难度也越大。不同模型在各数据集上的测试结果如表 3所示,加粗表示最优数据,下划线表示次优数据。所有对比模型的实验结果均来源于原文献。本文模型在 Traffic 数据集上预测时间步 3、6、12、24 的平均RRSE 误差为 0.423 2,与 AR、VARMLP、RNN-GRU、LSTNet-skip、TPA-LSTM、MTGNN 和 A
37、ttnAR 模 型相比,预测误差分别降低 0.195 8、0.185 0、0.128 6、图 3不同数据集的可视化结果Fig.3Visualization results among different datasets表 2超参数设置Table 2 Hyperparameter settings超参数CdeIJGqrHorizon说明特征通道数量/个输入时间步数节点嵌入维度Section结构层数/层膨胀卷积组数/组膨胀卷积大小图卷积层数/层膨胀因子通道压缩率图卷积超参数预测时间步取值3216840442、3、6、72240.053、6、12、24104第 49卷 第 9期韩璐,霍纬纲,张永会
38、,等:基于多尺度特征融合与双注意力机制的多元时间序列预测0.066 6、0.040 5、0.024 6、0.011 9。FFANet 模 型 在Solar Energy 数据集上的 RRSE 误差平均为 0.277 8,相比上述 7种预测模型,预测误差分别降低 0.243 0、0.114 3、0.061 5、0.029 6、0.016 5、0.009 8、0.040 0。FFANet 模型在 Electricity 数据集上的 RRSE 误差平均为 0.085 3,相比上述 7种预测模型,预测误差分别降 低 0.018 0、0.060 8、0.032 8、0.009 9、0.007 4、0.0
39、02 0、0.008 1。相比早期的AR、VARMLP和RNN-GRU模型,本文模型在 RRSE和 CORR指标上取得了较大提升,其原因为基于统计的 AR 模型无法捕获 MTS数据中复杂的非线性关系,VARMLP和RNN-GRU模型只能提取单一尺度时序特征,且无法处理多元变量间的依赖关 系,导 致 预 测 误 差 相 对 较 大。LSTNet-skip 和MTGNN 提 取 时 间 序 列 中 的 多 尺 度 特 征,然 而,LSTNet-skip只能处理定长的短期模式和长期模式,MTGNN 则 无 法 自 适 应 融 合 不 同 尺 度 特 征。TPA-LSTM 和 AttnAR 方法引入注
40、意力机制,然而只从时序维度施加注意力权重,对预测准确率的提升仍然有限。从表 3可以看出,在 Traffic数据集中,FFANet模型相比于 MTGNN 模型在预测时间步 3、6、12、24 上的 RRSE 分别降低了 4.11%、9.93%、4.06%和 3.48%。这是因为 Traffic 数据集存在明显的多尺度模式(如表 3各模型在不同数据集上的预测结果Table 3Forecasting results of each models on different datasets 数据集TrafficSolar EnergyElectricityExchangeRateHorizon3612
41、24361224361224361224评价指标RRSECORRRRSECORRRRSECORRRRSECORRRRSECORRRRSECORRRRSECORRRRSECORRRRSECORRRRSECORRRRSECORRRRSECORRRRSECORRRRSECORRRRSECORRRRSECORRAR0.599 10.775 20.621 80.756 80.625 20.754 40.630 00.751 90.243 50.971 00.379 00.926 30.591 10.810 70.869 90.531 40.099 50.884 50.103 50.863 20.105
42、00.859 10.105 40.859 50.022 80.973 40.027 90.965 60.035 30.952 60.044 50.935 7VARMLP0.558 20.824 50.657 90.769 50.602 30.792 90.614 60.789 10.192 20.982 90.267 90.965 50.424 40.905 80.684 10.714 90.139 30.870 80.162 00.838 90.155 70.819 20.127 40.867 90.026 50.860 90.039 40.872 50.040 70.828 00.057
43、80.767 5RNN-GRU0.535 80.851 10.552 20.840 50.556 20.834 50.563 30.830 00.193 20.982 30.262 80.967 50.416 30.915 00.485 20.882 30.110 20.859 70.114 40.862 30.118 30.847 20.129 50.865 10.019 20.978 60.026 40.971 20.040 80.953 10.062 60.922 3LSTNet-skip0.477 70.872 10.489 30.869 00.495 00.861 40.497 30
44、.858 80.184 30.984 30.255 90.969 00.325 40.946 70.464 30.887 00.086 40.928 30.093 10.913 50.100 70.907 70.100 70.911 90.022 60.973 50.028 00.965 80.035 60.951 10.044 90.935 4TPA-LSTM0.448 70.881 20.465 80.871 70.464 10.871 70.476 50.862 90.180 30.985 00.234 70.974 20.323 40.948 70.438 90.908 10.082
45、30.943 90.091 60.933 70.096 40.925 00.100 60.913 30.017 40.979 00.024 10.970 90.034 10.956 40.044 40.938 1MTGNN0.416 20.896 30.475 40.866 70.446 10.879 40.453 50.881 00.177 80.985 20.234 70.974 20.310 90.950 90.427 00.903 10.074 50.947 40.087 80.931 60.091 60.927 80.095 30.923 40.019 40.978 60.025 9
46、0.970 80.034 90.955 10.045 60.937 2AttnAR0.428 70.886 50.437 00.881 90.439 60.880 00.227 20.974 10.305 70.951 90.420 50.903 10.087 10.916 00.094 20.910 80.098 90.908 90.024 00.967 20.033 60.953 60.044 80.924 8FFANet0.399 10.905 30.428 20.889 60.428 00.890 20.437 70.883 30.166 80.987 00.227 90.974 30
47、.302 80.954 20.413 90.908 80.072 40.948 60.082 90.937 10.090 80.929 90.095 30.924 40.017 50.979 40.025 70.971 70.033 50.955 40.048 10.939 81052023年 9月 15日Computer Engineering 计算机工程小时、天、周等),FFANet 中的多尺度时序特征融合模块能够识别不同尺度模式,双注意力模块对每个变量的时序和通道特征进行聚焦,从而获得更精确的预测结果。在 Solar Energy 数据集中各变量数据的夜间读数为 0,仅存在小时、天等小尺
48、度模式,因此当预测时间步为 3 时 FFANet预测 RRSM 最优,相较于 MTGNN 降低了 6.18%,随着预测时间步的增大,RRSE 分 别 增 大 了 2.90%、2.61%和 3.07%。FFANet在 Exchange Rate数据集上的预测效果较差,主要原因是 Exchange Rate 数据集中各变量变化较随机且不具备多尺度性,无法从中有效提取多尺度特征。此外,FFANet模型在预测时间步 3、6、24上的 CORR指标取得了最高结果,表明双注意力模块能够捕获时序依赖关系及变化趋势。3.2.2消融实验FFANet模型包括多尺度时序特征融合模块和双注意力模块 2个核心部件,其中
49、,DAM 又包含时序注意力机制和通道注意力机制。为了验证各部件在FFANet中的有效性,本文设计 4种网络:1)Base是在FFANet模型的基础上去除 FFM 模块和 DAM 模块;2)Base+FFM是在Base模型的基础上增加FFM模块;3)Base+FFM+CA是在 Base+FFM模型的基础上添加通道注意力;4)Base+FFM+TA 是在 Base+FFM 模型的 基 础 上 添 加 时 序 注 意 力 机 制。本 文 选 取 了Electricity和Solar Energy 2个代表性数据集进行消融实验,Electricity数据集包含多种模式(时、天、周)变化,Solar E
50、nergy数据集的变化主要集中在白天,各变量数据的夜间读数为0。消融实验结果如图4所示。在 Electricity 数据集中,随着Horizon的增加,FFM 模块的作用愈发突显。主要原因是待预测点与输入样本间的模式复杂性随着Horizon的增加而增加,FFM 模块准确挖掘其中的关联关系,自适应融合跨尺度特征。然而,在 Solar Energy数据集中出现了与之相反的规律,FFM 模块相较于 Base 模型 CORR分别提升 0.002 4、0.001 5和 0.000 3。这是因为该数据集的读数主要与当日天气有关且夜间读数为 0,没图 4 消融实验结果Fig.4 Ablation exper