收藏 分销(赏)

一种基于时空稀疏注意力的时空图挖掘算法_谢毅.pdf

上传人:自信****多点 文档编号:474421 上传时间:2023-10-16 格式:PDF 页数:6 大小:1.55MB
下载 相关 举报
一种基于时空稀疏注意力的时空图挖掘算法_谢毅.pdf_第1页
第1页 / 共6页
一种基于时空稀疏注意力的时空图挖掘算法_谢毅.pdf_第2页
第2页 / 共6页
一种基于时空稀疏注意力的时空图挖掘算法_谢毅.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 49卷 第 4期2023年 4月Computer Engineering 计算机工程一种基于时空稀疏注意力的时空图挖掘算法谢毅1,王强2,李海宏2,金诚2,任洪润1,薛雯1,熊贇1(1.复旦大学 计算机科学技术学院 上海市数据科学重点实验室,上海 200433;2.上海市气象灾害防御技术中心,上海 200030)摘要:当前用于时空图挖掘的算法通常基于专家预定义或者经过特征增强的静态图结构,这些静态的图结构往往依赖于主观先验知识构建,并且不包含时间动态性的变化。为完成自动获取时空图数据中动态图特征的任务,提出一种基于时空稀疏注意力的时空图挖掘算法(STSAN)。构造空间稀疏注意力层,通过对每

2、个时间片上节点间的关系进行度量生成稀疏图,并在各个稀疏图结构上使用注意力机制完成节点空间(纵向)特征的提取。时间稀疏注意力层通过类似的方式完成节点时序(横向)特征的提取。在此基础上,将空间稀疏注意力层和时间稀疏注意力层堆叠为时空稀疏 Transformer模块,完成时空依赖关系建模。实验结果表明,与 DCRNN、STGCN 等方法相比,该算法在 2个公开的交通数据集上能够获得 2.65%16.35%的性能提升,将所提出的空间稀疏注意力层直接用于替换现有算法的空间特征模块,能够在原算法基础上获得平均 3.18%9.14%的性能提升。关键词:时空图;稀疏注意力;图结构;时空依赖;动态性开放科学(资

3、源服务)标志码(OSID):中文引用格式:谢毅,王强,李海宏,等.一种基于时空稀疏注意力的时空图挖掘算法 J.计算机工程,2023,49(4):108-113.英文引用格式:XIE Y,WANG Q,LI H H,et al.A spatial-temporal graph mining algorithm based on spatial-temporal sparse attention J.Computer Engineering,2023,49(4):108-113.A Spatial-Temporal Graph Mining Algorithm Based on Spatial-T

4、emporal Sparse AttentionXIE Yi1,WANG Qiang2,LI Haihong2,JIN Cheng2,REN Hongrun1,XUE Wen1,XIONG Yun1(1.Shanghai Key Laboratory of Data Science,School of Computer Science,Fudan University,Shanghai 200433,China;2.Shanghai Center for Meteorological Disaster Prevention Technology,Shanghai 200030,China)【A

5、bstract】Existing spatial-temporal graph mining algorithms are typically based on static graph structures,which are pre-defined by experts or constructed via feature augmentation.These static graph structures rely on subjective prior knowledge and are not easily adaptable to temporal dynamic changes.

6、Thus,automatically extracting dynamic graph features from spatial-temporal graph data is challenging.Therefore,this study proposes a spatial-temporal graph mining algorithm based on a Spatial-Temporal Sparse Attention Network(STSAN).First,a spatial sparse attention layer is constructed by generating

7、 a sparse graph by determining the relationship between nodes at each time slice,and the attention mechanism is used on each sparse graph structure to extract the spatial(vertical)features of the nodes.Subsequently,the temporal sparse attention layer further extracts the temporal(horizontal)features

8、 of the nodes in a similar manner.Finally,the spatial-temporal dependency modeling is completed by stacking the spatial and temporal sparse attention layers in the spatial-Temporal sparse Transformer module.Experimental results demonstrate that,compared with DCRNN,STGCN algorithms,et al,STSAN can ac

9、hieve performance improvements of 2.65%-16.35%on two public traffic flow datasets.The experiments also demonstrate that directly replacing the spatial feature capturing module of existing algorithms with the spatial sparse attention layer proposed in this study can achieve an average performance imp

10、rovement of 3.18%-9.14%relative to the original algorithm.【Key words】spatial-temporal graph;sparse attention;graph structure;spatial-temporal dependence;dynamicDOI:10.19678/j.issn.1000-3428.00637310概述时空图是一组具有空间关系和时间趋势的数据1。时空图已被广泛应用于交通预测2-3、疾病诊断4-5、姿态识别6-7、轨迹预测8-10等领域,其中,对图结构的构造是时空图挖掘建模的关键。目前已有大基金项目:

11、国家自然科学基金(U1936213);上海市科委基金(19DZ1200802);上海市气象灾害防御技术中心业务型科研项目(ZFYW2020002)。作者简介:谢毅(1994),男,博士研究生,主研方向为数据挖掘、时序数据建模;王强,高级工程师、博士;李海宏、金 诚,工程师、硕士;任洪润,博士研究生;薛雯,硕士研究生;熊贇,教授、博士。收稿日期:2022-01-10 修回日期:2022-05-02 Email:人工智能与模式识别文章编号:1000-3428(2023)04-0108-06 文献标志码:A 中图分类号:TP181第 49卷 第 4期谢毅,王强,李海宏,等:一种基于时空稀疏注意力的时

12、空图挖掘算法量构造图结构的启发式方法:在交通预测任务中,有基于传感器真实地理距离的高斯核函数所构造的带权图2-3,或基于真实地理距离构建并以阈值截断的无权图11-12;在神经科学中,有基于脑功能分区的图4-5。这些基于先验专家知识、预定义的图结构的质量会对下游模型的性能产生直接影响,依赖专家知识构造图结构是一项耗时耗力的困难任务。之后有工作提出使用辅助邻接矩阵构建图结构:用于交通流预测的时空融合图神经网络(Spatial-Temporal Fusion Graph Neural Networks for traffic flow forecasting,STFGNN)13和用于交通流预测的时空

13、图 ODE 网络(Spatial-Temporal Graph ODE Networks for traffic flow forecasting,STGODE)14使用DTW距离定义辅助邻接矩阵,在原有邻接矩阵提供的地理位置相似性的基础上,从功能相似性的角度完成特征增强;用 于 深 度 时 空 图 建 模 的 图 小 波 网 络(Graph WaveNet for deep spatial-temporal graph modeling,GraphWaveNet)1和用于交通预测的自适应图卷积循 环 网 络(Adaptive Graph Convolutional Recurrent Net

14、work for traffic forecasting,AGCRN)15包含自适应邻接矩阵的概念,通过对 2 个带梯度的低秩矩阵进行外积生成可学习的邻接矩阵,在优化模型的同时,将邻接矩阵当作参数进行优化,从而使用该邻接矩阵编码相似度信息。虽然上述方法对图结构进行了一定的特征增强,但由于生成的图结构在优化之后就被固定,图结构不会随着时间动态变化,难以在每一个时间片上生成个性化的图结构,即缺乏图结构的时间动态性表示,因此在表达能力上受到了限制。为了实现建模时间动态性,受 Informer16中探测稀疏自注意力所呈现的稀疏性优点的启发,引入时空稀疏注意力机制动态确定每个时间片上的稀疏图结构。通过对

15、比注意力期望分布与均匀分布,以自适应的方式自动筛选出最重要的节点对进行连边。1问题定义定义 1(时空图)时空图是指由一系列节点固定、特征随着时间演化的图构成。具体来说,在时刻t上给定一个图Gt=(V,Et,Xt)。其中:V表示节点集合,|V|=n;Et表 示 图Gt在 时 刻t上 的 边 集 合;Xt Rn d表示节点特征,d为特征维度,Xt会随着时间演化而改变。图 1所示为图结构随时间动态变化的时空图。定义 2(时空图预测)给定一组从(t-h)时刻到(t-1)时 刻 的h个 历 史 时 刻 的 时 空 图 节 点 特 征X(t-h:t-1)=Xt-h,Xt-h+1,Xt-1,为方便表述,将其

16、堆叠为一个张量,即X(t-h:t-1)Rh n d。本文算法的目标是找到一个函数F用来预测未来p个时刻的图节点的特征X(t:t+p-1)=Xt,Xt+1,Xt+p-1 Rp n d,即:X(t:t+p-1)=F(X(t-h:t-1)(1)2STSAN算法STSAN 算法框架如图 2所示。整个算法由多个空间稀疏注意力层和时间稀疏注意力层组成的时空稀疏 Transformer模块堆叠而成。具体来说,首先对输入数据完成位置编码,然后经过堆叠的多个时空稀疏 Transformer模块对特征进行压缩,最后使用多层感知机完成特征的解码并输出。其中空间稀疏注意力层和时间稀疏注意力层共享相似的注意力运算方式。

17、具体来说,在每个时刻根据当前的图特征自动生成动态变化的自适应的图结构,即为每个时间片生成节点相同但节点间连边不同(即空间结构不同)的图结构,通过这种方式为当前的节点特征提供更强的表征能力。图 1图结构动态变化的时空图Fig.1Spatial-temporal graph with dynamic graph structure图 2STSAN算法的整体结构Fig.2The overall structure of STSAN algorithm1092023年 4月 15日Computer Engineering 计算机工程使用注意力机制可以对图上的任意 2 个节点完成特征交互,并确定不同时间

18、片上最优的节点交互策略17,能够生成较优的图结构。本质上,这种节点间的注意力机制所形成的注意力矩阵等价于在一张完全图上完成图注意力,意味着引入了过多的参数,容易引发过拟合现象,并且大量研究表明16,18-19,注意力机制呈现出平方级的时间与空间复杂度。受Informer16中探测稀疏自注意力所呈现的稀疏性优点的启发,本文引入时空稀疏注意力机制动态确定每个时间片上的稀疏图结构。在每一个时间片上通过计算稀疏注意力动态地确定节点特征的潜在图结构,从而完成空间特征提取。同样地,稀疏注意力也会被应用到时间维度,完成时间特征提取。稀疏注意力的引入,可以通过一种自适应的方式构造出注意力的特征交互,从而避免由

19、巨大的复杂度带来的过拟合现象。然后,通过堆叠空间稀疏注意力层和时间稀疏注意力层,最终形成基于时空稀疏注意力的时空图挖掘算法 STSAN。2.1空间稀疏注意力层考虑到 Transformer17中注意力机制的平方级的复杂度,本文采用稀疏注意力机制降低其复杂度。在空间稀疏注意力层中,首先,对每个时间片上的节点i,用测度M(.)衡量节点i与其余所有节点形成的注意力分布和均匀分布的差异,保留与节点i 的差异性大于阈值的节点,即保留节点i与这些节点的连边,以此构成新的特征矩阵,从而保证注意力机制的稀疏性。然后,使用这个新的特征矩阵与其他节点完成空间稀疏注意力的特征交换。对所有时间片均进行类似操作。假设在

20、任意时刻t存在图特征Xt Rn d,第i个节点表示为xit=Xti,:Rd,则节点i对其余节点形成的注意力分布p(XtWk|xitWq)可以表示为如下核平滑的期望形式20:Ep(xjtWk|xitWq)xjtWv=jA()xitWq,xjtWklA()xitWq,xltWkxjtWv(2)Wq,Wk,Wv Rd d均为可训练的参数矩阵,分别用于将输入数据Xt映射到新的特征空间中,以参与注意力计算:p(xjtWk|xitWq)=A()xitWq,xjtWklA()xitWq,xltWk(3)其中:M(.)是一个非对称指数核exp(xitWq(xjtWk)T/d),对应Transformer 17

21、 中自注意力机制的Softmax(.)函数。使 用 测 度M(.)衡 量 节 点i的 注 意 力 分 布p(XtWk|xitWq)与均匀分布u之间的差异性。令:M()xitWq,XtWk=KL(u,p()XtWk|xitWq)+ln n=i=1n1n()ln()p()XtWk|xitWq(4)其中:u为均匀分布;测度M(.)本质上是均匀分布u与分布p(XtWk|xitWq)之间的KL散度与常数之和。式(4)的推导过程如下:由等式(3),有:p(XtWk|xitWq)=exp()xitWq()xjtWkTdlexp()xitWq()xitWkTd(5)则:ln(p(xjtWk|xitWq)=ln

22、(exp(xitWq()xjtWkTd)-ln(lexp()xitWq()xjtWkTd)(6)又知对于n的均匀分布u有:ln u=-ln n(7)则:KL()u,p()XtWk|xitWq=i=1n1nln(n-1p()xjtWk|xitWq)=i=1n-1nln n+1n()ln()p()xjtWk|xitWq=-ln n+i=1n1n()ln()p()xjtWk|xitWq(8)丢弃式(8)中的常数-ln n,即可推导出式(4)。文 献16,18-19研 究 表 明,注 意 力 分 布p(XtWk|xitWq)遵循长尾分布。测度M(.)越大,则注意力分布越接近于长尾分布,从而越容易提取出

23、贡献度大的注意力节点对;反之,注意力分布越接近均匀分布,此时注意力退化为求和操作。对图上所有n个节点进行测度计算,每个节点的测度计算方法前已述及。测度向量M Rn描述了经过Wq矩阵的线性变换的节点与其他经过Wk矩阵的线性变换的节点所形成的注意力分布p(XtWk|xitWq)和均匀分布的差异性。本文选择一个差异性阈值s,保留与节点i 的差异性大于阈值的节点,即保留节点i与这些节点的连边,以此调整被保留的节点交互。110第 49卷 第 4期谢毅,王强,李海宏,等:一种基于时空稀疏注意力的时空图挖掘算法选择差异性大于阈值s的n个节点(n n),构成新的特征矩阵Xt Rn d,完成基于空间稀疏注意力的

24、特征交换:AAttention=XtWq(XtWk)TdXtWv(9)2.2时间稀疏注意力层类似于空间稀疏注意力层,时间稀疏注意力层在时间维度对节点完成特征交换。给定一组输入X(t-h:t-1)Rh n d,使用测度Mt(.)衡量任意时刻c上的特征Xc Rn d与其余h个时刻图特征的注意力分布和均匀分布的差异:Mt(XcWq,X(t-h:t-1)Wk)=KL(u,p(X(t-h:t-1)Wk|XcWq)+ln h(10)类似地,对所有时刻完成并行化操作后,得到一个测度向量Mt Rh。设定一个阈值z,选择大于z的h个时间片,构成新的特征张量X(t-h:t-1)Rh n d,完成基于时间稀疏注意力

25、的特征交换。令X=X(t-h:t-1),X=X(t-h:t-1),则:AAttention=XWq()XWkTdXWv(11)2.3时空稀疏 Transformer模块受已有工作对 Transformer 模块架构设计的启发16,18-19,提出时空稀疏 Transformer模块。如图 2所示,在时空稀疏 Transformer模块中,首先,通过空间稀疏注意力层和时间稀疏注意力层完成空间和时间特征的提取;然后,加入层归一化操作21用以约束表征的分布区间,并进一步使用多层感知机完成特征变换,同时加入残差链接22防止梯度消失;最后,加入最大池化层对局部特征完成压缩。3实验结果与分析3.1实验数据

26、集本文使用的实验数据集为 2 个经典的交通流量数据集 PeMSD4 与 PeMSD8,包含以 5 min 为间隔的交通流量信息,被广泛用于许多现有的研究中12-14。数据集的具体信息如表 1所示。为了公平比较,本文采用与之前方法相似的数据预处理策略,对输入数据完成 Z-score标准化:X=X-mean()Xstd()X(12)其中:mean(.)与std(.)分别表示所有输入信号的均值和方差。此外,按照时间顺序,实验将所有数据以 60%、20%、20%的比例划分为训练集、验证集和测试集。3.2实验设置实验分为对比实验、消融实验等 2个部分。1)对比实验基于 12 个历史时刻的图节点特征,预测

27、未来 12个时刻的图节点特征,采用指标平均绝对误差(MAE)、平均百分比误差(MAPE)和均方根误差(RMSE)评价模型性能。对比模型如下:(1)向量自回归(Vector Auto Regression,VAR)23算法:一种捕获多个时间序列之间关系的自回归算法。(2)长短期记忆网络(Long Short-Term Memory,LSTM)24:经典的循环神经网络变体。(3)扩散卷积循环神经网络(Diffusion Convolutional Recurrent Neural Network,DCRNN)3:空间依赖由随机游走捕获,时间依赖由循环神经网络捕获。(4)时 空 图 卷 积 网 络(

28、Spatio-Temporal Graph Convolutional Networks,STGCN)2:使用卷积网络分别捕获空间信息和时间信息。(5)基于注意力的时空图卷积网络(Attention based Spatial-Temporal Graph Convolutional Networks,ASTGCN)11:分别使用时间注意力和空间注意力完成时间与空间信息的捕获。(6)图小波网络(GraphWaveNet)1:使用一个全局可学习邻接矩阵用于捕获隐藏的空间信息。2)消融实验通过将典型架构(以DCRNN、STGCN和 ASTGCN 算法为例)中的空间特征捕获模块替换为本文提出的空间稀

29、疏注意力层,在不改变原有结构的前提下比较替换前后的模型性能,以说明提出的空间稀疏注意力对性能提升的有效性。3.3对比实验不同算法在2个数据集上的性能对比分别如表2、表 3所示,其中,粗体表示获得最优性能的算法指标,下划线表示获得次优性能的算法指标。可以看到,本文算法在所有数据集的所有指标上均获得了最优的性能。在 PeMSD4数据集中,相比现有的时空建模对比算法,本文算法在不同的指标上获得了 2.65%16.35%的性能提升;在PeMSD8数据集中,相比现有的时空建模对比算法,本文算法在不同的指标上获得了7.28%12.79%的性能提升。这主要是由于本文算法能够自适应地通过注意力动态选择目标节点

30、,从而完成特征聚表 1数据集信息 Table 1Information of datasets数据集PeMSD4PeMSD8节点数量/个307170原有连边数量/条340295时间片数量/个16 99217 8561112023年 4月 15日Computer Engineering 计算机工程合,这种操作可以看成是一种自动的特征增强操作。此外,从表1中可知,2个数据集都建立在稀疏的图上,之前的研究证明,过于稀疏的图会限制图神经网络的表达能力从而导致性能的下降25。而在本文的空间稀疏注意力层中,可以通过阈值s调整图结构的稀疏性,消除原本过于稀疏的图结构带来的性能限制,从而提升了模型的表达能力。

31、3.4消融实验通过替换算法 DCRNN、STGCN和 ASTGCN中的空间特征捕获模块,证明本文所提出的空间稀疏注意力层的有效性。替换后的算法分别记为 DCRNNattn、STGCNattn、和 ASTGCNattn。在 2个数据集上分别进行消融实验,结果如表 4、表5所示。可以看到,将DCRNN、STGCN和ASTGCN算法中的空间特征捕获模块替换为本文的空间稀疏注意力层,均可以获得明显的性能提升。具体来说,在不做其他改动的情况下,将替换原有 3种算法的空间特征提取模块替换为本文的空间稀疏注意力层后,3种算法的性能均有所提升。在 PeMSD4数据集中,替换模块后的 3种算法在不同指标上平均提

32、升 5.1%9.14%;在PeMSD8数据集中,替换模块后的3种算法在不同指标上平均提升 3.18%7.58%。这表明本文提出的空间稀疏注意力层能够作为插件,插入现有时空图模型中作为空间信息提取模块。4结束语本文提出的STSAN算法,在时空图数据中使用空间稀疏注意力和时间稀疏注意力完成空间信息和时间信息的动态提取,不依赖于固定的图结构。实验结果表明,相比于现有的算法,STSAN在PeMSD4和PeMSD8数据集上获得了2.65%16.35%的性能提升。同时实验结果也表明,空间稀疏注意力层能够作为插件加入已有的时空图算法DCRNN、STGCN和ASTGCN,将3种算法中的空间特征模块替换为本文提

33、出的空间稀疏注意力层,在不改变原有模型框架的前提下,能够在原有算法基础上再获得平均3.18%9.14%的性能提升。后续将进一步研究如何优化动态学习的图结构,使其能够获取到更优的语义关联信息。参考文献 1 WU Z,PAN S,LONG G,et al.Graph WaveNet for deep spatial-temporal graph modeling EB/OL.2022-01-02.https:/arxiv.org/abs/1906.00121.2 YU B,YIN H,ZHU Z.Spatio-temporal graph convolutional networks:a deep

34、 learning framework for traffic forecastingEB/OL.2022-01-02.https:/arxiv.org/abs/1709.04875.3 LI Y,YU R,SHAHABI C,et al.Diffusion convolutional recurrent neural network:data-driven traffic forecasting EB/OL.2022-01-02.https:/arxiv.org/abs/1707.01926.4 COVERT I,KRISHNAN B,NAJM I,et al.Temporal graph

35、convolutional networks for automatic seizure detection EB/OL.2022-01-02.https:/arxiv.org/abs/1905.01375.表 2PeMSD4数据集上的性能对比 Table 2Performance comparison on PeMSD4 dataset算法VARLSTMDCRNNSTGCNASTGCNGraphWaveNetSTSAN平均提升/%MAE23.7527.1424.7022.7022.9325.4519.9312.29RMSE36.6641.5938.1235.5535.2239.7029.46

36、16.35MAPE/%18.0918.2017.1214.5916.5617.2914.222.65表 3PeMSD8数据集上的性能对比 Table 3Performance comparison on PeMSD8 dataset算法VARLSTMDCRNNSTGCNASTGCNGraphWaveNetSTSAN平均提升/%MAE23.4622.2017.8618.0218.6119.1316.259.01RMSE36.3334.0627.8327.8328.1631.0524.2712.79MAPE/%15.4214.2011.4511.4013.0812.6810.577.28表 5Pe

37、MSD8数据集上的消融实验结果 Table 5Result of ablation experiment on PeMSD8 dataset算法DCRNNSTGCNASTGCNDCRNNattnSTGCNattnASTGCNattn平均提升/%MAE17.8618.0218.6117.0117.2517.624.80RMSE27.8327.8328.1625.4225.5726.487.58MAPE/%11.4511.4013.0811.1611.0812.623.18表 4PeMSD4数据集上的消融实验结果 Table 4Result of ablation experiment on Pe

38、MSD4 dataset算法DCRNNSTGCNASTGCNDCRNNattnSTGCNattnASTGCNattn平均提升/%MAE24.7022.7022.9321.2821.0521.489.14RMSE38.1235.5535.2235.1634.1733.935.10MAPE/%17.1214.5916.5615.5714.0814.628.09112第 49卷 第 4期谢毅,王强,李海宏,等:一种基于时空稀疏注意力的时空图挖掘算法 5 MESZLNYI R J,BUZA K,VIDNYNSZKY Z.Resting state fMRI functional connectivit

39、y-based classification using a convolutional neural network architecture J.Frontiers in Neuroinformatics,2017,11:61.6 JI S W,XU W,YANG M,et al.3D convolutional neural networks for human action recognition J.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):221-231.7 YAN S J,X

40、IONG Y J,LIN D H.Spatial temporal graph convolutional networks for skeleton-based action recognition C/Proceedings of AAAI Conference on Artificial Intelligence.Palo Alto,USA:AAAI Press,2018:1-10.8 GAO Q,ZHOU F,TRAJCEVSKI G,et al.Predicting human mobility via variational attention C/Proceedings of W

41、orld Wide Web Conference.New York,USA:ACM Press,2019:2750-2756.9 FENG J,LI Y,ZHANG C,et al.DeepMove:predicting human mobility with attentional recurrent networks C/Proceedings of World Wide Web Conference.New York,USA:ACM Press,2018:1459-1468.10 HUANG Y F,BI H K,LI Z X,et al.STGAT:modeling spatial-t

42、emporal interactions for human trajectory prediction C/Proceedings of IEEE/CVF International Conference on Computer Vision.Washington D.C.,USA:IEEE Press,2020:6271-6280.11 GUO S N,LIN Y F,FENG N,et al.Attention based spatial-temporal graph convolutional networks for traffic flow forecastingC/Proceed

43、ings of AAAI Conference on Artificial Intelligence.Palo Alto,USA:AAAI Press,2019:922-929.12 SONG C,LIN Y F,GUO S N,et al.Spatial-temporal synchronous graph convolutional networks:a new framework for spatial-temporal network data forecasting C/Proceedings of AAAI Conference on Artificial Intelligence

44、.Palo Alto,USA:AAAI Press,2020:34(1):914-921.13 LI S W,GE L,LIN Y Q,et al.Adaptive spatial-temporal fusion graph convolutional networks for traffic flow forecasting C/Proceedings of International Joint Conference on Neural Networks.Washington D.C.,USA:IEEE Press,2022:1-8.14 FANG Z,LONG Q Q,SONG G J,

45、et al.Spatial-temporal graph ODE networks for traffic flow forecasting C/Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery&Data Mining.New York,USA:ACM Press,2021:364-373.15 BAI L,YAO L N,LI C,et al.Adaptive graph convolutional recurrent network for traffic forecasting C/Proceedin

46、gs of the 34th International Conference on Neural Information Processing Systems.New York,USA:ACM Press,2020:17804-17815.16 ZHOU H Y,ZHANG S H,PENG J Q,et al.Informer:beyond efficient transformer for long sequence time-series forecastingC/Proceedings of AAAI Conference on Artificial Intelligence.Pal

47、o Alto,USA:AAAI Press,2021:11106-11115.17 VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need C/Proceedings of the 31st International Conference on Neural Information Processing Systems.New York,USA:ACM Press,2017:6000-6010.18 KITAEV N,KAISER,LEVSKAYA A.Reformer:the efficient transformer EB

48、/OL.2022-01-02.https:/arxiv.org/abs/2001.04451.19 WANG S N,LI B Z,KHABSA M,et al.Linformer:self-attention with linear complexity EB/OL.2022-01-02.https:/arxiv.org/abs/2006.04768.20 TSAI Y H H,BAI S J,YAMADA M,et al.Transformer dissection:a unified understanding of transformers attention via the lens

49、 of kernel EB/OL.2022-01-02.https:/arxiv.org/abs/1908.11775.21 BA J L,KIROS J R,HINTON G E.Layer normalizationEB/OL.2022-01-02.https:/arxiv.org/abs/1607.06450.22 HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition C/Proceedings of IEEE Conference on Computer Vision and Patter

50、n Recognition.Washington D.C.,USA:IEEE Press,2016:770-778.23 CRYER J D.Time series analysis M.Boston,USA:PWS-Kent Pub.Co.,1986.24 HOCHREITER S,SCHMIDHUBER J.Long short-term memory J.Neural Computation,1997,9(8):1735-1780.25 KLICPERA J,BOJCHEVSKI A,GNNEMANN S.Predict then propagate:graph neural netwo

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 品牌综合 > 临存文档

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服