收藏 分销(赏)

ENSOMIM:一种新型ENSO时空预测模型.pdf

上传人:自信****多点 文档编号:2391191 上传时间:2024-05-29 格式:PDF 页数:11 大小:2.08MB
下载 相关 举报
ENSOMIM:一种新型ENSO时空预测模型.pdf_第1页
第1页 / 共11页
ENSOMIM:一种新型ENSO时空预测模型.pdf_第2页
第2页 / 共11页
ENSOMIM:一种新型ENSO时空预测模型.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 19 卷 第 2 期2024 年 2 月Vol.19 No.2Feb.2024中 国 科 技 论 文CHINA SCIENCEPAPERENSOMIM:一种新型ENSO时空预测模型方巍1,2,3,4,沙雨1,2,张霄智1,2(1.南京信息工程大学计算机学院,南京 210044;2.数字取证教育部工程研究中心(南京信息工程大学),南京 210044;3.大气环境与装备技术协同创新中心(南京信息工程大学),南京 210044;4.江苏省计算机信息处理技术重点实验室(苏州大学),江苏苏州 215000)摘 要:为了提高厄尔尼诺南方涛动(El Nio-southern oscillation,EN

2、SO)预测的准确性,解决卷积核难以捕获ENSO的长距离前兆的问题,将ENSO预测视为一个时空序列预测问题,并提出一种基于注意力机制和循环神经网络的ENSO非稳态时空预测深度学习模型,称为ENSOMIM。该模型通过提出的新型注意力机制BGAM来局部和全局交互地学习空间特征,并使用高阶非线性时空网络对长期的时间序列特征进行编码。由于ENSO观测数据集样本数量少,为了更充分地训练模型,采用迁移学习的方法,使用历史模式模拟数据进行预训练再利用观测数据校正模型。实验结果表明,ENSOMIM更适合于大区域和长期的预测。在19842014年验证期间,ENSOMIM的Nio3.4指数的全季节相关性技巧比经典的

3、卷积神经网络提高16%,均方误差降低17%,它可以为长达18个月的提前期提供有效预测,并且在23个月的提前期内相关技巧达到0.45。因此,ENSOMIM可以作为预测ENSO事件的有力工具。关键词:ENSO;气候灾害;时空序列预测;深度学习;神经网络中图分类号:TP183 文献标志码:A文章编号:2095-2783(2024)02-0143-10开放科学(资源服务)标识码(OSID):ENSOMIM:a novel spatiotemporal model for ENSO forecastsFANG Wei1,2,3,4,SHA Yu1,2,ZHANG Xiaozhi1,2(1.School

4、of Computer Science,Nanjing University of Information Science&Technology,Nanjing 210044,China;2.Engineering Research Center of Digital Forensics(Nanjing University of Information Science&Technology),Ministry of Education,Nanjing 210044,China;3.Collaborative Innovation Center of Atmospheric Environme

5、nt and Equipment Technology(Nanjing University of Information Science&Technology),Nanjing 210044,China;4.Jiangsu Provincial Key Laboratory for Computer Information Processing Technology(Soochow University),Suzhou,Jiangsu 215000,China)Abstract:In order to improve the accuracy of El Nio-southern oscil

6、lation(ENSO)prediction and solve the problem related to the difficulty in capturing long-range precursors of ENSO of convolution kernels,a deep learning model,called ENSOMIM,for ENSO unsteady spatiotemporal prediction based on attention mechanisms and recurrent neural networks was proposed via consi

7、dering the ENSO prediction as a spatiotemporal series prediction problem.This model was used to learn space features of local and global interaction via new attention mechanism BGAM,while long-term time series features was encoded by high-order nonlinear spatiotemporal networks.Due to the small numb

8、er of samples in the ENSO observation data set,transfer learning method was adopted to train the model more fully,in which the historical model simulation data was used for pre training,and the observation data was used to correct the model.The experimental results show that ENSOMIM is more suitable

9、 for large-scale and long-term prediction.During the validation period from 1984 to 2014,the seasonal correlation technique of ENSOMIM s Nio3.4 index increased by 16%compared to the classical convolutional neural network,and the mean square error decreased by 17%.It can provide effective predictions

10、 for a lead time of up to 18 months,and can achieve relevant skills of 0.45 within a lead time of 23 months.Therefore,ENSOMIM can be a powerful tool for predicting ENSO events.Keywords:ENSO;climate disasters;spatiotemporal series prediction;deep learning;neural network气候变化是当前世界面临的难题,在很大程度上影响着人们的生产生活

11、,其中最显著的ENSO现象是地球上短期气候变化最主要的年际信号1,对全球范围内的气候、环境和社会经济都会造成很大的影响。ENSO 是发生在赤道太平洋的海面温度的变化,与全球大气环流尤其是热带大气环流紧密相关。1969年,Bjerknes2提出 El Nio 和南方涛动是自然收稿日期:2023-06-19基金项目:国家自然科学基金资助项目(42075007);江苏省计算机信息处理技术重点实验室开放课题资助项目(KJS2275)第一作者:方巍(1975),男,教授,主要研究方向为人工智能气象,第 19 卷 中 国 科 技 论 文界中同一物理现象的2种不同表现,在海洋中体现为El Nio现象,在大气

12、中反映为南方涛动现象。厄尔尼诺是指赤道东太平洋每27年(平均每4年)海洋异常变暖的现象,与之相反的冷现象被称为拉尼娜现象3。南方涛动是指发生在东南太平洋与印度洋及印尼地区之间的反相气压振动。由于 ENSO 是一种全球性的海洋-大气相互作用,它对全球天气、气候具有重要影响,进而影响农业等。19971998年,由ENSO导致的异常干旱而引发的火灾在全世界范围内破坏了大片的热带雨林4。在ENSO年,地球上约一半的盆地存在洪水风险异常5。为了应对这类气候灾害的威胁,认识和理解气候变化规律,提前进行有效的ENSO预测,对减轻世界各地的灾害损失至关重要。自20世纪80年代以来,各国科学家一直致力于ENSO

13、的预测研究6。由于热带太平洋大部分海域海温变率的时间尺度在1年左右,其中ENSO事件主导了海温变率7,ENSO现象的发生通过海水表面温度异常(sea surface temperature anomaly,SSTA)来反映,因此预测 ENSO 现象就相当于预测 SSTA。此外,在所有的指数中,Nio3.4是测量 ENSO 现象最常用的指数,Nio3.4 指数是 5N5S、170120W范围内的平均海温。传统的ENSO预测模型主要分为统计模型和动力模型两大类。统计模型通过一系列统计学方法对ENSO进行分析预测,如线性转置模型(linear inverted model,LIM)8、非线性典型相关

14、分析(nonlinear canonical correlation analysis,NLCCA)9、马 尔 可 夫 模 型(Markov model,MKV)10等,但统计模型没有充分利用物理规律,难以捕捉复杂的时空动态变化。动力模型主要基于大气-海洋相互作用的动力学理论,如简单耦合模型(simple coupled model,SCM)11、中 间 耦 合 模 型(intermediate coupled model,ICM)12、混合耦合模型(hybrid coupled model,HCM)13和全耦合环流模型(fully coupled general circulation mo

15、del,FC-GCM)14,预测已达到6个月的可靠预报,其在短期预测上是成功的,但没有充分利用已有的大量实况历史资料,对于长达1223个月的长期预测而言,单纯的动力学方法的预测能力会大幅度下降。实践表明,动力方法和统计方法都有一定的准确率,两者均能反映大气运动的部分规律15-17,但由于 ENSO 时空演化的变化性和多样性,大多数传统方法难以生成比12 个月的提前期更长的精确预测18,尤其在 21 世纪,热带外大气对热带地区的影响加剧,使ENSO更加复杂和难以预测。随着大数据时代的到来,人工智能技术在各个领域不断取得突破性成果19-20。最近,基于神经网络的深度学习模型已经在ENSO预测方面取

16、得了一些有前景的成果,即人工神经网络21、循环神经网络(recurrent neural network,RNN)22、长 短 期 记 忆(long short-term memory,LSTM)神经网络23-25、卷积长短期记忆神经网络26、卷积神经网络27和图神经网络28。其中,深度卷积神经网络(convolutional neural network,CNN)显示了长达16个月的可靠预测,优于大多数经典模型29。其显著的性能主要来自可以从 ENSO 前兆中学习局部信号的卷积核。ENSO前兆是指在ENSO事件发生之前,可以在一些气候变量的早期变化中观察到的现象,如海洋表面温度、风向、气温、

17、气压等,是一种预警信号。然而,CNN是一种在局部区域内共享权重的神经网络,它的强项在于保留局部特征,并且可以在高度的特征抽象层面上进行处理,但它并不能很好地处理长序列数据,因为它是固定窗口大小的,并不能捕捉到序列中的时间步信息。因此,传统的卷积神经网络对于ENSO预测因子这种长期信号可能无法充分利用相关信息,而一些新兴的神经网络结构,如RNN和LSTM,通常可以更好地处理这种类型的信号23。例如,基于局部卷积核,为了计算北太平洋和南大西洋SSTA之间的关系,必须堆积多层卷积。本文使用模式模拟数据和再分析数据来缓解训练集不足的问题,并且引入一种时空序列预测方法来预测ENSO,主要贡献如下:1)将

18、ENSO预测表示为一个时空预测问题,而不是一个时间序列回归任务。利用T时刻过去3个月的时空序列(气象因子),构建预测ENSO的深度学习模型,预测未来 23个月的 Nio3.4指数。对于气象数据来说,本文将某时刻某要素的分布场看作一张图像,将其作为模型的输入。2)提 出 一 种 新 型 的 通 道 空 间 注 意 力 模 块BGAM,该模块结合移动倒置残差瓶颈卷积(mobile inverted residual bottleneck convolution,MBConv)、通道注意力和空间注意力,其中空间注意力包含局部和全局的注意力,能够更好地进行空间交互。3)设计一种基于注意力机制和 RNN

19、 的 ENSO非稳态时空预测模型ENSOMIM,并使用该模型预测未来2年赤道太平洋的月平均海面温度异常分布和相应的Nio3.4指数。ENSOMIM是一种改进MIM(memory in memory)网络中的递归块MIM-Block 的编码器-解码器(Encoder-Decoder)结构,编码器部分通过卷积层、注意力机制提取空间特征,时 空 长 短 期 记 忆(spatiotemporal long short-term memory,ST-LSTM)神经网络和堆叠的MIM-Block捕捉时间特征以及非稳态,解码器部分通过 3 层MIM-Block和卷积层进行预测。144方巍,等:ENSOMIM

20、:一种新型ENSO时空预测模型第 2 期4)实验结果表明,在19842014年间,ENSOMIM在2023个月的长期预测上超过了现有的基于卷积神经网络和循环神经网络的模型。1相关工作1.1时空序列预测时空序列预测问题包含了时间和空间2个方面的因素,这里时间是指前后的序列,空间既指向图片上的目标以及目标的移动和变化的空间信息,也指表格化数据中的GPS数据或者经纬度的空间信息。ENSO 预测的数据采用的是后者经纬度的空间信息。时空序列预测问题已广泛应用在短临降水、台风预测、交通流预测、视频预测等领域,并创新性地发展了很多变体结构,已然成为深度学习方面的研究热点。Srivastava等30提出了LS

21、TM模型,通过注入遗忘门学习选择性地记忆重要信息和遗忘次要信息,提高了RNN模型性能。为了更好地将LSTM模型应用在图像序列上,2015年,Shi等31提出了一种将卷积结构与LSTM相结合的新型网络卷积长短期神经网络(convolutional LSTM,ConvLSTM),该模型可以同时学习到空间和时间上的特征。2017年,Shi 等32继续提出了轨迹门控循环网络(trajectory gated recurrent unit,Traj-GRU)来克服卷积结构的局部不变性。同年,Wang 等33对 ConvLSTM 的内部结构进行改进,提出了一种“之”字形网络预测递归神经网络(predict

22、ive recurrent neural network,PredRNN)以有效利用横向和纵向信息。2018年,Wang等34 又进一步对此进行改进,提出了PredRNN+,每个时间步和每层之间有一个可适应的连接同时服务于长时和短时的路线,并提出Gradient Highway Unit用来防止长时导致的梯度消失。2019年,Wang等35 继续提出MIM网络,利用相邻重复状态之间的差异信号,通过叠加多个MIM块潜在地处理高阶非平稳性。1.2深度学习在ENSO预测中的应用随着人工智能的迅速发展,基于深度学习的预测方法被广泛应用在各个领域,一些学者开始尝试利用深度学习提高ENSO预测技巧。201

23、9年,Ham等29首次提出将CNN用于ENSO预测,研究结果显示:预测时效超过6个月时,CNN方法对Nio3.4指数的预测能力显著高于目前国际上最优秀的动力预测系统;在对19842017年的真实数据进行测试时,CNN能够提前18个月预测厄尔尼诺事件。当时,这项研究成果被视为深度学习在气象预测领域的开山之作。同年,He等36利用ConvLSTM建立了深度学习ENSO预测模型DLENSO,通过直接预测热带太平洋地区的海水表面温度(sea surface temperature,SST)来预测 ENSO,DLENSO 优于 LSTM 模型和确定性预测模型,在中长期预测中几乎等同于集合平均预测模型。2

24、021 年,Hu 等37利用 dropout和迁移学习来克服模型训练过程中数据不足的问题,并且提出了一种基于深度残差卷积神经网络的模型,该模型在 19842017 年评估期间有效预测Nio3.4指数的提前期为20个月。同年,Geng等38将ENSO预测视为一个时空预测问题,并设计了密集卷积-长短期记忆(dense convolution-long short-term memory,DC-LSTM)模型,在19942010年验证期内,DC-LSTM的Nio3.4指数的全季相关技巧高于现有的动力学模型和循环神经网络,对长达20个月的提前期的预测效果远远超过卷积神经网络的效果29。2022 年,Y

25、e 等39将 Transformer 应用在ENSO 预测上,其能够预测长达 1.5 年的月平均Nio3.4指数,并且还可以提前1年多预测强厄尔尼诺现象。2ENSOMIM本文使用模式模拟数据和再分析数据共同进行模型的训练,并且引入了一种改进的时空预测模型ENSOMIM 来预测 Nio3.4 区域的 SSTA。本文从特征预提取的角度出发,选择了领先且最稳定的模型进行改进,并提出了ENSOMIM。ENSOMIM 是融合卷积模块、注意力模块、ST-LSTM并以MIM作为循环单元的Encoder-Decoder结构,以提高模型预测的准确率,缓解时空序列预测中忽略空间信息、过多遗忘长时信息以及ENSO数

26、据高阶非平稳特征带来的预测时长受限且精度偏低的问题,其中,ENSO的非平稳性是指ENSO现象的时间序列的统计特性会明显地随时间发生变化。2.1建模ENSO预测问题ENSO现象发生的太平洋区域被经度和纬度划分为均匀的网格,每个网格点在每个时间步有多个气象要素的值,比如SST、海表面风速、海水流速等,这些要素在水平分布上是二维(2D)的,因此,加上时间维度后,在某一段时间中,SST 数据是三维(3D)的,分别为时间、经度、纬度。本文利用T时刻过去3个月(包含T时刻)的气象要素,气象因子包括全球海温、上层300 m海洋热含量,构建预测ENSO的深度学习模型,来预测未来23个月的Nio3.4指数。EN

27、SO预测的基数据是全球区域每个月的海水表面温度,本文将其处理为每3个月滑动平均海水表面温度异常值的四维格点数据。对于气象数据来说,本文将某时刻某要素的分布场看作一帧图像,将其作为模型的输入,用张量XRPMN表示,其中MN表示空间区域,P为气象因子的数量,然后将145第 19 卷 中 国 科 技 论 文海水表面温度异常的预测表示为时空预测问题,随时间变化的 T 个时间步的观察形成了一组动态序列,用矩阵序列X1,X2,XT这T帧数据表示,在给出之前的S帧数据的条件下预测出未来最有可能的N帧数据YT+1,YT+N,可以建模为YT+1,YT+N=argmaxXT+1,XT+Np(XT+1,XT+N|X

28、T-S+1,XT)。(1)在本文中,S=3,N=23,本文采用过去3个月的气象要素图,后推未来23个月的Nio3.4指数,详细序列预测过程如图1所示。2.2BGAM模块考虑到ENSO预测因子,即海水表面温度和海洋热含量,受到海洋内部动力和外部环境因素的影响较大,同一片海域中某一格点的温度变化不能仅考虑周边格点的影响,还需要考虑较远处格点的影响,因此,本文提出一种结合 MBConv、通道注意力模块(channel attention module,CAM)和空间注意力模块(spatial attention module,SAM)的新型块网格注意力模块(block grid attention

29、module,BGAM),其中空间注意力包含局部和全局的注意力,分别使用块注意力和网格注意力进行局部和全局的操作,能够更好地进行空间交互,注意力模块结构如图2所示。MBConv和注意力机制一起使用能够提高网络的泛化能力和可训练性40,也可以替换成其他卷积,MBConv 由 2 层 11 卷积、深度可分离卷积(depthwise convolution,DWConv)、挤压和激励(squeeze-and-excitation,SE)模块组成;CAM 和 SAM 这 2 个子模块,分别进行通道和空间上的注意力操作,这样不仅能够节约参数和计算力,并且保证了其能够作为即插即用的模块集成到现有的网络架构

30、中。输入特 征FRCHW,然 后 是 CAM 一 维 卷 积McRC11,将卷积结果乘以原图,将CAM输出结果作为输入,进行SAM的二维卷积MsR1HW,再将输出结果与原图相乘,公式如下:F=Mc(F)F,(2)F=Ms(F)F。(3)在CAM中,通道维度不变,压缩空间维度,该模块关注输入特征图中有用的信息是什么。输入的特征图首先经过2个并行的最大池化层和平均池化层,将特征图维度从CHW变为C11,然后经过多层感知机(multi-layer perceptron,MLP)模块,将通道数压缩为原来的 1/r,再扩张到原通道数,经过ReLU激活函数得到2个激活后的结果。将这2个输出结果进行逐元素相

31、加,再通过1个sigmoid激活函数得到CAM的输出结果,最后将这个输出结果乘以原图,变回CHW的大小,公式如下:Mc()F=(MLP(AvgPool()F)+MLP(MaxPool(F)=(W1(W0(Fcmax)。(4)在 SAM 中,空间维度不变,压缩通道维度,该模块关注的是有用的信息在哪里。首先,将 CAM的输出维度变成 HWC,将特征分为形状张量(H/PW/P,PP,C),表示划分为不重叠的窗口,每 个 窗 口 的 大 小 为 PP。块 空 间 注 意 力(Block_SA)模块在窗口内执行自注意力,相当于在划分后的每个小窗口内进行注意力操作。本文使用这种块注意力来进行局部交互。接着

32、,本文使用固定的 GG 均匀网格将张量网格化为形状(GG,H/GW/G,C),而不是使用固定的窗口大小来分割特征图,从而生成具有自适应尺寸H/GW/G的窗口。网格注意力(Grid_SA)模块全局关注覆盖在整个2D空间上的稀疏、均匀网格中的像素,在分解的网格轴上使用自我注意,相当于在全局空间进行注意力操作。Block_SA 与 Grid_SA 模块之间使用前馈神经网络(feedforward neural network,FFN)连接,Block_SA 与 Grid_SA 模块的执行方法如图 3所示,相同颜色通过自注意力操作在空间上混合,整图1Nio3.4指数预测流程Fig.1Flow char

33、t for Nio3.4 index prediction图2BGAM结构Fig.2Structure of BGAM146方巍,等:ENSOMIM:一种新型ENSO时空预测模型第 2 期体公式如下:Ms(F)=(Block_SA(F);Grid_SA(F)。(5)2.3ENSOMIM针对基于LSTM改进的深度学习方法无法捕捉ENSO 的时空非平稳特征的问题,本文在成熟的MIM 网络上进行改进。MIM 中设计了 2个级联的时间记忆复用模块来取代时间遗忘门。第一个模块(MIM-N)以H1t-1为输入,用于捕获基于2个连续隐藏表示之间的差分(H1t-H1t-1)的非平稳变化;另一个循环模块(MIM

34、-S)以MIM-N模块输出的差分特征Dlt和外部时间记忆细胞Clt-1作为输入,捕获时空序列中近似平稳的变化。这种将平稳变化和非平稳变化相结合的方法可以更加有效地处理时空序列中的复杂动态。MIM块内的关键计算公式如式(6)式(16)所示。2个模块的结构如图4所示。gt=tanh(Wxg*Hl-1t+Whg*Hlt-1+bg),(6)it=(Wxi*Hl-1t+Whi*Hlt-1+bi),(7)Dlt=MIM-N(Hl-1t,Hl-1t-1,Nlt-1),(8)Tlt=MIM-S(Dlt,Clt-1,Slt-1),(9)Clt=Tlt+itgt,(10)gt=tanh(Wxg*Hl-1t+Wmg

35、*Ml-1t+bg),(11)it=(Wxi*Hl-1t+Wmg*Ml-1t+bg),(12)f t=(Wxf*Hl-1t+Wmf*Ml-1t+bf),(13)Mlt=f tMl-1t+itgt,(14)ot=(Wxo*Hl-1t+Who*Hlt-1+Wco*Clt+Wmo*Mlt+bo),(15)Hlt=ottanh(W1x1*Clt,Mlt)。(16)式中:f、i、g分别表示遗忘门、输入门、输入调制门;o表示输出门;t为时间步长;l为层数;W为权重;H为隐藏层;b为偏差;M表示空间记忆;C表示时间记忆;S和N分别表示非平稳模块(MIM-N)和平稳模块(MIM-S)中的水平过渡存储单元;D为

36、由MIM-N学习并输入MIM-S的差分特征;T为通过虚拟“遗忘门”的记忆;*表示卷积;表示Hadamard操作。下标为t就表示某时刻的状态,如it、gt、ot分别表示t时刻输入门、输入调制门、输出门的值,下标为t同时上标为l表示某时刻某层的状态,如Hl-1t就表示t时刻l-1层的隐藏层的值。本文搭建了一个编码器-解码器结构,在编码器中,首先使用2层33的卷积提取底层特征,改变通道数,使输入数据维度适应注意力模块的输入,接着利用注意力模块提取空间上的局部和全局特征,然后使用堆叠的3层MIM Block提取时间特征及非稳态;在解码器中,简单地使用3层MIM作为预测器,将预测结果输入到卷积层,将通道

37、数合并为1。模型结束部分将解码器的输出输入到1个由单层转置卷积构成的卷积网络中,将预测出的未来23个月的时空序列以经纬度作为图像的宽和高重构成原图的大小。最后通过1个全连接层,使输出的序列和标签数据集的排列方式相同(通道数2472,1),方便后面衡量模型的性能。模型的整体结构如图 5所示。其中,黑色箭头表示状态M的过渡路径,红色箭头表示隐藏状态H的对角状态转换路径,蓝色箭头表示存储细胞C、N、S的水平转换路径;下标表示时间,上标表示层数。3实验部分3.1数据集本文模型使用的预测因子包括全球的海水表面温度(0360E、55S60N)和海洋热含量,空间分辨率为55,利用连续3个月的海水表面温度预测

38、Nio3.4指数,这是描述ENSO事件的指标之一。对于神经网络的训练过程,本文将数据集划分为预训练数据和精细训练数据。由于观测数据样本较少,无法满足拥有足够大数据的需求,本文利用18612013 年的耦合模型相互比较项目第 6 阶段(the phase 6 of the coupled model intercomparison project,CMIP6)的15个气候模型的模拟数据,初步训练了神经网络模型;然而,CMIP6模型具有偏差,这会影响所构建模型的预测精度。因此,本文使用迁移学习的方法,在18701973年的迁移训练中使用了简单海洋数据同化(the simple ocean data

39、 assimilation,SODA)再分析数据41来进一步校准预训练的模型,在一定程度上模拟了ENSO的发展42。此外,对于图4MIM-N模块和MIM-S模块结构Fig.4Structures of MIM-N and MIM-S图3块空间注意力与网格空间注意力Fig.3Block-SA and Grid-SA147第 19 卷 中 国 科 技 论 文交叉验证分析,本文使用19842014年的全球海洋数据同化系统(the global ocean data assimilation system,GODAS)再分析数据43作为验证集来评估预测技巧。为了消除训练期海洋记忆对验证期ENSO的可能

40、影响,本文在训练集的最后一年和验证集的最早一年之间留下了10年的间隔。数据集划分见表1。本文对数据集进行了预处理,首先将每个训练数据集的 2 个预测因子聚合在一起,形成一个大的 data array,统一时间范围并计算3个月的滑动平均,然后插值成需要的网络,最后计算异常值,保存数据集用于训练。本文对18702023年的全球海水表面温度插值处理后的结果进行了可视化展示,如图6所示。此外,由于ENSO数据时间尺度很大,并且每个样本所表示的是月尺度的数据,故温度差异也会很大,因此对ENSO进行准确的预测具有一定的难度,本文对18702023年的Nio3.4区域海水表面温度异常值的分布进行了可视化展示

41、,如图7所示。3.2实验设置3.2.1实验细节本文设置了 6 组实验来验证模型的性能。第一组实验是探索注意力模块嵌入位置的有效性;第二组实验是探索MIM层数及结构的有效性;第三组实验是对所提注意力机制的3个子模块的消融实验;第四组实验是通过多个通道空间注意力机制的对比实验来评估所提注意力机制的性能;第五组实验是通过评价指标验证ENSOMIM模型在长期内的预测能力;第六组实验是本文所提模型与其他深度学习模型的对比实验。本文所有实验都在Pytorch上实现,使用Adamw优化器训练多个模型,学习率为0.001,批量大小为4。此外,为了进一步提高性能,本文使用均方误差(mean squared er

42、ror,MSE)、均方根误差(root mean square error,RMSE)、平均绝对误差(mean absolute error,MAE)来评估模型预测SSTA变化的能力,并使用Nio3.4指数3个月移动平均值的皮尔逊相关系数(Pearson correlation coefficient,PCC)(当前月份图5ENSOMIM的整体结构Fig.5Structures of ENSOMIM表1用于训练、验证和测试ENSOMIM模型的数据集Table 1Datasets used to train,validate and test the ENSOMIM model阶段训练验证测试数

43、据集CMIP6 historical runReanalysis(SODA)Reanalysis(GODAS)Reanalysis(GODAS)时间(年月)1861-012013-121870-011973-121984-012014-122015-012023-02图6全球海水表面温度异常插值处理后的可视化图Fig.6Visualization of global sea surface temperature anomalies after interpolation图7Nio3.4区域海水表面温度异常值分布Fig.7Distribution of outlier of regional

44、seawater surface temperature148方巍,等:ENSOMIM:一种新型ENSO时空预测模型第 2 期和未来 2 个月)来评估该模型预测 ENSO 的能力,PCC 为预测值 x 与真实值 y 这 2 个变量的相关性。低MAE、低MSE、高相关技巧PCC代表了良好的预测能力。指标定义如下:MAE=1mi=1m|(yi-xi)|,(17)MSE=1mi=1m(yi-xi)2,(18)RMSE=i=1m(yi-xi)2m,(19)PCC=i=1m(xi-x)(yi-y)i=1m()xi-x 2i=1m(yi-y)2。(20)式中:m为预测步长;i为当前时刻;xi为i时刻的预测

45、值;yi为i时刻的真实值;x 为m个月的预测值均值;y 为m个月的真实值均值。3.2.2相关算法优化训练深度学习神经网络时,通常希望能获得最好的泛化性能,即可以很好地拟合数据。但是,所有的标准深度学习神经网络结构都很容易过拟合,也就是当网络在训练集上表现越来越好、错误率越来越低时,实际上在某一刻,它在测试集的表现已经开始变差。为了使得模型具备较好的泛化能力,避免过拟合以达到良好的均衡性,本文引入了早停法概念。早停法是一种被广泛使用的方法,在很多案例上都比正则化的方法要好。主要步骤如下:将原始的训练数据集划分成训练集和验证集,只在训练集上进行训练,每个周期计算模型在验证集上的误差,提前设定一个p

46、atience(patienceepoch),它表示可以容忍泛化错误的最大周期,当模型在验证集上的误差比上一次训练结果差时,保存上一次迭代结果中的模型参数,同时计数器counter加1,当counter和patience相等时,停止训练。假设Eopt(t)为在迭代次数 t 时 取 得 的 最 好 的 验 证 集 误 差,则Eopt(t)=minttEva(t),泛化误差的增长率如式(21)所示。早停效果如图8所示。GL(t)=100 Eva()tEopt()t-1。(21)在之后的网络训练过程中,采用了学习率自动衰减策略以加快训练速度。较大的学习率会实现非常快的收敛,因此在初期会采用一个较大的

47、值,同时避免陷入局部极小值;等训练到达一定的程度,过大的学习率可能在全局极小值附近来回跳页,导致梯度在收敛的附近摆动不定。因此,较小的学习率可以使得收敛步伐减小,避免结果摆动。学习率衰减策略如式(22)所示。每当训练轮数达到设定值,学习率将会减少一点。i=11+decay_rateepochi0。(22)式中:decay_rate为初始系数;epochi为第i次训练;0为初始学习率。3.3实验结果本文首先对注意力的位置进行实验,目的在于寻找到注意力模块嵌入到编码器的哪里可以更好地提取特征。本文在经典的MIM网络上进行实验,采用了 ST-LSTM 和 3 层 MIM,分别将 BGAM 置于MIM

48、网络的前端、后端及两端进行实验,实验结果见表2。可知,在使用MIM网络之前先通过注意力提取空间特征所得到的效果明显优于其他2种。接着本文对ENSOMIM的模型结构进行实验,对于模型中基于MIM的编码器-解码器结构和层数,本文选择了单独的3层MIM(使用MIM-Block堆叠3层预测网络,也就是经典的MIM网络)、5层MIM(使用MIM-Block堆叠5层预测网络)、7层MIM(使用MIM-Block堆叠7层预测网络)和编码器-解码器各3层的MIM-Encoder-Decoder结构(在编码器使用MIM-Block 堆叠 3 层提取时序特征,在解码器使用MIM-Block堆叠3层进行预测)进行实

49、验,结果见表3。可知,在单独的MIM网络中,3层MIM效果最好,而MIM-Encoder-Decoder效果优于单独的3层MIM网络,因 此,本 文 采 用 最 优 效 果 的 MIM-Encoder-Decoder搭建ENSOMIM。本文提出的新型注意力机制BGAM由3个部分组成,分别为 MBConv、CAM、SAM,为了验证各个模块的有效性,对 3 个模块进行消融实验,来验证3个模块对性能改进的重要性,实验结果见表4。可以看到,完整版本 BGAM 在再分析数据集上的图8早停效果Fig.8Early stopping rendering表2BGAM不同位置的误差结果Table 2Error

50、of different positions of BGAM位置Attention-MIMMIM-AttentionAttention-MIM-AttentionMSE0.141 30.144 40.161 7MAE0.266 00.271 80.294 5RMSE0.375 90.380 00.402 1注:粗体数字为BGAM在不同位置的最佳结果。149第 19 卷 中 国 科 技 论 文MSE、MAE 和 PCC 值分别为 0.135 9、0.313 0 和0.448 7,而去掉3个部分中的任意一部分,其性能均有所下降,尤其是去掉 MBConv 后的 BGAM 的MSE、MAE 和 PCC

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服