基于3D卷积和自注意力机制的卫星云图预测研究_方巍.pdf

资源描述

1、第 59 卷第 1 期2023 年 1 月南京大学学报（自然科学）（NATURAL SCIENCE）Vol.59,No.1Jan.,2023JOURNAL OF NANJING UNIVERSITY基于 3D卷积和自注意力机制的卫星云图预测研究方巍1,2,3*,李佳欣1,陆文赫1（1.数字取证教育部工程研究中心，南京信息工程大学计算机学院，南京，210044；2.气象灾害国家重点实验室，北京,100081；3.江苏省大气环境与装备技术协同创新中心，南京信息工程大学，南京，210044）摘要：卫星云图是气象预报的重要资源之一，可以显示云层的生消变化，对气象分析和预报工作有极大的作用.对云图进行

2、一定时间段的预测有助于及时掌握云层的移动轨迹和变化情况，提高卫星云图资料的实用性.然而，当前卫星云图的预测面临诸多困难，例如，云团的变化大多是非平稳、非线性的；云图数据量小，实时性差等.因此，从时空序列的角度出发，提出一种基于 3D 卷积和自注意力机制的卫星云图预测模型，该模型在 STLSTM（Spatiotemporal Long ShortTerm Memory）的基础上，在其单元内部引入 3D 卷积和自注意力机制，使模型能同时提取时间信息和空间特征，进一步增强云层短期趋势和长期依赖的联系；同时，在其外部框架使用空间和通道注意力机制，促进对云图空间特征的提取.在风云四号的卫星云图上进行评估

3、，实验结果证明，该模型能够较准确地预测云层的形态变化和运动轨迹，各项评价指标均优于现有模型.关键词：风云四号，云图预测，3D卷积，注意力机制中图分类号：TP301 文献标志码：AResearch on satellite cloud image prediction based on 3D convolution and selfattentionFang Wei1,2,3*,Li Jiaxin1,Lu Wenhe1(1.Engineering Research Center of Digital Forensics，Ministry of Education，School of Comput

4、er and Software，Nanjing University of Information Science and Technology，Nanjing，210044，China；2.State Key Laboratory of Meteorological Disasters，Beijing，100081，China；3.Jiangsu Provincial Collaborative Innovation Center for Atmospheric Environment and Equipment Technology，Nanjing University of Inform

5、ation Science and Technology，Nanjing，210044，China)Abstract:Satellite cloud image is one of the important resources of meteorological forecast.It plays a great role in meteorological analysis and forecasting by showing the generation and disappearance of clouds.Predicting cloud image in a certain per

6、iod of time is helpful to grasp the movement trajectory and changes of cloud layers in time，and improve the practicability of satellite cloud image data.However，the prediction of the satellite cloud images is facing many difficulties，such as most changes in cloud clusters are nonstationary and nonli

7、near.There are many problems such as small cloud map data and poor realtime performance.Therefore，we propose a satellite cloud image prediction model based on 3D convolution and selfattention mechanism from the perspective of spatiotemporal sequence.On the basis of STLSTM(Spatiotemporal Long ShortTe

8、rm Memory)，this model introduces 3D convolution and self attention mechanism into its unit，which enables the model to extract temporal information and spatial features at the same time，furtherly enhance the relationship between shortterm trend and longterm dependence on clouds;At the same time，space

9、 and channel attention mechanisms are used in DOI：10.13232/ki.jnju.2023.01.015基金项目：国家自然科学基金（42075007），灾害性天气国家重点实验室开放基金（2021LASWB19），江苏省研究生科研与实践创新计划（KYCX22_1218）收稿日期：2022-10-06*通讯联系人，Email：南京大学学报（自然科学）第 59 卷its external framework to promote the extraction of spatial features of cloud images.In this p

10、aper，the evaluation is carried out on the Fengyun4 satellite cloud image.Experimental results show that the model more accurately predicts the morphological changes and movement trajectories of clouds，and is superior to the existing models in various evaluation indicators.Key words:Fengyun4,cloud im

11、age prediction,3D convolution,attention mechanism随着中国科技的快速发展，国家气象卫星技术也在不断提高，获取更多的气象卫星数据是进行气象预测时不可或缺的资源之一，获取实时准确的气象卫星数据对保障民众日常生活有至关重要的作用.通过卫星云图可以看到地面云层的分布状态，从而进一步地分析和预测云团的生消演变.同时，不同形状和亮度的云层代表不同的天气状态，可以成为是否降水的依据，从而对强对流天气以及极端天气作出更准确的预报.但在现实工作中，由于气象卫星传输方式的限制，地面工作人员在接收气象卫星传过来的云图时存在较大的时延1，还存在云图丢失等情况，大大降低了

12、预测的时效性.当前，人们对云图中的云层变化也只是依靠简单的线性外推，这种方式限制了气象预报的发展.图像序列预测为解决上述问题提供了一种十分有效的方法，因此，本文对卫星云图的时序预测展开了研究.卫星云图预测实际是一个时空序列预测问题，将过去的卫星云图序列作为输入来对未来若干时刻的卫星云图进行预测，输出预测结果2.然而，由于输入的卫星云图观测的区域较大，生成的图片也较大，导致计算量十分庞大.同时，大气混沌效应使图像序列的变化规律非常复杂，这给建立有效的卫星云图预测模型带来了极大的挑战.随着深度学习的快速发展，计算机视觉在其影响下得到快速进步，视频插值3、自动驾驶4等领域因其得到了快速发展，气象学相

13、关预报和应用在深度学习的影响下也逐步成为热门的研究方向.许多研究将神经网络应用于卫星图像5-6，证明了深度神经网络在卫星图像上的有效性.本文对卫星云图预测问题进行研究，提出一个新的预测模型，将卫星云图与计算机视觉、视频预测等技术相结合，对一定时间内的卫星云图进行准确、及时的预测.本文提出 3D 自注意力时空LSTM（Long ShortTerm Memory），将 3D 卷积和自注意力机制融入 LSTM，可以更好地提取卫星云图的时间和空间信息.本文的主要贡献：（1）为了更好地预测卫星云图，使用卷积注意力模块（Convolutional Block Attention Module，CBAM

14、）来对卫星云图进行特征提取，它可以有效地融合云图的通道和空间信息.（2）设计了一种注意力记忆模块，将该模块无缝集成到记忆单元内部，使记忆单元在记住更早的历史信息的同时更注意序列中的关键细节.（3）考虑卫星云图预测场景的特殊性，采用3D 卷积，不仅提取当前卫星云图的轮廓、纹理等空间特征，还能提取相邻云图之间的时变信息.1 相关工作传统的卫星云图预测方法主要通过云团的匹配和追踪来进行研究7.研究人员肉眼观看某个云图后，记录观察到的云团，将其结构形状用特征量表示出来，再查找后面时刻的卫星云图是否存在相似的云团，如果存在则记录该云团的空间信息，进而确定云团的移动轨迹8.最后，根据大气运动的时空延续性

15、，对目标云团进行线性外推，实现卫星云图的预测.2000 年龚克等9利用基于MPEG2 中运动矢量的方法预测了云团运动轨迹.2004年 Lorenz et al10使用 Heliosat2方法获取云图的相关指标，结合运动矢量方法实现云团运动预测.2010年杨俊等11利用局部阈值的思想对地基云图中的云团进行了预测.传统方法对卫星云图中云团的匹配和追踪有一定难度，采用的预测方法大多是线性的.然而，大气运动过程中存在大量非线性变化，如云团自身的形变和翻转等非平稳变化，因此，传统卫星云图预测方法很难得到准确的预测结果.卫星云图预测任务本质上是一个时空预测任务，但与传统的时间序列不一样.时空序列预测 15

16、6第 1期方巍等：基于 3D 卷积和自注意力机制的卫星云图预测研究同时包含空间和时间信息，是一种无监督深度学习算法，利用大量的无标签数据作为输入，采用网络模型去学习连续的图像帧之间的联系与特征信息，通过图像之间的联系性准确地输出后面的图像，具有极大的研究潜力与应用价值.这个算法的核心思路是向网络中输入X1，X2，Xn，准确生成后续的帧Xn+1，Xn+2，Xn+t.时序图像预测模型大多基于自编码模型和递归神经网络.自编码器能实现对图像的压缩，其预测模块采用自编码器对图像进行压缩和预测.基于自编码器的预测模型结构图如图 1所示.Xing et al12提出一种动态编码模型.首先，编码器对像素图像进

17、行编码，得到一个变量，这个变量与其状态相关，再对这个变量进一步编码，反复操作.这就是采用逐层训练的方法构建一个多层编码器.Udrescu and Tegmark13搭建一个基于卷积自编码器的预测模型，模型主要由两部分组成，第一部分用于获取输入的图像和时间差，将这两个部分进行编码之后传递给第二部分，也就是解码器，将输出的矢量转换为对应的图像，但该模型无法准确地预测动作变化.Liu et al14构建了一个光流模型，它由三个卷积层和三个反卷积层组成，卷积层和反卷积层用跳跃连接，能够更好地保留空间信息.Xue et al15搭建基于自编码器和由卷积网络改进的预测模型，创建了条件变分自编码器，能获取未

18、来图像的条件分布，实验证明该模型取得了不错的效果.循环神经网络（Recurrent Neural Network，RNN）16由于其独特的性质在时间序列预测任务上取得了非常好的效果.循环神经网络的架构如图 2所示.RNN 有权值共享的优势，在时间序列预测任务中可以根据当前时刻的输入数据和上一个时刻的隐藏状态得到当前时刻的预测数据，并对隐藏状态进行更新和记录，因此具有一定的记忆功能.但是对于长时间序列问题，RNN 的处理效果较差，还容易出现梯度消失等问题.Hochreite and Schmidhuber17提出 LSTM，解决了这个问题.LSTM

19、通过状态单元记录从长时间序列中提取有用的信息并记录下来，同时采用输入门、遗忘门和输出门控制输入信息的提取、状态单元的更新以及输出信息的选择.尽管如此，LSTM 也只能处理时序数据，对于卫星云图预测和雷达回波等时空序列问题，无法捕捉图像的空间信息.Shi et al18在 LSTM 的基础上提出卷积长短期记忆神经网络（Convolutional LSTM，Conv LSTM）用于预测雷达回波图，取得了良好的预测结果，开启了利用 RNN 进行时空预测研究的新纪元.ConvLSTM 通过卷积学习之前状态的空间信息，因此具备了同时提取空间特征和时间特征的能力.该方法成功地对短时雷达回波图像

20、进行了预测，其结果比实时光流法更加准确.此后，在ConvLSTM 的基础上发展了很多改进的变体结构，如 Shi et al19引入光流轨迹的思想提出轨迹门控循环单元（Trajectory GRU，Traj GRU），可以主动学习用于重复连接的位置变化结构，进一步提高了预测的准确率.为了提高网络对时空特征的非线性拟合能力，LSTM常被堆叠使用，但对于简单的堆叠结构，时空信息分别沿时间步横向传递和沿堆叠层纵向传递，纵向传递的时空信息没有得到有效利用.因此，Wang et al20提出时空长短期记忆（Spatiotemporal LSTM，STLSTM），将纵向传递的信息连接到下一时间步，并使用额外

21、的时空记忆单元图 1自编码器的结构Fig.1Autoencoder structure图 2循环神经网络的架构Fig.2The architecture of RNN 157南京大学学报（自然科学）第 59 卷对其进行更新和传递.RequenaMesa et al21将生成对抗网络和 LSTM 网络结合起来预测卫星云图，效果不错.然而，标准 LSTM 单元仅使用一个输入门和一个遗忘门来完成输入信息的提取以及状态单元的遗忘和更新，往往只能提取输入信息中的部分信息对状态单元进行更新，因此输入信息中的部分有效信息可能会被丢失.Chang et al22提出运动感知单元（Motion A

22、ware Unit，MAU），通过有效拓宽时间感受野来提高模型在捕捉运动信息方面的表达能力.其包含两个模块，一个关注模块和一个融合模块，实验结果证明，两个模块取得了不错的效果.Gao et al23提出SimVP，不使用复杂的模块，如 RNN，LSTM 和Transformer，也不引入复杂的训练策略，如对抗性训练和课程学习.SimVP 仅需 CNN、跳连和MSE损失，为未来的研究提供了一种新思路.2 方法 2.1整体框架图 3是本文使用的网络架构图.该网络主要由 CBAM 注意力模块、双向自编码器模块24和 3D 自注意力时空 LSTM 预测模块组成.首先，将多时段的卫星云图作为输入，利用C

23、BAM 充分提取特征后，将其输入双向自编码器模块，最后再用学习融合后的时空特征来预测未来时刻的云图序列.2.2卷积注意力模块为了更好地预测卫星云图，本文通过利用卷积注意力25模块对卫星云图进行特征提取.卷积注意力模块主要由两部分组成，即通道注意力机制和空间注意力机制，它的整体架构如图 4 所示.通道注意力模块的作用是关注不同通道之间的相关性，采用计算获取不同通道的权重信息，并将获取的权重信息重新应用到提取的通道中，以此学习不同通道的特征.空间注意力模块的作用是捕获特征图中不同像素位置之间的空间相关性，不同位置的像素对网络学习的重要程度不同，能得到重要区域上的相关信息，这是对通道注意力的有效补充

24、.通道注意力模块的具体结构如图 5 所示.首先，将输入的特征fch进行降维，分别进行一次最大池化和一次平均池化，得到两个1 1 C的特征向量，这两个向量都包含输入特征在通道维度上的全局分布.并且，为了减少计算量，在完成池化操作后，再用一个卷积对这两个特征向量进行降维，使模型的通道数减少到之前的 1/16.其次，将两个降维后的特征向量进行叠加，通过一个11的卷积对两者进行融合，并将通道数恢复至原来的数量C.最后，经过一个 sigmoid函数，得到通道注意力矩阵CAch，将其与原始输入逐元素相乘，实现在通道维度上对原输入特征的自适应调整.通道注意力模块的数学表达如式（1）所示：Fchannel=C

25、Achfchannel=(w1(w0vmax+w0vavg)fchannel(1)其中，表示 sigmoid，w0 RC/r C，w1 RC C/r分别代表两个 11 卷积核的权重，()代表 relu 函数，vmax和vavg分别代表经过最大池化和平均池化后的特征向量.空间注意力模块的流程与通道注意力模块相似，具体结构如图 6 所示.首先，对通道注意力提取的特征沿通道分别进行一次最大池化和一次平均池化操作，将尺寸为H W C的输入特征压缩为两张H W 1的单通道特征图，展示输入图 3本文的网络架构图Fig.3Network architecture diagram of our algorit

26、hm图 5通道注意力模块Fig.5Channel attention module图 4卷积注意力模块的整体架构Fig.4Convolutional attention module 158第 1期方巍等：基于 3D 卷积和自注意力机制的卫星云图预测研究在空间维度上的分布.然后，将这两个单通道特征图在通道维度上进行拼接，再使用一个卷积对其进行融合和参数学习，得到一张H W 1的特征图.最后，经过一个 sigmoid 函数，得到空间注意力矩阵SAch，将其与输入的原始特征逐元素相乘，得到经过双重注意力细化的特征表达.空间注意力模块的数学表达如式（2）所示：Fspatial=SAchfchanne

27、l=(w2(fmax+favg)fchannel(2)其中，Fspatial代表经过注意力模块提取后的特征，w2代表 11卷积核的权重，fmax和favg分别代表经过最大池化和平均池化后的特征图.2.33D自注意力时空LSTM(3D SASTLSTM)2.3.13D 自注意力机制2015 年 Chorowski et al26提出注意力机制来获取机器翻译中原始序列和目标序列之间的联系，让模型能获取更长时间的信息.注意力机制实质上是人类观察事物的方式，也就是人脑会特意注重某些特殊的事物，不自觉地忽视该事物之外的其他部分.注意力机制可以给输入特征的不同部分赋予不同的权重，经过权重重新表达的输入特征

28、更容易被提取到有效的信息.此处的权重可以看作人眼的敏锐度，即视网膜的不同部位有不同程度的信息处理能力.近几年，注意力机制被广泛应用于图像处理、自然语言处理和情感分类等多样化任务27-28，均获得了可观的性能提升.传统 ConvLSTM 虽然能学习图像序列的有效时空信息并记忆特征，却无法掌握图像序列的重要部分来提取某些细节.为了解决这一问题，一些工作29-30尝试将注意力机制应用于 LSTM 或 ConvLSTM 以提高其序列学习性能，然而，大多数模型都将注意力机制放入外部来提取特征，将注意力机制融合进预测细胞内部的研究还不多，所以没能完全消除 ConvLSTM 缺少掌握细节能力的缺点.受此启发

29、，本文设计了一种新的自注意力记忆模块，将该模块与预测单元融合，下文中称其为自注意力门.预测单元加入自注意力门后，不仅能记录历史信息，还能把控关键细节，以此来计算云图序列的哪一部分更重要，并赋予更大的权重.其具体结构如图 7所示.自注意力门At由记忆门gt和输入门it共同决定.首先，将记忆门与输入门拼接起来，再分别通过卷积赋予权重.其中一个使用 sigmoid 函数生成注意力矩阵，注意力矩阵表示当前时刻的输入占据的不同比重，同时还需要 tanh 函数来进行另一步操作，获取候选特征信息.最后，将两个函数输出的特征信息进行逐元素相乘，得到自注意力门At的输出Alt，并将该输出加入时间记忆细胞Clt的

30、计算，为Clt补充更多长远程距离的时变信息.最后，再与空间记忆细胞Mlt相加，实现对当前时间步隐藏变量Mlt更精准的编码，进而提升模型的预测精度.自注意力门At的更新如式（3）所示：At=(wagt,it+ba)tanh(wagt,it+ba)(3)2.3.2时空 LSTM3D 自注意力时空 LSTM是预测框架的基本组成单元，其具体的内部结构如图 8 所示.该记忆单元能同时对时间信息和空间特征进行提取，进一步增强了短期趋势和长期依赖的特征提取和记忆，适合解析卫星云图这一类演化规律复杂的预测任务.该记忆单元主要由ConvLSTM 的基本结构、空间记忆细胞Mt和自注意力模块三部分组成.图 7自注意

31、力门的结构图Fig.7Structure diagram of selfattention gate图 6空间注意力模块Fig.6Spatial attention module图 83D自注意力时空 LSTM 结构图Fig.8 3D selfattention spatiotemporal LSTM structure diagram 159南京大学学报（自然科学）第 59 卷STLSTM 是基于 ConvLSTM 改进的一种新的记忆单元，也是通过门控机制对特征信息进行筛选和传递，保留遗忘门、输入门、调制门、输出门、时间记忆细胞以及隐藏状态，分别对应图中的ft，it，gt，ot，Ct和Ht.

32、与ConvLSTM不同，STLSTM在其基础上引入额外的空间记忆细胞Mt，在不同层之间垂直地提取和传递空间结构特征.时间记忆细胞Ct用来捕捉当前时间步到下一时间步的时间依赖性，空间记忆细胞Mt用来捕捉同一时间步底层到顶层的空间依赖性.综上所述，本文提出的 3D 自注意力时空LSTM 的整体方程如式（4）所示：gt=tanh()WgXt,Hlt-1,Clt-1+bgit=()WiXt,Hlt-1,Clt-1+bift=()WfXt,Hlt-1,Clt-1+bfAt=()wagt,it+ba tanh()wagt,it+baClt=Clt-1ft+Atgt=tanh()Wg

33、Xt,Ml-1t,Clt+bgit=()WiXt,Ml-1t,Clt+bift=()WfXt,Ml-1t,Clt+bfAt=()wagt,it+ba tanh()wagt,it+baMlt=Ml-1tft+Atot=(Wxo Xt+Who Hlt-1+WCO Clt+)Wmo Mlt+boHt=ottanh()W1 1Clt,Mlt(4)其中，W 和 b 分别代表权重和偏置项，W1 1代表11卷积滤波器的权重矩阵，用来控制特征的通道数.由式（4）可见，时间记忆细胞Clt由遗忘门ft、输入门it、记忆门gt、同层的上一时间步时间记忆细胞Clt-1以及自注意力门At共同控制，输出的隐藏状态Ht由时

34、间记忆细胞Clt、空间记忆细胞Mlt和输出门ot共同决定.由此，时序信息和空间特征实现了无缝融合，能准确地对云图序列中的外观形变和时间轨迹等时空特征进行统一建模.3 实验 3.1卫星云图数据集实验使用采集自风云四号的地球同步卫星数据.风云四号是我国近几年研制的静止气象卫星，装载了多个气象探测传感器，如干涉式大气垂直探测仪、空间环境监测仪器、闪电成像仪等，其中最重要的是多通道扫描成像辐射计 AGRI，其提供的多通道卫星云图也是本文主要的数据来源.与上一代国产静止卫星风云二号（FY2）的五个观测通道相比，FY4A 装载的 AGRI可以获取 14 个通道的卫星云图，还可提供彩色卫星云图，最快 1 m

35、in 即可生成一次区域观测图像.AGRI 的多通道观测数据使 FY4A不仅拥有观测云、水汽、植被、地表及捕捉气溶胶和雪的能力，还能清晰区分云的不同相态和高、中层的水汽31.本文主要使用 AGRI 的 L1 级数据，该数据共有 14 个通道，每个通道的序号、中心波长、空间分辨率和主要用途32如表 1所示.本文采用 11号水汽通道序列云图数据，区域范围为北纬 26.635.2，东经 115.2123.5，视野从东到西为安庆和上海西部，从北到南为盐城和台州.该数据集是 2021 年七月和八月的卫星云图，每张图片的分辨率被处理为 256256的PNG 图片，帧与帧之间的采样间隔为 1 h，共 14

36、88张原始图片.实验过程中，训练数据集和验证数表 1风云四号各通道的相关信息Table 1Information about each channel of Fengyun4波段可见光近红外短波红外中波红外水汽长波红外通道名称1234567891011121314中心波长(m)0.460.640.861.381.612.253.38(H)3.80(L)6.507.208.5010.8012.0013.30空间分辨率(km)10.512224244444444主要用途植被植被，雾，恒星观测植被，水面上气溶胶卷云低云和雪识别，水云和冰卷云，气溶胶，恒星观测火情水汽，雾高层水汽中层水汽云地表温度地表

37、温度水汽 160第 1期方巍等：基于 3D 卷积和自注意力机制的卫星云图预测研究据集采用 8 1的比例分配，最终训练数据集有 596组，验证数据集有 75组.3.2实验设备所有实验均在 PytorchGPU1.10.0 和 python3.7 上实现，并在单张 NVIDIA GeForce RTX 3060（显存 12 G）上运行.3.3 评价指标选用 MSE（Mean Square Error），MAE（Mean Absolute Error），SSIM（Structural Similarity Index Measure）33和 PSNR（Peak Signal to Nois

38、e Ratio）33来评估模型的预测性能.MSE和 MAE是计算预测图像与真实图像之间差距的指标，也是生成图像变化程度的指标.SSIM和 PSNR是计算机视觉领域广泛使用的两种图像级评价指标，SSIM 是衡量两幅图像结构相似性的主观指标，PSNR是评价图像质量的客观指标.MSE 和 MAE 越小或 SSIM 和 PSNR 越大，说明模型的准确性更好，预测结果也更好.3.4模型评估3.4.1数据预处理从国家卫星中心下载数据后需要进行预处理，主要包含两部分：（1）针对某个时间点的卫星云图丢失，采用最近的相邻时间点云图进行代替，同时将原始文件的 HDF格式转换为 PNG 格式，方便后续文件的读取、处

39、理和可视化；（2）由于实验设备的限制，将所有卫星云图统一缩小到 256256的尺寸，同时将图片像素归一化到0，1（如图 9所示），在可控范围内减少计算资源的消耗，同时最大化利用服务器的算力.3.4.2 数值分析使用 MAE，MSE，SSIM，PSNR 对四种现有模型 ConvLSTM，PredRNN，PredRNN+，Crevnet和本文的 3D SASTLSTM在风云四号卫星云图数据集上进行对比实验，表2 展示了每个模型在不同评价指标上的测试结果，表中数值是模型预测的后五帧预测云图的平均值.由表可见，本文模型的四个评价指标都优于其他模型.与 ConvLSTM 这种仅具有单一细胞的模

40、型相比，各项指标都有大幅的提高，MAE，MSE，PSNR 和 SSIM 分别提升 0.0442，0.0001，21.234，0.301，这是因为后续模型引入了记忆细胞Mt.与 PredRNN，PredRNN+和 Crevnet 这类具有双重记忆细胞的模型相比，3D SASTLSTM的 MAE，MSE，PSNR 和 SSIM 最多提升 0.002，0.003，27.891 和 0.034，说明本文模型和其他模型相比，预测的卫星云图在图像保真度上更趋于真实值，可以更加准确地预测云团的移动轨迹和形状变化.这是因为引入 3D 卷积和自注意力后，模型加强了对云层短期变化趋势的学习，也能更好地捕捉长期的时

41、空特征，使预测性能在一定程度上得到提高.为了更全面地对比不同模型的预测性能，对每一轮的预测结果也进行了对比，同时绘制了四项评价指标的变化曲线，如图 10所示.由图可见，随着轮数不断增加，每个模型的损失都是整体呈下降趋势，图像精度呈上升趋势.本文模型和其他模型相比，表现了更好的整体性能，证明本文模型在捕捉时空特征方面有更好的优势，能更好地预测云图.3.4.3可视化为了更直观地展示不同算法在卫星云图数据集上的预测效果，图11展示了ConvLSTM，PredRNN，PredRNN+，Crevnet 和 3D SASTLSTM 的预测结果.其中，Input代表输入的前五帧图像，Ground Truth

42、代表真实的后五帧图像；白色区域代表云团，黑色区域代表陆地或海洋.白色区域越亮代表云团越多，降水的可能性表 23D SASTLSTM 与其他模型在卫星云图数据集上的测试结果Table 2Testing results of 3D SASTLSTM and other models on satellite cloud image datasetsMethodConvLSTM18PredRNN20PredRNN+34Crevnet243D SASTLSTMMAE0.05280.01090.01350.01440.0086MSE0.01380.01270.00370.00080.0007PSNR7

43、.56114.73020.75727.89128.795SSIM0.1940.2590.3590.4610.495图 9处理后的卫星云图Fig.9The processed satellite image 161南京大学学报（自然科学）第 59 卷越大；白色区域的明暗，代表不同厚度的云团.由图可见，ConvLSTM，PredRNN 和 PredRNN+预测的云团与 Ground Truth 的云图消散趋势大致一致，虽然能学习到云团大致的演化规律和运动趋势，但生成的是模糊的外观，无法达到气象预测业务的需求.与上述模型相比，Crevnet和 3D SASTLSTM 不仅能准确地预测云团的演变

44、趋势，而且，随着时间步的推移，仍然能保持较清晰的轮廓.相比之下，3D SASTLSTM 不仅能保持完整轮廓，还能保留局部细节特征.通过上述对比实验发现，3D SASTLSTM 比其他模型表现更好，在跨度 5 h的卫星云图预测中可以达到较高的精度，并能保持准确和清晰的云团，提高了卫星云图预测的质量.4 结论通过对国内外卫星云图预测和深度学习相关资料的整理，分析和总结传统方法的优缺点，针对ConvLSTM 模型误差大、泛化性差及卫星云图的特殊性等问题，提出一个基于 3D自注意力机制的卫星云图预测模型.通过引入 3D 卷积和注意力机制，改进了模型的内部单元和外部架构，有助于增强对时间信息和空间特征

45、的获取能力，提升了模型对短期信息和长远信息的预测能力.在风云四号卫星云图数据集上的对比实验，验证了模型的有效性和优越性.实验结果证明，提出的模型能更准确地预测卫星云图上云图的移动轨迹和形态变化，并在各项评估指标上均优于现图 11模型在卫星云图数据集上的预测样本展示Fig.11 Prediction sample display of the models in the satellite cloud image dataset图 10模型在不同指标中每轮显示Fig.10The models are shown each round in different metrics 162第 1期方巍等

46、：基于 3D 卷积和自注意力机制的卫星云图预测研究有的模型，展现了一定的优越性和有效性，实现了更加精准化和智能化的卫星云图预测.卫星云图预测始终是气象预报中的难点与重点，本文利用深度学习，结合该方向进行了初步测试，效果较好，但离真实图像还相差甚远.未来的研究需要增大研究样本，并将更多的气象数据（其他通道的卫星云图、大气矢量图）纳入模型，提升模型的预测准确性.参考文献1Wang F，Jiang D D，Qi S，et al.A dynamic resource scheduling scheme in edge computing satellite networks.Mobile Networ

47、ks and Applications，2021，26(2)：597-608.2Jing L L，Tian Y L.Self supervised visual feature learning with deep neural networks：A survey.IEEE Transactions on Pattern Analysis and Machine Intelligence，2021，43(11)：4037-4058.3Oprea S，MartinezGonzalez P，GarciaGarcia A，et al.A review on deep learning techniq

48、ues for video prediction.IEEE Transactions on Pattern Analysis and Machine Intelligence，2020，44(6)：2806-2826.4Bhattacharyya A，Fritz M，Schiele B.Longterm onboard prediction of people in traffic scenes under uncertainty2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City，

49、UT，USA：IEEE，2018：4194-4202.5Kong T，Sun F C，Liu H P，et al.Foveabox：Beyound anchorbased object detection.IEEE Transactions on Image Processing，2020(29)：7389-7398.6Shi Q，Liu M X，Li S C，et al.A deeply supervised attention metric based network and an open aerial image dataset for remote sensing change de

50、tection.IEEE Transactions on Geoscience and Remote Sensing，2021(60)：5604816.7白洁，王洪庆，陶祖钰.GMS 卫星红外云图强对流云团的识别与追踪.热带气象学报，1997，13(2)：63-72.（Bai J，Wang H Q，Tao Z Y.Recognition and tracing of severe convective cloud from IR images of GMS.Journal of Tropical Meteorology，1997，13(2)：63-72.）8陈靖.地基云图中云团的识别和短时外推

展开阅读全文