1、第 卷 第期 年月遥 感 信 息 ,收稿日期:修订日期:基金项目:国家重点研发计划();河南省科技攻关项目();年度河南省高等职业学校青年骨干教师培养计划();年度河南省高等学校重点科研项目()。作者简介:刘剑锋(),女,硕士,副教授,主要研究方向为生态遥感、遥感监测、应用。犈 犿 犪 犻 犾:通信作者:乔梦佳(),女,博士,主要研究方向为遥感地物智能提取。犈 犿 犪 犻 犾:结合卷积网络与注意力机制的冰凌提取算法刘剑锋,郜利康,赫晓慧,乔梦佳(黄河水利职业技术学院,河南 开封 ;开封市黄河凌汛灾害监测与预警重点实验室,河南 开封 ;河南超图信息技术有限公司,郑州 ;郑州大学 地球科学与技术学
2、院,郑州 ;郑州大学 计算机与人工智能学院,郑州 )摘要:针对现有基于卷积神经网络的冰凌提取算法无法获取全局上下文特征导致提取结果不准确的问题,提出了一种基于 的编码器和 的解码器组成的冰凌智能提取算法 。具体来说,选择 作为编码器,用于提取局部的多层次信息,并利用 中的多头注意力机制做特征解码器,用于捕获全局上下文信息。文章进一步选取决策树、随机森林、和 作为对照模型开展实验。实验结果表明,在各类指标上均优于其他方法,同时提取结果更加连贯,误分及漏分的现象显著减少,充分满足了冰凌监测需求。关键词:中巴资源卫星;冰凌提取;多头注意力犱 狅 犻:中图分类号:文献标志码:文章编号:()犆 狅 犿
3、犫 犻 狀 犻 狀 犵犆 犖 犖狑 犻 狋 犺犛 犲 犾 犳 犪 狋 狋 犲 狀 狋 犻 狅 狀犕 犲 犮 犺 犪 狀 犻 狊 犿犳 狅 狉 犐 犮 犲犈 狓 狋 狉 犪 犮 狋 犻 狅 狀 ,(犢 犲 犾 犾 狅 狑犚 犻 狏 犲 狉犆 狅 狀 狊 犲 狉 狏 犪 狀 犮 狔犜 犲 犮 犺 狀 犻 犮 犪 犾 犐 狀 狊 狋 犻 狋 狌 狋 犲,犓 犪 犻 犳 犲 狀 犵,犎 犲 狀 犪 狀 ,犆 犺 犻 狀 犪;犓 犪 犻 犳 犲 狀 犵犓 犲 狔犔 犪 犫 狅 狉 犪 狋 狅 狉 狔狅 犳犢 犲 犾 犾 狅 狑犚 犻 狏 犲 狉犉 犾 狅 狅 犱犕 狅 狀 犻 狋 狅 狉 犻 狀 犵犪
4、狀 犱犠 犪 狉 狀 犻 狀 犵,犓 犪 犻 犳 犲 狀 犵,犎 犲 狀 犪 狀 ,犆 犺 犻 狀 犪;犎 犲 狀 犪 狀犆 犺 犪 狅 狋 狌犐 狀 犳 狅 狉 犿 犪 狋 犻 狅 狀犜 犲 犮 犺 狀 狅 犾 狅 犵 狔犆 狅犔 狋 犱,犣 犺 犲 狀 犵 狕 犺 狅 狌 ,犆 犺 犻 狀 犪;犛 犮 犺 狅 狅 犾 狅 犳犈 犪 狉 狋 犺犛 犮 犻 犲 狀 犮 犲 狊犪 狀 犱犜 犲 犮 犺 狀 狅 犾 狅 犵 狔,犣 犺 犲 狀 犵 狕 犺 狅 狌犝 狀 犻 狏 犲 狉 狊 犻 狋 狔,犣 犺 犲 狀 犵 狕 犺 狅 狌 ,犆 犺 犻 狀 犪;犛 犮 犺 狅 狅 犾 狅 犳犆 狅 犿
5、 狆 狌 狋 犲 狉犪 狀 犱犃 狉 狋 犻 犳 犻 犮 犻 犪 犾 犐 狀 狋 犲 犾 犾 犻 犵 犲 狀 犮 犲,犣 犺 犲 狀 犵 狕 犺 狅 狌犝 狀 犻 狏 犲 狉 狊 犻 狋 狔,犣 犺 犲 狀 犵 狕 犺 狅 狌 ,犆 犺 犻 狀 犪)犃 犫 狊 狋 狉 犪 犮 狋:,(),犓 犲 狔 狑 狅 狉 犱 狊:;遥 感 信 息 年期引言在我国,洪 水 灾 害 是 危 害 最 严 重、发 生 最 频繁的自然灾害之一,严重威胁着国民经济发展和人民生命财产的安全。在众多洪水灾害中,冰凌洪水是影响因素最多、成灾机理最复杂的一种灾害,突发性强、涨势猛、持续时间长,且天寒地冻、防守困难,容易决口
6、成灾 。准确、及时地获取冰情信息有助于 对 可 能 出现 的 险情 进行 分 析 预测,为防凌决策提供依据,有效降低凌汛灾害造成的影响。遥感技术具有观测条件固定、观测范围广、实时性好等特点。利用遥感技术监测黄河凌汛,可以及时获得大范围河道的冰封情况,发现在封河期、开河期已经或可能出现的险情。因此,国内外许多学者开发了一系列基于遥感影像的冰面识别和监测方法。例如,等利用灰度共生矩阵,以从 影像生成的纹理特征为输入,基于支持向量机(,),实 现 了 海冰的自动分类。沈杨等基于遥感影像,通过将迭代区域生长算法与随机森林相结合,形成了基于 的冰面提取方法,实验结果表明该方法可以更好地分类特征相似的区域
7、。张明等对灰度共生矩阵提取特征值,并以 为分类器对海冰 进 行 提 取。张 盼提 出 分 类 方法,通过将空间上下文信息引入,显著提高了海冰分类精度。然而,这些方法需要以人工设计的特征作为输入,无法充分利用遥感影像丰富的光谱信息。另一方面,上述的机器学习方法需要对遥感影像进行大量复杂的特征提取工作,无法满足复杂冰凌监测的需求。并且由于冰凌具有形态多变、分布散乱的特点,传统的机器学习无法提取影像深层特征,这进一步限制了冰凌提取结果的准确性。近年来,深度学习在计算机视觉领域发展迅速。随着人工智能的发展,各种深度学习算法的爆发式发展也逐渐开始成熟。深度学习模型不依赖人工设计特征,可以自动从图像中提取
8、不同层次的特征,包括浅层、深层和复杂特征,这些算法已经开始取代传统的分类算法。黄冬梅等 基于哨兵一号影像,通 过 搭 建 卷 积 神 经 网 络(,)和深度置信网络,实现了海冰快速分类,结果证明基于深度学习模型的 影像海冰分 类 可 以 提 供 更 加 详 细 的 海 冰 地 理 分 布 信 息。等 基于 实现了像素级海冰分类,实验结果表明基于 的海冰分类准确率至少达到 。等 提出了一种基于 的海冰分类的新算法,实现了种不同类型海冰的检测,结果表明,对于每种冰类型,基于 的算法都优于现有的随机森林算法。等、等 的研究同样证明,基于卷积神经网络的海冰提取算法精度显著高于随机森林和决策树等传统机器
9、学习方法。然而,现有的海冰识别方法大多基于单一的神经卷积网络,具有固定感受视野的卷积操作旨在提取局部模式,缺乏对全局上下文信息或本质上的长期依赖关系 ,从而导致冰凌误分或者漏分的现象,影响了冰凌提取的精度。因此,为了充分提取冰凌特征,本文提出了一种新的冰凌提取算法,通过搭建基于卷积神经网络的编码器和基于 的解码器组成的混合架构,进而实现冰凌的精准提取与监测。数据处理 研究区概况研究区位于黄河流域中的宁夏至内蒙古段,黄河宁蒙段位于黄河上游的下段,西起甘(肃)宁(夏)交界的黑山峡,东至内蒙古准格尔旗马栅镇的小占村。河段全长 ,其中,宁夏境内长 ,内蒙古境内长 ,区间集水面积 ,平均海拔 以上,如图
10、所示。石嘴山以下河段是黄河流域纬度的最高端,也是黄河产生凌汛的主要河段。图研究区域图 数据采集与预处理本文数据集使用的是中巴资源卫星()所获取的遥感影像,其中卫星传感器为 ,所获取的遥感影像空间分辨率为,具体的波段信息如表所示。影 像 选 取 的 时 间 为 年 月 至 年月,此时间区间可以覆盖黄河宁夏内蒙段的流凌期、封河期和开河期个阶段。选取的区域则为黄河流域中的宁夏至内蒙古段,以黄河为中心,选取其中符合流凌期、封河期或开河期特征的遥感影像。引用格式:刘剑锋,郜利康,赫晓慧,等结合卷积网络与注意力机制的冰凌提取算法遥感信息,():表中巴资源卫星波段信息遥感卫星波段名称波长 遥感影像数据的预处
11、理主要包括大气校正、辐射校正等,其中中巴资源卫星的 数据利用统计法完成遥感影像的辐射校正。完成上述校正之后,采用 中的裁剪工具完成黄河流域宁夏内蒙古段的裁剪工作,并将对应的影像图集整合成黄河冰凌初步数据集,以供后期的数据集构建和标注。数据集构建与标注实验获取原始遥感影像共计 张,为了满足深度学习训练数据的要求,对于获得的原始影像,采用以下步骤进行数据集的构建与标注。步骤:筛选出云量较少、具有冰凌分布的遥感影像。通过对原始遥感影像含云量和冰凌的分布情况的筛选和分类,最终确定流凌期 张、开河期张、封河期 张,总计使用遥感影像 张,用于神经网络与深度学习的训练。步骤:人工标注。使用 插件将每张挑选出
12、的遥感影像进行冰凌标签的制作。步骤:数据裁剪。通过对原始 张影像进行滑动窗口裁剪,最终裁剪大小为 ,共 计 张影像。步骤:数据标准化。将裁剪出的遥感影像数据,以张为单元,进行影像数据的归一化和标准化处理。方法现有的基于 的冰凌提取算法,仅仅利用固定大小的卷积核进行特征提取。本文创新性地提出 网络,有效地结合 网络的多层次特征提取能力与 网络的全局上下文建模能力,弥补了现有基于 的方法在冰凌提取任务上特征提取不充分,从而引起的提取结果不连贯的问题。结构图如图所示,主要包含个部分:基于 的编码器用于提取多尺度语义特征、基于 的解码器用于 提 取 全 局 上 下 文 信 息、混 合 损 失 函 数
13、的构建。图犆 狅 狀 狏 犉 狅 狉 犿 犲 狉框架图 基于犚 犲 狊 犖 犲 狋的特征编码器深度残差网络()是 等 开发的深度学习模型之一。模型的优势在于,即使架构越来越深,该模型的性能也不会下降。此外,需要的计算资源更少,训练网络的能力更好。等 的研究表明 模型在图像分类上的表现优于其他模型,可以很好地提取图像特征。因此,在本文提出的 中,我们首先建立了一个类似于 的结构,用于编码图像的特征。具体来说,使用层 ,每层由一个输入层、一系列卷积层()、批归一化()、恒等映射和全局池化层、一个全连接的输出层组成。每一层的卷积核大小、步幅和填充与 相同,具体的网络结构如表所示。同时,为了防止过拟合
14、,在每一层之间添加了 块。给定一个输入犡狓,狓狀,卷积层可以表示为式()。狕犾 犼(犻狓犾犻狑犾犻 犼犫犾 犼)()式中:是卷积操作;狓犾犻代表第犾层第犻个通道的特征图;狑犾犻 犼和犫犾 犼分别表示对应第犾层中的第犼个内核和偏置;狕犾 犼表示第(犾)层第犼个通道的特征图;是旨在实现非线性变换的激活函数,本文使用 作为激活函数。表基于犚 犲 狊 犖 犲 狋 的编码器结构名称输出大小 ,遥 感 信 息 年期 基于多头注意力的特征解码器构建最近,作 为 计 算 机 视 觉 领 域 的 热 门 话 题,在全局信息建模方面展示了其巨大潜力,推动了许多与视觉相关的任务,例如图像分类、对象检测,尤其是语义分
15、割。其中,发挥主要作用的就是 所提出的多头注意力机制。为了进一步提升冰凌识别的准确率,在 的基础上,本文提出了一种基于多头注意力的特征解码器来从遥感影像中提取全局上下文信息。与局部特征提取相比,全局上下文信息的提取需要与给定像素的整个图像中的所有相关像素建立关系。这样,网络在该像素处产生的预测将受到其相关像素的影响,从而减少误分的概率。注意机制已经在机器翻译 和各类计算机视觉任务中 发挥出了重要的作用。受文献 中工作的启发,本文提出了基于多头注意力的特征解码器来建模全局空间依赖关系。具体来说,将最后一个 的输出记为犎,作为特征解码器的输入,如图所示,注意力机制的计算方法如式()所示。(犌 犿)
16、(犎犠犿犙)(犎犠犿犓)槡()犱犎犎犠犿犞 犙犿(犓犿)槡()犱犞犿()式中:犙犿,犓犿,犞犿 犚犖犱犎;犎代表自注意力头的个数,在 本 文 中 设 置 为;犱代 表 特 征犎的 维度,犺犎。之后,通过联结所有的注意力头,得到最终的全局上下文特征(式()。犌 (犌 ,犌 犎)犚犖犱()最后,在提出的 中,每个 生成的特征图与解码器的相应特征图进行融合,即 。具体来说,产生的语义特征与解码器的多头注意力产生的全局特征使用加权求和操作产生的特征相聚合。加权求和运算根据这两个特征对分割精度的贡献有选择地对它们进行加权,从而学习更广义的融合特征。加权求和运算的公式可以表示为式()。犉()()式中:犉代
17、表融合后的特征;表示有 产生的特征;表示由不同层的 块生成的特征。最终,加权特征经过 函数后得到最后的分类结果。混合损失函数深度学习网络的目的是将网路中的损失函数犔最小化,合适的损失函数设计可以进一步提升深度网络的效果。交叉熵损失函数是图像分类中最常用的损失函数,可以衡量预测值与标签之间的差距,其计算如式()所示。犔 犖犖狀狔狀 狔狀()但是传统的交叉熵函数一般适用于类别分布比较均衡的情况,在冰凌提取任务中,同一张影像中,正负样本数量差距一般比较大,即大部分像素均为背景,只有少数的冰凌单元。在这种情况下,仅利用交叉熵函数就会导致少数的正样本被误分为 负 样 本,影 响 冰 凌 提 取 精 度。
18、骰 子 函 数()更侧重于占比较小的正样本,可以有效地解决正负样本差距过大带来的类别不平衡问题。因此,在交叉熵函数的基础上,本文进一步引入了骰子函数。最后,本文提出新的混合损失函数,通过将交叉熵损失函数与骰子函数相结合,进一步解决了类别不平衡问题。实验 评价指标为了评估冰凌提取结果的效果,本文引入语义分割中常用的评价指标,包括精确度()、召回率()、值以及总体精度()。实验设置将处理好的训练集按照的比例随机分为个部分,其中 的数据用于训练模型,的数据用于对模型参数进行微调,最后 的数据用于模型测试。对于深度学习模型,实现设置初始学习率为 ,批次为,优化器为 ,总训练批次为 轮。所有的模型均基于
19、 框架进行搭建,并基于 和 硬件平台完成训练和测试。实验结果分析为了验证所提出的 在冰凌提取任务中的有效性,分别选取随机森林(,)、决策树(,)两种经典的机器学习模型与 和 两种最常用的深度学习模型作为对比方法。其中,使用五折交叉验引用格式:刘剑锋,郜利康,赫晓慧,等结合卷积网络与注意力机制的冰凌提取算法遥感信息,():证来确定机器学习算法中超参数,以达到各自的最优性能。具体来说,对于,树的最大深度从,中确定。对于,本文从,搜索生成树的数量,最大树深度设置为到。另一方面,通过引入带有空洞卷积的空间金字塔池化模块,可以很好地提取多尺度特征。模型由于其独特的跳跃连接结构,可以融合不同层次的特征,在
20、各类任务中表现稳定,被广泛用于图像分类领域,因此选取这两种模型作对比。与 这两种深度学习算法的学习率、批次等超参数的设置均与本文算法一致。表列出了对比模型以及本文模型在冰凌提取上的表现结果。从表可以看出,文本所提出的 在所有模型中取得了最优的表现。与传统的机器学习算法 相比,在个评价指标上平均增加了 、和 。相较于,所提出的方法在各项指标上也有极大的提升,提高了 ,提升了 。上述实验结果证明了深度学习算法在冰凌提取任务上的有效性。与 和 两种深度学习算法相比,分别将 提升了 和 ,提升了 和 。这说明相比于单一的 网络,结合 和 的编码器解码器结构能够更好地从遥感影像中提取特征,在冰凌提取任务
21、中取得更优的结果。同时,可以看出在所有的深度学习模型中,以最短的时间取得了最优的结果。表不同冰凌提取方法精度对比方法 时间 图进一步展示了训练过程中个深度学习模型训练过程中随着训练轮数增长,值和 的变化曲线。可以进一步看出,本文所提出的 较其他两个深度学习模型具有一定的优势,能以较快的速度达到收敛状态,并且保持基本稳定。和 值虽然也呈现逐步下降趋势,但是下降速度较 慢,其达到收敛状态的所需的时间也比 要长。从图()可以看出,在训练过程中,的 值一直高于其他两种深度学习模型,进一步证明了本文所提出方法的优异性能。图深度学网络训练过程中犾 狅 狊 狊值和犉 变化曲线为了进一步展示冰凌提取结果,本文
22、选取了狀张不同区域、不同时期的遥感影像及冰凌提取结果进行可视化。由图可以看出,相比于对比模型,能得到更为连贯和准确的冰凌分布图。虽然大致提取出了冰凌的轮廓,但是提取结果比较破碎,存在较大范围的不连续、细节缺失的问题。相比于机器学习方法,提取结果有了较大的提升,但是在一些背景比较复杂的区域,例如河岸旁或者积雪覆盖的沙地,提取结果比较杂乱,存在误提的现象。是所有对比模型中提取效果最好的,大部分冰凌像素都能准确识别,但是仍然存在边缘模糊、细节丢失等问题,在一些含有细小冰凌处提取结果容易出现中断。而本文所提出的 通过获取全局上下文特征,很好地捕获了冰凌的边缘细节特征,提取结果比较连贯,误提、漏提的现象
23、也显著减少。遥 感 信 息 年期图冰凌预测结果 超参分析为了进一步验证不同参数组合下 的表现,本节分别对式()中的,以及解码器中 中多头注意力头的个数和通道数进行参数分析。)权重。由式()可以看出,越大,说明编码器 对最后的预测结果做出的贡献越大。因此,设置范围为,分别分析不同权重下 的表现。由图()可以看出,随着的增大,呈现先增大后降低的趋势。当等于 时,模型的表现最好。随着值的逐渐增大,模型的精确度逐渐下降,这主要是因为越大,解码器 提取的特征对最终的结果做出的贡献越少,限制了模型全局的上下文特征提取能力。当较小时,模型的表现同样有所下降,这主要是因为引用格式:刘剑锋,郜利康,赫晓慧,等结
24、合卷积网络与注意力机制的冰凌提取算法遥感信息,():过低的限制了 的局部信息的获取能力。)注意力头的个数犺。本文进一步通过设置犺的取值范围(从到),来验证解码器中注意力头的个数对最终结果的影响程度。由图()可以看出,犺取值太大和太小都会降低模型的性能,在取值为时,模型的预测性能较好。)通道数犮。最后,分析 中通道数的数量对分类结果的影响。由图()可以看出,当通道数为 时,本文提出的 网络在冰凌提取上获得了最佳性能。当通道数大于 时,分类性能并没有进一步提升,反而有所下降,主要原因是当通道数过高时会增加网络的参数量,并容易导致网络过拟合。图不同参数下犉 变化图 消融实验本文提出的 主要由两个重要
25、部分组成:基于 的编码器以及基于 的解码器。本节通过开展消融分析对 中各个模块进行单独测试,以研究它们的作用,更好地分析 模型中不同模块的贡献。首先,为了验证 中解码器的作用,直接利用一个不包含解码器的 对冰凌进行分类,结果如表所示。可以看出,在移除 后,模型的 由 降到 ,也降低了,说明了提取全局信息的重要性。为了验证编码器 的重要性,进一步移除 ,仅仅利用 对冰凌进行分类。由表可以看出,由 降到 ,同样说明了基于 的编码器在网络中的作用。表犆 狅 狀 狏 犉 狅 狉 犿 犲 狉各模块消融实验结果消融实验 结束语本文针对冰凌提取存在的问题,设计了一种新的冰凌自动提取算法,有效地克服了传统冰凌
26、提取方法特征提取不充分、冰凌提取不准确等问题。主要结论如下。)本文面向冰凌灾害常发区域,构建了冰凌数据集,为深度学习模型的训练提供了数据支撑。)在提取精度方面,本文所提出的相比于传统的机器学习方法在分类精度上提升了 。相比于深度学习方法,同样取得了 的提升。)在提取结果方面,本文所提出的方法与其他方法相比,提取结果更加连贯、边缘细节更加丰富,进一步证明了本文方法的有效性。综上所述,本文提出的 与主流的图像分类算法相比,在冰凌提取上有较大的性能提升,证明了上下文特征在冰凌提取任务中的重要性。同时,本文的模型可以进一步扩展到河流识别、冰凌变化监测等任务中。参考文献巴利平黄河内蒙古段凌汛灾害及防凌措
27、施中国防汛抗旱,():蔡琳中国江河冰凌郑州:黄河水利出版社,刘吉峰,霍世青黄河宁蒙河段冰凌预报方法研究中国防汛抗旱,():,():沈杨,郎文辉,吴杰,等结合 与 的 海冰图像分类遥感学报,():遥 感 信 息 年期张明,吕晓琪,张晓峰,等结合纹理特征的 海冰分类方法研究海洋学报,():张盼基于 海冰图像的冰水解译合肥:合肥工业大学,():孔祥稳,王常颖,张世超,等改进的 网络在遥感影像道路提取中的应用遥感信息,():黄冬梅,李明慧,宋巍,等卷积神经网络和深度置信网络在 影像冰水分类的性能评估中国图象图形学报,():,():,():,():,():,:,:,:,:,:,:林娜,黄韬,孙鹏林,等优化 的高分遥感影像建筑物提取遥感信息,():,():,:,:,:,():满志博,毛存礼,余正涛,等基于多语言联合训练的汉英缅神经机器翻译方法清华大学学报(自然科学版),():,:,:田战胜,刘立波基于改进 的细粒度图像分类模型激光与光电子学进展,():,:,:,:,:,:,:,:,:,:,(),:,:,:,:,: