改进U-Net的遥感图像语义分割方法.pdf

资源描述

1、第卷第期测绘学报V o l ,N o 年月A c t aG e o d a e t i c ae tC a r t o g r a p h i c aS i n i c aJ u n e,引文格式:胡功明,杨春成,徐立,等改进U N e t的遥感图像语义分割方法J测绘学报,():D O I:/j A G C S HUG o n g m i n g,YANGC h u n c h e n g,XUL i,e t a l I m p r o v e dU N e t r e m o t e s e n s i n g i m a g e s e m a n t i c s e g m e n t

2、 a t i o nm e t h o dJA c t aG e o d a e t i c ae tC a r t o g r a p h i c aS i n i c a,():D O I:/j A G C S 改进U N e t的遥感图像语义分割方法胡功明,杨春成,徐立,尚海滨,王泽凡,秦志龙中国地质大学(武汉)国家地理信息系统工程技术研究中心,湖北武汉 ;中国地质大学(武汉)地质探测与评估教育部重点实验室,湖北武汉 ;中国地质大学(武汉)地理与信息工程学院,湖北武汉 II mm pp rr oo vv ee ddUU NN ee tt rr ee mm oo tt eess ee

3、 nn ss ii nn gg ii mm aa gg eess ee mm aa nn tt ii ccss ee gg mm ee nn tt aa tt ii oo nnmm ee tt hh oo ddHH UUGG oo nn gg mm ii nn gg,YY AA NN GGCC hh uu nn cc hh ee nn gg,XX UULL ii,SS HH AA NN GGHH aa ii bb ii nn,WWAA NN GGZZ ee ff aa nn,QQ II NNZZ hh ii ll oo nn gg N a t i o n a lE n g i n e e r

4、i n g R e s e a r c h C e n t e ro fG e o g r a p h i cI n f o r m a t i o nS y s t e m,C h i n a U n i v e r s i t yo fG e o s c i e n c e s,W u h a n ,C h i n a;K e yL a b o r a t o r yo fG e o l o g i c a lS u r v e ya n dE v a l u a t i o no fM i n i s t r yo fE d u c a t i o n,C h i n aU n i v

5、e r s i t yo fG e o s c i e n c e s,W u h a n ,C h i n a;S c h o o lo fG e o g r a p h ya n dI n f o r m a t i o nE n g i n e e r i n g,C h i n aU n i v e r s i t yo fG e o s c i e n c e s,W u h a n ,C h i n aAA bb ss tt rr aa cc tt:S e m a n t i cs e g m e n t a t i o no fr e m o t es e n s i n gi

6、m a g e sb yd e e pn e u r a ln e t w o r ki sa ni m p o r t a n tc o n t e n t o f r e m o t es e n s i n gi n t e l l i g e n t i n t e r p r e t a t i o n,w h i c hp l a y sav e r y i m p o r t a n t r o l e i nu r b a np l a n n i n g,d i s a s t e ra s s e s s m e n t,a g r i c u l t u r a lp r

7、 o d u c t i o na n do t h e r f i e l d s H i g hr e s o l u t i o nr e m o t es e n s i n gi m a g e sa r ec h a r a c t e r i z e db yc o m p l e xb a c k g r o u n d,d i v e r s es c a l e sa n di r r e g u l a rs h a p e,e t c T h e r e f o r e,u s i n gn a t u r a ls c e n es e m a n t i cs e

8、g m e n t a t i o nm e t h o d st op r o c e s sr e m o t es e n s i n gi m a g e so f t e nh a st h ep r o b l e mo f l o ws e g m e n t a t i o na c c u r a c y B a s e do nt h eU N e tm o d e l,am u l t i s c a l es k i pc o n n e c t i o nm e t h o di sp r o p o s e dt oi n t e g r a t es e m a

9、n t i cf e a t u r e so fd i f f e r e n t l e v e l sa n do b t a i na c c u r a t es e g m e n t a t i o nb o u n d a r ya n dl o c a t i o ni n f o r m a t i o n A t t e n t i o n m e c h a n i s m a n d p y r a m i d p o o l i n g a r ei n t r o d u c e dt os o l v et h ep r o b l e m o ff i n e

10、s e g m e n t a t i o ni nc o m p l e xb a c k g r o u n d I no r d e rt ov e r i f yt h ee f f e c t i v e n e s so fo u rp r o p o s e d m e t h o d,e x p e r i m e n t sw e r ec a r r i e do u t o n t h eW H D L Da n dL a n d C o v e r a i d a t a s e ta n dc o m p a r e dw i t h t h em a i n s t

11、 r e a ms e m a n t i cs e g m e n t a t i o nm e t h o d s T h ee x p e r i m e n t a l r e s u l t s s h o wt h a t t h ep r o p o s e dm e t h o do u t p e r f o r m so t h e rc o m p a r i s o nm e t h o d s,w i t hm I o Ur e a c h i n g a n d r e s p e c t i v e l y,a n dw i t ha v e r a g eo f

12、Fs c o r er e a c h i n g a n d r e s p e c t i v e l y;c o m p a r e dw i t h t h es e g m e n t a t i o nr e s u l t so fU N e t,t h ev a l u eo fI o U i m p r o v e s s i g n i f i c a n t l y i nb u i l d i n g s,r o a d sa n do t h e r c a t e g o r i e sw i t ha r e l a t i v e l y s m a l l p

13、 r o p o r t i o n,a n d i ss u p e r i o r t oo t h e r c o m p a r i s o nm e t h o d s KK ee yy ww oo rr dd ss:r e m o t e s e n s i n g s e m a n t i c s e g m e n t a t i o n;U N e t;a t t e n t i o n m e c h a n i s m;m u l t i s c a l e s k i pc o n n e t i o n;p y r a m i dp o o l i n gFF oo

14、 uu nn dd aa tt ii oo nnss uu pp pp oo rr tt:T h eN a t i o n a lN a t u r a l S c i e n c eF o u n d a t i o no fC h i n a(N o )摘要:利用深度神经网络进行遥感影像语义分割是遥感智能解译的一个重要内容,在城市规划、灾害评估及农业生产等领域具有十分重要的作用.高分辨率遥感影像具有背景复杂、尺度多样及形状不规则等特点,使用自然场景语义分割方法处理遥感图像往往存在分割精度低的问题.针对上述情况,本文在U N e t模型基础上,提出了一种多尺度跳跃连接方法来融合不同层次的语义

15、特征,获取准确的分割边界与位置信息;引入注意力机制和金字塔池化解决复杂背景下的精细分割问题.为了验证本文方法的有效性,在W H D L D和L a n d C o v e r a i数据集上进行试验,并与主流语义分割方法进行对比.试验结果表明,本文方法的m I o U分别达到和 ,F均值达到和 ,均优于其他对比方法;相比于U N e t的分割结果,I o U在建筑物、道路等占比较少的类别上提升明显,且优于其他对比方法.第期胡功明,等:改进U N e t的遥感图像语义分割方法关键词:遥感语义分割;U N e t;注意力机制;多尺度跳跃连接;金字塔池化中图分类号:P 文献标识码:A文章编号:(

16、)基金项目:国家自然科学基金()随着遥感技术的迅速发展,国内外遥感卫星的陆续发射,越来越多的高质量遥感数据资源用于生产研究中.如何自动提取高分辨率遥感图像中的关键信息,一直都是遥感图像处理中的一个重要研究方向.遥感图像语义分割是遥感智能解译中的重要一环,在地球观测、土地数据更新、农作物估产及变化检测等领域发挥着十分重要的作用.遥感影像语义分割,也称作地物分类,是对影像中每一个像素分配一个确定的地物类别.传统的地物分类方法主要包括两方面内容,人工设计特征和分类算法,因此选择优良的表达特征及更加稳健的分类器是影响影像分类精度最重要的因素.但是借鉴大量先验知识的人工设计特征往往具有单一性,无法表征目

17、标中复杂的高层语义信息,缺乏对不同数据的泛化能力,给地物分类精度带来很大影响.近年来,随着深度学习和计算机硬件的迅速发展,卷积神经网络因其局部连接、权值共享等特点,在图像数据处理上具有独特的优势.神经网络通过学习得到的深层次特征在表达方面超过了传统的人工经验设计特征,在图像分类、目标检测及语义分割等任务中取得了一系列突破,在地物识别精度和速度上均得到了明显的提升.端到端的学习范式将特征提取和分类算法等步骤整合到一个神经网络中,进一步降低了地物分类过程的复杂性.对于语义分割,编码解码结构已经成为一种通用的方案.编码器通过特征提取和语义浓缩,得到低分辨率的高级语义特征;解码器进行上采样恢复输入尺寸

18、和图像细节.文献开创性地将全卷积网络(f u l l yc o n v o l u t i o n a ln e t w o r k,F C N)引入语义分割任务中,提出跳跃连接(s k i pc o n n e c t i o n),将粗糙的高层语义信息和精细的浅层边缘信息进行融合,弥补空间细节丢失,得到更加准确的分割结果.文献采用F C N框架并对其改进,提高了遥感图像中小目标物体(建筑物、汽车等)的分割效果.文献基于F C N的编解码结构,提出了更加复杂高效的分割模型U N e t,该模型采用对称的U形结构,分为收缩路径和扩张路径两部分,收缩路径对原始输入进行卷积和下采样

19、,扩张路径结合上下文信息进行上采样并实现精确定位,相同分辨率部分通过跳跃连接进行特征融合,改善了物体边界语义细节的分类效果.在遥感语义分割中,U N e t及其变体得到了广泛应用 .文献在U N e t的基础上,重新设计跳跃连接,相同分辨率的特征层之间进行密集连接,缩小了编码器和解码器的语义差距.U N e t也存在很多缺点,如未能充分融合不同阶段的信息;重复堆叠的卷积和池化使得空间细节丢失,很难对形变较大的小对象进行分类;缺乏适当的策略来利用全局上下文信息处理复杂场景.注意力机制(a t t e n t i o n m e c h a n i s m,AM)是对人类视觉方式的模拟,为网络分

20、配更多的权重关注特征图中的有用信息.在语义分割框架的基础上,引入注意力机制,通过网络学习为特征图的不同空间位置或通道分配不同的权重,能够获取更具分辨性的特征表示.S E N e t(s q u e e z e a n d e x c i t a t i o nn e t w o r k s)对通道维度进行挤压,获取通道级的全局特征,然后对全局特征进行激励操作,学习不同通道之间的依赖关系,提升网络的特征表达能力.文献在S E N e t的基础上,增加对空间维特征的重新校准,并将通道维度和空间维度重校准结果进行融合.文献在U N e t每个跳跃连接的末端,使用注意力门控机制(a t t e n

21、 t i o ng a t e s)学习一组注意力系数矩阵,与原始特征图相乘,强化了有效信息之间的传递,减少不重要空间点带来的负面影响.空间金字塔池化最初用于目标检测中,将不同大小的图像固定成指定长度的图像表示来适应不同尺度目标的识别.文献对其进行改进,并引入到语义分割网络中,提出了金字塔池化(p y r a m i dp o o l i n gm o d u l e,P PM),通过不同步长的池化聚合不同大小区域的上下文信息达到获取全局上下文的目的.后来研究者将空洞卷积、批标准化引入空间金字塔池化中,提出了D e e p L a b系列分割网络,并在自然影像

22、数据集中取得了很好的效果.相比于自然图像分割,遥感图像语义分割更具挑战性,造成分割困难的原因有:多尺度目标,同一类别的物体在不同影像中尺度差异巨大;背景复杂,与当前任务无关的土地覆盖类别过J u n e V o l N o A G C Sh t t p:x bs i n o m a p s c o m多;不同类别目标在外观上相似,如植被稀少的林地与裸地、建筑屋顶与道路等.针对上述问题,本文从U N e t模型出发,采用多尺度跳跃连接(m u l t i s c a l es k i pc o n n e c t i o n,M S C)融合不同层次的特征,提升模型对不同尺度物体的学习能力;结合

23、注意力机制对输入特征的通道和空间维进行重标定,抑制背景中无关类别与形状变化的干扰;引入金字塔池化构造全局先验信息,应对复杂场景下不同类别相似物体的分割,提出一种改进U N e t的遥感语义分割方法.与U N e t、U N e t、A t t e n t i o nU N e t及D e e p L a bV 等主流分割模型对比,在WHD L D和L a n d C o v e r a i数据集上取得了更好的分割性能.理论背景与方法网络整体结构本文以U N e t模型为基础,结合金字塔池化、多尺度跳跃连接与注意力模块,构建了一种语义分割模型,网络结构如图所示.编码器部分应用VG

24、 G 网络作为模型的主干,用于提取特征,获得个不同层次、不同尺度的特征图.在主干网络的末端进行金字塔池化,捕获区分力强且多尺度信息丰富的特征以应对复杂场景下相似物体的分割.最后附加一个注意力模块,学习不同空间位置和通道特征的重要程度,实现特征重标定.解码器部分通过上采样恢复图像尺寸,每一个层级的特征图,通过注意力模块进行依赖关系调整,抑制与当前分类无关的特征,提取特征图中关注对象的有用信息.对不同层次的特征,采用多尺度跳跃连接将深层特征和浅层特征进行融合.针对训练数据中的类别不平衡和小物体等问题,选择使用F o c a lL o s s与D i c eL o s s结合的损失函数替代语义分割中

25、常用的交叉熵损失函数,能够有效避免训练中的过拟合现象.图本文网络整体结构F i g O v e r a l ln e t w o r ks t r u c t u r eo fo u rm e t h o d多尺度跳跃连接遥感影像地物信息复杂,不同地物之间尺度各异,多尺度物体的存在往往导致分割结果不准确.在U N e t结构中,如图(a),跳跃连接只是简单地将编码器和解码器分辨率相同的特征映射进行拼接融合,未能利用不同抽象层级之间的多尺度信息,对于全局多尺度问题建模具有挑战性.U N e t是针对U N e t的改进,如图(b)所示,它在网络中嵌入不同深度的U形结构,同时设计了一种灵活的特征融

26、合方案,在解码器子网部分,聚合不同语义尺度的特征.以解码器部分的X,为例,除了接收编码器X,中的信息,还会融合不同深度U形结构中特征X,和X,.试验证明,这种特征融合方式在恢复细粒度特征方面是有效的.但是网络参数的增加是巨大的,而且这种连接方式在网络上层结构中存在大量的信息冗余.本文对存在的特征融合方案进行简化,提出了一种简单的多尺度跳跃连接来捕获不同层级的多尺度信息.如图所示,以X,为例,编码器中分辨率较低的X,通过上采样增加分辨率,在经过卷积整合信息的同时减少通道维度.对解码器X,上采样,相同分辨率的特征X,、X,、X,进行维度拼接,实现特征融合与复用.上采样的方式可选择

27、转置卷积与双线性插值,本文为避免较大的参数量,选择插值的方法恢复图像尺寸.该特征融合方法将不同分辨率的特征进行融合,低分辨率的特征对于语义信息表征能力强,高分辨率的特征对于细粒度的几何细节信息第期胡功明,等:改进U N e t的遥感图像语义分割方法表征能力强,不同层次特征进行融合有助于分割出遥感图像中不同尺度的物体.图U N e t与U N e t网络结构F i g U N e t a n dU N e tn e t w o r ka r c h i t e c t u r e金字塔池化深层网络中,感受野的大小表明了使用上下文信息的程度,全局上下文信息有助于复杂场景理解,局部信息又有利于细节部

28、分的恢复.文献提出了金字塔池化来扩大感受野,融合全局图像级特征与局部特征,增加正确分类的可能性.P PM的结构如图所示,将主干网络提取到的特征图传入金字塔池化中,在不同池化步长下,输出不同大小的特征图.图中红色特征图为输入特征经过步长为的平均池化层得到的输出结果,包含了全局图像特征;其余特征图是输入特征分别经过步长为、的平均池化层得到的输出结果,包含了图像中不同大小区域的图像特征.为了保持全局特征的权重,首先在每一个金字塔层后使用卷积,并将通道维数减至 ;然后通过双线性插值上采样到输入特征图尺寸;最后将不同级别的特征图与输入特征图在通道上拼接,实现特征融合及全局上下文信息的捕获,并传入后面的

29、卷积网络中.图金字塔池化模块F i g P y r a m i dp o o l i n gm o d u l e注意力模块在卷积网络中,卷积计算是核心部分,通过卷积计算聚合局部感受野中的空间位置信息和通道信息,构建特征表达.堆叠池化和非线性激活函数,理论上可以获取全局感受野的图像描述.但文献表明,C NN的实际感受野比理论上的感受野小得多.为了寻求更强大的特征表示方法,研究者们将学习机制集成到网络模型中,通过网络自适应地学习特征之间的相关性.特征之间的相关性可分为空间相关性和通道相关性.通道注意力机制,对通道间的依赖关系进行建模,自适应地学习和调整不同通道的特征响应,其中最典型的代表是S

30、E N e t.本文在S E N e t的基础上,对其网络结构进行扩展,增加对空间依赖关系建模,让模型学习每个空间像素点上的关系,注意力模块网络结构如图所示.该模块由两部分组成,左边是S EB l o c k,实现通道特征重标定;右边是空间信息捕获模块(s p a t i a la t t e n t i o nb l o c k),为特征图中不同位置分配不同的权重.S EB l o c k包括挤压、激励和加权部分.挤压是对输入的特征图X使用全局平均池化,在空间维度进行压缩,即将整张特征图压缩为大小.激励是通过两个全连接层学习各特征通道之间的重要性,第个全连接层通过缩放参

31、数r来控制通道维数,降低计算量,使用R e L U激活函数增加非线性;第个全连接层恢复通道数,使用S i g m o i d激活函数将各通道权重限制在之间.加权即将学习到的各通道权重与输入特征图进行点积.J u n e V o l N o A G C Sh t t p:x bs i n o m a p s c o m空间信息获取模块与S EB l o c k采用相同的思路,但是实现更加简单.通过一个大小的卷积核对特征图X通道维度进行压缩,使用S i g m o i d激活函数将卷积权重归一化.最后实现加权操作,实现空间特征重标定.图注意力模块F i g A t t e n t i o nm

32、 o d u l eF o c a lL o s s与D i c eL o s s结合的损失函数在语义分割中,交叉熵损失函数(c r o s se n t r o p y,C E)是最常用的一种损失函数,但是当数据中存在严重的类别不平衡现象时,会导致模型偏向预测占比较大的类别,对占比较小的物体而言,很难学到其特征.为解决数据中存在的不平衡与小物体预测不准确等现象,本文采用一种结合F o c a lL o s s与D i c eL o s s的损失函数作为语义分割试验的总损失.语义分割中使用I o U作为评价指标,直接把分割评价指标作为损失值去监督网络,比起使用代理损失函数是

33、一种更好的选择.D i c e系数是一种集合相似度度量函数,用于计算两个样本集的相似度,是评估分割效果的一种常用指标.对于类别c,二分类D i c e系数的定义如式()D i c ecNipi cgi cNipi cgi c()D i c e L o s s为预测值和真实值相似度的最小化,定义如式()D i c e L o s sccD i c ec()式中,pi c、gi c分别代表类别c的预测值和真实值,pi c取值为,gi c取值为或;N为图像中的像素数;提供数值稳定性,防止分母为.F o c a lL o s s 是在交叉熵损失基础上改进得到的,用于解决类别占比严重不均衡、难易样本不均

34、衡问题.F o c a lL o s s的定义为F o c a l L o s s(pt)t(pt)l n(pt)()式中,pt为对应标签的预测概率;t是样本数量平衡因子,调节不平衡样本占总损失的比重;聚焦参数用来控制难分样本对损失函数的贡献;当时,pt越大,权重(pt)就越小,从而降低了易分样本的损失贡献.F o c a lL o s s通过调节t和来控制类别不平衡和难易样本分类问题,使得模型在训练时更专注于占比较小和难分类的样本.模型总损失可表示为L o s s aD i c e L o s s bF o c a l L o s s()式中,a、b为超参数,调整D i c eL o

35、 s s和F o c a lL o s s处于同一数量级.试验与分析试验数据本文所使用的遥感试验数据为WH D L D(W u h a nd e n s e l a b e l i n gd a t a s e t)和L a n d C o v e r a i 数据集.WHD L D数据集包括张高分辨率遥感影像,包含种土地覆盖类型,影像尺寸均被裁剪至像素.由于数据集中图片较少,对遥感影像中的数据进行随机旋转、翻转、模糊及添加噪声点等操作将数据集扩充至张影像,并按照的比例随机划分为训练集、验证集和测试集.L a n d C o v e r a i数据集包括幅大分辨率

36、遥感影像,包含种土地覆盖类型,试验中将数据集裁剪为像素,得到张影像,并采用在线数据增强的方式进行训练,增强方式包括垂直翻转、水平翻转、随机旋转及随机缩放,数据集基本信息见表.试验设置损失函数在语义分割任务中,常使用交叉熵损失函数第期胡功明,等:改进U N e t的遥感图像语义分割方法来评价模型预测值和真实值之间的差异.本文试验数据集存在严重的数据不平衡现象,地物各类别占比见表.WHD L D数据集中植被和水域占比之和高达,而道路和裸地的占比不足;L a n d C o v e r a i数据集中背景占比超过,建筑与道路占比均不足.数据集中类别占比不均衡,以及多类别交叉熵损失函数偏向于预测

37、占比较大类别的特性会导致分割效果不佳,并且在网络的训练过程中,出现过拟合现象.如图所示,在相同的网络模型和试验配置下,使用多类别交叉熵损失函数时,随着迭代的进行,验证集损失存在严重的上下震荡情况,且无法收敛.使用本文引入的F o c a lL o s s与D i c eL o s s相结合的损失函数,仅使用I m a g e N e t预训练权重,不进行深度调参的情况下,就能有效解决该问题(平衡参数t ,聚焦参数,超参数a、b均设置为).图不同损失函数曲线F i g C u r v e so fd i f f e r e n t l o s s f u n c t i o n s表数据集基本信

38、息T a b B a s i c i n f o r m a t i o no fd a t a s e t s数据集尺寸大小地物类别划分比例图像数量空间分辨率/mWHD L D 建筑物、道路、人行道、植被、裸地、水域 L a n d C o v e r a i 建筑物、林地、道路、水域、背景 /表数据训练集地物类别占比T a b P r o p o r t i o no f t r a i nd a t a s e t f e a t u r e s c a t e g o r y()数据集裸地建筑人行道植被水域道路WHD L D L a n d C o v e r a i 评价指标与试验平

39、台评价指标:为定量描述模型对遥感影像的分割效果,本文使用总体分类精度(o v e r a l la c c u r a c y,OA)、Fs c o r e均值(m e a nF)、平均交并比(m e a ni n t e r s e c t i o n o v e r u n i o n,m I o U)及K a p p a系数作为评价分割性能的指标.对于给定的预测结果图和真实标签,I o U表示真实值和预测值两个集合的交集与并集之比,m I o U为所有类别I o U的均值,是试验中最主要的评价指标,计算公式为m I o UkkiT PT PF PF N()式中,(

40、k)为所有类别数(包括背景);T P、F P、F N分别表示正确分类为正类的像素个数、错误分类为正类的像素个数、错误分类为负类的像素个数.试验平台:硬件设备采用I n t e l(R)X e o n(R)C P UE v GH z处理器,搭载单张NV I D I AG e F o r c eR T X T i G B显存的显卡.在软件环境方面,试验采用W i n d o w s 位操作系统,P y t h o n版本,模型搭建框架为K e r a s,T e n s o r F l o w.所有模型都使用K e r a s深度学习框架实现,优化器选择A

41、d a m,训练代数设置为代,初始学习率设置为 ,加载I m a g e N e t预训练权重进行初始化.设置学习率衰减策略为:每训练轮若验证J u n e V o l N o A G C Sh t t p:x bs i n o m a p s c o m集损失不下降,学习率减半.试验结果试验结果定量分析为了对比本文模型的有效性,将其与U N e t、A t t e n t i o n UN e t、U N e t及D e e p L a bv 进行对比,其中A t t e n t i o n UN e t和U N e t的主干特征提取网络与本文方法一致,并使用V G G 在I m a g

42、e N e t数据集上的预训练模型,D e e p L a bv 的主干特征提取网络为X c e p t i o n.不同模型在WHD L D与L a n d C o v e r a i数据集上的定量评价结果见表.由表可以看出,本文方法在所有指标中均高于对比模型.在WH D L D数据集中,m I o U相比U N e t模型增加了 ,O A提高了 ,F均值和K a p p a系数分别提高了和 .在L a n d C o v e r a i数据集中,m I o U和OA分别提升了和,F均值和K a p p a系数分别提高了和.U N e t的改进模

43、型A t t e n t i o nU N e t和U N e t在m I o U上也明显高于U N e t,说明了A t t e n t i o nU N e t中的注意力门控机制与U N e t中重新设计的多尺度跳跃连接对于提升模型整体性能有一定的帮助.表不同模型在WH D L D与L a n d C o v e r a i数据集上的定量评价结果T a b Q u a n t i t a t i v ee v a l u a t i o nr e s u l t so fd i f f e r e n tm o d e l so nt h eWH D L Da n dL a n d C o

44、 v e r a i d a t a s e t()方法WHD L DL a n d C o v e r a iOAK a p p a系数F均值m I o UOAK a p p a系数F均值m I o UU N e t A t tU N e t U N e t D e e p L a bv 本文方法水域、植被、背景等类别的分割效果远高于其他类别,造成这种现象的原因主要是数据集中像素占比较大,且水域和植被在遥感图像中呈现大块的聚集区域,相比于人行道和建筑物等细长及散乱分布的类型,识别更加容易(表、表).在损失函数中,t样本数量平衡因子和聚焦参数的设置,对占比较少的类别能够有效提高分割精度.在L

45、 a n d C o v e r a i数据集中,建筑物和道路的I o U提高了以上;在WHD L D数据集中,裸地、人行道和道路种类别的I o U相比于U N e t提高了以上,并高于其他模型.表不同模型在WH D L D数据集上的交并比与平均交并比T a b I o Ua n dm I o Uo fd i f f e r e n tm o d e l so nt h eWH D L Dd a t a s e t()方法I o U裸地建筑人行道道路植被水域m I o UU N e t A t tU N e t U N e t D e e p L a bv 本文方法表不同模型在L a n

46、d C o v e r a i数据集上的交并比与平均交并比T a b I o Ua n dm I o Uo fd i f f e r e n tm o d e l so nt h eL a n d C o v e r a i d a t a s e t()方法I o U建筑林地水域道路背景m I o UU N e t A t tU N e t U N e t D e e p L a bv 本文方法第期胡功明,等:改进U N e t的遥感图像语义分割方法表列出了各模型的参数量以及两个数据集上的每轮平均训练时长.可以看出,U N e t模型的参数量最少,轻量化水平最高,同时每轮平均训练时间也最短

47、.A t tU N e t在编码器和解码器每个阶段之间进行A t t e n t i o nG a t e,不仅带来大量参数,矩阵乘法使运算量增加;U N e t嵌入不同深度的U形结构不仅增加了参数量,也带来计算量的提升;本文提出的金字塔池化与注意力模块属于轻量型结构,参数量上不会带来巨大增加,但是模块中增加的卷积计算会带来时间上的消耗.表不同模型每轮平均训练时间和参数量T a b A v e r a g e t r a i n i n g t i m ea n dp a r a m e t e r so fd i f f e r e n tm o d e l s方法训练时长/(M i n)W

48、HD L D数据集L a n d C o v e r a i数据集参数量/mU N e t A t tU N e t U N e t D e e pL a b v 本文方法分割结果可视化图为种模型在两组数据测试集中选取的预测结果,整体来看,种方法对于水体、植被(林地)和背景的分割效果较好,但是在其他类别的预测上存在较大差异.以WHD L D预测结果为例,从第行圈中部分可以看出,对比的种模型在裸地预测上存在漏分,U N e t和U N e t将道路错分成人行道.这是由于植被稀少的林地和裸地、道路和人行道在外观上十分相似,本文方法中的金字塔池化能够提供额外的上下文信息,有利于复杂场景下的类别判定

49、,提升相似物体的分割识别效果.第行圈中的人行道分布散乱且细长,存在很大的挑战性,U N e t、U N e t 和D e e p L a bv 都未能将其识别出来,说明本文使用的注意力模块能够关注细小物体,减少背景干扰,提高类别分割的稳健性.从第行框中的建筑物和人行道来看,U N e t简单地将编码器和解码器分辨率相同的特征映射进行拼接融合,对细节部分处理效果很差,建筑物轮廓中存在明显的破碎斑块,U N e t和D e e p L a bv 在左下角不同建筑间存在粘连现象,右下角的建筑出现缺块,本文提出的多尺度跳跃连接能够有效缓解这种现象.L a n d C o v e r a

50、i数据集的预测结果也能说明本文方法在正确分类和恢复物体细节方面优于其他对比方法.本文方法也存在不足:裸地、人行道的分割精度有待提高,存在错分和漏分;人行道和道路在外观和形态上极为相似,如何正确对其分类仍然存在很大的挑战性;建筑物轮廓部分细节恢复不足,存在破碎情况;弯曲细长的道路存在截断现象等.消融试验为了分别验证金字塔池化、多尺度跳跃连接、注意力模块的有效性,本文在WHD L D数据集上设计了消融试验,见表,M S C表示多尺度跳跃连接,P PM表示金字塔池化,S E_R表示在解码器的个阶段添加S Eb l o c k,AM_B、AM_R表示在编码器末端和解码器的个阶段添加本文提出的注意力模块

展开阅读全文