1、第20卷 第2期第66页国土资源导刊Land&Resources Herald2023年6月Jun.,2023引用格式:胥培雲,谢春营,邹健健.基于U-Net的高分辨率遥感影像建筑物自动解译J.国土资源导刊,2023,20(02):66-71.Reference format:Xu Peiyun,Xie Chunying,Zou Jianjian,et al.Automatic interpretation of high resolution remotesensing images of building based on U-NetJ.Land&Resources Herald,2023
2、,20(02):66-71.基于U-Net的高分辨率遥感影像建筑物自动解译胥培雲*,谢春营,邹健健(1.湖南省第二测绘院,湖南 长沙 410119;2.自然资源部南方丘陵区自然资源监测监管重点实验室,湖南 长沙 410119)摘 要:建筑物基础信息在智慧城市建设、地理国情监测等领域有着重要作用。针对传统方法提取高分辨率卫星影像精度低的问题,提出一种基于U-Net的高分辨率遥感影像建筑物自动解译方法。首先,通过ArcGIS制作遥感图像建筑物数据集;其次,针对建筑物数据样本不足的问题,采用数据增强的方式扩充数据;然后,采用迁移学习的方法在开源ImageNet数据集预训练U-Net模型;最后,通过预
3、训练U-Net模型训练与预测研究区域数据。实验结果表明,该方法能够准确地从影像中识别出建筑物,整体的识别精度达到98%,能够自动的解译出遥感影像建筑物轮廓信息,可为建筑物的提取提供一定的参考价值。关键词:遥感影像;深度学习;Pytorch框架;U-Net模型中图分类号:P237文献标识码:A文章编号:1672-5603(2023)02-66-06AutomaticInterpretationofHighResolutionRemoteSensing Images of Building Based on U-NetXu Peiyun,Xie Chunying,Zou Jianjian(1.Th
4、e Second Surveying and Mapping Institute of Hunan Province,Changsha Hunan 410119;2.Key Laboratory of Natural Resources Monitoring and Supervision in Southern China HillyRegion,Ministry of Natural Resources,Changsha Hunan 410119)Abstract:The basic information of buildings has an important significanc
5、e in thefieldsofsmartcityconstructionandgeographicconditionmonitoring.Aimingattheproblem of low accuracy of the traditional method to extract high-resolution satelliteimages,anautomaticinterpretationmethodbasedonU-Netforhigh-resolutionremotesensing images of buildings is proposed.Firstly,the remote
6、sensing image building dataset is produced by ArcGIS;secondly,the data is expanded by data augmentation for theproblem of insufficient building data samples;then,the migration learning method isused to pre-train the U-Net model in the open source ImageNet dataset;and finally,thepre-trained U-Net mod
7、el is used to train and predict the study area data.The experimental results show that,The method is accurate enough to identify buildings from images,and the overall recognition accuracy reaches 98%.It can automatically decode the building outline information of remote sensing images,which can prov
8、ide certain referencevalue for building proposals.Keywords:remote sensing image;deep learning;pytorch framework;U-Net model收稿日期:2023-02-03;改回日期:2023-04-12。*第一作者简介:胥培雲(1991),男,助理工程师;研究方向为遥感数据处理;E-mail:。第20卷 第2期第67页2023年6月Jun.,2023国土资源导刊Land&Resources Herald0 引言近年来,随着卫星遥感技术的迅速发展,遥感图像的分辨率越来越高,使得遥感影像数据被
9、广泛的应用到城市规划、智慧城市、地图更新等领域1-4。如何从遥感图像自动地、准确地解译出建筑物,是当前遥感研究迫切需要解决的问题5。传统的提取建筑物方法利用遥感图像的信息,如颜色、形状、纹理和周围环境,人工设计特征进行建筑物提取,这种方法时间和效率低下,无法满足处理大量遥感影像的需求6-7。随着深度学习快速发展以及海量学习样本的出现,全卷积神经网络模型被提出,该模型能够实现对原始图像进行每像素训练和预测8。宋佳等人提出轻量化全卷积神经网络模型,该方法有效的提高建筑物的提取精度,同时降低了模型的参数里9。张祖宇等人基于U-Net模型自动识别无人机影像,精确率以及召回率都达到较优的水平10。孙尚标
10、等人基于U-Net模型提取建筑物,其结果优于传统的机器学习算法11。苏健民等人提出了一种改进的U-Net算法,结果表明,该方法的分割精度优于SegNet、FCN模型12。基于以上分析,U-Net网络在图像分割任务中表现出强大的能力。因此,本文提出一种基于U-Net的高分辨率遥感影像建筑物自动解译的方法,并通过自建的遥感图像建筑物数据集进行模型训练和预测。1 原理与方法1.1 U-Net网络U-Net是一种深度学习模型,U-Net的整体结构呈现出一个“U”形,它由一个对称的编码器和解码器组成。编码器由一系列卷积层和池化层组成,卷积层用于提取特征,并将输入图像的空间信息编码为特征图;池化层用于降低
11、特征图的分辨率,同时保留重要的特征信息,在每个下采样操作过程中,特征图的通道数会增加,从而捕获更高级的特征。解码器由一系列的上采样层和卷积层组成,上采样层用于将特征图的分辨率恢复到原始图像的大小,同时保留编码器阶段提取的特征,在每个上采样过程中,特征图的通道数会减少,有助于合并来自编码器的不同层级的特征,在最后一层,使用一个11卷积层进行像素分类,生成预测的分割图。跳跃连接在编码器和解码器之间的每个层级,U-Net使用跳跃连接来连接编码器的特征图和解码器的特征图,有效地保留低级特征的细节信息与高级特征的语义信息,提高语义分割的精度。U-Net网络结构如图1所示。在编码器阶段中,输入图像经过两次
12、33卷积操作,提取图像的特征信息;接着进行最大池化操作,降低特征图的分辨率;然后又进行两次33卷积操作,提取出更高进的特征信息;接着再次进行最大池化操作,再次降低特征图的分辨率;以此类推,直到进行了4次最大池化操作。在解码阶段中,对编码器最后一次最大池化输出的特征图进行了上采样操作,恢复特征图的分辨率;然后将上采样后特征图与编码器对应尺寸的特征图融合;再通过两次33卷积操作,提取更高级的特征;紧接着对卷积操作输出的特征图再次进行上采样操作,进一步恢复特征图的分辨率;以此类推,直到进行了4次上采样操作。最后一层,将解码器的最后一次上采样输出进行11卷积,生成最终的分割预测图。图1U-Net网络结
13、构Fig.1Structure of U-Net1.2 U-Net训练方法迁移学习(Transfer Learning)是指在一个任务上训练好的模型,可以被应用于另外一个任务中,从而加速新任务的训练和提升其性能。针对U-Net模型的结构复杂、层次深、参数大的问题,本文在U-Net的高分辨率遥感影像建筑物自动解译模型中引入迁移学习的方法,如图2所示。该方法在公开的 ImageNet 数据集上预训练模型。首先,实现了源任务和目标任务的数据集可以共享,可以大大减少训练时间,节省计算资源;其第20卷 第2期第68页国土资源导刊Land&Resources Herald2023年6月Jun.,2023次
14、,预训练模型对新任务提供了有效的初始值,可以加速新任务的学习,同时防止过拟合问题产生,提高模型的泛化能力;最后,通过预训练的模型,可以减少目标任务的训练时间,并且可以有效地提高模型的性能。图2迁移学习过程Fig.2 Transfer learning processes2 实验和结果2.1 实验环境实验平台采用 Intel(R)Xeon(R)E5-2640 v4x86_64,2.4 GHz 处 理 器,配 置 128 GB DDR42400 MHz ECC 内存,搭载 Nvidia Tesla V100(16GB)2显存的显卡,Linux操作系统,Pytorch深度学习框架,并使用CUDA10
15、.0、CUDNN7.6加速训练网络模型。2.2 实验数据集本文所用的遥感影像数据为某市中心城区高分2号融合后1 m分辨率遥感数据。首先通过ArcGIS软件中进行目视解译;其次,人工标注获得原始影像对应的真实标签;然后,将得到的矢量文件进行要素转栅格;最后,从遥感影像中获得房屋建筑物位置的地表真实图像。共裁剪出7400张样本数据,其中70%用作训练集,15%用作验证集,15%作为测试集,如图3所示。2.3 数据的预处理原始高分辨率遥感数据由于尺寸过大,若直接将其输送到U-Net模型中训练,会产生内存溢出的现象,为了保证模型能够完整的训练,对原始数据进行切割,如图4所示。影像裁剪的方式主要包括三种
16、方式:规则格网选取、滑动窗口选取、随机选取。本文采用随机选取的方式,将原始图像和标签图像随机切割为512512大小的子图。2.4 数据增强数据增强(Data Augmentation)是对训练数据集的扩充,可以有效的防止模型的过拟合的现象以及解决样本不平衡、样本不足的问题。本文对切割后影像进行水平翻转、竖直翻转数据增强处理,有效的扩充了数据集的数量。数据增强后的结果样例如图5所示。(a)遥感影像图3标签遥感影像Fig.3Label remote sensing image(b)标签影像第20卷 第2期第69页2023年6月Jun.,2023国土资源导刊Land&Resources Herald
17、(a)规则格网选取图4影像裁剪的三种方式Fig.4Three methods of image cropping(b)滑动窗口选取(c)随机选取(a)原始图像图5 图像增强的几何变换方法Fig.5Geometric transformation method for image enhancement(b)水平翻转(c)竖直翻转2.5 评价指标本文采用图像语义分割常用的指标来评估模型的分类性能,分别为训练损失数值、总体交并比、总体准确率和单个类别准确率进行精度评价。总体交并比是用来评价总体图像解译算法性能的指标,数值越大越好;单个类别交并比是用来评价单个图像解译算法性能的指标,数值越大越好;总
18、体准确率是指算法总体图像解译的准确率,数值越大越好。具体公式如下:f(x)=max(0,x)(式1)IoU=A BA B(式2)式中,IoU 为交并比(交集和并集的比值),AB是指实验对象A与实验对象B的交集,AB指实验对象A与实验对象B的并集。2.6 实验结果分析本文基于U-Net的高分辨率遥感影像建筑物自动解译的损失值与准确率的变化曲线,如图6所示。U-Net模型迭代200次后测试集的损失值随着迭代次数的增加逐渐降低并趋于平稳的状态;准确率随着迭代次数的增加升高,并趋于平稳的状态。由图可以看出,测试集的总体准确率达到 98%以上,训练损失数值低于 0.0015,总体交并比也到达97.8%以
19、上,单个类别准确率也达到97%以上。实验结果表明,U-Net模型可靠性高、预测精度准,能有效地对建筑物进行识别。图7为U-Net的高分辨率遥感影像建筑物自动解译的结果图。由图 7可以看出,U-Net模型整体提取效果较好,能够从高分辨遥感影像中准确的识别出建筑物;在建筑物局部细节方面,U-Net模型也能够准确地识别出建筑物的轮廓特征信息,细节特征表达明显,能够有效地识别出占地面积较小的建筑物。从建筑物整体识别结果、建筑物细节识别结果可以表明,U-Net模型在预测高分辨率遥感影像建筑物时具有较强的适应性。第20卷 第2期第70页国土资源导刊Land&Resources Herald2023年6月J
20、un.,2023图6测试集性能评价指标Fig.6Test set performance evaluation metrics(a)原始影像图(c)人工标签图图7预测结果对比Fig.7Comparison of prediction results(b)提取效果图(d)识别效果图第20卷 第2期第71页2023年6月Jun.,2023国土资源导刊Land&Resources Herald3 结论针对传统的方法提取高分辨率卫星影像精度低的问题,本文提出一种基于U-Net的高分辨率遥感影像建筑物自动解译方法。通过自制的高分辨遥感影像数据集进行实验,实验结果表明,本文方法对高分遥感影像的建筑物整体识
21、别效果较好,并能准确的识别出较小的建筑物,较准确的解译出建筑物轮廓信息,为城市的建筑物的自动解译提供一定的参考价值。后续研究,将考虑采用其他方法辅助和优化建筑物的自动提取,提升建筑物轮廓信息提取的精准度。参考文献/References1王宇浩.基于深度学习的遥感图像语义分割问题研究D.北京科技大学,2020.2刘纯,洪亮,楚森森.高分辨率遥感影像分割方法研究J.测绘与空间地理信息,2014,37(10):44-49.3王斌,陈占龙,吴亮,等.兼顾连通性的U-Net网络高分辨率遥感影像道路提取J.遥感学报,2020,24(12):1488-1499.4王振庆,周艺,王世新,等.IEU-Net高分
22、辨率遥感影像房屋建筑物提取J.遥感学报,2021,25(11):2245-2254.5许慧敏.基于深度学习U-Net模型的高分辨率遥感影像分类方法研究D.西南交通大学,2018.6曾文献,马月,丁宇,等.基于深度学习的图像语义分割方法研究综述J.现代计算机,2021(21):115-122.7李伟.基于深度学习的遥感图像语义分割方法研究D.东北农业大学,2021.8邓泓,杨滢婷,刘兆朋,等.基于深度学习的无人机水田图像语义分割方法J.中国农机化学报,2021,42(10):165-172.9周涛,董雅丽,霍兵强,等.U-Net网络医学图像分割应用综述J.中国图象图形学报,2021,26(9):
23、2058-2077.10殷晓航,王永才,李德英.基于U-Net结构改进的医学影像分割技术综述J.软件学报,2021,32(2):519-550.11袁志明,李沛鸿,刘小生.顾及邻近点的改进PSO-SVM模型在基坑沉降预测的应用研究J.大地测量与地球动力学,2021,41(3):313-318.12闵蕾,高昆,李维,等.光学遥感图像分割技术综述J.航天返回与遥感,2020,41(6):1-13.(上接第58页)4.2 智慧红图沉浸式导览模式4.2.1 沉浸式导览观赏通过8分钟导览对陈列馆进行沉浸式观赏.首先在实景三维空间中设置导览观赏路线;其次在路线上设置好观赏的角度和停顿位置;最后配合视频演示
24、、音频解说和文字预览。让观赏者多视角全方位线上参观陈列馆,将一件件文物活灵活现的展现在游客眼前。4.2.2 互动式自由观赏陈列馆展示内容与融媒体信息进行挂接,游客可选择虚拟人物,在实景三维场景中自由漫步观赏,屏幕的左上角显示当前所在位置和观看的角度,可点击照片、实物或塑像实现全屏显示,点击音频按键,可收听真人解说,点击视频按键,可在三维场景中观看影片;对于未读和已读景点进行区别标识,可全自动语音导览,亦可关闭语音讲解导览服务,达到互动式自由观赏体验。5 总结本文围绕红色资源、数字保护、数字展示、数字人文、数字传播、数字服务等展开研究,详细介绍了实景三维建设中地形级、城市级场景建模的方法,重点研
25、究了室内三维建模与融媒体信息进行融合处理流程,总结了建模和可视化应用过程中注意的问题和解决方案。红色资源既是传承红色精神的载体,也是推动地方产业发展、实现乡村振兴的重要财富。智慧红图以红色资源为依托,打造智慧文旅产品,促进红色文化的普及和传播;探索红色文化推动经济发展的科学途径;助推新型测绘技术应用和发展;培养红色文化接班人,促进旅游消费迭代和区域产业协同发展,助力乡村振兴。参考文献/References1曹月娟,程俊超.新媒体时代红色文化传播传承路径J.青年记者,2020,(20):85-86.2刘春雷.应用于FARO软件的三维激光扫描仪成套设备及测绘方法.CN110095082BP.202
26、1-02-05.3张涛.FARO三维激光扫描仪的数据建模J.内蒙古煤炭经济,2019(9):20+25.4新型基础测绘与实景三维中国建设技术文件J.测绘标准化,2022,38(1):104.5张帆,黄先锋,高云龙,等.实景三维中国建设技术大纲(2021版)解读与思考J.测绘地理信息,2021,46(6):171-174.6张光伟,吴昊,郭震冬.实景三维多源数据场景融合J.测绘通报,2022(8):155-159.7汪畅.倾斜摄影影像与实景三维模型精确融合技术研究与实现J.数字技术与应用,2021,39(1):172-176+179.8纪亮.基于倾斜摄影三维建模及精细化方法研究J.测绘与空间地理信息,2021,44(6):218-221.