基于DeeplabV3 的道路图像语义分割方法.pdf

资源描述

1、Science and Technology&Innovation科技与创新2023 年第 18 期53文章编号：2095-6835（2023）18-0053-03基于 DeeplabV3+的道路图像语义分割方法张绪德（凯里学院，贵州黔东南苗族侗族自治州 556011）摘要：随着人工智能技术的不断发展，进行道路图像语义分割成为建设智慧城市的基础，道路图像中的外界因素如光照、遮挡、尺寸等干扰会使得目标物体与图片上差异较大。选用基于 DeeplabV3+语义分割算法进行道路图像分割，在进行特征提取时选择使用深度卷积轻量型神经网络 MobileNetV2，将深层级图像特征输出传入 ASPP（At

2、rous Spatial PyramidPooling，空洞金字塔池化）模块，堆叠后经过 11 卷积在经过上采样作为整个 Encoder 的输出传入 Decoder；将低层级特征输出经过 11 卷积和 Encoder 的输出进行堆叠，使用 33 的卷积和上采样后得到预测分类结果。通过实验结果表明，使用 DeeplabV3+能够有效对道路图像进行语义分割。关键词：道路图像；语义分割；DeeplabV3+；ASPP中图分类号：TP391.4文献标志码：ADOI：10.15913/ki.kjycx.2023.18.016语义分割图像就是按照目标种类进行图像分割，帮助人们更好地进行判断。传统的图像分割

3、技术有区域生长方法1、图切算法2、分水岭分割方法3等，但是传统分割方法存在精度值低、分割不准确的情况。随着卷积神经网络 CNN 在计算机视觉和语音识别4等领域取得不错的效果，采用深度学习方法，应用基于卷积神经网络对目标特征进行学习，按照目标类别输出结果，能很好地对图像目标进行语义分割。基于深度学习的语义分割算法采用全卷积网络FCN 方式对分割任务进行处理。PSPNet5采用独特的金字塔场景解析 PSP 模块作为 Decoder，PSP 模块为采用不同步长和池化大小的平均池化层进行池化，然后将池化的结果尺寸调整到统一大小，再进行堆叠得到分割图像。DeepLab 系列语义分割算法可以追溯到2015

4、年谷歌提出的 DeepLabV16，DeepLabV1 特征提取网络是使用 VGG（Visual Geometry Group，视觉几何组），2017 年 DeepLabV2 在 DeepLabV1 的基础上使用空洞卷积形式，连接空洞空间金字塔池化 ASPP 模块，骨干特征网络使用 ResNet-101，DeepLabV3+在前面的基础上使用编码-解码器结构，为 DeepLabV3 添加有效的解码器模块，使模型提取特征能力得到加强。1DeeplabV3+语义分割算法研究选用DeeplabV3+语义分割算法特征提取网络采用 MobileNetV2，MobileNetV2 采用倒置残差模块，输入

5、图像经过 11 卷积进行通道扩张，方便获得图像中特征信息，然后使用 33 深度可分离卷积进行特征抽取，采用此方法有利于减少模型参数量，最后使用11 卷积减少通道数。1.1空洞卷积进行语义分割，采用普通卷积下采样时会降低分辨率，引起图像中信息丢失。使用卷积时通过引入扩张率 dilation rate 将普通 33 的卷积核在相同参数量和计算量下拥有 55（dilated rate 为 2）或者更大的感受野，从而避免下采样，有效解决分辨率降低造成的信息丢失。图 1 左侧展示了普通 33 的卷积，图 1 右侧展示了 dilation rate 为 2 的空洞卷积。图 1空洞卷积形式1.2ASPP 模

6、块使用空洞卷积可以增大图像感受野，聚合更多的上下文信息。ASPP 模块在多个尺度上对物体进行鲁棒分割，捕获目标与图像上下文多尺度信息7。本次使用的空洞卷积 dilation rate 分别为 1、6、12、18，将分别提取出来的特征层进行堆叠，通过 11 卷积将图像压缩后进行特征融合，选用的 ASPP 模块如图 2 所示。1.3编码-解码器结构图像语义分割的过程之中使用编码-解码器结构基金项目贵州省教育厅青年科技人才成长项目（编号：黔教合 KY 字2022079 号）dilated rate 为 2dilated rate 为 1科技与创新Science and Technology&Inno

7、vation542023 年第 18 期有利于进行特征的提取。编码器在语义分割时主要应用于深度卷积神经网络之中，编码器提取较为深层次的语义信息，使用编码器有助于分辨率低时提取，图像经过编码器得到的深层特征具有更丰富的信息，深层特征输出应该使用较高的权重；解码器指的是能够完全恢复到原图的部分，主要作用在于卷积采样，并对各个层级进行连接处理，在深度神经网络中随着网络层级的加深，特征图像尺寸变得更小，语义分割需要采用高分辨率特征来改善细节，解码器能实现融合层级特征，DeeplabV3+语义分割算法编码-解码器结构如图 3 所示。图 2ASPP 模块图 3编码-解码器结构由图可知 DeeplabV3

8、+语义分割算法编码器由DCNN 和 ASPP 模块组成，图像经过 DCNN 分别进行深层和浅层特征提取，深层特征提取信息通过 ASPP后将不同空洞卷积的输出层经过11卷积进行信息融合，解码器包括编码器输出信息上采样后与浅层特征信息进行融合，再通过分类网络将每个像素点按照目标进行分类，通过上采样到与原图同样大小尺寸，就能实现语义分割8。2实验与分析2.1实验环境配置基于DeeplabV3+的道路图像语义分割方法采用实验环境Windows10，训练时 GPU 采用 NVIDIA GeForceRTX 2080Ti，显卡显存为 11 GB，软件环境选择pycharm 脚本编辑器，学习框架为 PyTo

9、rch。2.2CamVid 数据集在进行图像语义分割方法研究时，数据集的选取是进行研究的基础，经过语义分割后图像中的每个像素点会按照类别进行分类，最终图像会按照类别呈现不同的板块。研究采用的数据集是 CamVid 语义分割数据集，数据集使用 11 种常用的类别来进行分割精度的评估，分别为 Road、Symbol、Car、Sky、Sidewalk、Pole、Fence、Pedestrian、Building、Bicyclist、Tree，数据集在进行语义分割算法使用时加上Background 共分为 12 类。CamVid 语义分割数据集中提供的训练图片和标签图片是 PNG 格式，为方便区分和进

10、行训练，将训练图片格式修改成 JPG，标签文件格式保持 PNG 格式。经过格式转变后训练图片和标签文件的信息依旧存在一一对应形式。2.3模型训练和评价指标DeeplabV3+语义分割算法在进行训练时，将训练过程分为 50 个 epoch 进行训练，Batchsize 设置为 8，训练时为加快模型收敛，以模型加载预训练权重方式进行。DeeplabV3+语义分割算法评价指标采用模型准确率 Accuracy、类别平均像素准确率 MPA、平均交并比MIoU 判断语义分割算法性能的好坏。模型准确率 Accuracy 表示预测结果中正确的占总预测值的比例。类别平均像素准确率 MPA 是指分别计算每个类被正

11、确分类像素数的比例，将所有类进行累加求平均。平均交并比 MIoU 是指每个类计算真实标签和预测结果的交并比 IoU，然后再对所有类别的 IoU 求其均值。2.4结果与分析分别使用传统 PSPNet 语义分割算法、MobileNetV2+PSPNet 算法和本文中的 DeeplabV3+语义分割算法在 CamVid 语义分割数据集进行训练，模型通过数据集训练完成后参数指标准确率 Accuracy、类别平均像素准确率 MPA、平均交并比 MIoU 结果如表 1 所示。表 1不同算法在 CamVid 数据集语义分割结果类别ResNet-50+PSPNetMobileNetV2+P

12、SPNet本文算法Accuracy/（%）91.0691.0792.11MPA/（%）70.7770.2471.88MIoU/（%）61.9561.4563.97Science and Technology&Innovation科技与创新2023 年第 18 期55表 1（续）类别ResNet-50+PSPNetMobileNetV2+PSPNet本文算法模型参数量/MB178.199.0722.19模型训练完成后选取 CamVid 进行语义分割数据集预测，分割前后图片显示如图 4 所示，经过语义分割模型前后图片显示能很好根据真实目标轮廓进行分割。图 4语义分割效果图通过结果进行分析，利用

13、DeeplabV3+语义分割算法，图片能将真实目标轮廓进行分割，与传统 PSPNet语义分割算法、MobileNetV2+PSPNet 算法相比，MPA值分别提升 1.11%和 1.64%，MIoU 值分别提升 2.02%和 2.52%。模型参数量与 MobileNetV2+PSPNet 算法相比，参数量多 13.12 MB。3结束语本研究基于DeeplabV3+语义分割算法进行道路图像语义分割，通过数据集选取、数据集训练、测试结果验证语义分割模型在实际图像中的应用。实验表明，DeeplabV3+语义分割算法在道路图像语义分割中取得良好的效果，准确率 Accuracy 为 92.11%、类别平

14、均像素准确率 MPA 为 71.88%、平均交并比 MIoU 为63.97%。本文算法和传统 PSPNet 语义分割算法、MobileNetV2+PSPNet 算法相比，MPA 和 MIoU 值得到提高，模型参数量比 MobileNetV2+PSPNet 多13.12 MB，仅为 ResNet-50+PSPNet 参数量的 12.4%。道路图像语义分割依然面临着随道路环境复杂多变而图像中存在类别之间相互遮挡、相互重叠的问题，精确进行语义分割仍存在非常大的挑战。参考文献：1靳彩娇.高分辨率遥感影像道路提取方法研究D.郑州：解放军信息工程大学，2013.2李卫东，陈永枫，杨阳，等.国内外遥感影像道

15、路网提取方法研究现状J.影像技术，2016，28（2）：44-45.3周安发.高分辨率遥感影像城区道路提取方法研究D.长沙：中南大学，2012.4张晴晴，刘勇，王智超，等.卷积神经网络在语音识别中的应用J.网络新媒体技术，2014，3（6）：39-42.5ZHAO H，SHI J，QI X，et al.Pyramid scene parsingnetworkC/2017 IEEE conference on computer vision andpattern recognition（CVPR），Honolulu：IEEE，2016.6CHEN L C，PAPANDREOU G，KOKKINO

16、S I，etal.Semantic image segmentation with deep convolutionalnets and fully connected CRFsEB/OL.2023-02-27.https:/arxiv.org/abs/1412.7062v4.7方茂青.基于 Deeplabv3+的遥感图像城市道路分割算法研究D.武汉：华中科技大学，2019.8谢林江.基于MobileNetV2和DeepLabV3+的 Android人像背景虚化系统D.西安：西安电子科技大学，2020.作者简介：张绪德（1994），男，苗族，硕士，讲师，研究方向为深度学习、计算机视觉。（编辑：

17、张超）（上接第 52 页）风电机组的运行环境，并结合风电机组的整体结构方案及外形尺寸，核算出机舱罩的生产制造成本，再综合考虑机舱罩的生产效率（交货期要求）、车间装配、后期运输条件等因素，最终确定选用哪种材料的机舱罩，并设计出最优的设计方案和制造工艺，实现机舱罩的最优性价比。参考文献：1何玉林，冯博，杜静.风力发电机组复合材料机舱罩的有限元分析J.材料科学与工程学报，2011（2）：258-2622王瑞，张丹.基于有限元的大型风力发电机组金属机舱罩设计开发J.装备制造技术，2018（4）：60-63.3沈观林，胡更开，刘彬.复合材料力学M.北京：清华大学出版社，20134LLOYD G.Rules and guidelines IV industrial services patI:guideline for the certification of wind turbinesM.Hamburg：Germanischer Lloyd，2010.5刘鸿文.材料力学M.北京：高等教育出版社，2011.6张秀辉.ANSYS 14.0 有限元分析从入门到精通M.北京：机械工业出版社，2013：63-69作者简介：王瑞（1981），男，工学硕士，高级工程师，研究方向为机电一体化技术、结构设计。（编辑：王霞）

展开阅读全文