收藏 分销(赏)

基于注意力机制与多尺度池化的实时语义分割网络.pdf

上传人:自信****多点 文档编号:2340137 上传时间:2024-05-28 格式:PDF 页数:9 大小:3.40MB
下载 相关 举报
基于注意力机制与多尺度池化的实时语义分割网络.pdf_第1页
第1页 / 共9页
基于注意力机制与多尺度池化的实时语义分割网络.pdf_第2页
第2页 / 共9页
基于注意力机制与多尺度池化的实时语义分割网络.pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 49卷 第 10期2023年 10月Computer Engineering 计算机工程基于注意力机制与多尺度池化的实时语义分割网络王卓,瞿绍军(湖南师范大学 信息科学与工程学院,长沙 410081)摘要:现有语义分割算法在精确度方面表现良好,但在速度上难以满足实时性要求。为提升网络分割速度同时确保高精确度,提出一种新型实时语义分割网络。设计融合通道注意力模块,先通过最大池化和平均池化捕捉全局特征,对池化后的特征图进行级联、卷积和变形以得到各通道权重,再将原特征图与各通道权重进行矩阵乘法操作,得到融合通道权重。将融合通道权重与原特征图进行元素级乘法操作,保证各通道权重与原特征图有效融合。提

2、出一种轻量化金字塔场景解析模块,使用多尺度池化操作充分捕捉多尺度目标特征,在原金字塔场景解析模块的基础上减少池化后的特征图通道数,从而降低计算量。池化后特征图以级联方式连接,利用输入特征图引导连接后的特征图,以有效融合高层和低层特征图。在公共图像数据集 Cityscapes上进行实验,结果表明,该网络在验证集、测试集上的准确率分别达到 74.6%、73.8%,分割速度达到 60.6 帧/s,分割性能优于 ICNet、DFANet-A等网络。关键词:语义分割;全局特征;注意力机制;金字塔场景解析;多尺度池化开放科学(资源服务)标志码(OSID):源代码链接:https:/ J.计算机工程,202

3、3,49(10):222-229,238.英文引用格式:WANG Z,QU S J.Real-time semantic segmentation network based on attention mechanism and multi-scale pooling J.Computer Engineering,2023,49(10):222-229,238.Real-Time Semantic Segmentation Network Based on Attention Mechanism and Multi-Scale PoolingWANG Zhuo,QU Shaojun(Colle

4、ge of Information Science and Engineering,Hunan Normal University,Changsha 410081,China)【Abstract】Existing semantic segmentation algorithms achieve high accuracy but their performance in real-time scenarios is insufficient owing to their low speed.Therefore,a new real-time semantic segmentation netw

5、ork is proposed to improve speed and ensure accuracy in network segmentation.First,Fusion Channel Attention Module(FCAM)is designed,largest and average pooling are applied to capture features.Through the cascade,convolution,and reshape operations,the weights of each channel is obtained.Subsequently,

6、matrix multiplication of the original feature map and weights of each channel is performed to obtain the fused channel weights.Finally,element-level multiplication is performed between the fused channel weight and original feature map to ensure that the weight of each channel is effectively integrat

7、ed with the original feature map.Additionally,a lightweight pyramid scene parsing module is designed based on the original pyramid scene parsing module.This uses a multi-scale pooling operation to fully capture the multi-scale characteristics of a target,which reduces the number of channels of the f

8、eature map in a cascaded manner and the amount of computation.Feature map after pooling connected in cascade way,an input feature figure is utilized to lead the connected feature map to learn integrating the high-and low-level feature maps effectively.Experiments conducted on the Cityscapes public i

9、mage dataset show that the network achieves an accuracy of 74.6%and 73.8%on the validation and test sets,respectively,with a segmentation speed of 60.6 frame/s.Moreover,the segmentation performance is better than that of networks such as ICNet and DFANet-A.【Key words】semantic segmentation;global fea

10、ture;attention mechanism;pyramid scene parsing;multi-scale poolingDOI:10.19678/j.issn.1000-3428.0065885基金项目:国家自然科学基金(12071126)。作者简介:王 卓(2000),女,硕士研究生,CCF会员,主研方向为语义分割、计算机视觉;瞿绍军(通信作者),高级实验师、博士。收稿日期:2022-09-30 修回日期:2022-11-23 Email:图形图像处理文章编号:1000-3428(2023)10-0222-08 文献标志码:A 中图分类号:TP391第 49卷 第 10期王卓,瞿

11、绍军:基于注意力机制与多尺度池化的实时语义分割网络0概述 随着互联网的高速发展,计算机在人们的生活中占据着重要地位,计算机应用也在不断地覆盖人们生活的各方面。语义分割作为计算机视觉的一部分,在实际生活中得到广泛应用,如虚拟现实、工业自动化、视频检测等1。语义分割要求计算机能够基于给定图像来预测图像中每个像素的类别,以达到分割图像的效果。实时语义分割在追求图像分割高精度的基础上对速度有了更高的要求,性能良好的实时语义分割模型能够应用于自动驾驶领域,在短时间内对道路场景进行有效分割。全卷积网络(如 VGG16网络2)中持续的卷积池化操作能提取一定的语义信息,但是对于底层细节信息的提取和小目标物体的

12、分割存在一定局限性。SegNet3作为经典实时语义分割模型,使用 VGG162作为主干网络,在编码过程中记录最大池化的索引下标,以在解码过程中使用这些下标进行上采样,但是索引的记录也在一定程度上增加了模型权重,降低了推理速度。PSPNet(Pyramid Scene Parsing Network)4中的金字塔场景解析模块,对于同一场景使用不同的尺度池化操作,有效提取并融合了各层特征,但是该模型计算量过大,不能达到实时的效果。以上模型在分割图像时虽然分割精度较高,但是推理速度较慢,不能应用于实时场景,且在提取图像信息的过程中,特征图通道过多或尺寸过大时模型会将注意力均匀地分散在不同通道和位置上

13、,对于含有关键信息的通道和位置不能给予更多权重。注意力机制的提出使得语义分割模型能够将更多注意力集中在重点特征图上,提高了分割效率。为提升模型的分割速度,本文基于注意力机制与多尺度池化提出一种高效实时语义分割网络,以解决语义分割网络高精度与高速度不能平衡的问题。本文主要工作如下:1)提出一种融合通道注意力模块(Fusion Channel Attention Module,FCAM),相较于一般的通道注意力模块,FCAM 不仅能自适应地调整每个通道的权重,而且能将自适应调整后的特征图进行有效融合,即该模块能获取各通道权重大小和自适应后通道间的关系,且该模块权重小,使得网络能保证高精确度同时提升

14、分割速度。2)在金字塔池化模块(Pyramid Pooling Module,PPM)的基础上,提出一种轻量化金字塔池化模块(Simple Pyramid Pooling Module,SPPM),该模块能够捕捉不同尺度的特征图信息,相较于 PPM 更适合实时网络。3)采用编解码形式提出一种新的基于注意力机制与多尺度池化的实时语义分割网络 AMPNet,并在 Cityscapes 公开数据集上进行消融实验和对比实验,以验证该网络的有效性。1相关工作 1.1语义分割自 LONG 等5提 出 全 卷 积 神 经 网 络(Fully Convolutional Networks,FCN)开始,语义分

15、割便由传统阶段进入深度学习阶段。FCN5去除 VGG网络中最后的全连接层,对输入图像不断地进行卷积、池化操作,提取图像信息特征。然而,由于深度神经网络提取的高级特征具有平移不变性,持续下采样会丢失细节信息,导致目标边界分割不清晰6-8。为解决此问题,CHEN 等9提出 DeepLab-v1网络,将深度卷积神经网络与条件随机场(Conditional Random Fields,CRFs)相结合,使目标像素与其周围像素相联系,提升了分割精确度,但是 CRFs 基于概率图细化边界,会降低模型推理速度。针对采样过程中特征分辨率下降问题和目标的多 尺 度 特 性,DeepLab-v210基 于 空 间

16、 金 字 塔 池 化(Spatial Pyramid Pooling,SPP)提出空洞空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP),使用空洞卷积能在不提升计算量的基础上增大感受野,DeepLab-v210使用不同大小卷积核的空洞卷积对图像进行并行采样,相当于多尺度捕捉高层特征中图像上下文信息,提升了模型对于不同大小目标的分割精确度。DeepLab-v311则去除 CRFs,改用级联方式融合 ASPP输出的特征,进一步融合了各层特征。1.2实时语义分割在语义分割中,影响推理时间的主要因素为模型的参数量和计算量12。MobileNets13提出的深度可分

17、离卷积包括逐通道卷积和逐点卷积 2 个过程,参数量只有标准卷积的 1/3,但是仍能达到相同效果,为实时语义分割提供了有效的轻量化计算模块。BiSeNet V214使用双分支策略,为降低计算量,在语义分支的聚集-激活(Gather-Excitation,GE)模块和特征融合阶段中使用深度可分离卷积,同时为平衡损失函数的计算量,在各子阶段损失计算过程中添加 计 算 参 数,使 得 该 网 络 达 到 了 实 时 效 果。DFANet15使用轻量级网络 Xception16作为主干网络,通过子网络和子阶段间特征的级联操作融合有区别性的各级特征,该网络最高层特征图通道数仅为一般网络的 1/3,计算量小

18、,但是模型仍能获得足够2232023年 10月 15日Computer Engineering 计算机工程的感受野,且具有较强的学习能力。Fast-SCNN17基于现有双分支方法提出下采样学习模块,该模块同时计算多个具有不同分辨率的低层特征,在特征融合过程中使用高层特征对低层特征进行引导,相较于 FCN5,该网络深度较浅,计算量较小,分割速度更快,并能在没有预训练的条件下达到较高的分割精确度。1.3注意力机制在深度神经网络中,特征图的不同通道代表不同目标,通道注意力自适应地调整每个通道的权重,可视为目标选择的过程18。自 HU等19在挤压-激励网络(Squeeze-and-Excitation

19、 Networks,SENet)中提出注意力机制开始,注意力机制便被广泛应用于深度学习中。SENet19中提出的 SE 模块包括 2 个部分,即 Squeeze 收 缩 部 分 和 Excitation 扩 张 部 分:Squeeze 收 缩 使 用 全 局 平 均 池 化 捕 捉 全 局 信 息;Excitation 扩张通过全连接和非线性激活输出注意力向量。SE 模块在分析重要通道时抑制噪声,对计算资源要求低,但该网络的收缩模块在捕捉全局信息时使用的方法过于简单,且扩张模块中使用的全连接提升了模型复杂度,在一定程度上降低了模型推理速度。WOO 等20在卷积块注意力模块(Convolutio

20、nal Block Attention Module,CBAM)中提出的通道注意力模块(Channel Attention Module,CAM),对特征图分别使用全局平均池化和全局最大池化,再通过多层感知机(Multi-Layer Perception,MLP)将池化后的特征图进行融合,该模块相较于 SE模块而言同时使用 2 种池化,增加的最大池化保留分割目标的判别性特征,但是 MLP 也增加了网络计算量,使得推理速度变慢。1.4金字塔场景解析在复杂场景解析中,往往存在预测类别与真实类别关系不匹配、混淆以及预测不连续等问题。全局平均池化能够获取较多的全局信息,在图像分类任务中能发挥一定作用,

21、但是在复杂场景中不足以涵盖关键信息。为此,PSPNet4提出金字塔场景解析模块PPM,该模块对输入图像按照 1,2,3,6 的尺度进行池化,再将池化后的特征图上采样至输入图像大小并进行融合。该模块消除了卷积神经网络在图像分类任务中输入图像大小固定的缺陷,并对输入图像进行多尺度特征提取,提升了网络对不同大小目标的分割能力。PPM常用于加强高层特征表示,但是高层特征通道数多,会导致网络中 PPM权重过高,难以适用于实时语义分割网络。PP-LiteSeg21对 PPM 进行改进,改进后的 PPM 按照 1,2,4 的尺度对输入图像进行池化,特征融合方式也由级联变成元素级加法,相较于 PSPNet4中

22、的 PPM,该模块中参与运算的通道数减少,提取到的特征尺度也变小,不利于提升分割精确度。1.5编解码结构为 解 决 个 别 数 据 集 中 数 据 较 少 的 问 题,RONNEBERGER 等22提出 U-Net,在编码过程中下采样,在解码过程中上采样,并将编码器每层的输出特征图与对应解码器上采样后的特征图进行融合,解码过程增加特征图尺寸并减少特征图通道数,保证模型计算量不过度增加,完善编码过程中每个下采样层丢失的信息,取得了较好的分割效果,但是该网络只能用于处理 2D图像,应用范围较小。SegNet3使用 VGG 作为编码网络,在下采样过程中记录最大池化索引,在上采样过程中先增大输入特征图

23、尺寸,再根据记录的池化索引将下采样得到的数据放入特征图中。SegNet3记录的索引能保证上采样后分割目标的区别性特征位置不变,提升了目标边界分割精度。但是 SegNet3在进行语义分割时未考虑目标像素与其相邻像素之间的关系,为此,罗嗣卿等23提出改进的 SegNet 网络,在解码结构中加入一条自底向上的通道,以充分利用模型中包含的多尺度语义信息,提升分割精确度。为解决神经网络太深可能导致的训练困难、梯度消失、参数冗余等问题,SU 等24提出卷积层数减少的优化版 U-Net,使用组合扩张卷积作为初级特征提取器,在上采样过程中使用转置卷积以恢复特征图大小,优化版 U-Net结合了 DenseNet

24、、膨胀卷积和转置卷积的优势,使 U-Net性能得到提升,但是膨胀卷积和转置卷积计算量较大,使得模型处理图像的速度变慢。2本文方法网络结构 2.1融合通道注意力模块AMPNet提出的融合通道注意力模块 FCAM 结构如图 1 所示,先对输入特征图进行全局平均池化和全局最大池化,以获得输入特征图的全局信息和区别性特征,对池化后的特征图进行级联和 11 卷积,通道数由 2c变为 c,为后续计算降低了计算量。reshape操作则将池化后的特征图大小由 c11变为1c,1c特征图能有效保留各通道权重,保证网络将更多注意力放在关键特征图上,同时抑制冗余信息。但是此时仅得到各通道权重,特征图不同通道之间的关

25、系并没有建立,因此,对输入特征图进行 reshape224第 49卷 第 10期王卓,瞿绍军:基于注意力机制与多尺度池化的实时语义分割网络操作,将 chw 的特征图大小变为 c(hw),使用矩阵乘法将 1c的权重与 c(hw)的输入特征图相乘,即各通道权重与同一位置不同通道的元素相乘,得到 1(hw)大小的特征图,此时 1(hw)特征图中给定位置元素已有效融合不同通道相同位置的元素值。同时,为防止原始特征信息丢失,该模块最后使用元素级乘法,将 1(hw)大小的特征图与输入特征 图 进 行 融 合。相 较 于 SENet19中 的 SE 模 块,FCAM 添加最大池化操作,能获取特征图中更具区别

26、性的特征,且矩阵乘法在参数不增加的情况下,能根据计算得到的通道权重将特征图中同一位置不同通道的元素值进行有效融合。相较于 CBAM20中的CAM 模块,AMPNet 提出的 FCAM 计算量较小,只有 1次 11卷积和 2次 chw 乘法操作,更适用于实时语义分割任务。FCAM 模块具体计算如式(1)、式(2)所示:Aim=conv()cat()Favg()XinFmax()Xin(1)Xout=Xin()Fr()Aim*Fr()Xin(2)其中:Xin表示输入特征图;Xout表示输出特征图;Favg表示全局平均池化;Fmax表示全局最大池化;cat表示级联操作;conv表示 11卷积;Fr表

27、示 reshape;表示元素级乘法;*表示矩阵乘法。2.2轻量化金字塔场景解析模块ZHAO 等4在 PSPNet中提出的金字塔场景解析模块采用多尺度的方式对输入图像进行下采样,以提取不同大小的目标特征。但是在高层语义特征捕捉过程中,PSPNet4中的 PPM 模块权重较大,降低了整个模型的推理速度,不适合实时语义分割任务。AMPNet提出轻量化金字塔场景解析模块 SPPM,权重大小仅为 PSPNet4中 PPM 的 1/7,其结构如图 2所示。在对输入特征图按照 1,2,3,6 的尺度进行平均池化后,使用 11 卷积改变特征图通道数至原来的 1/4,这一通道数的减少为后续卷积操作降低了计算量,

28、也避免了推理速度降低的问题。相较于原始PPM 使用元素级别加法方式融合特征,AMPNet 采用级联方式融合,融合后的特征图通道数恢复至原特征图通道数。为避免级联后特征图存在过多信息冗余的问题,对融合后的特征图进行 11卷积,最后使用输入特征对卷积后的特征进行引导,两者通过元素级加法进行融合,有效合并该模块的输入特征和输出特征,也避免了多尺度池化过程中造成的其他信息丢失以及网络退化问题。2.3网络结构AMPNet 采用编解码结构,在编码结构中使用STDC25作 为 主 干 网 络,STDC 各 层 输 出 如 表 1所示。AMPNet提出的 FCAM 用于计算特征图不同通道的权重,进而对通道进行

29、增强或抑制,同时根据权重融合特征图的各个通道。由于高层特征图通道数多、尺寸小,各通道包含的语义信息更为丰富,因此当特征图通道数较多时通道注意力模块效果提升明显26。而 FCAM 也是对特征图的各个通道进行作用,以加强特征图的通道表示。因此,AMPNet 在Layer 3 和 Layer 4 输出的特征图后都加入 FCAM 模块。将 SPPM 与 FCAM 以 串 联 方 式 进 行 组 合,使Layer 4的输出依次经过 SPPM 和 FCAM 模块。本文也尝试以并联方式组合 SPPM 和 FCAM,但效果不图 1FCAM 结构Fig.1FCAM structure图 2SPPM 结构Fig.

30、2SPPM structure表 1STDC网络各层的输出 Table 1Output of each layer of STDC network层级输入Layer 1Layer 2Layer 3Layer 4输出通道数3642565121 024输出分辨率/像素7681 536961924896244812242252023年 10月 15日Computer Engineering 计算机工程如串联方式,因为无论是 SPPM 还是 FCAM,输出的特征图都会有信息冗余,若以并联方式相结合,整个模块冗余的信息会越来越多,干扰模型分割图像。在解码过程中,使用双线性插值作为上采样方法,对于编码器中

31、每一层的输出都采用先上采样后卷积的方式将低层特征图恢复至上一层大小。上采样后的低层特征图与高层特征图以级联方式融合。本文方法具体网络结构如图 3所示。3实验验证 3.1数据集使用无人驾驶环境下的公开数据集 Cityscapes进行实验。Cityscapes 为城市道路场景语义分割数据 集,包 含 全 世 界 50 个 城 市 的 不 同 街 景,提 供5 000张精细标注的图像、2 000张粗略标注的图像。该数据集共有 33 类标注物体,本文只训练其中的19 类,包括地面、建筑、人、天空、自然、背景、道路标志和车辆,小类将大类再进行细分,如车辆分为小汽车、公交车等。数据集由训练集、验证集和测试

32、集组成,分别包括 2 975、500和 1 525张图像,每张图像均为 RGB 三 通 道 彩 色 图 像,分 辨 率 大 小 为 1 0242 048像素。3.2评估指标使用平均交并比(Mean Intersection over Union,mIoU)作为分割精确度的衡量指标,使用每秒处理帧数(Frames Per Second,FPS)作为分割速度的衡量指标。mIoU 为图像像素每个类的 IoU 值累加后的平均值,计算公式如下:mmIoU=1ki=1kpiitij=1kpjipjj(3)其中:k 表示数据集包含的总像素类别数;pii表示实际类别为 i、预测类别也为 i的像素数;ti表示类

33、别为 i的像素数;pji表示实际类别为 i、预测类别为 j的像素数;pjj表示实际类别为 j、预测类别也为 j的像素数。3.3网络参数设置AMPNet 使用深度学习框架 PyTorch-1.3 实现,训练过程中对输入图像的预处理包括水平翻转、随机 尺 度 调 整 和 随 机 裁 剪,输 入 图 像 大 小 为 7681 536 像素。对编码器中 Layer 2 的输出使用交叉熵损失函数和 DICE损失函数相结合的方式计算损失,对 Layer 3、Layer 4 以及整个网络最后的输出使用OhemCELoss损失函数。具体损失计算如下:Lloss=Lloss1+Lloss2+Lloss3+Llo

34、ss4(4)Lloss1=Lbceloss+Ldiceloss(5)其中:Layer 2 的输出与高斯-拉普拉斯真实标签通过 计 算 交 叉 熵 损 失 得 到 bceloss,两 者 通 过 计 算DICE 损 失 得 到 diceloss,这 样 得 到 的 bceloss 和diceloss 都表示 Layer 2 的输出与目标边界的损失;Lloss2、Lloss3、Lloss4分别为 Layer 3 输出、Layer 4 输出和网络最终输出与真实标签通过 OhemCELoss计算而得到的损失。使用一块 Tesla-T4 GPU、12 个 CPU 核训练并测试。训 练 设 置 初 始 学

35、 习 率 为 0.05,批 处 理 大 小(batch size)为 8,使 用 带 动 量 的 随 机 梯 度 下 降 法(Stochastic Gradient Descent,SGD)训练模型,学习率下降公式如下:Llr=Llr,base()1-NiterNmaxiterp(6)其中:Llr,base表示初始学习率;Niter表示当前迭代次数;Nmaxiter表示网络最多迭代次数,设置为 181 000;动量p设置为默认值 0.9;衰减系数为 0.000 05。3.4对比实验为验证所提算法的有效性,将 AMPNet 与现有若干种算法进行比较,以 mIoU 和 FPS 作为衡量指标,并提供

36、 AMPNet和各模型的计算量和参数量。AMPNet1 和 AMPNet2 分 别 使 用 STDC1 和STDC2 作为骨干网络,分割结果如表 2 所示。从表 2 可以看出:ICNet27以 PSPNet504作为骨干网络,由于 PSPNet504处理的特征图通道多、计算量大,因此分割速度较慢,FPS 只有 15.2,与之对比,AMPNet1 在精确度和分割速度两方面均占优;与轻权网络 FasterSeg28相比,AMPNet1 速度更快,且精 确 度 提 升 0.5 个 百 分 点,AMPNet2 分 割 速 度 较慢,FPS 降低近 20,但分割精确度提升 2.3 个百分点;高效残差分解

37、网络 ERFNet29在编解码的残差模块中使用空间可分离卷积,参数量仅为 2.06106,但 分 割 效 果 和 速 度 均 不 如 AMPNet1;与 LiteSeg-DarkNet30相比,AMPNet1 分割速度快 7 倍,且分割精确度提升 2.6 个百分点;与 BiSeNet-Xception3931相比,AMPNet1 在精确度上提升 3.6 个百分点,FPS上提升 2;BiSeNet V214的语义和细节 2 个分支的高层特征图通道数都仅为 128,是 AMPNet 的 1/8,图 3本文方法网络结构Fig.3The network structure of this method

38、226第 49卷 第 10期王卓,瞿绍军:基于注意力机制与多尺度池化的实时语义分割网络且在语义分支下采样过程和特征融合过程中均使用深度可分离卷积,计算量约是 AMPNet2 的 1/8,与之相比,AMPNet2 在速度上略有降低,但分割精确度却提升 0.9 个百分点;与 STDC1 原网络相比,AMPNet1 在 FPS 上降低 9,但却提升了 5.2 个百分点的分割精确度,与 STDC2 原网络相比,AMPNet2的 FPS 提 升 11.7,同 时 分 割 精 确 度 提 升 5 个 百分点。表 3对比 AMPNet与其他网络在 Cityscapes数据集具体类中的分割准确率。语义分割的一

39、大难点是小目标物体分割,从表3可以看出:与STDC原网络对比,AMPNet在人物、摩托车等小目标物体上的分割准确率更高;与BiSeNet V214相比,AMPNet2在对墙面、公共汽车和火车的分割上效果更好。表 2模型性能比较 Table 2Models performance comparison模型ICNet27DFANet-A15FasterSeg28ERFNet29LiteSeg-DarkNet30LiteSeg-MobileNet30BiSeNet-Xception3931BiSeNet V214STDC2-Seg75STDC1-Seg75AMPNet1(本文)AMPNet2(本文)

40、分辨率/像素1 0242 0481 0242 0481 0242 0481 0242 0481 0242 0481 0242 0485121 0245121 0247681 5367681 5367681 5367681 536参数量/10628.307.804.402.0620.504.385.80201.6061.6046.1056.7072.20计算量/10926.501.7028.20120.20103.104.9010.8021.15115.50105.9094.00153.60骨干网络PSPNet50XceptionnonoDarknetMobileNetXception39noS

41、TDC2STDC1STDC1STDC2mIoU/%(验证集)71.771.973.170.072.870.069.073.468.867.273.874.6mIoU/%(测试集)69.5071.3071.5068.0069.4066.4868.4072.9068.8066.8072.0073.80FPS15.250.081.841.715.022.0105.0156.048.9116.0107.060.6表 319个类别的分割准确率对比 Table 3Comparison of segmentation accuracy for 19 categories%类别RoadBuildingSide

42、walkWallFencePoleTraffic lightTraffic signVegetationTerrainSkyPersonRiderCarTruckBusTrainMotocycleBicyclemIoUSTDC1-Seg7597.4880.8289.0143.3546.0442.8253.6460.3790.2768.2090.8374.7054.1392.5853.6765.8454.1849.5262.9766.86STDC2-Seg7597.9782.2089.7146.1049.3344.4455.5362.3590.6569.2992.3875.9857.5892.9

43、652.8768.5859.9054.9664.7568.82BiSeNet V298.1883.3691.5643.3053.3160.1470.5174.1092.7570.0194.5183.9167.7395.1055.0668.0655.2959.0272.5472.90AMPNet1(本文)98.2483.8191.3851.7352.6456.5560.9569.7692.7670.9495.1481.4061.0794.7452.0068.3362.5655.1969.2972.00AMPNet2(本文)98.4084.7691.8353.8654.2359.5766.3171

44、.8792.8171.5394.9782.4963.9094.9956.1771.0964.1359.5470.1773.802272023年 10月 15日Computer Engineering 计算机工程可 视 化 效 果 如 图 4 所 示,从 中 可 以 看 出,AMPNet 对树木边缘、路灯以及路牌的分割更占优势,可见本文算法在物体细节与小目标物体分割上表现较好。3.5消融实验为验证 AMPNet中各模块的有效性,进行消融实验,结果如表 4 所示。从表 4 可以看出:AMPNet1 参数量为 36.26106,分割精确度 mIoU 为 64.45%,分割速度 FPS 为 129;在

45、 AMPNet1 编码器的 Layer 4 后添加 SPPM 模块,由于其多尺度池化的有效性,提升了AMPNet1 对于多尺度目标的特征捕捉能力,分割精确度提升了 8.06个百分点,同时其轻量化保证了模块参数量,不过分降低算法分割速度,因此,分割速度FPS 仅降低 15;因为 AMPNet1 中高层特征图通道数多,所以将 FCAM 模块用于网络深层,保证高层特征图中各通道能有效融合,将FCAM添加至编解码网络的 Layer 4 之后,FPS 降低了 6,但是分割精确度却提升了 8.28个百分点;将 SPPM和 FCAM以串联方式连接 在 Layer 4 后,精 确 度 提 升 了 近 9 个

46、百 分 点;在Layer 3 添加 FCAM,则进一步提升了分割精确度。本文也尝试将 FCAM 添加至低层 Layer 2之后,实验效果却降低,再一次说明FCAM适用于通道数多的高层特征图。为验证 AMPNet 中 FCAM 的分割效率,将一些经典通道注意力模块与 FCAM 进行对比,结果如表 5 所示。从表 5 可以看出:SENet19中提出的 SE模块仅使用全局平均池化的方式捕捉全局信息,虽然参数量较小,但是特征捕捉方式过于单一,分割精确度不如 FCAM;CBAM20中提出的 CAM 模块在 SE 模块的基础上增加全局最大池化和多层感知机,与 SE 模块相比,能获取更多的辨别性特征,但是获

47、取各通道权重后不能很好地融合同一位置不同通道像素间的关系;FCAM 相比 SE 模块提升了6.02106参数量,相比 CAM 模块提升了 7.52106参数量,但在 FPS 上与前两者相比平均只降低 1,且融合高层特征图各通道的方式更有效,分割精确度也更高。消融实验可视化效果如图 5 所示。在图 5 中,4-SPPM 表示在 AMPNet1编码器的 Layer 4后面添加SPPM,4-FCAM 表示在 AMPNet1 编码器的 Layer 4后面添加 FCAM,4-SPPM-4-FCAM 表示在 AMPNet1编 码 器 的 Layer 4 后 面 添 加 SPPM 和 FCAM,4-SPPM

48、-4-FCAM-3-FCAM 表示在前者基础上继续在 Layer 3后面添加 FCAM。图 4对比实验可视化效果Fig.4Visualization effect of comparative experiments表 5通道注意力模块对比实验 Table 5Comparative experiment of channel attention module网络模型AMPNet1+SEAMPNet1+CAMAMPNet1+FCAM参数量/10643.6742.1749.69mIoU/%72.3072.5272.73FPS124.2124.7123.2表 4消融实验结果 Table 4Resul

49、ts of ablation experiment网络模型AMPNet1AMPNet1AMPNet1AMPNet1AMPNet1Layer 4+SPPMLayer 4+FCAMLayer 3+FCAM参数量/10636.2646.7249.6954.7156.72mIoU/%64.4572.5172.7373.1473.86FPS129114123112107228第 49卷 第 10期王卓,瞿绍军:基于注意力机制与多尺度池化的实时语义分割网络4结束语 本文基于注意力机制和多尺度池化提出一种编解码结构的实时语义分割网络 AMPNet。设计融合通道注意力模块 FCAM,先通过注意力机制计算各个通

50、道的权重,再根据权重有效地对深层特征图的不同通道进行融合,从而减少算法计算过程中的参数量和计 算 量。提 出 一 种 轻 量 化 金 字 塔 场 景 解 析 模 块SPPM,以 捕 捉 不 同 尺 度 大 小 的 特 征 信 息。在Cityscapes公开数据集上的实验结果表明,AMPNet具有有效性和可行性。下一步将研究编解码结构中的高低层特征融合与边界细化问题,以加强各层特征表示、优化边界分割效果,进一步提升模型分割性能。参考文献 1 田萱,王亮,丁琪.基于深度学习的图像语义分割方法综述 J.软件学报,2019,30(2):440-468.TIAN X,WANG L,DING Q.Revi

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服