收藏 分销(赏)

DFNet:高效的无解码语义分割方法.pdf

上传人:自信****多点 文档编号:3010014 上传时间:2024-06-13 格式:PDF 页数:10 大小:11.11MB
下载 相关 举报
DFNet:高效的无解码语义分割方法.pdf_第1页
第1页 / 共10页
DFNet:高效的无解码语义分割方法.pdf_第2页
第2页 / 共10页
DFNet:高效的无解码语义分割方法.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 39 卷 第 2 期2024 年 2 月Vol.39 No.2Feb.2024液晶与显示Chinese Journal of Liquid Crystals and DisplaysDFNet:高效的无解码语义分割方法刘腊梅1,杜宝昌1,2,黄惠玲2,章永鉴2,3,韩军2*(1.辽宁工程技术大学 软件学院,辽宁 葫芦岛 125000;2.中国科学院 海西研究院 泉州装备制造研究中心,福建 泉州 362000;3.厦门理工学院 电气工程与自动化学院,福建 厦门 361024)摘要:针对编解码语义分割网络计算量大、解码结构复杂的问题,提出一种高效无解码的二值语义分割模型 DFNet。该模型首先

2、去除主流分割网络中复杂的解码结构和跳跃连接,采用卷积重塑上采样方法重塑特征编码直接得到分割结果,简化网络模型结构;其次在编码器中融合轻量双重注意力机制 EC&SA,提高特征编码的通道及空间信息交互,增强网络的编码能力;最后使用 PolyCE 损失替代常规分割损失,解决正负样本不均衡问题,提高模型的分割精度。在 DeepGlobe道路分割和 CrackForest缺陷检测等二值分割数据集上的实验结果表明,本文模型的分割精度 F1均值和 IoU 均值分别达到 84.69%和 73.95%,且分割速度高达 94 FPS,远超主流语义分割模型,极大地提高了分割任务效率。关键词:二值分割;卷积重塑上采样

3、;EC&SA;PolyCE;道路分割;缺陷检测中图分类号:TP391 文献标识码:A doi:10.37188/CJLCD.2023-0036DFNet:efficient decoder-free semantic segmentation networksLIU Lamei1,DU Baochang1,2,HUANG Huiling2,ZHANG Yongjian2,3,HAN Jun2*(1.College of Software,Liaoning Technical University,Huludao 125000,China;2.Quanzhou Institute of Equi

4、pment Manufacturing,Haixi Institutes,Chinese Academy of Sciences,Quanzhou 362000,China;3.College of Electrical Engineering and Automation,Xiamen University of Technology,Xiamen 361024,China)Abstract:To tackle the challenges posed by the cumbersome computation and intricate decoding structure of code

5、c semantic segmentation networks,we present a novel decoder-free binary semantic segmentation model DFNet.By discarding the complex decoding structure and jump connections that are ubiquitous in conventional segmentation networks,our model adopts a convolutional remolding upsampling method to direct

6、ly reshape feature coding and obtain precise segmentation results,significantly streamlining the network architecture.Moreover,our encoder integrates a lightweight dual attention mechanism EC&SA 文章编号:1007-2780(2024)02-0121-10收稿日期:2023-02-06;修订日期:2023-04-12.基金项目:福建省科技计划(No.2019T3025,No.2021T3060,No.2

7、021T3032,No.2021T3010);福建省闽都实验室主任基金(No.2021ZR107)Supported by Fujian Science and Technology Plan(No.2019T3025,No.2021T3060,No.2021T3032,No.2021T3010);Fujian Provincial Laboratory Director Fund(No.2021ZR107)*通信联系人,E-mail:第 39 卷液晶与显示to facilitate the effective communication of channel and spatial info

8、rmation,bolstering the network s coding capability.To further enhance the model s segmentation accuracy,we replace the traditional segmentation loss with PolyCE loss,a powerful tool that resolves the issue of positive and negative sample imbalance.Experimental results on binary segmentation datasets

9、 such as DeepGlobe road segmentation and Crack Forest defect detection show that the segmentation accuracy F1 mean and IoU mean of this model reach 84.69%and 73.95%,respectively,and the segmentation speed is as high as 94 FPS,which far exceeds the mainstream semantic segmentation model and greatly i

10、mproves the efficiency of the segmentation task.Key words:binary segmentation;convolution remolding upsampling;EC&SA;PolyCE;road segmentation;defect detection1 引言语义分割是计算机视觉领域的关键任务之一,是对图像像素级的识别和理解。得益于卷积神经网络的特征提取能力以及深度学习技术的迅速发展,分割方法层出不穷1-3。然而,在不同的分割方法下,却都有着相似的“编码器-解码器”结构。在“编码器-解码器”结构的分割网络中,分割任务大致划分为两个

11、阶段:编码阶段图像经神经网络编码以及下采样获得深层次语义信息;解码阶段深层语义信息上采样获得与输入图像同等大小的分割掩码。Long4等人所提出的全卷积网络 FCN是编解码结构的最早典型,其将原分类网络的全连接修改为全卷积,通过转置卷积联合低级特征上采样实现像素级预测。Ronneberger5等人针对 FCN 缺乏空间一致性等问题提出的“U”型分割网络 U-Net以及 Badrinarayanan6等人针对道路分割问题提出的分割网络SegNet,这两种更为典型的编解码分割网络都是采用与编码器完全对称的扩张路径作为解码器,然后联合对称位置编码特征上采样补充空间信息,从 而 获 得 高 精 度 分

12、割 掩 码。最 新 的 基 于Transformer7的分割模型,如 Zheng8等人提出的序列到序列分割模型 SETR、Xie9等人提出的 基 于 金 字 塔 结 构 的 分 割 模 型 SegFormer 和Wang10-11等人提出的轻量分割模型 PVT,普遍也是采用编解码的结构形式。此外,在目前性能较优的分割模型中,在保留“编码器-解码器”结构的基础上还会引入一种新的解码器后端,如Zhao12等人提出的分割网络 PSPNet 和 Chen13等人提出的分割网络 DeepLabv3+,这两种方法都是在保证编解码结构的基础上引入一种新的解码器后端(池化金字塔),从而取得比全局信息更有代表性

13、的多比例上下文信息,提高模型分割精度。然而,“编码器-解码器”结构虽能够保证模型分割精度,但仍然存在一些问题。首先,编码器的编码特征通常具有较大的通道数和较小的宽、高,这会导致解码器的结构引入大量的参数,从而增加了计算量。其次,在解码器的转置卷积和上采样过程中,语义信息和细节很容易丢失,并且在一定程度上会传播噪声,从而严重影响解码过程的重构效率。最后,对于二值分割任务,由于其分割样本相比常规分割任务相对简单,因此复杂的解码结构可能并不能提高分割精度,反而会增加计算量,从而影响分割的速度。Shubhra14等首先针对上述问题提出 D2SNet 模型,并相应取得了较好的效果,但是由于算法的复杂低效

14、以及模型本身的冗余,使得 D2SNet 模型应用严重受限。为解决上述编解码结构以及现有分割网络所存在的问题,本文提出了一种基于 ResNet50的高效无解码的二值分割网络 DFNet(Decoder-free Net)。该模型摒弃了现存主流分割网络中的各式跳跃连接和复杂解码结构,转而采用卷积重塑上采样模块(Convolution Remolding Upsampling,CRU)直接重塑最终编码特征生成分割掩码,从而简化分割模型结构,减少可学习参数,提高模型分割检测速度。又因 CRU 模块需要利用信道和空间信息,因此在编码器中进一步融合轻量双重注意力模块 EC&SA 提高信道以及空间信息交互,

15、增强网络编码能力。最后再引入损失系数可根据任务特性动态调整的扰动交叉熵损失122第 2 期刘腊梅,等:DFNet:高效的无解码语义分割方法PolyCE,使得损失系数根据当前任务自适应达到最优,有效解决二值分割正负样本不均衡问题,提高像素分割预测准确率。2 模型结构DFNet模型整体结构较为精简,Input在经过网络编码以及卷积重塑上采样 CRU模块后,直接得到分割掩码,如图 1所示。其中,模型详细流程如下:首先使用融合 EC&SA 注意力的 ResNet50编码网络对输入图像提取特征,得到 CH/sW/s大小的特征编码,s为编码网络下采样倍数;其次通过卷积重塑上采样模块 CRU,得到 2WH

16、大小的分割掩码;最后按照通道方向进行最大值索引,从而得到 HW 大小的最终分割结果 Output。2.1卷积重塑上采样 CRU在语义分割算法中,双线性插值和反卷积是上采样操作以及生成分割掩码中最常用的方法。但双线性插值不具有可学习参数,且忽略了标签像素点之间的关系,对每个像素的精确恢复能力较弱;反卷积网络虽引入了可学习参数,但在解码阶段会引入大量无效信息,并且容易导致网格效应,不利于梯度优化。本文引入卷积重塑上采样 CRU 模块,将特征编码经 11 卷积通道调整后,重塑通道和空间信息补充分割细节以生成分割结果,提高模型效率。CRU 模块是以低分辨率 hw 大小的特征图作为输入,生成 HW 大小

17、的标签图。假设输入特征图的维数为 Chw,通过 11 卷积运算后输出特征图维度变为(Cs2)hw,然后再利用周期筛选15(Periodic Shuffling,PS)将上述调整通道后的特征图重塑成 CHW 大小的分割掩码,从而简化了分割网络的解码结构,提高模型的运行效率。图 2(a)以单通道图像为例,描述了C=1,s=2时的 CRU 模块结构;图 2(b)则描绘了常规情况下的 CRU 模块结构。从图 2也可看出,CRU 模块利用特征编码通道间的相邻像素信息直接重塑为最终结果,其中 h=H/s,w=W/s,s是下采样因子。在本文的二值分割任务中,s=32,C=2。首先输入图像经过网络编码器,生成

18、一个大小为chw 的特征编码,生成的特征编码再经过11卷积将通道调整为 cs2,从而特征编码维度变为(cs2)hw,再通过周期筛选后生成大小为 CHW 的分割掩码。周期筛选的数学过程如式(1)所示,其中F 编码器Encoder输入Input卷积重组上采样CRU输出Output11卷积周期筛选11卷积 EC&SA33卷积11卷积chwchwH=H/ssW=H/ssH/sW/sH/sC2s22W/sHW2HW3HWCH/sW/s图 1DFNet网络模型结构Fig.1Structure of DFNet networkwhwh(a)单通道图下的CRU网络结构(a)CRU network struct

19、ure under single channel graph hwhwssCC(b)多通道图下的CRU网络结构(b)CRU network structure under Multi-Channel graph H=wsW=hs11卷积s211卷积Cs2H=wsW=hs图 2卷积重塑上采样模块Fig.2Convolutional reshaping upsampling module123第 39 卷液晶与显示为输入特征编码,r为上采样倍数,PS(F)(x,y,c)为坐标(x,y,c)上的输出特征像素,默认为 1。从公式可看出,周期筛选是直接按照一定规则重塑特征编码像素位置实现快速上采样,在不

20、引入额外参数的前提下,减小模型计算量,从而提高网络分割效率。PS(F)(x,y,c)=Fx/ry/r,r mod(y,r)+mod(x,r)+c.(1)2.2轻量双重注意力 EC&SAResNet5016残差网络是何凯明等人提出的,其主要思想是在网络中添加跳跃连接形成残差结构,从而允许原始的特征信息可以直接传递给深层网络,有效避免信息的损失,简化学习的目标和难度,并在一定程度上解决了反向传播中梯度消失和梯度爆炸的问题。然而,单纯依靠编码器 ResNet50 的自身特征提取能力是不够的,因为 CRU 模块会重塑特征编码像素位置来实现快速上采样,因此需要特征编码通道和空间信息完善分割掩码细节。此时

21、采用一个合适的注意力机制可以有效地提高网络性能。ECA17 注意力模块主要是对SE18 注意力模块进行改进,提出的一种不降维的跨通道交互策略。该模块避免了通道压缩降维带来的影响,采用一维卷积替代共享全连接层,增加少量参数,实现跨通道信息交互,提高模型精度。ECA 结构如图 3所示,其中fK1D为卷积核大小为K的一维卷积。但单纯的通道信息交互不足以满足 CRU 模块空间信息需求,本文在不引入大量计算参数下添加轻量空间注意力算子 ESA(Efficient Spatial Attention Operator),使其提高空间信息的交互。如图 4 所示,ESA 由通道池化、33 空洞卷积f3 3DC

22、onv以及 S激活函数 3部分组成。将特征编码按照通道方向分别做最大和均值池化,获得2HW 大小的通道池化矩阵;再进行空洞卷积运算,综合空间信息;最后经 S 激活函数获得空间权重系数掩码。对于 ESA 中的卷积,本文采用大小为 3、空洞率为 2的空洞卷积替代常规卷积,从而实现在引入极少参数的同时有效地扩大感受野且保障空间信息连续,提高像素间信息交互19。EC&SA 模块最终结构如图 5 所示。可以看出,EC&SA 模块保留了高效通道注意力模块原始的通道增强运算,因此中间层的特征编码首先通过高效通道注意力 ECA 模块获得通道权重系数进行通道增强,其次再次通过 ESA 获得空间权重系数来增加像素

23、间的空间信息交互。EC&SA 在引入少量参数下增强了编码网络对通道信息和空间信息整合能力,提高了相邻像素间的信息交互,因此将 EC&SA 加入编码网络 ResNet50的残差结构中,能有效提升网络特征提取能力。改进后的 ResNet50 残差结构如图 6所示。2.3扰动交叉熵损失 PolyCE对于二值分割任务而言,分割前景所占真实标签整体的比例通常较小,因此会存在严重的正跳跃连接EC&SA11卷积33卷积11卷积图 6改进后的残差结构Fig.6Improved residual structureHWCWHC 自适应均值池化f1DK图 3ECA结构图Fig.3ECA structure dia

24、gramHWCWHCECAESA自适应均值池化通道最大池化+均值池化f1DKfDConv33图 5轻量双重注意力 EC&SAFig.5Lightweight dual attention EC&SA 通道最大池化HWC2HWHWC通道均值池化1HW图 4ESA空间注意力算子Fig.4Efficient spatial attention operator124第 2 期刘腊梅,等:DFNet:高效的无解码语义分割方法负样本不平衡,从而容易导致分割掩码偏向于背景类别,导致模型分割精度降低。在分割任务常用的损失中,如 CE Loss和 Focal Loss等,也都存在一个关键问题:回归项前的系数对

25、于所有的模型和任务来说都是固定的,但不一定是最优的。为解决上述问题,本文引入扰动交叉熵损失20 PolyCE。扰动交叉熵损失 PolyCE 的灵感来源于交叉熵损失 CE Loss 等损失的泰勒展开(式(2),其主要是通过泰勒展开式来逼近目标函数,对损失的表示提供了与回归的直观联系,使 CE Loss在一定程度上可以解释为预测值到真实值距离的j次幂的加权集合。如式(3)所示,PolyCE 损失将损失函数看成多项式函数的线性组合并添加动态调整系数j,使多项式基的重要性很容易地根据目标任务和数据进行调整,进而提高模型精度,其中Pt代表预测概率。LCE=(1-Pt)+1/2(1-Pt)2+1/N(1-

26、Pt)N+=j=11/j(1-Pt)j=-log Pt,(2)LPolyCE-N=(1+1)(1-Pt)+(N+1)(1-Pt)Nperturbed by j+1/(N+1)(1-Pt)N+1same as LCE+=-log Pt+j=1Nj(1-Pt)j.(3)本文使用 PolyCE 损失函数替代常用的交叉熵损失 CE Loss,使二值分割能根据分割任务特点动态调整为最优损失系数,有效解决正负样本不均衡问题,提高各类像素分类准确率,从而提高模型最终分割精度。其中本文所采用的是N=1的情形。3 实验准备3.1数据选取为验证模型二值分割任务的泛化性,本文主要使用部分常见的二值分割任务数据集进行

27、实 验,如 遥 感 分 割 数 据 集 DeepGlobe21、Mas Roads22以 及 缺 陷 检 测 数 据 集 CrackForest23、FALeather 进行验证,其中 FALeather 由本实验室与相关企业联合采集制作。DeepGlobe和Mass Roads同为道路分割数据集,其中 DeepGlobe包含 6 226张分辨率为 1 024像素1 024的训练图像,Mass Roads包含 1 171张分辨率为 1 500 像素1 500 像素的训练图像。为使数据适用于模型,通过重叠为 256 像素的512512 滑动窗口将每幅图像划分为同分辨率图像,并且去除无用数据,然后

28、再将截取划分后的 数 据 按 8 2 的 比 例 划 分 训 练 和 测 试 集,即DeepGlobe 训练集 44 827 张和测试集 11 027 张,和 Mass Roads 训练集 12 732 和测试集 3 138 张,划分后的训练集和验证集重合。CrackForest 包含 11 298张 448像素448像素的训练图像,FALeather 包含 1 940 张 512 像素512 像素皮革图像。同按8 2划分,即CrackForest训练集9 038张和测试集 2 260 张,FALeather 训练集 1 552 张和测试集 388张。3.2参数设定DFNet 模型代码基于 P

29、ytorch 1.9.0 深度学习框架编写。采用 Ubantu18.06 操作系统,CPU型号为 Intel i9-10900X3.70 GHz20,显卡型号为 NVIDIA GeForce RTX 3090 24 GB,系统内存 128G。实验参数:输入图像大小为 512像素512像素的彩色图片,batch_size大小为 32,编码器采用预训练模型,CUR中的 11卷积采用初始化且无偏置,初始化学习率为 1e-4,学习率调整策略为前 200 Epochs 固定学习率,后 100 Epochs 学习率断崖式衰减,采用 Adam 优化器,优化器运行平均值的系数为 betas=(0.9,0.99

30、9)。3.3评价指标在二值分割任务中,将分割图像的像素分为真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN),并与对应真实标签进行比较。根据二值分割任务的特点,最终选择以 F1-Score和 IOU作为主要评价指标,TPE 和 FPS 作为辅助评价指标,如表 1所示。TPE(Time for Per Epoch)是本文自定义评价指标,指模型在一定的训练数据集下完全前向表 1评价指标Tab.1Evaluation indexF1-score2TP2TP+FP+FNIoUTPTP+FP+FNTPEFPS125第 39 卷液晶与显示传播一次所需的时间(单位 s)。FPS 是指模型单位时间

31、内处理图像的数量。4 实验结果分析通过消融实验验证模型及改进方案对于分割精度和速度的有效性。选取 FCN4、U-Net5、PSPNet12、D2SNet14、EANet24和 DeepLabv3+13六种主流分割模型与本文模型进行对比实验,验证模型分割效果,并围绕实验结果对模型进行定量和定性分析。4.1消融实验为验证卷积重塑上采样模块 CRU、轻量双重注意力 EC&SA、扰动交叉熵损失 PolyCE三处改进的有效性,本文在 ResNet50作为模型编码器且不采用复杂解码结构和跳跃连接的基础之上,将其分为4种情况进行消融实验:(1)仅采用CRU模块,并为验证该模块作为分割头(Head)的有效性,

32、加入FCN和DeepLabv3+分割头进行对比;(2)在以 CRU 模块作为分割头的基础上,采用 EC&SA注意力,并为验证该注意力机制的有效性,加入其他以及改进前的注意力机制进行对比;(3)在以 CRU 模块作为分割头的基础上,采用 Poly1CE损失;(4)CRU 模块、EC&SA 注意力和 PolylCE损失全部采用。4种实验均在本文实验所采用的二值分割数据上进行,消融实验结果见表 2。从表 2可以看出,在模型采用 CRU 模块作为分 割 头 时,其 分 割 精 度 要 高 出 FCN 和 DeepLabv3+分割头约 5%。DeepLabv3+分割头虽然在 FCN 分割头的基础上引入了

33、空洞空间卷积池化金字塔(ASPP)模块,扩大了感受野,但是因为 ResNet50 下采样倍数较大,并且同 FCN 分割头使用卷积压缩高维通道,使通道数变为 2,之后再使用双线性插值上采样到原图大小以实现分割,因此容易丢失大量高维信息细节,导致分割精度不佳。CUR 模块则不同于上述两个分割头,直接通过对 ResNet50 的特征编码进行通道升维,补充周期筛选后的分割掩码空间信息细节,以提高模型精度和速度。在 CRU 作为分割头的基础上,仅引入 EC&SA 注意力机制可使F1-Score 和 IoU 提升约 1%2%,比其他通道注意力机制所带来的性能提升更为明显,如 SE 注意力模块只带来约 0.

34、3%1%的提升,原始的ECA 也只是带来些许提升,从而说明本文针对模型需求改进注意力模块的有效性。在 CRU 作为分割头的基础上,若只引入 Poly1CE 损失,则 F1-Score 和 IoU 均能高约 1%2%;当全部采用时,其效果的提升要优于仅采用其中一种,从而可使模型精度得到更进一步的提升。综上,通过实验精度的对比,本文提出的 3处优化均可显著提高模型的实验结果,从而有效证明了这 3 处优化的有效性,也证明了针对二值分割任务特点进行优化的正确性。4.2定量分析各个模型在不同数据集的分割精度对比结果见表 3。从表 3 中各模型所示分割精度可以看出,本文模型在本文所采用的分割数据集上,基本

35、都能取得与主流编解码语义分割模型相当的分表 2消融结果Tab.2Ablation results%Method+FCN Head+DeepLabv3+Head+CRU+SE18+ECA17+EC&SA+PolylCE+ALLDeepGlobeF177.3279.3482.2182.5982.6383.9883.2985.28IoU66.2668.1771.3271.6771.9573.5973.1474.39Mas RoadsF176.2179.6781.3382.6682.5083.1182.7485.02IoU66.4968.9371.5072.7772.6473.0772.9474.07

36、CrackForestF170.3472.2273.9474.3274.6575.8174.4576.31IoU57.3558.3758.6659.1259.2160.7659.8062.47FALeatherF187.3489.2991.6892.1192.5293.0092.6393.42IoU82.2384.1385.2985.4185.6386.5186.2786.92126第 2 期刘腊梅,等:DFNet:高效的无解码语义分割方法割精度,甚至还超出部分分割模型。从 DeepGlobe 和 Mas Roads 的数据分割结果可知,相对于 FCN 和 D2SNet,虽具有更为复杂解码结构

37、以及新型解码后端的 DeepLabv3+和 EANet 的分割会更高,但两者实际差异并不明显,特别是对于背景更为简单的 FALeather数据,各模型精度基本在同一范围内持平。但对于本文模型,虽未采用解码结构以及跳跃连接,却取得了更优的分割结果,从而说明对于简单的分割任务,输入图像经编码器编码后,其自身已包含足够的通道及空间信息,无需额外结构进行补充。在模型参数、推理速度和综合精度方面,本模型与主流分割模型对比结果见表 4。相对于主流分割模型,首先从表中参数和推理速度可以看出,在同等条件下,本模型在减少参数的同时,理论推理速度达到了 94 FPS,远高出主流分割网络;其次从表中 TPE指标也可

38、看出,本模型在同批次数据上所需的训练时间也明显减少,比参数接近的D2SNet减少1/3,比U-Net减少近4倍,从而有效降低了网络训练成本;最后从模型在各数据集上的平均精度 F1m(F1 mean)和 IoUm(IoU mean)可以看出,对于二值分割任务,本模型具有更高的普适性。综上,本模型无论在推理速度上,还是在综合分割精度上,都远高出主流分割模型,有效提高了分割任务效率,减少了网络训练投入成本。4.3定性分析我们在各个数据集上对分割模型FCN、Unet、PSPNet、D2SNet、EANet、DeepLabv3+(DLv3+)以及本文分割模型 DFNet 的预测结果进行了可视化,可视化结

39、果见图 7。图 7 中的红色框突出显示了本文模型分割表现优于主流分割模型的区域;图 7 中的蓝色虚线框突出显示了上述 7 种分割网络分割效果较差的区域。其中,蓝色方框区域具有较大争议性,如图 7(b)所示。通过观察和比较输入图像,其自身也难以分辨是否真实包含分割目标,因此无法明确判断分割是否正确,CrackForest 分割结果中的蓝色方框区域则是完全的分割错误,从而不确定性较大。因此,本文将其统称为分割效果不佳以方便对比。从图 7 的红色方框标注区域可以看出,虽然表 3模型精度对比Tab.3Comparison of model accuracy%ModelFCN4U-Net5PSPNet1

40、2D2SNet14EANet24DeepLabv3+13DFNetDeepGlobe21F171.1974.2679.3080.9982.4380.8485.28IoU55.2659.0665.7068.5071.8669.7574.39Mas Roads22F178.5783.3979.1979.1181.6882.4585.02IoU64.7171.5165.5465.4468.3970.7274.07CrackForest23F175.0373.4772.6426.3576.0174.5276.31IoU60.0458.0657.0415.1762.5661.4762.47FALeath

41、erF192.4990.7686.7490.6192.9390.1093.42IoU86.0383.0976.5882.8486.8785.3986.92表 4模型参数对比Tab.4Comparison of model parametersModelFCNU-NetPSPNetD2SNetEANetDeepLabv3+DFNetParams/M32.9537.8929.4429.5134.8431.2227.70FPS/s55355658516194TPE/s343543370220443358146F1m/%79.3280.4776.4773.0683.2781.9884.69IoUm/%

42、66.5167.9366.2257.9972.4271.8373.95127第 39 卷液晶与显示本文分割模型并未采用复杂的解码结构以及跳跃连接,但是对于不同数据的细节把控却要优于其他分割模型。如图 7(a)中道路分割结果所示,本文分割模型不仅能够精确地分辨出道路之间的联系,而且能够精确地分割出道路的形状和轮廓,从而使分割的结果更接近于真实标签。从图 7 的蓝色方框标注区域也可看出,主流分割模型分割不佳的情况要远大于本文网络,甚至在D2SNet 中出现完全分割失败的情况。D2SNet出现上述情况的原因,很可能是因为在卷积过程中采用了过多的二维随机失活,这样会导致网络难以学习样本特征,从而导致分

43、割效果不佳。综上,对比不同模型的分割结果可知,本文模型能够满足二值分割任务需求,并且在某些方面还要远优于主流模型。对比实验也进一步说明,对于简单的二值分割任务,编码器的最终编码特征本身就已具有足够的细节信息,而无需额外的操作补充细节信息,联合上采样生成最终分割结果。5 结论本文提出了一种无解码器的高效实用的二值语义分割模型。该模型简化了主流分割模型结构,去除了分割网络中常用的复杂解码结构和跳跃连接,转而采用卷积重塑上采样模块 CRU完成最终特征编码上采样生成分割掩码,从而在很大程度上减少了模型运算,提高了模型分割速(a)遥感分割结果的可视化(a)Visualization of remote

44、sensing segmentation results CrackForest FALeather Images GT FCN U-NetPSPNet D2SNet EANet DLv3+DFNet(b)缺陷检测结果的可视化(b)Visualization of defect detection results DeepGlobe Mass roads Images GT FCN U-Net PSPNet D2SNet EANet DLv3+DFNet图 7结果的可视化Fig.7Visualization of results128第 2 期刘腊梅,等:DFNet:高效的无解码语义分割方法度

45、。融入改进后的轻量双重注意力机制EC&SA,因其引入了轻量空间注意力算子 ESA,从而使其在原有的注意力机制 ECA 提高特征信道交互的同时增添了特征的空间交互,从而提高了编码特征相邻像素间的信息交互能力,使网络精度在原有的基础上提升 1%2%,高于改进前所带来的性能提升。采用扰动交叉熵损失 PolyCE 替代常规损失,使原有损失系数从固定变为自适应,从而通过训练和实现得到与本文模型最为适合的损失系数,从而有效提高模型的像素分割精度。最终模型的理论分割速度最高可达 94 FPS,在多个数据集上的 F1 和 IoU 的分割精度平均值更是达到了 84.69%和 73.95%,与主流网络相当,极大提

46、高了模型分割任务效率。参考文献:1 杜敏敏,司马海峰.A-LinkNet:注意力与空间信息融合的语义分割网络 J.液晶与显示,2022,37(9):1199-1208.DU M M,SIMA H F.A-LinkNet:semantic segmentation network based on attention and spatial information fusion J.Chinese Journal of Liquid Crystals and Displays,2022,37(9):1199-1208.2 史健锋,高治明,王阿川.结合 ASPP 与改进 HRNet 的多尺度图像语

47、义分割方法研究 J.液晶与显示,2021,36(11):1497-1505.SHI J F,GAO Z M,WANG A C.Multi-scale image semantic segmentation based on ASPP and improved HRNet J.Chinese Journal of Liquid Crystals and Displays,2021,36(11):1497-1505.(in Chinese)3 欧阳柳,贺禧,瞿绍军.全卷积注意力机制神经网络的图像语义分割 J.计算机科学与探索,2022,16(5):1136-1145.OUYANG L,HE X,Q

48、U S J.Fully convolutional neural network with attention module for semantic segmentation J.Journal of Frontiers of Computer Science and Technology,2022,16(5):1136-1145.(in Chinese)4 LONG J,SHELHAMER E,DARRELL T.Fully convolutional networks for semantic segmentation C/Proceedings of the 2015 IEEE Con

49、ference on Computer Vision and Pattern Recognition.Boston:IEEE,2015:3431-3440.5 RONNEBERGER O,FISCHER P,BROX T.U-Net:Convolutional networks for biomedical image segmentation C/Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention.Munich:Spring

50、er,2015:234-241.6 BADRINARAYANAN V,KENDALL A,CIPOLLA R.SegNet:A deep convolutional encoder-decoder architecture for image segmentation J.IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(12):2481-2495.7 VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need C/Proceedings o

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服