收藏 分销(赏)

基于多级叠加和注意力机制的图像语义分割.pdf

上传人:自信****多点 文档编号:2266196 上传时间:2024-05-24 格式:PDF 页数:8 大小:2.75MB
下载 相关 举报
基于多级叠加和注意力机制的图像语义分割.pdf_第1页
第1页 / 共8页
基于多级叠加和注意力机制的图像语义分割.pdf_第2页
第2页 / 共8页
基于多级叠加和注意力机制的图像语义分割.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 49卷 第 9期2023年 9月Computer Engineering 计算机工程基于多级叠加和注意力机制的图像语义分割苏晓东1,2,李世洲1,2,赵佳圆1,2,亮洪宇1,2,张玉荣1,2,徐红岩1,2(1.哈尔滨商业大学 计算机与信息工程学院,哈尔滨 150028;2.黑龙江省电子商务与智能信息处理重点实验室,哈尔滨 150028)摘要:针对目标空间复杂度高容易造成小尺度目标丢失和边界分割不连续等问题,借鉴 DeepLabv3+网络结构,建立基于多级叠加和注意力机制的图像语义分割模型。在编码器阶段,采用不同尺度的平均池化操作构建多尺度平均池化模块,使用不同扩张率的空洞卷积组成多尺度叠加

2、模块扩大卷积运算的感受野,增强对局部特征的获取能力,并利用由通道和空间组成的注意力机制模块抑制无意义的特征,增强有意义的特征,提高对小尺度目标及局部边界的分割精度。在解码器阶段,通过双线性插值法对特征图进行分辨率恢复,并结合通道维度信息进行像素填充补充特征信息,并使用 Softmax 激活函数进行语义分割的输出预测。实验结果表明,该模型在 PASCAL VOC2012 和 SUIM 公开数据集上的平均交并比分别达到 85.6%和 60.8%,在整体分割精度和小尺度图像的分割效果上明显优于多数图像语义分割模型。关键词:语义分割;小尺度目标;注意力机制;多尺度叠加;多尺度平均池化开放科学(资源服务

3、)标志码(OSID):源代码链接:https:/ J.计算机工程,2023,49(9):265-271,278.英文引用格式:SU X D,LI S Z,ZHAO J Y,et al.Image semantic segmentation based on multi-level superposition and attention mechanism J.Computer Engineering,2023,49(9):265-271,278.Image Semantic Segmentation Based on Multi-level Superposition and Attentio

4、n MechanismSU Xiaodong1,2,LI Shizhou1,2,ZHAO Jiayuan1,2,LIANG Hongyu1,2,ZHANG Yurong1,2,XU Hongyan1,2(1.School of Computer and Information Engineering,Harbin University of Commerce,Harbin 150028,China;2.Heilongjiang Key Laboratory of Electronic Commerce and Intelligent Information Processing,Harbin

5、150028,China)【Abstract】To address the common problems such as small-scale targets being easily lost and boundary segmentation being discontinuous owing to the complexity of target space,a semantic image segmentation model based on multi-level superposition and attention mechanism is established usin

6、g the DeepLabv3+network structure.The encoder stage involves the following:average pooling operations are used at different scales to construct a multi-scale average pooling module;hollow convolutions with different expansion rates are used to form a multi-scale superposition module,expand the recep

7、tive field of convolution operations,and enhance the ability to obtain local features;an attention mechanism module composed of channels and spaces is utilized to suppress meaningless features,enhance meaningful features,and improve the segmentation accuracy of small-scale targets and target boundar

8、ies.In the decoder stage,bilinear interpolation is used to restore the resolution of the feature map,and pixel filling is combined with channel dimension information to supplement the feature information.A Softmax activation function is used for semantic segmentation output prediction.The experiment

9、al results show that the Mean Intersection over Union(MIoU)of this model on the PASCAL VOC2012 and SUIM public datasets reaches 85.6%and 60.8%,respectively.It significantly outperforms most image semantic segmentation models in 基金项目:黑龙江省自然科学基金(LH2022F035);哈尔滨商业大学研究生创新科研项目(YJSCX2022-743HSD);2022年哈尔滨商

10、业大学教师创新支持计划项目(XL0068)。作者简介:苏晓东(1965),男,教授,主研方向为计算机视觉;李世洲(通信作者)、赵佳圆,硕士研究生;亮洪宇,硕士;张玉荣、徐红岩,硕士研究生。收稿日期:2022-10-08 修回日期:2022-11-24 Email:图形图像处理文章编号:1000-3428(2023)09-0265-07 文献标志码:A 中图分类号:TP3122023年 9月 15日Computer Engineering 计算机工程terms of overall segmentation accuracy and small-scale image segmentation

11、performance.【Key words】semantic segmentation;small-scale target;attention mechanism;multi-scale superposition;multi-scale average poolingDOI:10.19678/j.issn.1000-3428.00659400概述 语义分割是计算机视觉的一项主要任务,根据存在的真实目标对图像中的每个像素进行类别标注,广泛应用于医疗影像1、VR 技术2、地理信息系统3、无人驾驶4-5等领域。以无人驾驶为例,无人驾驶需要在不断变化的环境中进行空间信息感知,即时规划路径和执行行

12、驶指令,因此需要利用语义分割技术识别以图像方式获取的空间信息,如车道标记、交通标志、周边车辆以及行人等,从而对精确识别图像中不同尺度目标提出了更高的要求。早 期 的 语 义 分 割 技 术 主 要 是 通 过 随 机 森 林(RF)6、支持向量机(SVM)7等技术实现特征提取,再使用匹配分类器进行逐像素分类。CHANDRA等8提出全卷积网络(FCN)并将该网络用于语义分割,从此深度学习技术在语义分割领域得到快速推广。SHELHAMER 等9和 RONNEBERGER 等10提出 U-Net网络模型,它是一个对称的编解码网络结构,通过复制剪裁的方式在解码过程中有效融合深 层 语 义 信 息 和

13、浅 层 语 义 信息。之后还出现了DeepLab 系列11-13和 CRFasRNN14-15等深度神经网络。DeepLab 系列中的 DeepLabv3+16-17通过使用空洞空间卷积池化金字塔(ASPP)18模块增大感受野,增强了像素之间的联系,从而更好地获取上下文信息,但这类网络往往容易丢失小尺度目标,边界分割也不连续。本文构建基于 DeepLabv3+的多级叠加和注意力机制的图像语义分割网络模型(DmsefNet),通过多级叠加的方式增强模型对局部特征的获取能力,并采用注意力机制模块对有意义的特征进行适度增强,从而提高小尺度目标和局部边界的分割精度。1相关工作 1.1DeepLabv3

14、+网络结构DeepLabv3+是经典的语义分割网络结构,是在使用 DeepLabv3网络作为编码器的基础上在其后面添加解码器而得到的新网络。DeepLabv3+的编码器部分从深度卷积神经网络(DCNN)19中提取图像的特征信息,利用 ASPP 模块中的不同扩张率(r)的空洞卷积来获得不同大小感受野的特征图。解码器部分将从 DCNN 中提取的低分辨率特征与上采样的高分辨率特征进行融合,以聚合不同区域的上下文信息,再利用 33卷积和 4倍双线性插值的方法恢复空间信息和细化目标边界,得到精度较高的预测图像。DeepLabv3+网络结构如图 1所示。1.2主干网络主干网络采用 MSRA 团队设计的轻量

15、级网络Xception,其作用是进行特征提取。在 Xception 的结构中采用深度可分离卷积代替 FCN 结构中的常规卷积20-21,深度可分离卷积的方式是逐通道卷积,即 一 个 通 道 只 被 一 个 卷 积 核 卷 积,之 后 使 用11 卷积进行通道整合。将深度可分离卷积应用于深度神经网络,可在保持常规卷积效果的同时大 量 减 少 网 络 参 数。Xception 网 络 结 构 如 图 2所示22。图 1DeepLabv3+网络结构Fig.1DeepLabv3+network structure266第 49卷 第 9期苏晓东,李世洲,赵佳圆,等:基于多级叠加和注意力机制的图像语义分

16、割2基于多级叠加和注意力机制的图像语义分割模型 DeepLabv3+网络中的 ASPP 模块的主要功能是对主干网络提取的特征图进行多尺度特征提取。由于 ASPP 模块中采用的 33 卷积造成了模型参数量较大,且使用的常规卷积还存在许多重叠信息的冗余计算,而使用不同扩张率的空洞卷积来增大感受野时,还会使许多有价值的全局特征和上下文信息不能被充分获取,不利于网络分割精度的提高。此外,对于输入特征层中有效采样点的稀疏性,ASPP空洞卷积常常会使大量的局部细节特征丢失,导致网络对于小尺度目标和局部边界的分割效果不佳。为此,建立基于多级叠加和注意力机制的图像语义分割模型,通过构造多尺度叠加模块和多尺度平

17、均池化模块实现多级叠加,充分利用上下文信息补充局部细节特征。引入注意力机制模块使网络更多地关注特征信息中有意义的特征,抑制无意义的特征,从而提高网络分割能力。所提模型的基本结构如图 3 所示,整体采用编码 器-解 码 器 结 构。编 码 器 部 分 包 含 主 干 网 络Xception、多尺度平均池化模块、由不同扩张率的空洞卷积组成的多尺度叠加模块以及注意力机制模块。在解码器部分,采用双线性插值法对特征图进行上采样,并结合通道维度信息进行像素填充,最后使 用 Softmax 激 活 函 数 进 行 结 果 预 测,输 出 预 测图像。2.1多尺度平均池化模块多尺度平均池化模块通过采用不同尺度

18、的平均池化对主干网络输出的特征图做进一步的信息提取,分别得到 44、66 和 88 像素的新特征图。这是对目标特征进行逐步细化的过程,通过对特征分块平均池化可以得到更精细的局部信息,结构如图 4所示。由于网络在训练过程中学习了过多的参数,增加了训练复杂度,容易发生过拟合现象。针对过拟合问题,在深度可分离卷积层后增加了 L2正则化操作,使网络权重参数尽可能少,以解决过拟合问题。图 3基于多级叠加和注意力机制的图像语义分割模型结构Fig.3Structure of image semantic segmentation model based on multi-level superpositio

19、n and attention mechanism图 2Xception网络结构Fig.2Xception network structure2672023年 9月 15日Computer Engineering 计算机工程2.2多尺度叠加模块在 DeepLabv3+网络中,由于 ASPP 空洞卷积在输入特征层中的采样点分布相对稀疏,大量的局部细节特征很容易被丢失,导致网络对于小尺度目标和局部边界的分割效果不佳。除此之外,使用不同扩张率的空洞卷积增大感受野来提取上下文特征,使许多有价值的全局特征和上下文信息不能被充分获取,降低了网络的分割能力。针对以上问题,多尺度叠加模块采用了不同尺度的空洞卷

20、积进行级联,用不同扩张率的空洞卷积得到不同的感受野,有效提取分布在不同范围内的细节信息。多尺度叠加模块结构如图 5 所示。首先,在第一层的结构中采用扩张率为 2、3、4、5、7的空洞卷积和全局池化操作进行初步的多尺度特征提取,得到不同范围内的细节信息,采用跳跃连接的方式将主干网络中的两个不同尺度的特征信息与多尺度特征输出进行通道连接,补充丢失的细节信息,再将得到的特征进行通道融合,形成特征图。然后,使用扩张率依次为 1、3、4、5、6 等不同的空洞卷积核对特征图进行局部和多尺度特征提取,使卷积核的采样更加密集,从而有助于进一步获取局部和小尺度目标特征的相关信息。最后,通过多尺度平均池化模块将上

21、层提取到的特征图与下层特征信息进行通道融合。在多尺度叠加模块中,将常规的 33 卷积层用深度可分离卷积层来替换,进一步减少网络设计中的参数量。2.3注意力机制模块从多尺度平均池化模块和多尺度叠加模块中得到的特征图包含目标位置、目标边缘等细节特征信息,但其中也存在很多无意义的特征信息,这些信息极大地影响了语义分割效果。注意力机制模块可以使网络更多地关注有意义的特征,抑制无意义的特征,从而提高分割效果。注意力机制模块结构如图 6所示。首先,通道注意力模块对输入特征图进行全局平均池化(GAP)和全局最大池化(GMP),将特征图转化为C11 的张量,同时将其送入具有两层隐藏层的感知机。然后,将得到的两

22、个特征通过 Sigmoid非线性激活函数计算出通道注意力权重Mc。最后,通过乘法计算把逐点通道注意力加权映射到原通道特征图,从而得到一个新的通道注意力的特征图(Re-weight),完成通道注意力对原始特征的重新标定。计算表达式如式(1)所示:Mc(F)=(W1(W0(Fcavg)+W1(W0(Fcmax)(1)其中:()表示 Sigmoid 非线性激活函数;Mc(F)表示由通道注意力机制得到的特征图,Mc(F)R,F为输入的特征图;Fcavg是对通道进行平均池化得到的特征图,Fcmax是对通道进行最大池化得到的特征图;W0和W1是感知机的权重。空间注意力模块将通道注意力模块的输出特征图作为输

23、入。首先基于通道维度分别进行全局最大池化操作和平均池化操作。之后经过卷积核为 77的卷积层做特征提取,同时将其通道数变为 HW1,其中,H 为特征图的高度,W 为特征图的宽度,经过Sigmoid 非线性激活函数的计算得出空间注意力的图 4多尺度平均池化模块结构Fig.4Multi-scale average pooling module structure图 5多尺度叠加模块结构Fig.5Multi-scale superposition module structure图 6注意力机制模块结构Fig.6Attention mechanism module structure268第 49卷

24、第 9期苏晓东,李世洲,赵佳圆,等:基于多级叠加和注意力机制的图像语义分割权重Mc。最后通过逐像素乘法计算,将Mc映射到输入特征图,完成空间注意力的标定。计算表达式如式(2)所示:Ms(F)=(f7 7(Fsmax;Fsavg)(2)其中:f7 7表示卷积核大小为 77 的卷积运算;Fsmax是对空间进行最大池化得到的特征图;Fsavg是对空间进行平均池化得到的特征图。2.4解码器模块解码器模块结构如图 7 所示。解码器模块的功能是对特征图进行分辨率恢复和特征信息补充。解码器部分将多尺度叠加模块和注意力机制模块得到的特征图与低层特征图进行融合,实现对在编码器中进行下采样操作时丢失的信息进行补偿

25、,丰富图像的特征信息。使用双线性上采样重构与输入图像分辨率相同的特征图,最后用 Softmax激活函数进行结果预测,输出预测图像。3实验结果与分析 3.1数据集实验使用 PASCAL VOC2012 和 SUIM 数据集,其中,PASCAL VOC2012用于模型训练和精度评估,SUIM 用于泛化性能测试。PASCAL VOC2012 数据集包含 1 464 张训练和 1 449 张验证图片,训练集和验证集都公开了对应的标签图,对于语义分割所使用 的 数 据 集 有 1 个 背 景 类 别 和 20 个 目 标 类 别。SUIM 数据集包含 1 525 张训练和 110 张测试图片,对于语义分

26、割所使用的数据集有人、鱼、沉船等 8个类别。3.2评价指标采用精度评价指标平均交并比(Mean Intersection over Union,MIoU)23-24对实验结果进行评价,MIoU是对每一类的交并比(Intersection over Union,IoU)进行求和再求平均。IoU 和 MIoU 的计算表达式如式(3)和式(4)所示:IIoU=TPTP+FP+FN(3)MMIoU=i=1cIic(4)其中:IIoU表示网络对某一类别的预测值与真实值之间的交集,再与并集之间的比值;c表示类别数;TP是真正例,即预测值是正例,真实值也是正例;FP表示伪正例,即预测值是正例,真实值是反例;

27、FN表示伪反例,即预测值是反例,真实值是正例。3.3实验参数设置实验在TensorFlow框架上实现,所用操作系统为Windows 10 64 位操作系统,处理器为 Intel CoreTM i7-10700KF CPU 3.80 GHz,显卡为 NVDIA GeForce RTX 2080 Ti,在网络超参数设置中,输入图像分辨率为 512512 像素,每轮训练的批量为 4,训练轮数为 100。损失函数使用交叉熵函数,用于图像语义分割任务的常用损失函数是像素级别的交叉熵损失,这种损失会逐个检查每个像素,对每个像素类别的预测结果与标签向量进行比较,表达式如式(5)所示:PL=-cytloga(

28、yp)(5)整个图像的损失就是对每个像素的损失求平均值,yp是预测的结果,yt是正确的结果。在实验中,学习率初始值设置为 0.001。主干网络采用 MSRA 团队设计的轻量级网络 Xception进行特征提取,并对 Xception 结构的权重进行冻结用于迁移学习。随着网络训练轮数的不断增加,当验证集的损失值在连续 3 轮训练不发生变化时,学习率变到原来的 1/2,同时设置了提前结束训练的参数。当验证集的损失值 10轮训练不发生变化时,结束训练。在数据增强方面,采用 0.7,1.1 的随机缩放和随机水平翻转以及对图像进行 10,10 的随机旋转操作,进一步增强网络鲁棒性。3.4消融实验分析对于

29、编码器中的主干网络,分别选用 VGG16、ResNet50、MobileNetv2 和 Xception 网络进行实验得出预测结果,并用多级叠加模块结构进行实验比较,结果如表 1 所示,可以看出 Xception 网络精度最高,因此选取 Xception网络作为主干网络。在实验过程中,通过对各个模块进行消融实验验证本文设计模块的有效性,实验结果如表 2所示,其 中,为 加 入 对 应 模 块 的 操 作,CBAM、SE、Coordinate Attention分别为卷积注意力机制、通道注意力机制和坐标注意力机制。由表 2 可以看出,DeepLabv3+模型在融合了多级叠加和注意力机制模块后,分

30、割效果得到显著提升。图 7解码器模块结构Fig.7Decoder module structure表 1不同主干网络实验结果对比 Table 1Comparison of experimental results of different backbone networks主干网络VGG16ResNet50MobileNetv2XceptionMIoU/%75.3679.9378.5382.45帧率/(帧s-1)25.5222.7337.3923.552692023年 9月 15日Computer Engineering 计算机工程3.5PASCAL VOC2012数据集上的实验结果与分析在

31、PASCAL VOC2012 数据集上将 DmsefNet 与11 种 典 型 的 语 义 分 割 模 型 进 行 比 较,各 模 型 在PASCAL VOC2012 数据集上的 MIoU 指标如表 3 所示。由表 3可以看出,DmsefNet的 MIoU指标相比于PspNet 提 升 了 3.0 个 百 分 点,相 比 于 DeconNet 和FCN 分 别 提 升 了 10.8 和 23.4 个 百 分 点,可 见DmsefNet在 MIoU上优于其他模型。DmsefNet 与 FCN 和 DeconvNet 的可视化结果如图 8 所示,每行的第 1 幅图像为输入原图,第 2 幅图像为标签

32、,第 35 幅图像分别为 FCN、DeconvNet和 DmsefNet 的 分 割 结 果。由 图 8 可 以 看 出:DmsefNet 相比于 FCN 和 DeconvNet 在牛角和鸟尾等的局部分割上效果更好并实现了边界的连续性;DmsefNet 相比于 DeconvNet 在椅子的分割上,没有误分割的情况发生,并且提高了对局部目标边界的分割效果,同时相对 FCN 保留了对椅子腿的正确分割。DmsefNet在验证集上的分割可视化结果如图 9所示,可以直观地看出 DmsefNet能够较好地分割出小尺度目标。总而言之,通过构建多尺度平均池化模块、多尺度叠加模块和注意力机制提高了局部特征的获取

33、能力,进一步增强了上下文信息的联系,提升了对图像局部目标和小尺度目标的分割效果。实验结果表明,DmsefNet基于多级叠加和注意力机制能够获得较好的图像语义分割结果,并且提高了图像语义分割精度,同时对于分割的局部视觉效果也有所提升。3.6SUIM 数据集上的实验结果与分析为了证明 DmsefNet 的泛化能力,采用 SUIM 数据 集 进 行 泛 化 实 验,DmsefNet 与 DeepLabv3+和U-Net模型在 SUIM 数据集上的 MIoU 结果如表 4 所示,可以看出 DmsefNet在 DeepLabv3+和 U-Net模型上分别提高了 19.1 和 16.4 个百分点。Dmse

34、fNet 与DeepLabv3+和 U-Net的可视化结果如图 10 所示,可以看出 DmsefNet 在目标边界的连续性上明显优于另外两种模型。表 2消融实验结果 Table 2Ablation experiment results%DeepLabv3+多级叠加CBAMSECoordinate AttentionMIoU81.1482.4584.4085.4385.60表 3不同模型在 PASCAL VOC2012数据集上的 MIoU比较 Table 3MIoU comparison of different models on the PASCAL VOC2012 dataset%模型De

35、conNetFCNSegNetDeepLabPspNetGCRFDANetDFNAPCNetCaC-Net25DMNet26DmsefNetMIoU74.862.259.966.482.673.280.982.780.785.184.485.6图 9DmsefNet分割可视化结果Fig.9Segmentation visualization results of DmsefNet图 8不同模型在 PASCAL VOC2012数据集上的分割可视化结果Fig.8Segmentation visualization results of different models on the PASCAL

36、VOC2012 dataset270第 49卷 第 9期苏晓东,李世洲,赵佳圆,等:基于多级叠加和注意力机制的图像语义分割4结束语 本文在 DeepLabv3+网络结构的基础上进行改进,保持其原有的编码器-解码器结构,建立基于多级叠加和注意力机制的图像语义分割模型。在编码器中将原有的 ASPP 模块加以修改并串联一个含有不同扩张率的扩张卷积组成的多尺度叠加模块,运用不同尺度的平均池化获得特征图像中不同尺度的信息,使模型能够充分利用上下文信息,补充丢失的局部细节特征。采用注意力机制模块聚焦于目标区域特征,有助于获取更明确的上下文语义信息的特征图。在解码器中运用双线性插值恢复图像分辨率。实验结果表

37、明,所提模型对小尺度目标以及局部边界具有相对较强的分割性能,同时相比于现有的语义分割模型,在整体分割精度上也有一定的提升。后续将对所提模型进行轻量化设计,进一步减少网络参数,使其适用于自动驾驶及医学分割领域。参考文献 1 JIANG F,GRIGOREV A,RHO S,et al.Medical image semantic segmentation based on deep learning J.Neural Computing and Applications,2018,29(5):1257-1265.2 KIM W,SEOK J.Indoor semantic segmentatio

38、n for robot navigating on mobileC/Proceedings of the 10th International Conference on Ubiquitous and Future Networks.Washington D.C.,USA:IEEE Press,2018:22-25.3 XIAO A R,YANG X F,LU S J,et al.FPS-Net:a convolutional fusion network for large-scale LiDAR point cloud segmentation J.ISPRS Journal of Pho

39、togrammetry and Remote Sensing,2021,176:237-249.4 CAO W G,HUANG X C,SHU F L.Location recognition of unmanned vehicles based on visual semantic information and geometric distribution J.Journal of Automobile Engineering,2021,235(2/3):552-563.5 KONG Y Y,ZHANG B W,YAN B Y,et al.Affiliated fusion conditi

40、onal random field for urban UAV image semantic segmentation J.Sensors,2020,20(4):993.6 KANG B,NGUYEN T Q.Random forest with learned representations for semantic segmentationJ.IEEE Transactions on Image Processing,2019,28(7):3542-3555.7 HO T K.Random decision forests C/Proceedings of the 3rd Internat

41、ional Conference on Document Analysis and Recognition.Washington D.C.,USA:IEEE Press,1995:278-382.8 CHANDRA S,KOKKINOS I.Fast,exact and multi-scale inference for semantic image segmentation with deep Gaussian CRFs M.Berlin,Germany:Springer International Publishing,2016.9 SHELHAMER E,LONG J,DARRELL T

42、.Fully convolutional networks for semantic segmentation J.IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(4):640-651.10 RONNEBERGER O,FISCHER P,BROX T.U-Net:convolutional networks for biomedical image segmentationM.Berlin,Germany:Springer International Publishing,2015.11 CHEN

43、L C,PAPANDREOU G,KOKKINOS I,et al.Semantic image segmentation with deep convolutional nets and fully connected CRFs EB/OL.2022-09-11.https:/arxiv.org/abs/1412.7062.12 CHEN L C,PAPANDREOU G,KOKKINOS I,et al.DeepLab:semantic image segmentation with deep convolutional Nets,Atrous convolution,and fully

44、connected CRFs J.IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,40(4):834-848.13 CHEN L C,PAPANDREOU G,SCHROFF F,et al.Rethinking Atrous convolution for semantic image segmentation EB/OL.2022-09-11.https:/arxiv.org/abs/1706.05587.14 CHEN L C,ZHU Y K,PAPANDREOU G,et al.Encoder-de

45、coder with Atrous separable convolution for semantic image segmentationM.Berlin,Germany:Springer International Publishing,2018.15 WANG Z M,WANG J S,YANG K,et al.Semantic segmentation of high-resolution remote sensing images based on a class feature attention mechanism fused with DeepLabv3+J.Computer

46、s&Geosciences,2022,158:104969.16 FU H X,MENG D,LI W H,et al.Bridge crack semantic segmentation based on improved DeepLabv3+J.Journal of Marine Science and Engineering,2021,9(6):671.17 ALOM Z,ASARI V K,PARWANI A,et al.Microscopic nuclei classification,segmentation,and detection with improved Deep Con

47、volutional Neural Networks(DCNN)J.Diagnostic Pathology,2022,17(1):1-17.18 MONTEIRO M,FIGUEIREDO M A T,OLIVEIRA A L.Conditional random fields as recurrent neural networks for 3D medical imaging segmentation EB/OL.2022-09-11.https:/arxiv.org/abs/1807.07464.(下转第 278页)图 10不同模型在 SUIM 数据集上的分割可视化结果Fig.10Se

48、gmentation visualization results of different models on the SUIM dataset表 43种模型在 SUIM 数据集上的 MIoU比较 Table 4MIoU comparison of three models on the SUIM dataset%模型DeepLabv3+U-NetDmsefNetMIoU41.744.460.82712023年 9月 15日Computer Engineering 计算机工程13 YANG X,YANG J R,YAN J C,et al.SCRDet:towards more robust

49、detection for small,cluttered and rotated objects C/Proceedings of International Conference on Computer Vision.Washington D.C.,USA:IEEE Press,2020:8231-8240.14 XU Y C,FU M T,WANG Q M,et al.Gliding vertex on the horizontal bounding box for multi-oriented object detection J.IEEE Transactions on Patter

50、n Analysis and Machine Intelligence,2021,43(4):1452-1459.15 WEI H R,ZHANG Y,CHANG Z H,et al.Oriented objects as pairs of middle lines EB/OL.2022-08-08.https:/arxiv.org/abs/1912.10694v3.16 LI Y Y,HUANG Q,PEI X A,et al.RADet:refine feature pyramid network and multi-layer attention network for arbitrar

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服