收藏 分销(赏)

基于双分支交互的实时语义分割算法.pdf

上传人:自信****多点 文档编号:3010234 上传时间:2024-06-13 格式:PDF 页数:8 大小:19.79MB
下载 相关 举报
基于双分支交互的实时语义分割算法.pdf_第1页
第1页 / 共8页
基于双分支交互的实时语义分割算法.pdf_第2页
第2页 / 共8页
基于双分支交互的实时语义分割算法.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、DOI:10.11991/yykj.202301006网络出版地址:https:/ Cityscapes 数据集上进行消融实验并与现有实时语义分割网络进行对比,验证了各模块的有效性,以 124.5f/s 达到了 77.9%的平均交并比(meanintersectionoverunion,MIoU);在 CamVid 数据集上以 211.1f/s 达到了 75.1%的 MIoU。相比现有的实时语义分割网络,本文算法更好地权衡了分割的精度和速度。关键词:实时语义分割;空间分支;上下文分支;特征融合;注意力机制;多尺度特征提取;池化金字塔;深度监督中图分类号:TP391.4文献标志码:A文章编号:1

2、009671X(2024)02004808Real-time semantic segmentation algorithm based on two-branch interactionYANGDi,CHENChunyuCollegeofInformationandCommunicationEngineering,HarbinEngineeringUniversity,Harbin150001,ChinaAbstract:Inresponsetocurrentissuesofthedual-branchreal-timesemanticsegmentationalgorithm,suchas

3、poorinteraction between the two branches and incomplete extraction of multi-scale contextual information,this paperproposesthedual-branchinteractivemulti-scalefusionnetworkforreal-timesemanticsegmentation(DIMFNet).Thealgorithmisbasedonthedual-branchstructureofthebilateralnetworkwithguidedaggregation

4、forreal-timesemanticsegmentation(BiseNetV2),withthespatialbranchextractingspatialdetailfeaturesandthecontextbranchextractingdeepcontextualfeatures.Anattentionguidedhigh-levelsemanticsfusionmodule(AGHSM)isproposedtoachieveinteractive fusion of the dual branches using the attention mechanism,so as to

5、obtain better spatial featurerepresentation.Furthermore,the algorithm improves the pyramid pooling module and introduces the multi-layeraggregationpyramidpoolingmodule(MAPPM)toextractmulti-scalecontextualfeatures,obtainingbettercontextualfeaturerepresentation.Thealgorithmconductsablationexperimentso

6、ntheCityscapesdatasetandiscomparedwithexisting real-time semantic segmentation networks,verifying effectiveness of each module.It achieves an averageintersectionoverunion(MIoU)of77.9%ataspeedof124.5framespersecond(f/s)ontheCityscapesdataset,and75.1%MIoUat211.1f/sontheCamViddataset.Comparedwithexisti

7、ngreal-timesemanticsegmentationnetworks,theproposedalgorithmcanbetterbalancesegmentationaccuracyandspeed.Keywords:real-timesemanticsegmentation;spatialbranch;contextbranch;featurefusion;attentionmechanism;multi-scalefeatureextraction;poolingpyramidsmodule;deepsupervision语义分割是图像处理中的一项基本任务,是对图像进行像素级的分

8、类,其作为场景理解的基础,广泛应用于自动驾驶1、医学诊断2、机器人视觉3以及场景解析4等领域。近年来,随着深度学习技术的快速发展以及计算机硬件计算能力的收稿日期:20230108.网络出版日期:20240205.基金项目:国家自然科学基金项目(61871142);中央高校基本科研业务费项目(3072020CFT0803).作者简介:杨迪,男,硕士研究生.陈春雨,男,副教授,博士.通信作者:陈春雨,E-mail:.第51卷第2期应用科技Vol.51No.22024年3月AppliedScienceandTechnologyMar.2024不断提高,基于卷积神经网络的语义分割方法大大提高了分割精度

9、,成为主流技术5。Shelhamer 等6提出的全卷积网络(fullyconvolutionalnetworks,FCN)将分类网络改为全卷积网络并连接局部信息和全局信息,实现了任意图片尺寸输入的语义分割任务;Ronneberger 等7提出的 U-net 网络采用了对称编码解码结构,使用跳跃连接融合深层细节 信 息 和 浅 层 空 间 信 息,指 导 特 征 上 采 样;Chen 等810提出的 DeepLab 系列算法从增大感受野和获取多尺度上下文信息入手,将空洞卷积和空间金字塔池化方法相结合,提出了空洞空间金字 塔 池 化 模 块(atrous spatial pyramid pooli

10、ng,ASPP)来提升语义分割效果。但由于语义分割实际应用于自动驾驶等场景中时,需要网络在保持可靠精度的前提下获得实时响应,上述这些网络结构复杂、参数量大、计算成本高,不适合实际应用;因此,实时语义分割技术应运而生。目前,实时语义分割的网络模型主要有编码器解码器架构和分支架构。编码器解码器架构首先通过下采样对输入特征图编码得到低分辨率的特征图,再通过上采样对低分辨率特征 图 解 码,得 到 与 输 入 相 同 维 度 的 输 出。Paszke 等11提出了实时语义分割网络 ENet,其采用较大的编码器和较小的解码器,在减少模型参数量的同时使用 PReLUs 激活函数确保分割精度;Romera

11、等12提出了 ERFNett,在 ENet 的基础上引入高效残差卷积,以略慢的速度得到了更精确的输出;Mehta 等1314提出了 ESPNet 系列,并行使用不同扩张率的空洞卷积增大感受野,提出了高效空间金字塔模块;这类方法主要思路是降低模块的复杂度,从而减少参数量。编码器解码器架构的实时语义分割模型主要思路就是轻量化设计解码器,但会出现模型在解码过程中不能很好地通过浅层网络恢复空间信息,导致分割精度不够。多分支架构旨在通过独立提取不同尺度的特征来解决轻量化模型空间特征恢复差的问题。Zhao 等15提出了 ICNet,其包括了 3 个分支,分别对 1/4、1/2 和原尺寸输入图像进行操作,输

12、出使用级联特征融合单元(cascadefeaturefusion,CFF)组合输出;Yu 等16提出了双边分割网络(bilateralsegmentationnetwork,BiseN-et),包含空间分支和上下文分支,分别用于保留空间细节特征以及有效提取语义信息,最后融合 2 分支实现局部信息和 全 局 信 息 的 有 效 融 合;Yu 等17提 出 了BiseNetV2,将残差连接和深度可分离卷积相结合用于骨干网络中,网络包括空间分支、上下文分支和聚合层 3 个部分,其将影响语义分割网络性能的低层次细节和高层次上下文分开处理,空间分支用于维护高分辨率特征图,从而保存每个单独像素的语义和位置

13、信息,故该分支具有宽通道和浅层的特点,因此网络只采用了残差单元搭建浅层网络进行特征提取,以获取丰富的空间信息,上下文分支用于捕获高层次的上下文信息,故 该 分 支 应 具 有 窄 通 道 和 深 层 的 特,但 是BiSeNetV2 仍存在浅层特征提取结构冗余、上下文信息提取不充分以及双分支信息交互不充分等问题;Fan 等18提出了 STDC,其提出了细节引导模块替代空间分支,将细节预测建模成二值分割任务;Pan 等19提出了 DDRNet,提出了深度双分辨率网络结构,对双分辨率进行简单相加融合,并提出了级联特征提取结构,优化特征表示,提升分割性能;Peng等20提出了 PP-LiteSeg,

14、其采用跳层连接结构,提出了统一注意力融合模块和简化金字塔模块来聚合上下文。多分支架构解决了编码器解码器架构不能很好地恢复空间信息的问题,但仍然存在一些不足,具体如下:1)多分支在提取特征时是独立的,缺少语义特征导致对于细节特征的解析不完善;2)上下文分支采用精简的轻量化网络,存在网络提取多尺度上下文特征能力弱的问题;3)多分支架构在最后阶段通常直接融合高维特征与低维特征,忽略了其特征错位,极大地影响分割精度。为此,本文针对多分支架构网络中存在的问题,在 BiseNetV2 网络设计的基础上,提出了双分支交互多尺度融合实时语义分割网络(dual-branchinteractive multi-s

15、cale fusion network for real-timesemanticsegmentation,DIMFNet)。网 络 结 构 如下:1)提出了注意力引导高级语义融合模块(attentionguidehigh-levelsemanticsfusionmodule,AGHSM),通过注意力机制来引导空间分支选择性学习上下文分支的高级语义特征,实现上下文分支与空间分支的融合,提升空间分支细节特征的表征能力,聚合得到更优的空间细节特征表示;2)提出了多层聚合金字塔池化模块(multi-layeraggregationpyramidpoolingmodule,MAPPM),第2期杨迪,等

16、:基于双分支交互的实时语义分割算法49增强上下文分支多尺度特征的提取与表征能力。总的来说,网络的设计采用了多分支思想,实现了推理速度及精度的良好权衡。1网络结构为了更好地权衡语义分割模型的速度及精度,本文提出的 DIMFNet 网络结构如图 1 所示,网络以 BiSeNetV2 的双分支结构为基准进行网络改进。为降低网络复杂度,首先用 3 层卷积对图像下采样 8 倍,其输出特征被空间分支和上下文分支共享。后续空间分支一直保持高分辨率特征图用于获取空间细节特征,在空间分支每一阶段引入 AGHSM,以此来融合上下文分支中的上下文特征,获取更好的空间细节特征表示;上下文分支每阶段 2 倍下采样,用于

17、提取局部和全局的上下文信息以得到丰富的语义特征,在上下文分支的末尾引入 MAPPM,以此来更好地获取多尺度上下文特征表示。1/21/41/81/8AGHSMAGHSMSeg-head1/81/8LossSeg-headAGHSMMAPPM1/641/321/16图1DIMFNet 结构1.1注意力引导高级语义学习融合模块双分支网络中的空间分支用于提取保存图像中的细节特征,而现有的双分支网络对于空间分支都只是独立采样或者与上下文分支简单交互,其提取的特征由于缺乏上下文语义特征,导致细节解析不完善。针对这个问题,本文结合注意力机制2122计算 2 个分支的特征图的相似度,从而引导空间分支的特征图有

18、选择性地学习上下文分支中重要的上下文特征,完善细节特征,实现了空间分支与上下文分支的有效融合。1.1.1注意力机制xx注意力机制的思想就是重点关注感兴趣的区域,滤除不重要的信息,提升信息处理速度,这一 思 想 应 用 在 了 很 多 领 域。卷 积 神 经 网 络(convolutionalneuralnetworks,CNN)中注意力机制的本质就是学习 2 个特征图的相关度,并利用相关度来更新其中一个特征图。例如对于特征图x 和 y,计算 2 个特征图学习得到相关度,再根据相关度更新特征图,从而得到更新后的结果:x=fatten(x,y)本文提出的 AGHSM 模块,就是利用注意力机制计算相

19、关性,实现空间分支有选择性地学习语义分支中的上下文特征。详细计算过程如下:xq=fQ(x)=XWQWk=fK(y)=YWKyv=fV(y)=YWVwatten=xqy1kx=wattenyv首先对输入特征图进行线性变换,然后进行点乘计算得到相关度矩阵,后续对相关度矩阵进行 Softmax 处理,最后将待变化的特征图与相关度矩阵点乘,得到根据相关度改变后的结果。网络实现如图 2 所示。MatMulSoftmaxMask(opt.)ScaleMatMul查询值键值属性值图2注意力机制模块基础实现50应用科技第51卷1.1.2模块实现注意力机制思想中最重要的就是通过计算得到特征图之间的相关性,因此结

20、合注意力机制设计了 AGHSM,实现利用特征图的相关度来引导空间分支特征图选择性学习上下文分支特征图的高级语义特征,网络中两分支输出的特征图处理过程为F1=BN(conv(Fsp)F2=U(BN(conv(Fcp)=Sigmoid(mean(F1F2)Fsp=Fsp(1)FcpFspFcpF1F2FspconvBNUmeanSigmoid式中:为空间分支输入特征图,为上下文分支输入特征图,为经处理的空间分支特征图,为经处理的上下文分支特征图,为相关度结果,为输出空间分支特征图,为卷积操作,为批标准化操作(bacthnormalization),为线性上采样操作,为沿通道求均值操作,为使用 Si

21、gmoid 激活函数生成权重系数。CHWCHW1HW模块详细结构如图 3 所示。首先对两分支特征图进行处理,得到尺寸均为的特征图,进 行 点 乘 运 算 将 2 个 特 征 图 对 应 位 置 的元素相乘,融合 2 个特征图特征,得到尺寸为的特征图,对特征图沿通道进行求均值运算,得到尺寸为相关度矩阵,并进行Sigmoid 操作。对两特征图对应位置元素的相似度成功建模,得到的结果 可以表征两分支特征图同一相对位置的像素相关性,如果某位置 较大,则表明此位置上下文分支与空间分支特征图相关度大,因此更信任上下文分支的信息,反之更信任空间分支,从而实现了空间分支选择性融合上下文分支中高级语义的目的,得

22、到了更好的空间特征图表示。11Conv11ConvBN+F1(CHW)F2(CHW)CHW1HWUpSampleBN1-Fsp(CHW)FspFcp(C1H1W1)MeanSigmoid图3AGHSM 结构1.2多层聚合金字塔池化模块在语义分割的应用场景中,其物体视觉常表现为多尺度,例如城市自动驾驶场景,其一张图片中存在多种尺寸的物体,同一物体在不同图片中也具有不同尺寸。因此,不同尺寸的感知信息对于语义分割的精度十分重要,网络的上下文分支需要更好地提取多尺度上下文特征,而现有的提取多尺度全局上下文的方法通常为金字塔池化模块(pyramidpoolingmodule,PPM)23,其对于不同尺度

23、的全局上下文特征聚合能力较差。针对此问题并综合考虑实时性,本文提出了 MAPPM,进一步挖掘上下文分支中低分辨率特征图的多尺度全局上下文信息,模块结构如图 4 所示。X1/64Conv11Conv 33Conv 33Conv 33Conv 11Y1/64ConcatConv 33Conv 11UpSampling+Conv 11UpSamplingConv 11UpSamplingConv 11UpSampling1/1281/2561/512AvgPoolKernel=5,stride=2,padding=2AvgPoolKernel=5,stride=2,padding=2AvgPoolK

24、ernel=5,stride=2,padding=2Global AvgPoolf1f2f3f4f5图4MAPPM 结构11f1f2f3f4f5借鉴 PPM 并考虑网络实时性,以上下文分支中分辨率为 1/64 的特征图作为输入,用串联的平均池化操作代替并联池化,降低多次池化操作的特征图尺寸,从而提升速度,分别生成分辨率像素值大小为 1/128、1/256、1/512 的特征图,并使用全局平均池化生成单像素输出。为保持全局特征的权重,得到每个层级的特征图后使用的卷积调整通道数并上采样至输入特征图尺寸。由于多次粗暴的池化操作会导致信息丢失,串联池化得到的特征图信息表征差,因此借鉴 Res2Net

25、网络中的分层残差连接24,将各个层级的特征图逐层相加融合,优化深层特征表示,最后得到、和这 5 个具有相同通道数的特征图,将这5 个层级的特征图拼接,从而聚合得到含有更丰富的多尺度上下文的特征图,拼接情况如图 5 所示。第2期杨迪,等:基于双分支交互的实时语义分割算法51f1f2f3f4f5图5特征图拼接1.3损失函数语义分割任务有多种常用的损失函数,包括交叉熵损失(crossentorpy,CE)、FocalLoss、DiceLoss 等,其中 CE 平等对待各样本,FocalLoss 着重关注困难样本,DiceLoss 适用于样本不均的情况。为了便于网络的训练优化,除网络正常损失的计算之外

26、,额外在空间分支第一层输出部分添加辅助损失以深度监督网络优化,对 2 部分损失加权求和,得到最终的网络损失:Lf=Ln+LeLfLnLe式中:、和分别为最终损失、正常损失和额外监督损失;为辅助损失系数,经实验对比,本文 取 0.5。正常损失和额外监督损失均采用交叉熵损失函数,交叉熵损失 LCE为LCE=Mc=1yclog(pc)Mycpc式中:为总类别数量;表示当前像素是否属于c 类,只能取 0 或 1,如果预测类别与样本类别一致则取 1,不一致则取 0;为预测样本属于 c 类别的概率。2网络性能对比实验2.1数据集简介20481024960720实验所使用的数据集为自动驾驶数据集Citysc

27、apes 和 CamVid。Cityscapes 数据集包含国外多个城市街道场景,是语义分割常用的数据集。对于语义分割任务,整个数据集包含 24998 张图片,其中精细标签 5000 张,粗糙标签 19998 张。本实验对 5000 张精细标签图片按 631 的比例划分为训练集 2975 张、验证集 500 张和测试集155 张,共包含 19 个类别,预处理图像像素值大小为,数据集样本如图 6 所示。CamVid数 据 集 包 含 4 段 视 频,分 辨 率 像 素 值 大 小 为,每段视频中每隔 30 帧对一帧图片进行像素级标注,包含 11 个类别,训练集、验证集和测试集共包含有 367、1

28、00 和 233 个连续 30 帧的小型片段,每个片段中有一帧图片具有像素级语义标签,数据集样本如图 7 所示。(a)原图(b)精细标签图6Cityscapes 数据集样本(a)原图(b)精细标签图7CamVid 数据集样本2.2模型评价指标针对实时语义分割任务,常用如下指标来评价模型性能。1)平均交并比:平均交并比(meanintersectionoverunion,MIoU)是评价模型精度的重要指标,分别对每个类别计算真实标签与预测结果的交并比,然后对所有类别的交并比求均值。2)推理速度:模型推理速度是衡量模型实时性能的重要指标,常使用帧率(framespersecond,FPS)来衡量。

29、52应用科技第51卷3)模型计算量:模型计算量是衡量模型复杂度的重要指标,常使用参数量(Params)和每秒浮点运算次数(gigafloating-pointoperationspersecond,GFLOPs)来衡量模型计算量。2.3实验环境本文实验的硬件平台搭载 Ubuntu18.04 操作系 统,GPU 采 用 RTX3090,CPU 采 用 I7-8700K,内 存 大 小 32GB;软 件 环 境 如 下:CUDA-11.1,PyTorch-1.10.1。2.4实验测试为了验证 AGHSM 和 MAPPM 的效果,本文在 Cityscapes 数据集上进行消融实验,以没有任何附加的双

30、分支网络作为对比基准,测试图片像素值大小均为 20481024,并在 Cityscapes 数据集和CamVid 数据集上与目前的实时语义分割方法进行对比分析。对于 Cityscapes 数据集,训练图像分辨率像素值大小调整为 10241024;对于CamVid数据集,共有 701 张图像可用于语义分割任务,划分 为 训 练 集 367 张、验 证 集 233 张 和 测 试 集101 张,训练图像分辨率像素值大小为 960720。2.4.1AGHSM 结构有效性实验为了验证 AGHSM 结构的有效性,设计实验对比基准网络 Base(两分支间无融合)、传统的直接 相 加 融 合 方 式(Bas

31、e+add)与 本 文 提 出 的AGHSM 融 合 方 式(Base+AGHSM)在 Cityscapes数据集上的效果,此阶段网络均未加入多尺度上下文提取模块,对比结果如表 1 所示。表1不同融合方式实验对比结果方法MIoU/%Params/106GFLOPsFPS/(f/s)Base70.84.235.6148.7Base+add72.24.737.5138.3Base+AGHSM72.64.337.9140.2由表 1 可以看出,加入 AGHSM 模块后,网络分割性能有明显提升,保持了分割速度并且提升了 分 割 精 度,相 较 于 Base 方 法 MIoU 提 升 了1.8 个百分点

32、,帧率降低了 8.5;相较于 Base+add方法 MIoU 提升了 0.4 个百分点,帧率提升了 1.9。由此可以看出 AGHSM 对于分割性能有较大提升。2.4.2MAPPM 结构有效性实验为了验证 MAPPM 结构的有效性,设计实验对 比 PPM、并 联 MAPPM 和 本 文 采 用 的 串 联MAPPM 在 CityScapes 数据集上的效果,此阶段网络均采用上一小节中效果最好的方法,对比结果如表 2 所示。表2不同池化金字塔模块实验对比结果方法MIoU/%Params/106GFLOPs FPS/(f/s)Base+AGHSM+PPM75.55.035.4128.4Base+AG

33、HSM+并联MAPPM77.95.335.3122.6Base+AGHSM+串联MAPPM77.95.135.8124.5由表 2 可以看出,加入串联 MAPPM 模块后,网络分割性能有明显提升,相较于 Base+AGHSM+PPM 方法 MIoU 提升了 2.4 个百分点,帧率下降了3.9,证明了串联 MAPPM 对于网络精度有所提升;相 较 于 Base+AGHSM+并 联 MAPPM 方 法,MIoU 没有明显变化,参数量有所下降,帧率提升了 1.9。实验证明了串联方式对于分割速度有所提升。2.4.3辅助损失系数选取消融实验为了选取合适的辅助损失系数,因辅助损失起到辅助监督网络训练的作用

34、,因此系数不能设置过大。本节参考 PSPNet23中关于辅助损失的实验,将辅助损失系数分别设置成 0、0.3、0.5 和0.7,进行对比实验,实验结果如表 3 所示。表3不同辅助损失系数对比实验辅助损失系数MIoU/%077.00.377.50.577.90.777.6从表 3 可以看出,辅助损失系数的设置有效提升了网络分割精度,当辅助损失系数设置为0.5 时 MIoU 最高,达到 77.9%。因此本文辅助损失系数设置为 0.5。2.4.4对比实验结果前文验证了 AGHSM 和 MAPPM 结构的有效性,本小节对比现有实时语义分割网络和本文提出 DIMFNet 在 Cityscapes 数据集

35、和 CamVid 数据集上的表现。表 4 给出了 DIMFNet 在 Cityscapes数据集上的测试结果。表4DIMFNet 网络 Cityscapes 数据集上的测试结果类别交并比/%类别交并比/%road98.1sky94.8sidewalk84.7person81.9building92.6rider62.8wall58.7car94.9fence61.4truck79.9pole64.8bus86.3traffic70.9train75.3trafficsign78.3motorcycle62.1vegetation92.5bicycle76.3terrain63.2MIoU77.

36、9第2期杨迪,等:基于双分支交互的实时语义分割算法53由 表 4 可 以 看 出,网 络 测 试 MIoU 达 到77.9%,其中网络对 fence、motorcycle、rider、terrain等目标尺寸小、类别边界模糊、出现频率低的类别分割效果差。网络测试的可视化结果如图 8 所示,可以看出整体分割效果较好,对于轮廓清晰、出现频次高的目标分割结果接近于标签,但对于尺寸小、边界模糊的目标出现了分割边缘不清和错误分类的情况,例如图 8(c)中所圈出的区域,由于目标尺寸小、边界模糊,其分割效果较差。图 9 给出了网络在 CamVid 数据集上测试的可视化结果。可以看出,网络对道路上不同距离的车

37、辆、行人、道路、路灯以及交通标识等物体识别效果优异。(a)原图(b)标签(c)预测图图8网络在 Cityscapes 数据集上可视化结果(a)原图(b)标签(c)预测图图9网络在 CamVid 数据集上可视化结果960720表 5 和表 6 分别给出了本网络与现有其他实时语义分割网络在 Cityscapes 数据集和 CamVid数据集上的性能对比。Cityscapes 数据集上图片输入像素值大小为 20481024,CamVid 数据集上图片输入像素值大小为。表5Cityscapes 数据集上网络性能对比模型MIoU/%Params/MBGFLOPsFPSBiSeNet68.45.8014.

38、8105.8BiSeNetV272.621.1156.0SFNet(DF2)77.810.5387.6STDC1-Seg5071.9250.4DDRNet-S77.45.7036.3101.6PP-LiteSeg-T274.9143.6DIMFNet77.95.1035.8124.5表6CamVid 数据集上网络性能对比模型MIoU/%FPSBiSeNet65.6175.0BiSeNetV268.7116.0SFNet(DF2)70.4134.0STDC1-Seg73.0197.6DDRNet-S74.7230.0PP-LiteSeg-T273.3222.3DIMFNet75.1211.1从表

39、 5 中可以看出,在 Cityscapes 数据集上,DIMFNet 无论是在精度和速度上,均表现优异。DIMFNet 以 124.5 的帧率达到了 77.9%的 MIoU,MIoU 均高于其他对比网络,帧率慢于 STDC1-Seg5 和 PP-Liteseg-T2,但 精 度 MIoU 却 分 别 高8 和 3 个百分点;从表 6 可以看出,在 CamVid 数据集上,DIMFNet 网络以211.1 的帧率达到了75.1%的 MIoU,MIoU 均高于其他网络,同样表现优异。由此可见,DIMFNet 更好地权衡了分割网络的速度与精度。3结论针对语义分割任务对实际场景精度及速度的优化需求,本

40、文从双分支实时语义分割网络出发,提出了基于双分支交互的实时语义分割网络DIMFNet。1)网络针对现有实时语义分割网络双分支交互差、多尺度上下文信息提取不完善的缺点,提出了 AGHSM 和 MAPPM,有效地利用上下文特征完善空间细节特征,并且更好地提取了多尺度上下文特征。2)在 Cityscapes 数据集上进行了一系列消融实验,并与现有语义分割网络进行对比,所提出的 AGHSM 和 MAPPM 有效地提高了网络性能,实验表明了 DIMFNet 更好地权衡了分割速度及精度。但网络对于小物体和物体边缘的分割效果较差,接下来的研究重点将是如何在分割过程中更好地提取边缘信息,以获得更好的边缘分割效

41、果。参考文献:王雨.面向自动驾驶场景的高效实时语义分割方法研究D.南京:南京邮电大学,2020.1吴玉超,林岚,王婧璇,等.基于卷积神经网络的语义分割在医学图像中的应用 J.生物医学工程学杂志,2020,37(3):533540.2徐风尧,王恒升.移动机器人导航中的楼道场景语义分354应用科技第51卷割 J.计算机应用研究,2018,35(6):18631866,1886.菅永胜,朱大明,付志涛,等.多层级特征优化融合的遥感图像分割网络 J/OL.激光与光电子学进展,2022:114.(20220717).20221016.https:/ J.计算机工程与应用,2022,58(8):4557.

42、5SHELHAMER E LONG J,DARRELL T.FullyconvolutionalnetworksforsemanticsegmentationJ.IEEEtransactions on pattern analysis&machine intelligence,2017,39(4):640651.6RONNEBERGER O,FISCHER P,BROX T.U-net:convolutionalnetworksforbiomedicalimagesegmentationC/Proceedings of the International Conference onMedica

43、lImageComputingandComputer-AssistedIntervention.Cham:Springer,2015:234241.7CHEN L C,PAPANDREOU G,KOKKINOS I,et al.SemanticimagesegmentationwithdeepconvolutionalnetsandfullyconnectedCRFsEB/OL.(20141222)20221018.https:/doi.org/10.48550/arXiv.1412.7062.8CHEN L C,PAPANDREOU G,KOKKINOS I,et al.DeepLab:se

44、mantic image segmentation with deepconvolutionalnets,atrousconvolution,andfullyconnectedCRFsJ.IEEE transactions on pattern analysis andmachineintelligence,2018,40(4):834848.9CHEN L C,PAPANDREOU G,SCHROFF F,et al.Rethinking atrous convolution for semantic image seg-mentationEB/OL.(20170607)20221013.h

45、ttps:/doi.org/10.48550/arXiv.1706.05587.10PASZKEA,CHAURASIAA,KIMS,etal.ENet:adeepneural network architecture for real-time semantic seg-mentationEB/OL.(20160607)20221019.https:/doi.org/10.48550/arXiv.1606.02147.11ROMERA E,LVAREZ J M,BERGASA L M,et al.ERFNet:efficient residual factorized ConvNet for

46、real-time semantic segmentationJ.IEEE transactions onintelligenttransportationsystems,2018,19(1):263272.12MEHTAS,RASTEGARIM,CASPIA,etal.ESPNet:efficient spatial pyramid of dilated convolutions forsemanticsegmentationC/ProceedingsoftheEuropeanConferenceonComputerVision.Cham:Springer,2018:561580.13MEH

47、TA S,RASTEGARI M,SHAPIRO L,et al.ESPNetv2:a light-weight,power efficient,and generalpurpose convolutional neural networkC/2019 IEEE/14CVF Conference on Computer Vision and PatternRecognition.Piscataway:IEEE,2019:91829192.ZHAOHengshuang,QIXiaojuan,SHENXiaoyong,etal.ICNet for real-time semantic segmen

48、tation on high-resolution imagesC/Proceedings of the EuropeanConferenceonComputerVision.Cham:Springer,2018:418434.15YU Changqian,WANG Jingbo,PENG Chao,et al.BiSeNet:bilateral segmentation network for real-timesemantic segmentationC/Proceedings of the EuropeanConferenceonComputerVision.Cham:Springer,

49、2018:334349.16YU Changqian,GAO Changxin,WANG Jingbo,et al.BiSeNetV2:bilateralnetworkwithguidedaggregationforreal-timesemanticsegmentationJ.Internationaljournalofcomputervision,2021,129(11):30513068.17FAN Mingyuan,LAI Shenqi,HUANG Junshi,et al.RethinkingBiSeNetforreal-timesemanticsegmentationC/Procee

50、dings of the the IEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway:IEEE,2021:97119720.18PANHuihui,HONGYuanduo,SUNWeichao,etal.Deepdual-resolution networks for real-time and accuratesemanticsegmentationofroadscenesJ.IEEEtransactions on intelligent transportation systems,2023,24(3):34

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服