基于边界图卷积的机器人行驶路障场景解析.pdf

资源描述

1、浙江科技学院学报，第35卷第5期，2 0 2 3年10 月Journal of Zhejiang University of Science and TechnologyVol.35 No.5,Oct.2023doi:10.3969/j.issn.1671-8798.2023.05.006基于边界-图卷积的机器人行驶路障场景解析徐高，周武杰，叶绿（浙江科技学院信息与电子工程学院，杭州310 0 2 3）摘要：【目的】为了使地面机器人行驶过程中能准确识别出路障以避免发生碰撞，提出一种边界-图卷积双向监督网络（boundary-graph convolution bidirectional sup

2、ervised network,B-GCBSNet)的场景解析算法。【方法】首先使用统一变换器（unifiedtransformer，U n iFo r m e r)作为主干网络分别对输人的RGB（r e d，g r e e n，b lu e，红绿蓝）图像和深度图像进行特征提取；其次利用设计的多模态上下文融合模块（multimodalcontextfusionmodule，MCFM将深度图包含的丰富空间信息补充给RGB图以提取更丰富的语义特征，在解码阶段设计了双向监督模块（bidirectional supervision module,BSM)；再次，将含有更多全局信息的低级特征进行边缘化处

3、理以得到边界信息，并通过二分类交叉损失函数（binarycross entropyloss,BCELoss）进行监督，而包含更多局部信息的高级特征，则通过图卷积来补充特征的全局上下文，以弥补传统卷积神经网络（convolutional neural network，C NN)提取高级特征时忽略局部位置信息的不足，并通过多分类交叉熵损失函数（cross entropyloss,CELoss)进行监督；最后将边界特征和分割特征进行整合得到最终的场景解析结果。【结果】在机器人行驶路障场景数据集（groundmobile robotperception，G M R P）上进行了试验，与已有的先进方法相

4、比，B-GCBSNet的平均交并比（mean inter-section over union,MloU)达到了 9 3.54%，平均类别准确率(mean classification accuracy,mAcc)达到了 9 8.8 9%，像素准确率(pixel accuracy,PA)达到了9 8.8 5%。【结论】B-GCBSNet能较为准确地识别障碍物及可行驶道路，从而为地面机器人行驶过程中障碍物的识别研究提供了参考。关键词：场景解析；边界监督；多尺度；上下文；图卷积中图分类号：TP389.1文献标志码：A文章编号：16 7 1-8 7 9 8（2 0 2 3)0 5-0 40 2-10

5、Robot driving road scene parsing based on boundary-graphconvolution bidirectional supervised networkXU Gao,ZHOU Wujie,YE Li(School of Information and Electronic Engineering,Zhejiang University ofScience and Technology,Hangzhou 310023,Zhejiang,China)Abstract:Objectivel In order to identify roadblocks

6、 accurately and avoid collisions duringground robot driving,a scene parsing algorithm was proposed on the basis of boundary-graph收稿日期：2 0 2 2-0 9-19基金项目：国家重点研发计划项目（2 0 2 2 YFE0196000）；国家自然科学基金项目（6 2 37 142 2）通信作者：周武杰（19 8 3一：），男，浙江省临海人，副教授，博士，主要从事人工智能和视觉大数据研究。E-mail：。第5期convolution bidirectional sup

7、ervised network(B-GCBSNet).Method Firstly,the unifiedtransformer(UniFormer)served as the backbone network to extract the features of the inputRGB(red,green,blue)image and the depth image respectively;then,the designed multimodalcontext fusion module(MCFM)was applied to supplement the rich spatial in

8、formationcontained in the depth image to the RGB image and extract richer semantic features;in thedecoding stage,a bidirectional supervision module(BSM)was designed to marginalize the low-level features with more global information to get the boundary information and supervise withthe binary cross e

9、ntropy loss(BCELoss)function,while for the high-level features with morelocal information,graph convolution was used to model the global context of the features tomake up for the defect that the traditional convolutional neural network(CNN)ignores locallocation information when extracting high-level

10、 features,and the multi-class cross-entropy loss(CELoss)function was used for supervision;finally,the boundary features and segmentationfeatures were integrated to obtain the final scene parsing results.Result Experiments werecarried out on the robot roadblock scene dataset called ground mobile robo

11、t perception(GMRP).Compared with existing advanced methods,the mean intersection over union(MIoU)of the proposed algorithm reaches 93.54%,the mean classification accuracy(mAcc)isup to 98.89%and the pixel accuracy(PA)tops 98.85%.Conclusion The proposed algorithmcan identify obstacles and travelable r

12、oads more accurately,so as to provide a reference forstudies on obstables during ground robot driving.Keywords:scene parsing;boundary supervision;multi-scale;context;graph convolution徐高，等：基于边界-图卷积的机器人行驶路障场景解析403场景解析是指从像素的角度对图像中的不同对象进行分割，并对原始图像中的每个像素进行标注。移动机器人在我们的日常生活中越来越受欢迎，无论是帮助家庭清洁室内的扫地机器人，还是快递仓库分

13、栋和运输货物的物流机器人，以及近年来许多研究者开发的智能巡检机器人，都为人们的日常生活和工业生产提供了帮助。因此，对移动机器人道路上的障碍物进行准确识别是非常重要的。近年来，国内外许多研究者通过对RGB(red，g r e e n，b lu e，红绿蓝）图像进行解析来识别出目标物体。传统的卷积神经网络存在图像输人大小固定的缺点，为了解决这一问题,Long等1用卷积层取代了传统卷积网络背后的全连接层，使网络能够输入任意尺寸的图像。为了解决特征提取中信息丢失的问题，Ronneberger 等2-51通过设计跳跃连接结构，利用非对称卷积和空洞卷积来产生足够的感受野，设计腹侧路径网络侧重提取语义信息，

14、背侧路径网络侧重提取空间信息等方法来有效地补充特征提取过程中丢失的信息。虽然以上方法都取得了较好的效果，但在遮挡、光照不足等对比度较低的场景下，RGB场景解析方法对分割精度的性能还有待增强。随着技术的进步，深度图因其包含RGB图像所缺少的空间信息而被广泛用于补充RGB图像以提高场景解析的性能。然而，传统的全卷积网络由于感受野有限，在降采样过程中会丢失一部分信息，导致分割精度降低，并且没有充分利用多模态之间的互补性，甚至在交互过程中产生大量的噪声，,从而影响分割。为了突破这些限制，研究者们提出了一些方法来增强RGB和深度图两个模态之间的上下文信息和模态交互。Lee等6-10 I通过深度感知传统卷

15、积神经网络（convolutionalneuralnetwork,CNN）、注意力辅助模块、分离和聚合的门模块、非对称输入流等方法来增强RGB和深度图两个模态之间的特征交互，有效地利用了深度图丰富的空间信息。Lin等11-14 通过嵌人细节选择模块，从通道和空间两个维度对不同尺度特征依赖进行计算，再通过交换网络分支有选择地使用特征等方法，弥补了RGB和深度信息不同尺度丢失的上下文信息，并对不同尺度的上下文信息进行了增强。上述研究在场景解析上取得了较好的效果，但是因为受到传统卷积神经网络的限制，对局部信息与全局信息不能有效地进行获取，而变换器模型则能更好地捕获长期依赖关系。针对上述问题，本研究首

16、404先通过使用统一变换器（unified transformer，U n iFo r m e r）作为主干网络获取特征信息，并通过图卷积来更有效地捕获包含局部信息的高级特征；然后设计了多模态上下文融合模块（multimodal contextfusionmodule,MCFM)将深度图丰富的空间信息加权给RGB及双向监督模块（bidirectional supervisionmodule,BSM)进行边界和语义信息的双向监督；最后在机器人行驶路障场景数据集（ground mobilerobot perception,GMRP)上进行了评估。1B-GCBSNet模型传统的卷积神经网络在训练过程

17、中会丢失部分局部信息，长距离特征捕获能力较为低效，而近年来，变换器模型在图像分割领域的应用结果表明，在特征抽取性能上要优于传统的卷积神经网络；且卷积神经网络无法处理非欧几里得结构数据，而图卷积的应用则能解决这一方面的不足。因此，本研究提出一种基于边界-图卷积双向监督网络（boundary-graph convolution bidirectional supervised network，B-GCBSNet)以解决传统卷积神经网络存在的问题。模型训练整体流程如图1所示，将RGB和深度图输入网络中进行训练并得到边界及语义的预测图，在训练过程中通过边界及语义的真实值图对预测图分别进行监督，并通过语

18、义预测图计算评价指标。RGB深度图B-GCBSNet的整体结构如图2 所示，首先将RGB图像和深度图像分别输人经过预训练的统一变换器中进行训练，分别得到四个阶段的RGB和深度输出特征张量，即图2 中的RGB特征（1,2,3,4)和深度特征（1,2,3,4)，我们将其分别命名为R（i=1,2,3，4)和D,i=1,2,3,4)；其次将第一阶段的RGB特征和深度特征的输出特征张量输入多模态上下文融合模块中，以利用深度特征包含的丰富空间信息对RGB特征进行信息的补充，并通过增大感受野丰富上下文信息来得到信息增强后的输出特征张量，将该输出经过多模态上下文融合模块分别对下一阶段的RGB图像和深度图像进行

19、信息的补充；再次将经过信息补充过后的RGB和深度图两个不同模态特征输人多模态上下文融合模块中，得到新的信息增强后的输出特征张量，之后的操作过程与前一阶段一致；最后利用边界-图卷积双向监督模块对特征进行解码并通过图卷积来丰富特征的全局上下文，输出特征图的边界图像与分割图像结果并进行监督。1.1多模态上下文融合模块有效地整合上下文信息可以帮助捕捉物体的位置和定位，为此本研究设计了多模态上下文融合模块以有效整合上下文信息，多模态上下文融合模块结构如图3所示。首先通过双线性插值的方式将输入的特征图调整为相同的大小，并通过一个卷积核大小为3的卷积块将通道数调整为相同数量；然后将RGB和深度图两个模态特征

20、相加得到融合特征图，并将该融合特征图连续经过三层的卷积层来增大感受野以浙江科技学院学报训练边界预测图预测B-GCBSNet预测训练语义预测图计算评价指标图1模型训练整体流程Fig.1 Overall flow of model training第35卷监督真实值图监督第5期徐高，等：基于边界-图卷积的机器人行驶路障场景解析405RGB特征1RGB图像MCFM深度特征1深度图像RGB特征2MCFMMCFM深度特征2FRGB特征3MCFMMCFMMCFM深度特征3FRGB特征4MCFMMCFMMCFM深度特征4FMCFM边界-图卷积双向监督模块二分类交叉熵损失函数F.多分类交叉熵损失函数边界图像图

21、2 B-GCBSNet 的整体结构Fig.2(Overall structure of B-GCBSNet双线性插值自适应平均池化输入特征1卷积块双线性插值自适应平均池化输入特征2卷积块得到更丰富的上下文信息，从而得到范围更广的语义信息及色彩、纹理等细节信息。在这一过程中，还通过残差的方式将上一层的输出和下一层的输出进行拼接以减少信息的丢失，再通过卷积块将通道数调整为输人特征图的大小得到融合分支的输出Mi。需要注意的是，卷积层相比卷积块多出了批量归一化或激活函数的操作，以输入特征为R,、D，为例，该过程表示如下：(1)Ci=f(febr(g,),gi);(2)C2=f.(febr(ci),ci

22、);(3)M;=Conv(f(fcbr(c2),C2)。(4)式(1)（4)中：f，为双线性插值操作；Conv为卷积操作；fcbr由卷积核大小为3的卷积操作、批量归一化操作和Relu激活函数构成；f。表示张量的拼接操作；ci为g；经过fcbr操作后和未经过febr操作的g；进行张量拼接后的输出，C同理。对于输人特征的两条分支，首先通过自适应平均池化以有效地获取上下文信息，并经过一层卷积层得到新的特征，为了减少计算量，在卷积操作时将输人特征的通道数缩减到了原来的1/16，接着经过Relu激活函数及卷积操作将通道数恢复到原来大小，然后通过Sigmoid激活函数与原始输人进行元素相乘得到加权后的特征

23、图，并分别与M，相加，最后通过张量拼接操作将特征图进行拼接，并为了降低参数量，通过卷积操作调整通道数大小，得到多模态上下文融合模块的融合特征输出F;，以R、D，输人为例，其计算公式如下：分割图像卷积层(Relu-7张量张量卷积层卷积层拼接拼接卷积层(Relu-?图3多模态上下文融合模块结构Fig.3Structure of MCFMg;=Conv(fi(R,)+Conv(fi(D,);张量卷积层卷积块拼接拼接张量卷积块输出特征F406式(5)（9)中：ri为RGB分支输出;os为Sigmoid激活函数;o,为Relu激活函数；fap为自适应平均池化操作；d，为深度图分支输出；rrd和drd.分

24、别为RGB分支和深度图分支的融合输出。经过多模态上下文融合模块进行RGB和深度信息的融合后，我们还利用其信息增强后的输出特征分别对下一阶段的RGB和深度信息进行了信息增强；接着再进行RGB和深度信息两个模态的特征融合，从而得到四个阶段的融合特征输出F,（i=1,2,3，4)。1.2双向监督模块图卷积在整个图像中全局传播信息，相比基于条件随机场的方法提供了更强的表征能力。提取特征图的边界信息则能更好地校准输出特征的边界像素的准确率，以此来提升最终的分割效果。因此我们设计了利用图卷积增强分割特征并进行监督同时对边界特征进行监督的双向监督模块。双向监督模块结构如图4所示，其中P（i=1,2)表示语义

25、分割的输出特征,E表示边界的输出特征，G表示经过图卷积后的输出特征。F4分割特征P分割特征P,卷积层边界特征E因为低级特征包含更为丰富的全局信息，所以边界信息由前两层低级特征通过边界特征块生成。首先将前两层的融合特征输出F1、F输入经过一层卷积调整为相同通道数；然后通过双线性插值调整为相同大小，并通过拼接的方式进行整合；最后通过卷积层调整通道数得到特征图的边界特征E，其计算公式如下：(10)exp(b)E=ConvfabXexp(b)对于高级特征，首先通过解码块来进行上采样操作，解码块首先将融合特征F，输人卷积核为3的卷积层中并通过转置卷积进行上采样。其次与F;-1拼接后再经过一层卷积层得到解

26、码块的输出，解码块操作公式如下：式（12)中：TransConv为转置卷积操作。然后通过图卷积来生成特征的全局上下文，定义输人张量为XERND,D表示特征维数，N表示特征图高与宽的乘积，图卷积公式定义如下：(13)式(13)中：o为非线性激活函数；A为描述图的邻域关系的邻接矩阵；W为权值矩阵。最后将经过图卷积的输出和经过解码块的输出通过元素相加，并通过卷积层和拼接操作之后得到粗浙江科技学院学报r;=R,Xo,(Conv(or(Conv(fap(R,);d;=D,Xo,(Conv(or(Conv(fap(D,);F,=Conv(f.(M,ri,d;,rrd.i,drd.,)。F解码块张量卷积层拼

27、接张量拼接图4双向监督模块结构图Fig.4Structure of BSMb=f(Fi,Conv(f,(F2);u=fcbr(f。(T r a n s C o n v(fc b r(F,),Fi-1)。G=o(AXW)。第35卷(5)（6)rd.i=r;+M;(7)drd.i=d,+M;(8)(9)F2图卷积解码块卷积层G边界特征块(11)(12)第5期略的分割特征图Pi；将PI与边界特征图E通过拼接操作来进行边界的校准，并得到校准后的分割特征图P2。该过程表示如下：(14)P2=Conv(f.(E,Pi)。(15)1.3损失函数本研究的算法分别对边界和语义信息进行了监督。因为边界只包含了边缘

28、及背景，因此使用了二分类交叉熵损失函数lb进行监督，该损失函数计算公式如下：(16)l,=wy,Xlga,+(1-y,)Xlg(1-,)。(17)式（16)（17)中：N为样本数；yn为标签值；，为模型预测值；w为权重值。对分割结果的预测图则采用了多分类交叉损失函数1进行监督。由于有2 个监督对象，因此进行了两次交叉熵损失函数的计算，该损失函数计算公式如下：(18)式(18)中：sgnic为样本i的符号函数，如果样本i的真值等于类别c取1，否则取0；pic为观测样本i属于类别的预测概率。2试验结果与分析2.1记试验数据集与评价指标试验数据来自Wang等15提出的机器人行驶路障场景数据集，该数据

29、集涵盖了机器人工作的30 个常见场景（例如人行道和广场），以及机器人在真实环境中可能遇到的18 种不同的道路异常。数据集包含了38 9 6 张RGB图像，以及对应的深度图像和真实值图。RGB图像的原始大小为12 8 0 7 2 0 像素，数据集包括三大类：未标记区域、可行驶区域和道路异常。在试验中，将数据集进行随机分配，其中310 1张作为训练集，42 0 张作为测试集，37 5张作为验证集。为了验证模型的可扩展性，我们还在公共数据集纽约大学深度数据集（NYU-DepthV2）上进行了试验。NYU-DepthV2数据集包含1449 张RGB及对应的深度图像和真实值图，其原始大小为48 0 X6

30、40像素，包含类别41类。试验选用平均交并比（mean intersection over union，M Io U）和平均类别准确率（mean classificationaccuracy，m A c c）及像素准确率（pixel accuracy，PA)作为评价指标，计算公式如下：(19)k+1FN+Fp+T,(A1+A,+.+A,)fmAe=nTp+TNfpA=T,+TN+FP+FN式(19)（2 0)中：Tp为真正例;F为假反例;Fp为假正例;T为真反例;A，为第n个类别的准确率。2.2试验设置试验使用 PyTorch框架实现，并在NVIDIA Titan XP图形处理器上进行训练和测

31、试。在训练过程中，为了减少参数数量和训练时间，将图像的输人尺寸裁剪到38 4X384像素，批大小设置为3，学习率设置为4e一3,动量设置为0.9，权重衰减为5e一4。网络参数由随机梯度下降优化器进行更新。整个训练在40 轮后结束。在训练阶段，还使用了数据增强，包括随机剪切、随机水平翻转、亮度及对比度调整。2.3试验结果与分析将B-GCBSNet与现有先进的6 个模型进行了比较，包括两阶段级联解码网络（two-stage cascaded徐高，等：基于边界-图卷积的机器人行驶路障场景解析Pi=Conv(f。(u,fc b r(u+G);1fMIou=407N3Tp(20)(21)408decod

32、er，T CD)、R G B-热力融合网络16 1（RGB-thermal fusion network,RTFNet)、三流自注意力网络12(three-stream self-attention network,TSNet)、四叉树生成网络(quadtree generating networks,QGN)、残差编码解码网络（residual encoder-decodernetwork，R ED Ne t）和实时融合网络（real-timefusion net-work,RFNet)，以此来验证本模型的有效性。B-GCBSNet与其他模型对比结果见表1。%未标记区域可行驶区域模型AccT

33、CD98.92RTFNet98.80TSNet98.72QGN98.63REDNet98.78RFNet98.87B-GCBSNet98.95由表1可知：B-GCBSNet在三个类别上都达到了较好的分割效果，且平均交并比、平均类别准确率和像素准确率都达到了最高。其中红、蓝、绿分别表示排名第1、2、3的结果。为了更直观地观察 B-GCBSNet在分割结果上带来的提升，本研究列举了多个模型与B-GCBSNet在该4张图上的可视化图，其包含了4张图像的RGB图、深度图及真实值图（groundtruth，G T)，各模型的可视化图比较见图5。由图5可知，B-GCBSNet在预测结果上都最为接近真实值图

34、。从前2 张图中可以看到，所有模型都对障碍物（图中黄色部分)出现了分割上的失误，第1张图的柱子的上半部分，因为背景比较复杂，出现了将背景误判为障碍物的情况，也出现了将柱子误判为背景导致柱子不连续的情况；第2张图的水桶则因为光线较暗，图像较模糊，导致了模型对障碍物的识别产生困难，而B-GCBSNet因为捕获了目标的空间位置信息和更准确的上下文关系，在去除噪声、识别图像中各像素之间的关联性更加有效，因此它在障碍物识别的完整度上达到了最好的效果；从后2 张图则可以看出，对于可行驶区域（图中紫色部分)中笔直凹陷的边界部分，模型对其判断大多是较为光滑的曲线，因为这一段边界像素之间的关联较为模糊，不能准确

35、地进行分割，而B-GCBSNet有对边界信息进行校准，强化了边界部分的区别与联系，因此在可行驶区域的边界判断达到了最好的效果。浙江科技学院学报表1B-GCBSNnet与其他模型对比结果Table1Comparison results between B-GCBSNet and other modelsPAIoUAcc98.0298.4097.8898.4497.8298.3197.8298.4497.9798.5397.9498.3698.2698.70第35卷道路异常mAccoUAcc96.9698.2596.7794.1696.6297.8296.6397.7298.5398.7296.8

36、898.7497.3199.02MIoUIoU83.8282.1381.4477.1584.2684.6785.0598.6998.6098.5498.5398.6898.6698.8598.5297.1398.2998.2598.6898.6698.8992.9392.2691.9690.7693.0593.1693.54(a)RGB2.4试验消融结果与分析为了验证设计的模块的有效性，本研究对B-GCBSNet进行了一系列消融试验，通过用简单的元素相(b)Depth(c)GTFig.5Comparison among model visualizations(d)RedNet图5各模型的可视

37、化图比较(e)RFNet(f)RTFNet(g)TCD(h)B-GCBSNet第5期加来替代原来的模块，其他训练条件与训练完整网络时一致。B-GCBSNet消融试验结果见表2。由表2 可知，在去掉了设计的模块后，网络性能有所下降，当仅去除了多模态上下文融合模块（MCFM)时,MloU下降了2.43百分点，mAcc下降了0.0 9百分点，PA下降了0.2 2 百分点；当仅去除了双向监督模块（BSM)时，MIoU下降了2.6 6 百分点，一mAcc下降了0.2 9 百分点，PA下降了0.3百分点；而当去除两个模块，仅使用基础网络进行训练时，MIoU下降了12.6 百分点，mAcc下降了2.0 2

38、百分点，PA下降了1.0 3百分点。这表明设计的模块是有效的。MCFM消融可视化图见图6，由图可知，在去除了多模态上下文融合模块后，预测图将部分背景误判为了道路障碍，对像素之间的关联性出现了大量的误判；而未去除多模态上下文融合模块的预测图则更为准确地预测出了目标类别。这表明该模块对提取多模态上下文信息的能力更强。徐高，等：基于边界-图卷积的机器人行驶路障场景解析BSMPAmAccMIoUUniformer97.82Uniformer98.55Uniformer98.63Uniformer98.8598.8993.54409表2 B-GCBSNet消融试验结果Table 2Results of

39、B-GCBSNet ablation experiment主干网络MCFM%96.8780.9498.6090.8898.8091.11(a)GTBSM消融可视化图见图7，由图可知，在去除了双向监督模块后，虽然预测图预测出了障碍物的大致方位，但是对其整体形状的判断还是存在着缺陷；而未去除双向监督模块的预测图则大致预测出了目标物体的整体形状，在轮廓上更为精确。这表明双向监督模块不仅有边界修复能力而且对像素之间的关联性判断也更为准确。(b)去MCFM图6 MCFM消融可视化图Fig.1Visualizations of MCFM ablation(c)B-GCBSNet(a)GT基础网络消融可视化

40、图见图8，由图可知，当仅简单地将RGB和深度图进行相加进行训练时，不论是语义信息还是目标物体的细节都出现了较大的误差，而B-GCBSNet则在语义和细节信息上更接近真实图。这表明B-GCBSNet对分割效果有很大的提升。(b)去BSM图7 BSM消融可视化图Fig.7Visualizations of BSM ablation(c)B-GCBSNet(a)GTFig.8Visualizations of basic network ablation(b)基础网络图8 基础网络消融可视化图(c)B-GCBSNet4102.5可扩展性分析为了验证B-GCBSNet的可扩展性，本研究在公共数据集NY

41、U-Depth V2上进行了试验，并与多个经典模型进行了比较，包括全卷积网络（fullyconvolutionalnetwork，FC N）、基于注意力网络（attentionbasednetwork，A C Ne t）、上下文切换网络（switchable contextnetwork,SCN)、共注意力网络17（co-attention network，CANet）和特征重构网络1s（f e a t u r e r e c o n s t r u c t i o nnetwork,FRNet）。在试验过程中，随机分配7 9 5张图像作为训练集，6 54张图像作为测试集，并将图像大小裁剪为3

42、8 4X384像素。NYU-DepthV2试验结果对比见表3。由表3可知,B-GCBSNet在性能上优于现有先进的方法，这表明本模型具有较强的可扩展性。3结语本研究针对地面机器人行驶过程中对周围环境感知问题提出了B-GCBSNet模型。基于Uniformer主干网络分别对RGB和深度图进行训练，并在训练过程中将每个阶段的输出特征，通过设计的多模态上下文融合模块，将深度图丰富的空间信息补充给RGB图，通过多尺度补充特征图的上下文信息；利用双向监督模块分别对特征图的边界及语义特征进行监督。在语义分支，还利用了图卷积来建模特征图的全局信息，补充了下采样过程中丢失的信息。在一个地面机器人行驶道路数据集

43、上对B-GCBSNet进行了测试,并与多个先进的模型进行了比较,结果表明,B-GCBSNet在性能上达到了最优。为了验证模型的可扩展性，还在NYU-Depth V2数据集上进行了试验，结果表明B-GCBSNet依旧具有良好的性能。在未来的工作中，我们将会重点研究如何在保证准确率的情况下，降低网络的复杂性，以实现实时性能，方便实际应用。参考文献：1J LONG J,SHELHAMER E,DARRELL T.Fully convolutional networks for semantic segmentationJJ.IEEETransactions on Pattern Analysis a

44、nd Machine Intelligence,2017,39(6):640.2RONNEBERGER O,FISCHER P,BROX T.U-Net:convolutional networks for biomedical image segmentationCJ/Proceedings of the International Conference on Medical Image Computing and Computer-Assisted Intervention.Cham:Springer,2015:234.3LI G,YUNI,KIM J,et al.DABNet:depth

45、-wise asymmetric bottleneck for real-time semantic segmentationCJ/Proceedings of the British Machine Vision Conference.Cardiff:University of Cardiff,2019:11357.4HOU Q B,ZHANG L,CHENG M M,et al.Strip pooling:rethinking spatial pooling for scene parsingCJ/Proceedings of the IEEE Computer Society Confe

46、rence on Computer Vision and Pattern Recognition.Seattle:IEEE/CVF,2020:4003.5WU Y,HUANG Z M,LONG H Y,et al.A semantic segmentation network simulating the ventral and dorsalpathways of the verebralvisual cortexJJ.IEEE Access,2021,9:47230.6LEE S,PARK S J,HONG K S.RDFNet:RGB-dmulti-level residual featu

47、re fusion for indoor semantic segmentationCJ/Proceedings of the International Conference on Computer Vision.Venice:IEEE,2017:4980.7WANG W Y,NEUMANN U.Depth-aware CNN for RGB-D segmentationCJ/Proceedings of the EuropeanConference on Computer Vision.Munich:Springer,2018:135.8HU X X,YANG K L,FEI L,et a

48、l.ACNet:attention based network to exploit complementary features for RGB-Dsemantic segmentationCJ/Proceedings of the International Conference on Image Processing.Taipei:IEEE,2019:1440.浙江科技学院学报Table 3 Comparison of experimental results%模型PAFCN8s77.6ACNetSCNCANetFRNetB-GCBSNet第35卷表3NYU-DepthV2试验结果对比o

49、f NYU-Depth V2mAcc46.177.164.677.666.578.068.8MIoU34.048.350.751.553.655.1第5期9CHEN X K,LIN K Y,WANG J B,et al.Bi-directional cross-modality feature propagation with separation-and-aggregation gate for RGB-d semantic segmentationCJ/Proceedings of the European Conference on ComputerVision.Glasgow:Spri

50、nger,2020.561.1oJ ZHOU W J,YUAN J Z,LEIJ S,et al.TSNet:three-stream self-attention network for RGB-D indoor semanticsegmentationJJ.Intelligent Systems,2021,36(4):73.11LIN D,ZHANG R M,JI Y F,et al.SCN:switchable context network for semantic segmentation of RGB-D imagesJJ.IEEE Transactions on Cybernet

展开阅读全文