基于多分支网络的道路场景实时语义分割方法.pdf

资源描述

1、收稿日期：；修回日期：基金项目：国家自然科学基金资助项目（，）；北京市重点科技项目（）；北京市属高等学校高水平科研创新团队建设支持计划项目（）；协同创新中心资助项目（）作者简介：廖文森（），男，江西赣州人，硕士，主要研究方向为计算机视觉、图像分割；徐成（），男，重庆人，讲师，博士，主要研究方向为计算机视觉；刘宏哲（），女，河北涿州人，教授，博导，博士，主要研究方向为计算机视觉；李学伟（），男（通信作者），河南洛阳人，教授，博导，博士，主要研究方向为计算机视觉、高铁大数据（）基于多分支网络的道路场景实时语义分割方法廖文森，徐成，刘宏哲，李学伟，（北京联合大学北京市信息服务工程重点实验室；脑与认

2、知智能北京实验室，北京）摘要：针对目前实时语义分割方法存在大目标分割不准确、小目标信息丢失的问题，提出一种基于多分支网络的实时语义分割算法。首先，对双边分割网络进行优化，设计了金字塔分支扩大感受野，以覆盖视野内的大目标，充分地将上下文信息结合起来；其次，设计双边指导融合模块，为深层和浅层的特征映射提供指导信息，弥补小目标信息的损失。最后在数据集上进行验证，实验结果表明所提模型以的推理速度使平均交并比达到，与基准相比，精度提高了个百分点。所提方法采用金字塔分支，在扩大感受野的同时，获取不同尺度的语义边缘区域特性，增强对语义边界的建模能力，且提出的双边指导融合模块可以更有效地融合不同层次

3、的特征，弥补下采样造成的信息丢失，能够更好地指导模型学习。关键词：实时语义分割；轻量级；多分支网络；特征融合中图分类号：文献标志码：文章编号：（）：，（，）：，：；引言语义分割是计算机视觉的一项基本任务，是医学图像分割和自动驾驶等应用的基础工作。在深度学习技术发展迅速的今天，卷积神经网络在图像分割中的应用越来越广泛，它比传统人工特征提取算法表现出更好的效果，为后来的研究者们提供了一种新的研究角度，。同时，由于语义分割是一种密集的预测任务，神经网络需要输出高分辨率的特征、大感受野的特征图，以产生令人满意的结果。为了使高分辨率的特性得到更精确的恢复，文献，采用编码器获取深层特征的上下文语义信

4、息，并采用解码器实现对图像的浅层次和深层次特征的融合，从而逐渐恢复图像的空间和细节。此外，文献，采用空洞卷积（又称扩展卷积）代替了深度卷积神经网络（）卷积层的一部分，扩大网络整体的感受野，并且不改变特征图的分辨率，从而在获得丰富的上下文信息的同时保留更多的空间和细节信息。高分辨率的特征映射对于自动驾驶的场景解析尤为关键，因为自动驾驶需要在非常大的图像上执行，以覆盖广阔的视野。上述方法在推理阶段非常耗时，无法直接部署到实际的自主车辆上。由于对移动设备的部署要求日益提高，实时分割技术成为当前研究的热点。与编码器解码器范式不同，文献使用由细节分支和语义分支组成的双边分割网络。细节分支利用相对较宽

5、的卷积层来捕获空间细节，语义分支采用轻量化的网络模型作主干提取上下文信息。细节分支生成保留了更多空间细节信息的低级特征，而语义分支生成提取了更多上下文信息的高级特征，最后将两者融合输出预测。这种双边结构比当时的编码器结构实现了更高的推理速度。但是，双边分割网络采用轻量化的网络模型做主干（如），导致网络整体的感受野不够大，不足以覆盖比较大的对象，如公交车和栅栏等，速度上去了但精度也下降了。另外，低层次的特征具第卷第期年月计算机应用研究有丰富的空间信息，但是缺少语义信息，而高层次的特征却恰恰相反。单纯的结合很容易忽视这两者之间的多样性，不利于恢复小目标在网络降采样过程中丢失

6、的特征信息，如电杆和交通指示牌等，从而导致模型性能降低。由于其低层次特征噪声较大，不能提供高解析度的语义信息。同样，在较高层次的特征中，其空间信息较少，无法充分发挥其低层次特征的作用。基于以上观察，本文提出一种基于多分支的实时语义分割网络。网络的创新设计主要包括：）设计高效的独特金字塔分支，通过利用分层融合与金字塔结构的组合，获得丰富的上下文信息，以覆盖广阔的视野，在低分辨率的特征映射中，该模块的执行不会明显增加网络的推理时间；）设计双边指导融合模块，通过在低级特征中引入语义信息，在高级特征中引入高分辨率细节，将会有助于后续的特征融合，该模块可以弥补低级和高级特征之间的隔阂，并显著提高整体分割

7、质量。相关工作高精度的语义分割近年来，随着卷积神经网络的发展，一系列语义分割方法不断提升了最先进的性能。这些方法的高精度主要基于两种方法：）基于空洞卷积的方法，删除部分下采样操作，采用空洞卷积扩大感受野且不缩减分辨率来提取高分辨率的特征映射，以获取高性能；）基于编码器解码器结构的方法，采用为主干网络作编码器获取密集的特征映射，利用反卷积或线性插值作解码器并结合跳跃连接恢复高分辨率特征表示。但是，这两种架构都是针对高精度的语义分割，没有对运算速度和计算成本进行充分考虑。在基于空洞卷积的方法中，空洞卷积去掉了一部分的降采样操作，得到分辨率较大的特征图会占用更多的内存。而编码器解码器体系的方

8、法中，编码器大多采样较深的网络作为主干来获取密集的特征映射（如），这也就带来了巨大的计算量。然而，实时语义分割应用需要高效的推理速度。实时的语义分割面对这一需求，现有实时分割的方法主要采用两种方法来加速模型：）基于双边结构的方法，细节分支捕获空间细节生成高分辨率表示，语义分支捕获高级语义生成低分辨率表示，最后融合低级特征和高级特征并输出预测；）基于分解卷积的方法，采用深度可分离卷积通过将规则卷积一分为二来降低计算复杂度，提高推理速度，或分组卷积通过将信息流封装在更小的特征映射组中，降低了浮点数和参数数量。尽管两种算法都可以在一定程度上提升算法的运算效率，但是由于其对数据处理过程中的细节和

9、存储能力的降低，使得算法的精确性大大降低。所以，要在保证高精度和高效率的前提下，设计一个基于语义的实时分割体系结构，是一项非常有意义的工作。本文方法网络结构本文提出了用于实时语义分割的多分支网络（，），图显示了的设计细节。细节分支（，）仅对图像下采样三次以保持较大的分辨率，保留更多的空间细节，有利于对行人交通信号灯等小目标的精确分割；语义分支（，）采用事先经过训练的轻量化模型（）快速下采样提取上下文语义，输入到金字塔分支，并使用注意力细化模块（，）细化最后两个阶段的输出特征，用于后续的融合；金字塔分支（，）从语义分支中提取三个不同尺度的深层特征进行融合提供更大的感受野，有利于覆盖视野

10、内的公交车建筑等大目标。细节分支保留大量的空间信息，语义分支则提取丰富的语义信息，而金字塔分支提供更大的感知范围和更高层次的特征。它们互相配合，提高了性能。最后，在此基础上，对各个分支的输出特性进行逐步融合，以进行最后的预测。该方法既能实时又能保证高准确度。尽管细节分支的特征图分辨率较大，但是仅有个卷积层，所以并不需要大量的计算。对于语义分支，本文使用一个轻量级模型（）来快速向下采样。此外，虽然金字塔分支比细节分支包含更多卷积层和更复杂的融合策略，但由于输入分辨率仅为图像分辨率的，所以几乎不影响推理速度。图结构金字塔分支在深层网络中，感受野的大小大致上体现了模型能获得的上下文信息。尽

11、管在理论上的感受野已经大于图像尺寸，但是实际上会小得多。这就导致了很多网络不能充分地将上下文信息结合起来。所以本文利用从中提取三个不同尺度的深层特征进行融合。在中，采用、的卷积核生成对不同分辨率的特征图，经过卷积和上采样恢复到原始大小。在的基础上又再下采样了三次，提供了比单个时更大的感受域，能更好地识别如公交车等大目标。最后，这个先验信息再和原始特征图进行拼接，输入到卷积模块完成输出。由于高层次特征图的分辨率较低，故采用大的卷积核不会增加过多运算量。图显示了的设计细节。首先，输入特征图，依次经过步长为的卷积，卷积核的大小从左至右依次是、，为了加强不同分支间的信息交流，对

12、不同分支间的输出特征（，）进行融合得到，第和分支的关系，如式（）所示。最后，将不同分支输出的与进行拼接。（，）（，）（）双边指导融合模块一方面，由于卷积运算主要是为了增加感知域，即在空间上进行更多的特征融合。另一方面，简单的融合低级和高级特征带来的收益并不高，因为语义层级和空间层级之间有着隔阂，虽然低层特征含有丰富的空间细节，有利于深层特征恢复小目标的细节信息，但其同样具有大量的噪声，容易干扰深层特征中的语义信息。因此，本文设计了双边指导融合模块（，），注重信道间的联系，使模型能够自主地学习各通道特征的重要性，并用于指导融合有判别力的信息，如图所示。这不仅能够更有效地适应不同层第期

13、廖文森，等：基于多分支网络的道路场景实时语义分割方法次的特征映射，还能以简单的方式为各层次的特征映射提供指导信息，能够有针对性地利用中的低级特征恢复在和连续地下采样中所丢失的细节特征，利用和中的高级特征减少中的噪声，有利于低级特征和高级特征的融合，加强模型对小目标的识别能力。图的结构图的结构由两个指导融合模块（，）组成，在保留完整上下文信息的同时，对低级特征的空间细节有选择地融合特征点；反之，在保留完整空间信息的同时，对高级特征的上下文语义有选择地融合特征点。图显示了的设计细节。图的结构首先，将特征图输入，然后按照空间维度对其使用全局平均池化进行特征压缩，使特征通

14、道变为一个真实值；然后，利用卷积为各特征通道生成权重。其次，把各特征通道的输出权值作为每个特征通道的重要程度，再用乘法逐通道加权到上，实现在通道维度上对的重新校准，具体计算过程如式（）（）所示。（，），）（）（）然后，输入特征图，将重新校准的通过张量相乘逐像素融合到上。最后，将其和输入特征图相加，得到融合后的特征，如式（）所示。（）深度监督训练在进行图像分割时，必须对图像进行语义边缘的识别，其中，对于具有更高层次的特征，其上下文语义信息也更加丰富，因此，利用原始图像的分辨率为、的特征图，对网络的训练进行监督，使图像素点的语义信息能够与标签中的分类信息相匹配。首先，本文利用主

15、损失函数对的整体输出进行监测。其次，增加两个特定的辅助损失函数，用于监督和的输出。所有损失函数均为交叉熵损失函数，如式（）所示。最后，利用参数对主损失和辅助损失进行权值的平衡，如式（）所示。本文中，。通过联合损失，可以更有效地对模型进行优化。（）（）其中：为网络的输出预测。（；）（；）（；）（）其中：为融合输出的主要损失；为第个辅助损失的输入特征；在本文中，；为联合损失函数。本文只在训练阶段使用辅助损失。实验与分析本章首先介绍实验设置；其次，将与其他实时分割算法相比，得到在不同基准上的最终精度和速度结果；最后，研究的每个组成部分对验证数据集的影响。实验设置数据集侧重于从汽车

16、角度对城市街道场景的语义理解。其中，训练集为张图片，验证集为张图片，测试集为张图片。在本文实验中，只使用精细标注的图像来验证本文方法的有效性。注释包括个类，其中个用于语义分割任务。该数据集具有的高分辨率，对实时语义分割具有挑战性。本文实验所使用的软硬件环境为，显卡为。模型主干网络是数据集上预训练的。本文使用随机梯度下降（）算法来训练本文的模型，采用学习率衰减策略。初始学习率为，权值衰减率为，动量为。损失函数为交叉熵损失函数，批量大小为。此外，本文在数据集上对模型进行迭代训练。为了提高数据的质量，本文采用随机水平翻转、随机缩放和随机裁剪的方法，把输入的图像切成一

17、定的尺寸，以便进行训练。数据集的裁剪分辨率为。同时，本文采用了平均交并比（）的标准度量，指的是真实预测与预测分割之间重合的比例。具体的计算过程如式（）所示。（）其中：表示类别数量；表示正样本判断为正样本的数量；表示负样本判断为正样本的数量；表示负样本判断为负样本的数量。实验结果分析本文将在数据集上，将与其他最先进的方法进行比较，结果如表所示。表不同网络的实验结果模型本文模型采用作为骨干网络，在双边结构基础上加入了，增加了网络整体的感受野，并且高层次特征图的分辨率较小，因此额外的分支并不会带来太多的计算负担；在网络的特征融合部分加入了，能够更有效地利用来自不同分支的语义信息

18、和细节边界特征，提高了网络对于中小尺度目标的分割效果。从表中可看出，对比其他轻量级图像语义分计算机应用研究第卷割算法，在保证高精度的前提下仍达到了实时的效果，实现了分割精度和模型参数量之间最优平衡。此外，为更直观地展现的优势，本文选择了部分原图的分割结果，并进行了可视化的分析，同时与进行可视化对比，结果如图所示。从图中可以看出，对于公交车和栅栏之类的大目标可进行更有效的分割，而出现了类内不一致情况，将公交车和栅栏的一部分错误地分割成汽车和建筑。另外，在细杆和交通信号牌之类的小目标上同样可取得更好的分割效果，而出现了类间无差别的情况。可见，本文方法能获得更好的局部分

19、割效果，能更好地处理细微目标，且总体上很少出现类内不一致和类间无差别情况。图数据集上的可视化结果表展示了在数据集各个类别的出现频率、交并比（）和分数（）。由表可以看出平均交并比和平均分数分别达到了、。类别杆、交通信号灯、骑手、摩托车交并比分别为、，属于目标尺寸小，类别边界模糊，出现频率低的类别，分割任务具有一定的难度，故结果精度较低。从图预测分割结果来看，整体来说各类别分割出来的轮廓较为清晰，在类别频率高、尺度大的类别如栅栏和公交车类别，与原图对比两者无太大的差异。但在小目标如杆和交通信号牌类，虽然出现了边界模糊现象，但可以辨认出其所属类别。表

20、数据集上的评估结果类别出现频率交并比分数道路人行道建筑墙栅栏杆交通信号灯交通指示牌植被地形天空人骑手汽车卡车公交车火车摩托车自行车平均值消融实验在本节中，本文将验证中每个组件的有效性。在后续的实验中，本文使用作为基础网络，在验证数据集上比较和对整个网络带来的影响。如表所示，加入和后，平均精度值有了明显的提升，部分可视化结果如图所示。其中，采用时有个百分点的提升，使用时有个百分点的提升。通过引入，可以对图像进行逐步的恢复和优化，并能较好地提取出较高层次和较低层次特征的位置和信道信息，确保更有价值的通道和位置特征在特征图中占据较

21、大比例，更好地恢复小目标的信息特征。从图中的第一行可以看出，加了的能更有效地捕获到摩托车和交通信号牌这类的小目标。通过加入可以增大网络整体的感受野以覆盖广阔的视野，并通过单向融合策略并联不同尺度边界信息来获得每个卷积层的特征图信息，能够有效利用不同尺度的信息，提高不同特征图的信息利用率，增强网络对大目标的识别能力。从图中第二行可以看出，加了的对之前分割不太好的建筑和公交车基本都分割准确。最后的实验结果显示，在使用两种模块的情况下，网络的性能得到了个百分点的提升，从而使图像实时的分割精度得到了进一步的提高。表消融实验的结果图数据集上加入不同模块后的可视化结果结束语本文针对目

22、前的实时语义分割算法存在的缺陷，提出了一种基于多分支网络的实时语义分割网络（）。首先，通过金字塔分支来获取不同尺度的语义边缘区域特性，从而提高了对复杂的语义边界进行建模的能力，加强对大目标的识别能力。其次，引入新的融合模块，为各层次的特征映射提供指导信息，对来自细节分支和语义分支的不同级别特征图进行了高效的融合，提高对小目标细节信息的恢复能力。最后，在上的结果显示出，本文设计的网络在速度略微下降的情况下，极大地提高了道路场景实时语义分割的准确率，即使与参数量更大、输入图像更大的网络相比，准确率依然有显著提升。在语义分割任务上，高精度的网络模型并不缺乏，但如何能够在保持原有精度的情况下进一步提

23、高速度是未来研究的重点。参考文献：袁浩宾，赵涛，钟羽中融合深层差异特征的巢式语义分割网络计算机应用研究，（）：，（，第期廖文森，等：基于多分支网络的道路场景实时语义分割方法，（）：，）宋鑫，张荣芬，刘宇红集成语义分割网络的室内语义地图构建计算机应用研究，（）：（，（）：）刘腾，刘宏哲，李学伟，等基于无锚框分割网络改进的实例分割方法计算机工程，（）：，（，（）：，），：，（）：，：，：，：，（）：，：，：，：，：，（）：，：，（）：，：，（）：，：，：，：，：，：，：，：，：，：，：，：，：，：，：，：，：，：，：（上接第页），（）：张慧，韩新宁，韩惠丽基于滚动引导滤波的红外与可见光图像融合红外技术，（）：（，（）：），：，（）：，（）：，：，：，（）：，（）：，：，：，（）：，（）：，（）：，：，：，：计算机应用研究第卷

展开阅读全文