基于深度学习的图像全景分割综述.pdf

资源描述

1、计算机科学与探索Journal of Frontiers of Computer Science and Technology1673-9418/2023/17(11)-2605-15doi:10.3778/j.issn.1673-9418.2304063基于深度学习的图像全景分割综述毕阳阳1,2，郑远帆1,2，史彩娟1,2+，张昆1,2，刘健1,21.华北理工大学人工智能学院，河北唐山 0632102.河北省工业智能感知重点实验室，河北唐山 063210+通信作者 E-mail:scj-摘要：随着深度学习与图像分割的不断发展，图像全景分割已经成为计算机视觉领域的一个研究热点，许多图像全

2、景分割方法被提出。综述了基于深度学习的图像全景分割研究方法，首先介绍了图像全景分割国内外的研究现状，对已有图像全景分割的方法，根据网络架构优化任务的不同进行分类阐述，主要包括特征提取优化的图像全景分割、子任务分割优化的图像全景分割、子任务融合优化的图像全景分割、其他图像全景分割；其次简单介绍图像全景分割中常用的 MS COCO、PASCAL VOC、Cityscapes、ADE20K和 Mapillary Vistas五个数据集以及全景质量（PQ）和解析覆盖（PC）两种评价准则；然后对典型图像全景分割方法在不同数据集上进行了性能比较；接着列举了图像全景分割在医学、自动驾驶、无人机、农业、畜牧业

3、、军事等领域的应用；最后指出了现有方法在复杂场景应用、实时性、冲突等方面存在的不足与挑战，并探讨了基于简单统一框架的图像全景分割、实时的高质量图像全景分割、复杂应用场景下图像全景分割等未来研究方向。关键词：图像全景分割；深度学习；特征提取；子任务分割；子任务融合文献标志码：A中图分类号：TP391Survey on Image Panoptic Segmentation Based on Deep LearningBI Yangyang1,2,ZHENG Yuanfan1,2,SHI Caijuan1,2+,ZHANG Kun1,2,LIU Jian1,21.College of Artifi

4、cial Intelligence,North China University of Science and Technology,Tangshan,Hebei 063210,China2.Hebei Key Laboratory of Industrial Intelligent Perception,Tangshan,Hebei 063210,ChinaAbstract:With the continuous development of deep learning and image segmentation,image panoptic segmentationhas become

5、a research hotspot in the field of computer vision,and many image panoptic segmentation methods havebeen proposed.This paper summarizes the research methods of image panoptic segmentation based on deep learning.Firstly,the research status of image panoptic segmentation at home and abroad is introduc

6、ed,and the existing imagepanoptic segmentation methods are classified according to different optimization tasks in the network architecture,mainly including image panoptic segmentation optimized by feature extraction,image panoptic segmentation optimizedby sub-task segmentation,image panoptic segmen

7、tation optimized by sub-task fusion,and other image panopticsegmentation.Secondly,5 commonly used datasets,i.e.MS COCO,PASCAL VOC,Cityscapes,ADE20K andMapillary Vistas,and 2 evaluation criteria,i.e.panoptic quality(PQ)and parsing covering(PC)in image panopticsegmentation are briefly introduced.And t

8、hen,performance comparison of typical image panoptic segmentationmethods has been conducted on different datasets.Thirdly,the application of image panoptic segmentation in基金项目：华北理工大学杰出青年基金（JQ201715）；唐山市人才项目（A202110011）。This work was supported by the Outstanding Youth Fund of North China University o

9、f Science and Technology(JQ201715),and theTalent Foundation of Tangshan(A202110011).收稿日期：2023-04-20修回日期：2023-06-16Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(11)图像内容按照是否有固定形状可以分为两个类别，即背景（stuff）和前景（things）1。背景是指没有固定形状的不可数语义类，例如天空、沙滩和地面等；而前景则是包括有固定形状的可数实例类，例如汽车、建筑物和动物等。近年，随着

10、深度学习的迅猛发展，基于深度学习的图像分割2技术，特别是语义分割（semanticsegmentation）3、实例分割（instance segmentation）4和全景分割（panoptic segmentation）5得到了广泛研究，成为当前计算机视觉领域的一个重要研究热点。如图1所示，图像语义分割主要是对图像中每一个像素点进行类别预测，实现图像的像素级别分割。图像实例分割是在目标检测6的基础上融合了语义分割，实现对实例对象进行像素级别的分割，它在对像素点进行分类的同时赋予每个像素点相对应的实例 ID。一般来说，语义分割关注的是图像背景的分割，而实例分割则关注的是图像前景的分割。为了统

11、一语义分割与实例分割的工作，2018 年 FAIR（FacebookArtificial Intelligence Research）与德国海德堡大学联合提出了一项新的分割任务全景分割5。全景分割融合了语义分割与实例分割，其主要任务是对场景图像中每一个像素点进行语义类别预测，并为属于实例目标的像素赋予实例识别号，以实现更为全面的场景理解。此外，全景分割允许不同场景组件的良好可视化，并且可以作为一种全局技术呈现，包括检测、定位以及各种场景部分的分类。目前已有相关文献对图像语义分割和图像实例分割进行了系统的介绍和总结，但对于图像全景分割方法的系统介绍还很少。因此，本文将近几年出现

12、的不同的图像全景分割方法进行综述介绍，首先介绍图像全景分割的研究现状，然后对图像全景分割的方法进行分类阐述，接着介绍了图像全景分割中常用的数据集及评价准则，并对代表性的方法进行了性能比较，列举了图像全景分割的现实应用，最后进行了总结及未来趋势的展望。1图像全景分割研究现状全景分割的雏形最早出现在2017年，Dvornik等人7提出了 BlitzNet，是一种将目标检测和语义分割任务联合执行的网络模型。为了满足场景理解任务同时关注场景语义信息和个体实例的需求，2018年，Kirillov 等人5提出了全景分割的概念，并在 2019 年的 CVPR 中设计出一个简单有效的全景分割网络Panopti

13、c FPN8。Panoptic FPN 网络在框架层面上将FPN9与 Mask R-CNN10结合起来，通过融合 FPN 的语义分割结果与 Mask R-CNN的实例分割结果来形成场景图像的全景分割结果。这种利用语义分割和实例分割两个子网络独立分割，再对分割结果进行融合的方法成了近几年来全景分割研究的主流。目前，已有大量的全景分割网络模型被提出，主要有弱监督模型11、JSIS-Net12、TASCNet13、AUNet14、PanopticFPN8、UPSNet15、DeeperLab16、OANet17、FPSNet18、SOGNet19、Panoptic-DeepLab20、BBFNet2

14、1、Axial-DeepLab22、BANet23、EfficientPS24、BGRNet25、LPSNet26、Panoptic FCN27、MaX-DeepLab28、SPINet29、CABB30、Ada-Segment31、CVRN32、PPS33、Panoptic SegFormer34、CMT-DeepLab35、PanopticDepth36、Panoptic-PartFormer37和kMaX-DeepLab38等。图2给出了近年来图像全景分割的代表性方法。medicine,autonomous driving,drones,agriculture,animal husban

15、dry,military and other fields are listed.Finally,thedeficiencies and challenges of existing methods in complex scene applications,real-time performance,and conflictsare pointed out,and the potential directions of image panoptic segmentation are discussed,including image panopticsegmentation based on

16、 a simple unified framework,real-time high-quality image panoptic segmentation,and imagepanoptic segmentation in complex application scenarios.Key words:image panoptic segmentation;deep learning;feature extraction;sub-task segmentation;sub-task fusion图1图像分割Fig.1Image segmentation2606毕阳阳等：基于深度学习的图像全

17、景分割综述全景分割重点在于为每个像素分配一个语义标签和实例ID，处理流程如图3所示，主要包括特征提取39-41、子任务分割、子任务融合三个步骤。对于输入一幅图像，首先进行特征提取；然后将提取的特征分别输入语义分割与实例分割两个子任务分支进行处理，分别产生语义分割与实例分割两个子任务输出；最后将语义分割与实例分割两个子任务结果进行融合，产生最终的全景分割预测。2图像全景分割方法分类本章对基于深度学习的图像全景分割方法进行了分类阐述。根据对全景分割三个步骤优化情况的不同，现有的图像全景分割可以分为基于特征提取优化的图像全景分割、基于子任务分割优化的图像全景分割、基于子任务融合优化的图像全景分割。另

18、外，还有其他一些图像全景分割方法。表 1给出了基于不同优化机制的图像全景分割的典型方法，以及它们的优势与局限性。2.1基于特征提取优化的图像全景分割方法图像全景分割的核心步骤之一为特征提取，为后续步骤提供有用的特征信息，从而提升全景分割的性能。因此，将对特征提取网络进行有效优化的全景分割方法称为基于特征提取优化的图像全景分割。在全景分割特征提取优化的分类中，可以分为自上而下和自下而上两种方法。2.1.1自上而下的图像全景分割方法大多数最先进的图像全景分割方法一般采用自上而下（top-down）或基于候选区域（box-based）策略。具体来说，通常遵循先检测后分割的原则，部署Mask R-CN

19、N来提取重叠的实例，然后通过一些处理方法解决掩码重叠问题，最后用轻量级的背景分割分支填充剩余区域。Kirillov 等人8通过赋予 Mask R-CNN 一个使用特征金字塔网络（feature pyramid network，FPN）9主干的语义分割分支，在架构层面将这两种方法结合成一个单一网络来同时完成实例分割和语义分割的任务，提出了Panoptic FPN模型。FPN作为全景分割的特征来源，能够提供丰富的多尺度特征。对语义分割来说，带空洞卷积的全卷积神经网络（fully convolutional networks，FCN）是最优的；对实例分割来说，具有FPN结构的Mask R-CNN在竞

20、赛中被广泛采用，这两个方法在架构上存在差异，如果单纯地进行组合，可能会在语义分割或者实例分割上牺牲准确性。Panoptic FPN模型克服了这个缺点，采用统一的FPN提取特征分别实现实例分割与语义分割，该模型成为全景分割的一个基线方法，是基于候选区域的代表性方法。但是，Panoptic FPN模型的输出模块仍采用启发式方法，该方法依赖于实例分割分支的预测结果，会产生速度较慢、计算复杂等问题。自上而下的方法需要为每个实例对象生成一个边界框，对于实例检测来说非常有效。但是，以这种方式预测实例掩码会消耗大量的计算资源并且自上而下的方法高度依赖于边界框的性能。2.1.2自下而上的图像全景分割方法自下而

21、上（bottom-up）或无候选区域（box-free）的图像全景分割方法，通常通过将“前景”像素分组到集群中在检测实例之前获得语义分割预测。Yang等人16通过使用一种简单的全卷积网络方法对整个图像进行解析来生成像素语义和实例预测，提出了一种单次、自下而上的DeeperLab模型，用图2代表性的图像全景分割算法Fig.2Representative image panoptic segmentation algorithms图3图像全景分割流程示意图Fig.3Schematic diagram of image panopticsegmentation process2607Journal

22、of Frontiers of Computer Science and Technology计算机科学与探索2023,17(11)来同时处理语义分割和实例分割的任务。模型采用边界框角以及对象中心进行与类无关的实例分割，再加上DeepLab42语义分割，在Mapillary Vistas 数据集上获得了良好的全景分割结果。该模型是最具代表性的自下而上的全景分割方法，但该模型存在着处理高度可变形的物体比较困难的问题，在此基础上进行优化，其他自下而上的全景分割方法不断被提出20,22,28,35,38。自下而上的方法通常从语义分割预测开始，然后通过分组和聚类等操作生成实例掩码。这种方法生成的输出预

23、测简单而快速，消除了生成边界框的步骤，获得较好的实时性。但是，相对于自上而下的方法，全景质量却有所下降。2.2基于子任务分割优化的图像全景分割方法图像全景分割的核心步骤之二为子任务分割。骨干网络提取的特征需要被语义分割和实例分割任务共享，进行后续子任务分割处理。为了提升全景分割的性能，对子任务分割模块进行有效优化，该类方法称为基于子任务分割优化的图像全景分割。根据语义分割与实例分割两个子任务在优化过程中的串并关系不同，基于子任务分割优化的图像全景分割可以分为两种方式：语义分割与实例分割并行运行的子网络分割方法和语义分割与实例分割串行运行的子网络分割方法。下面对两种分割方法进行详细介绍。表1不同

24、类型图像全景分割方法分析比较Table 1Analysis and comparison of different types of image panoptic segmentation methods方法特征提取子任务分割子任务融合其他自上而下自下而上并行串行启发式全景头多任务优化Transformer典型模型Panoptic FPN8DeeperLab16AUNet14TASCNet13Panoptic FCN27弱监督11Panoptic-DeepLab20Axial-DeepLab22JSIS-Net12OANet17UPSNet15FPSNet18EfficientPS24LPSN

25、et26MaX-DeepLab28CMT-DeepLab35kMaX-DeepLab38Panoptic SegFormer34优势使用FPN提供丰富的多尺度特征边界框角以及对象中心进行与类无关的实例分割引入注意力模块，增强信息交互提出一致性模块，保证输出分布之间对齐内核生成器将每个对象实例或背景类别编码为特定的内核权重，并通过卷积高分辨率特征来生成预测第一个弱监督的方法，引入目标检测器，将语义分割转变为实例分割输出使用实例中心预测和回归来获得与类别无关的实例分割；引入了位置辅助预测引入位置敏感的自注意力机制，增大感受野来获取更多的全局信息使用共享特征提取器为实例和语义分支提供特征提出一个空间

26、排序模块来处理预测实例之间的遮挡问题提出无参数全景头模块无需计算成本极高的实例掩码预测或融合启发算法，比现有的全景分割方法更快双路特征金字塔网络；全景融合模块金字塔池化模块来增加感受野；引入无参数的头，省略融合冲突；轻量级将CNN和Transformer结合起来的双路径用于像素特征和内存之间的特征交互采用像素聚类方法来执行交叉注意力机制，产生更密集和合理的注意力机制图在 CMT-DeepLab基础上重新设计了交叉注意力机制，对激活函数进行简单的更改采用CNN多尺度特征与自注意力机制结合；利用 Transformer 对提取的多尺度特征图进行细化局限性输出模块仍采用启发式方法处理高度可变形的物体

27、比较困难前景与背景之间的关系需要人工融合大量的上采样操作破坏目标边缘特性，出现分割失效前景实例对象的分割准确率与图像中远距离小目标的分割效果不是很理想图像中实例数量难以预测，不适用于具有多个背景类的图像处理高度可变形的物体比较困难处理可变形或者中心点重合的物体比较困难用最相似类别进行填充，像素分配存在较大误差无法处理前景和背景之间的冲突结果取决于语义和实例预测质量追求速度的同时，精度提升小输出模块仍采用启发式方法追求轻量级与实时性，但性能提升较小原本为自然语言任务设计的交叉注意力模块应用于图像领域具有限制存在严重的数据依赖和算力资源依赖等问题不具有很好的实时性，存在严重的数据依赖和算力资源依赖

28、等问题初始化过程中没有引入具有更好先验知识的Query，不能更快地查询到目标2608毕阳阳等：基于深度学习的图像全景分割综述2.2.1子网络并行分割方法语义分割子任务与实例分割子任务分别从特征提取网络中获取特征，然后两个子任务并行分割，之间不存在先后关系，一个子任务的输出不作为另一个子任务的输入。为了获取两个子任务之间的互补信息，Li等人14在PanopticFPN的基础上对语义分支和实例分支之间进行优化，提出了一种注意力43引导的统一网络AUNet。在背景分支中添加了两个注意源，即区域候选网络（region proposal network，RPN）44和前景分割掩码，分别提供对象级别和像

29、素级别的注意。模型中还设计了建议注意模块（proposal attention module，PAM）和掩码注意模块（mask attention module，MAM）两个注意力机制，试图互补前景的信息和背景的信息，这种方法被推广到不同的主干上，在前景和背景分割中具有一致的准确度增益，并且在MS-COCO和Cityscapes数据集上获得了良好的分割结果。为了使语义分割子任务的输出与实例分割子任务的输出保持一致，Li等人13在 PanopticFPN的基础上提出了一种端到端的全景分割模型 TASCNet，背景头使用完全卷积层来密集预测所有的背景类别和一个额外的前景掩码，前景头使用基于区域的卷

30、积神经网络（convolutional neural networks，CNN）层进行实例检测与分割，在这两个预测头之间，加入了TASC（things and stuff consistency）模块，用于在训练过程中保持语义分割和实例分割这两个子任务的输出分布之间对齐，以确保预测之间的一致性。但是模型当中采用大量上采样操作破坏目标边缘的特性，出现分割失效。在全景分割中，希望可数和不可数实例能够被统一表示，但是统一表示面临前景和背景的属性冲突，并且前景和背景中也有不同的类别。一个好的网络应该是对不同的类别有良好的区分性，使其类间差异较大，类内差异较小。因此，Li等人27提出了一个完全卷积的统一

31、表示框架，称为 Panoptic FCN。Panoptic FCN 使用统一的完整卷积通道来预测前景和背景。该模型由核生成器、核融合器和特征编码器三部分组成。内核生成器将每个对象实例或背景类别编码为特定的内核权重。核融合器对不同阶段生成的核权值进行融合，保证了前景的实例感知和背景的语义一致性。通过将融合的核权值与编码后的特征值进行卷积，网络直接输出全景图像分割结果。Panoptic FCN采用简单、高效、实用的框架，实现了高效率。但模型本身存在前景实例对象的分割准确率与图像中远距离小目标的分割效果不是很理想的问题。子网络并行分割方法在两个子任务之间通过添加注意力、对齐模块和核权重等方式，提高了

32、图像全景分割的精度。但模型需要对两个子任务的结果进行融合，融合过程就会产生语义分支与实例分支之间的冲突以及实例分支内部的冲突。2.2.2子网络串行分割方法两个子任务之间存在先后关系，一个子任务的输出作为另一个子任务的输入。Li等人11提出了一个弱监督45全景分割模型，该模型首先采用语义分割子网络获得语义分割结果，同时设计了一个目标检测器获取图像中的目标信息，然后将二者输入到实例分割子网络，完成最终的全景分割。该模型在图像中实例数量难以预测，不适用于具有多个背景类的图像。Cheng 等人20在 DeepLab 的基础上，通过采用特定于语义和实例分割的双空洞空间卷积池化金字塔（atrous spa

33、tial pyramid pooling，ASPP）42和双解码器结构，提出一种基于自下而上的全景分割模型Panoptic-DeepLab。模型先进行语义分割，再根据分割的结果去获取实例。模型预测语义分割、实例中心预测和实例中心回归三个输出。通过将预测的前景像素分组到最接近的预测实例中心获得与类别无关的实例分割，然后通过多数投票规则与语义分割相融合，以生成最终的全景分割。Wang等人22在 Panoptic-DeepLab 的基础上提出了一种新的子网络串行分割方法，即轴向注意力模型Axial-DeepLab。该模型引入位置敏感的自注意力机制，将二维注意力依次分解为沿高度轴和宽度轴方向的两个一维

34、注意力，不仅可以进行高效的计算，而且可以恢复模型中较大的感受野。但是该模型也存在处理可变形或者中心点重合的物体比较困难的问题。为了克服由于全景分割模型依赖于候选区域，导致预测的实例掩码往往是低分辨率的问题，Sun等人扩展了Panoptic-Deeplab的体系架构提出了全景优化网络 PRN（panoptic refinement network）46，通过引入包括前景掩码、坐标卷积和预测每个像素上的包围盒偏移的新元素来实现的。从基本的全景分割模型中提取掩码，并对其进行联合优化来产生一致的结果。子网络串行分割方法中两个子任务减少了融合2609Journal of Frontiers of Com

35、puter Science and Technology计算机科学与探索2023,17(11)的过程，避免融合冲突的产生，但后一个子任务总是依赖于前一个子任务的结果，导致分割性能整体偏低。2.3基于子任务融合优化的图像全景分割方法全景分割的核心步骤之三为子任务融合。子任务融合是将语义分割和实例分割两个子任务分割产生的具有差异的分割结果进行有效融合，生成最终的全景分割图。一些方法采用不同的融合策略，设计不同的子任务融合方法来提升全景分割的性能，该类方法称为基于子任务融合优化的图像全景分割。现有方法中子任务融合一般采用启发式融合方法或全景头融合方法。2.3.1启发式融合方法启发式算法是基于最优化方

36、法提出的，指在有限的时间和空间内，找到解决问题的一个可行方案。实际上就是在有限时间里给出相对不错的答案。常用的算法有遗传算法、模拟退火算法和粒子群算法47-48等。启发式融合方法最早由何恺明于Panoptic Segmentation5中基于启发式算法提出，该方法依赖于实例分割分支的预测结果，即先将实例分支预测的前景对象分类掩码覆盖到原始图像作为基础，之后将语义分割分支背景类的预测结果覆盖到相应位置，最终形成全景分割预测。De Geus等人12通过使用启发式融合方法结合了来自联合训练的语义和实例分割网络的预测，提出了一种单一网络模型JSIS-Net（joint semantic and ins

37、tancesegmentation network）进行全景分割。该模型使用ResNet5040网络结构进行特征提取，通过采用金字塔池化模块（pyramid pooling module，PPM）49完成语义分割，采用 Mask R-CNN完成实例分割，最后通过启发式融合方法来合并语义分割和实例分割的结果，得到全景分割。然而，在融合过程中，如果没有足够的上下文信息，对象实例之间的重叠关系很难被确定。为了解决这个问题，Liu 等人17在子任务融合方法中引入了一种新的空间排名模块来处理预测实例之间的遮挡，提出了一种新型用于全景分割的端到端遮挡感知网络 OANet（occlusion aware n

38、etwork）。该模型使用FPN网络为背景分支和实例分支提供特征图，两个分支生成中间结果，传递给空间排名模块，空间排名模块学习每个实例的排名分数作为最终的合并证据。启发式融合方法简单易行且占用的计算资源不是很高。但随着研究的深入，启发式融合方法的缺陷也逐渐暴露出来，首先是对图像中的小目标不太敏感，其次是前景与背景对象交界处像素类别分配出现冲突，影响全景分割预测输出。2.3.2全景头融合方法全景头（panoptic head）融合方法是指将语义分割的结果和实例分割的结果进行融合。其中语义分割输出的 Stuff类作为全景分割的输出，实例分割输出的 Thing类作为索引选择，经滤除堆叠处理后，作为全

39、景分割Thing类的最终输出。Xiong等人15在子任务融合阶段设计了独特的无参数全景头模块对获得的背景和前景对象信息进行融合，提出了一个统一的全景分割网络 UPSNet。该模型将语义分支的预测结果分为前景与背景两类，背景类对象的掩码作为最终的全景预测背景输出，前景类对象结合实例分支输出，从通道维度利用softmax 函数计算像素的落点通道从而确定其归属区域，若在背景对象通道内则该像素属于背景对象，否则属于前景对象，最后结合背景类掩码形成全景分割输出。此外，无参数全景头非常轻巧，可以与各种主干网络一起使用，促进了端到端的训练。De Geus 等人18通过引入全景头模块（panoptichead

40、）提出了一个用于快速全景分割的端到端网络FPSNet（fast panoptic segmentation network），该模型能够实现实时的分割任务，不需要计算成本极高的实例掩码预测或启发式融合方法，而是通过将全景分割任务转换为自定义的像素级密集分类任务来实现，该任务将类别标签或实例 ID 分配给每个像素。这是一种端到端的网络架构，能够学习解决类与实例之间的冲突。全景头融合方法是当前采用较多的冲突处理策略，通过对通道维度的像素进行计算确定类别来生成最后的融合结果，虽然分割效果较好但花费时间，影响网络推理速度。2.4其他图像全景分割方法除了针对上述三个核心步骤的全景分割方法以外，还有其他一

41、些方法，如多任务优化的全景分割方法和基于Transformer的全景分割方法等。2.4.1多任务优化方法图像全景分割的核心步骤有三个，在设计过程中可以对其中两个步骤或者三个步骤同时进行优化，该类方法称为多任务优化方法。该方法可以克服计算开销大，且每个网络的预测存在差异不易结合的缺点，从而进一步提升计算效率和精度。Mohan等人24通过同时对特征提取网络和子任务2610毕阳阳等：基于深度学习的图像全景分割综述融合模块进行有效优化，提出了一种高效的全景分割网络模型 EfficientPS（efficient panoptic segmentation）。设计了一个双路特征金字

42、塔网络（2-way featurepyramid network），实现信息的双路流动，在运行时间上保持变化不大的同时，大幅提高了前景类的全景分割质量；同时设计了一种全新的全景融合模块，可根据语义头和实例头的掩码的置信度自适应地动态调整融合，以产生更好的全景分割输出。Hong等人26提出了一种轻量级的全景分割网络LPSNet（lightweight panoptic segmentation network），该模型同时优化了特征提取和子任务融合部分。通过添加金字塔池化模块来增加 FPN 的经验感受野，并使用二步卷积将典型 FPN 的金字塔扩展两个级别，增强了特征提取。同时，模型中设计了

43、一个无参数的头，更好地融合语义分割与实例分割子任务，提升全景分割性能。为了减少计算开销，Hu等人50提出了一个实时全景分割框架 YOSO（you only segment once），设计了一个高效的特征金字塔聚合器和一个轻量级的可分离动态解码器，分别用于特征提取和子任务融合部分。特征金字塔聚合器以卷积优先的方式重新参数化插值优先模块，解码器通过可分离的动态卷积执行多头交叉注意，提高了解码器的速度和精度。为了解决在边界附近的不规则掩膜预测问题，Chang等人51提出了基于轮廓的增强特征的全景分割网络 SE-PSNet（Silhouette-based enhancement featurefo

44、r panoptic segmentation network）。该模型能够预测实例边界上的高质量掩码，有助于区分不同的实例，并且使用新提出的置信度来解决遮挡问题，使网络采用更高质量的掩膜作为预测结果。2.4.2基于Transformer的方法为了获得更丰富的全局信息，自注意力机制得到了广泛研究，并被应用于图像全景分割。Wang 等人22引入位置敏感的自注意力机制，将二维注意力依次分解为沿高度轴和宽度轴方向的两个一维注意力，通过增大感受野来获取更多的全局信息，很好地提升了图像全景分割的性能。作为 Transformer52网络的基本结构，自注意力机制使得 Transformer能够获取比卷积神

45、经网络更多的全局信息，使其不仅能够提升自然语言处理（natural language processing，NLP）53的性能，也被越来越多地应用于图像全景分割28,34-35,38，以及图像分类54、目标检测55、图像分割56等计算机视觉（computer vision，CV）领域57-59。为了解决Axial-DeepLab不能很好地处理高度变形物体的问题，受 Transformer 和 DETR（detectiontransformer）的启发，Wang等人28提出了一种使用掩码Transformer预测类别标记的掩码，并通过二分匹配以全景质量启发损失进行训练的模型Max-De

46、epLab。掩码 Transformer采用像素路径（由视觉 Transformer组成）提取像素特征，内存路径（由Transformer解码器模块组成）提取内存特征，以及双路径Transformer用于像素特征和内存之间的交互特征。MaX-DeepLab是第一个将 Transformer 用于全景分割的端到端模型，但原本为自然语言任务设计的交叉注意力模块应用于图像领域具有局限性。在MaX-DeepLab 的基础上，Yu 等人35提出 CMT-DeepLab（clustering masktransformers for panoptic segmentation），采用像素聚类方法来执行交叉

47、注意力机制，从而产生更密集和合理的注意力机制图。随后Yu等人38又提出kMaX-DeepLab，进一步重新设计了交叉注意力机制，使其更像K-means聚类算法60，对激活函数进行简单的更改。为了统一前景和背景的掩码预测流程，在DETR的基础上，Li等人34提出了一个基于Transformer的端到端全景分割的通用框架Panoptic SegFormer。框架由三个关键模块组成：Transformer编码器、位置解码器和Mask解码器。其中利用Transformer编码器对主干提取的多尺度特征图进行细化；利用位置解码器捕捉物体的位置线索；Mask解码器用于最终的分类和分割。2023年，一种由Op

48、enAI开发的自然语言处理技术 ChatGPT61-62被提出，该方法是基于大量数据的有监督学习算法，可以根据输入的信息预测下一个合适的文本。ChatGPT算法中的Transformer模型是一种新型的序列建模技术，采用编码器-解码器结构以及注意力机制，可以一次性处理整个语言模型。随后ChatGPT被引入到CV领域，Wang等人63提出了一个通用的分割模型SegGPT，该模型将各种分割任务统一到一个通用的上下文学习框架中，该框架通过将不同类型的分割数据转换为相同的图像格式来适应不同类型的分割数据。虽然在图像全景分割的性能上不太良好，但开辟了一种新的分割方式。视觉Transformer网络作为一

49、种新的视觉特征学习网络,其远距离建模能力和动态的响应特质使之具备了更为强大的特征学习能力，从而提升了全景分割的精度。但是，由于 Transformer严重依赖数据和算力资源，导致基于 Transformer的图像全景分割方法不具有很好的实时性。2611Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(11)3常用数据集及评价准则3.1常用数据集在图像全景分割领域，为了验证算法的有效性，常常将算法在MS COCO数据集64、PASCAL VOC数据集65、Cityscapes 数据集66、ADE20K 数

50、据集67和Mapillary Vistas 数据集68上进行验证。每个数据集的主要信息见表2所示。MS COCO 数据集64：微软团队提供的大型数据集。目前被广泛应用于图像分类、目标检测、图像分割等视觉任务。本数据集包含了91种物体类型的图像，数据集有32.8万张图片，包含有250万个标注实例。PASCAL VOC 数据集65：广泛应用于图像分类、目标检测、图像分割等任务。数据集最初有4类，最后稳定在 21类，对于分割任务，这些类别有汽车、房屋、动物、飞机、自行车、船、公共汽车、小汽车、摩托车、火车等，测试图像从早期的 1 578 幅最后稳定在11 540幅。Cityscapes数据集66：数

展开阅读全文