单阶段实例分割——从局部到整体的网络结构研究综述.pdf

资源描述

1、第 19 卷第 2 期2024 年 2 月Vol.19 No.2Feb.2024中国科技论文CHINA SCIENCEPAPER单阶段实例分割从局部到整体的网络结构研究综述周涛1，2，石道宗1，赵雅楠1，张祥祥1，杜玉虎1，陆惠玲3（1.北方民族大学计算机科学与工程学院，银川 750021；2.图像图形智能处理国家民委重点实验室（北方民族大学），银川 750021；3.宁夏医科大学医学信息与工程学院，银川 750004）摘要：单阶段实例分割是近年来深度学习领域的研究热点，其通过将目标检测和目标分割并行的方式实现图像的实例级分割，该方法目前已被广泛应用于图像目标分割领域。首先，阐述

2、了单阶段实例分割基本原理。然后，从局部和整体2个方面对单阶段实例分割的网络结构进行梳理，在局部网络结构方面，从特征提取、特征融合、特征预测3个方面进行归纳，其中，在特征预测部分，按照有锚框到无锚框的思路对目标边界框的生成方式进行分类，按照全局掩膜到局部掩膜的思路对目标掩膜的表示方式进行分类，全局掩膜包括原型系数方法、目标位置方法和目标边界方法，局部掩膜包括目标轮廓方法、目标位置方法和目标特征方法；在整体网络结构方面，对22个主流的网络结构进行总结。接着，归纳了单阶段实例分割在医学图像分割、视频图像分割、遥感图像分割等应用领域的发展现状。最后，对单阶段实例分割的发展方向进行展望。关键词：单阶段实

3、例分割；特征提取；特征融合；特征预测；目标边界框；目标掩膜中图分类号：TP399 文献标志码：A文章编号：2095-2783（2024）02-0131-12开放科学（资源服务）标识码（OSID）：Single-stage instance segmentation：a review of network structure research from local to globalZHOU Tao1，2，SHI Daozong1，ZHAO Yanan1，ZHANG Xiangxiang1，DU Yuhu1，LU Huiling3（1.School of Computer Science and

4、 Engineering，North Minzu University，Yinchuan 750021，China；2.The Key Laboratory of Images and Graphics Intelligent Processing of State Ethnic Affairs Commission（North Minzu University），Yinchuan 750021，China；3.School of Medical Information and Engineering，Ningxia Medical University，Yinchuan 750004，Chi

5、na）Abstract：Single-stage instance segmentation is a hot research topic in the field of deep learning in recent years，in which the instance-level segmentation of images is realized by paralleling methods of object detection and object segmentation.This method has been widely used in the field of imag

6、e object segmentation.Firstly，the basic principle of single-stage instance segmentation is described.Secondly，the network structure of single-stage instance segmentation is sorted from local and overall aspects.In terms of local network structure，the summarization includes three aspects：feature extr

7、action，feature fusion，and feature prediction.Specifically for the feature prediction，the generation method of the object boundary frame is classified according to the idea of anchor frame to non-anchor frame.The representation of object mask is classified according to the idea of global mask to loca

8、l mask.The global mask methods include prototype coefficient method，object position method，and object boundary method，while the local mask methods include object contour method，object position method，and object feature method.In terms of the overall network structure，the 22 mainstream network struct

9、ures are summarized.Then，the development status of single-stage instance segmentation in medical image segmentation，video image segmentation，remote sensing image segmentation，and other application fields are summarized.Finally，the development directions of single-stage instance segmentation are pros

10、pected.Keywords：single-stage instance segmentation；feature extraction；feature fusion；feature prediction；object bounding box；object mask图像分割是图像处理领域的一个方向，指通过图像特征将图像划分成若干个区域并提取感兴趣目标的过程。基于图像分割思想的实例分割是通过图像的各个像素属性区分图像中同一类别的不同个体以及不同类别的不同个体1，其不仅能检测到目标在原始图像中的位置，还能对目标进行准确分割。2017 年，He 等2通过扩展 Faster R-CNN3提出了Ma

11、sk R-CNN 方法，该方法通过添加一个用于预测对象掩码的分支与边界框识别分支并行，实现了灵活和通用的实例分割框架。2020年，Wang等4为了收稿日期：2023-06-18基金项目：国家自然科学基金资助项目(62062003)；宁夏自然科学基金资助项目(2022AAC03149)第一作者：周涛（1977），男，教授，主要研究方向为计算机辅助诊断、医学图像分析与处理、模式识别等，第 19 卷中国科技论文进一步对单阶段实例分割模型结构进行改进，提出了Solo方法，该方法通过直接将原始输入图像映射到所需的对象类别和实例掩码的方式，消除了使用边界框进行目标检测的需要。2022 年，Ch

12、eng 等5提出了基于快速注意力的单阶段实时实例分割网络FASSST，其使用实例关注模块在特征融合阶段聚合感兴趣特征，实现快速定位目标实例，从而实现直接从特征到实例坐标和类概率的预测。实例分割的优良特性表明，对实例分割进行深入研究具有重要意义。实例分割分为两阶段实例分割和单阶段实例分割，两阶段实例分割是先将目标对象进行检测得到目标边界框，然后根据边界框区域生成掩膜对目标进行分割。两阶段实例分割通过检测、分割串行的方式，虽然使模型对目标进行分割能取得良好的效果，但是存在依赖定位操作来选取局部特征进行掩膜预测从而导致在检测阶段时增加计算量的问题。单阶段实例分割受单阶段目标检测算法 SSD6、Yol

13、o7的启发，结合两阶段实例分割的思想，对目标定位的同时生成实例级掩膜进行分割，这种将目标检测与目标分割并行的方式，相比于之前先检测后分割、先分割后检测的两阶段实例分割，在模型结构上得到一定的简化，能在对目标进行有效分割的条件下，提高实例分割对目标的分割速度。单阶段实例分割具有快速、高效分割的特点，因而在图像分割中获得广泛关注，越来越多的单阶段实例分割方法被提出。2019 年，Bolya 等8提出了YOLACT方法，该方法经过骨干网、特征金字塔后，在预测头通过系数与掩膜一一对应的方式实现高效实例分割。2020年，Yang等9为了提高单阶段实例分割的精度，提出了BorderPointsMask方法

14、，该方法通过特征提取与特征融合后，在特征预测部分利用边界点的位置和属性进行分割，其利用边界点中心特性来抑制低质量掩膜的方式，可有效提高平均掩膜精度。2021年，Yu等10提出了单像素重建网络SPRNet，其通过单像素重建分支直接从卷积特征映射中的每个像素重建像素级掩膜，可有效提高模型的分割性能。2023年，王文海等11提出了一种网格实例分割方法GridMask，该方法通过物体边界框内的区域划分为多个独立的网格，将物体分割任务简化成了多个网格切片的分割，有效降低了特征表示的复杂程度，进而提高了实例分割的精度。本文基于单阶段实例分割的研究现状，对单阶段实例分割方法进行归纳总结。1单阶段实例分割基本

15、原理单阶段实例分割1是一种通过目标检测和分割并行处理图像的方式来区分同一类别不同个体以及不同类别的不同个体的方法。其主要原理是首先将输入图像依据特征提取网络获取不同尺度的特征图，然后将特征图通过特征融合方法进行特征融合，最后在特征预测部分通过预测头中的目标边界框、目标掩膜、目标类别分支，实现对目标位置的检测、目标区域的分割以及目标类别的判定。如图1所示，单阶段实例分割能够准确区分人、羊与狗且能区分不同的绵羊。以从局部到整体的角度，单阶段实例分割可分为4个主要组成部分，即特征提取、特征融合、特征预测及整体网络。特征提取部分是利用特征提取网络提取输入图像中不同尺度的特征信息用以生成特征图，通过提取

16、不同尺度的特征图兼顾图像全局和局部信息。特征融合部分是利用特征融合方法对不同尺度的特征图进行融合，实现低层图像与高层图像信息互补，从而补充高层特征图的细节信息，以及低层特征图的语义信息。特征预测部分是通过预测头结构将目标检测、分割及分类分成并行的分支，以并行的方式进行目标边界框确定、目标掩膜生成以及目标类别判定，从而在实现目标定位的同时生成掩膜进行目标分割，提高模型性能。整体网络是由特征提取、特征融合及特征预测3个部分组合的网络结构，完善的网络结构能够有效提升模型性能。单阶段实例分割模型结构相对于两阶段实例分割，在模型功能结构上，减少了区域特征建议模块，省却了模型进行大量冗余计算的步骤，使得模

17、型结构更简洁；在模型框架结构上，将实例分割从简单、独立的检测和分割的串行结构，变成检测与分割并行的结构，使得在检测的同时能进行分割，检测和分割的并行进行给模型提供了一种结构轻量的方式，并能提高模型对目标准确定位及对目标区域精细刻画的能力。本文根据现有的单阶段实例分割网络结构，从特征提取、特征融合、特征预测及整体网络4个方面对单阶段实例分割方法进行归纳和总结。单阶段实例分割框架如图2所示。图2分为左、右2个部分，左图为单阶段实例分割的整体结构，输入图像经过单阶段实例分割的特征提取、特征融合及特征预测3个图1MS COCO数据集Fig.1MS COCO dataset132周涛，等：单阶段实例分割

18、从局部到整体的网络结构研究综述第 2 期部分得到目标位置、类别及实例级掩膜，其中蓝色、橙色、绿色、天青色虚线框分别表示单阶段实例分割的特征提取、特征融合、特征预测、整体网络。右图是以左图为依据，从特征提取、特征融合、特征预测和整体网络 4个角度入手，将现有的单阶段实例分割方法进行归纳梳理。其中，在特征提取、特征融合部分，对单阶段实例分割中使用的特征提取网络、特征融合方法进行总结；在特征预测部分，分别从目标边界框生成方式、目标掩膜表示方式对单阶段实例分割进行分类，并将单阶段实例分割的类别判定方法进行阐述；在整体网络部分，总结特征提取、特征融合、特征预测3个部分在单阶段实例分割中的影响，从而对单阶

19、段实例分割方法进行归纳和总结。2基于单阶段实例分割的特征提取策略基于单阶段实例分割的特征提取策略是将输入图像通过卷积神经网络进行一系列卷积和下采样操作来提取图像中的特征信息，生成兼顾图像全局和局部信息的不同尺度的特征图。特征提取网络能够捕获图像的特征来进行图像的描述，融合每一层的感受野来构建信息特征，聚合不同感受野上的特征来获得性能增益。现有的单阶段实例分割使用的特征提取网络有ResNet网络12和VovNet网络13。ResNet网络由卷积、池化以及残差块组成，通过残差块的应用使得ResNet网络在获得不同分辨率的特征图的同时提高模型鲁棒性。在ResNet网络中，单阶段实例分割常使用ResN

20、et50和ResNet101作为特征提取网络。ResNet50是将 ResNet层数加深到50层，它能深层次提取图像特征，获取不同尺度的特征图，实现单阶段实例分割的实时分割，ResNet50网络虽然能提取不同尺度特征图但是提取的细节信息不够，在分割精度要求高的的场景上，存在分割精度略低的问题。2020年，Chen等14提出BlendMask方法，该方法采用ResNet50作为特征提取网络，在获取融合的特征图后，将预测头分支和掩膜分支结合生成分割结果，与Mask R-CNN3相比，该方法分割速度快20%，且模型结构简单。2021年，Kim等15提出了B2Inst方法，该方法用ResNet50提取

21、特征图来减少模型的计算量，通过显式的边界预测方式来实现边界检测，然后将边界和掩膜组合在一起以计算最终的实例掩膜，使得模型计算量得到降低，同时分割性能得到一定提升。ResNet101网络是在ResNet50网络的基础上通过叠加更多的残差块来加深网络深图2单阶段实例分割框架Fig.2Single-stage instance segmentation framework133第 19 卷中国科技论文度，达到获取蕴含更多特征信息特征图的目的。2022年，Qi等16提出了 PointINS方法，它通过利用RestNet101获取细节特征图，从而满足预测头部分利用锚框来区分各种形式可能的实例

22、，实现对目标的精确分割和对目标边界的精准刻画。2022 年，Yang 等9提出了 BorderPointsMask 方法，该方法使用ResNet101提取不同层次的特征使边界点信息保留完整，其通过利用边界点达到对目标进行像素级的精准定位，从而减少冗余的边界框生成以及低效的掩膜。VovNet 网络13由多个一次性聚合（one-shot aggregation，OSA）模块组成，通过在不同阶段增加输出通道来增加高层特征相对于低层特征的比例，使得更多的语义信息得到保存，通过将特征同时聚合到最后一层，解决了DenseNet17中密集连接所导致的内存访问频繁问题。VovNetV2 网

23、络是在VovNet网络13的基础上引入ResNet的残差连接和SENet18的挤压激励模块（squeeze-and-excitation，SE），使得VovNet网络可以深层提取特征。2020年，Lee 等19提出了 CenterMask 方法，该方法采用VovNetV2网络提取特征，获取细粒度的特征，使得该方法能够对多目标分割精准区分，同时对各个目标区域进行准确的定位与分割。3基于单阶段实例分割的特征融合策略基于单阶段实例分割的特征融合策略是通过特征融合方法将特征提取后的特征图进行特征融合，利用不同尺度特征信息对特征图信息进行补充，为高层的特征图增强细节特征，为低层的特征图

24、增强语义信息。单阶段实例分割在应用特征金字塔20的基础上衍生出多种改进方法，如改进的双向特征金字塔21、精细化特征金字塔20、双向张量金字塔22等，具体如下：第一，特征金字塔通过卷积、上采样对多尺度特征图进行融合，使不同大小的目标都可以在相应的尺度下有合适的特征表示。2020年，Tian等20在提出的 CondInst 方法中使用特征金字塔进行特征融合，通过特征金字塔满足该方法利用相对位置结合动态卷积生成实例的掩膜对目标进行分割。第二，改进的双向特征金字塔是在双向特征金字塔的基础上将卷积替换成可变形卷积。改进过后的双向特征金字塔比原有的双向特征金字塔在小目标信息融合上更细致。2020年，Hua

25、ng等21提出了EISNET方法，该方法使用改进的双向特征金字塔进行特征融合，然后通过添加掩膜分支、掩膜系数分支到 RetinaNet22来实现快速且高效的实例分割。第三，精细化特征金字塔是在特征金字塔的基础上，在特征提取网和特征金字塔连接处插入1个非局部的模块去连接2个部分，其能进一步提高不同尺度下的特征表示。2022 年，Xie 等23提出了 PolarMask+方法，该方法引入了1个精细化的特征金字塔来进行特征融合，在特征预测部分通过确定目标轮廓进行实例分割，精细化的特征金字塔的引入使得PolarMask+的准确性得到有效提升。第四，双向张量金字塔是在双向金字塔的基础上为适应4D张量而设

26、计出来的一种特征金字塔，它包含1个4D张量列表，在高维张量上均呈金字塔形。双向张量金字塔使得大物体具有高分辨率的掩膜和空间定位，小物体具有低分辨率的掩膜和精细的空间定位。2020 年，Chen 等24提出了 TensorMask 方法，该方法利用双向张量金字塔使得模型能够使用4D张量信息对目标进行精准的空间定位，并生成适应不同目标的相应掩膜进行分割，使得其对不同的目标具备极好的区分效果。4基于单阶段实例分割的特征预测策略基于单阶段实例分割的特征预测策略是通过预测头结构并行实现对目标边界的勾画来对目标进行检测、生成目标掩膜将目标区域从背景区域分割开来，以及目标类别判定3个步骤以达到同时对目标检测

27、和分割的目的。本文从目标边界框、目标掩膜进行归纳。4.1目标边界框目标边界框是通过调整目标边缘区域从而预测目标的真实边界框，它在实现对目标边界预测的同时能对目标位置进行定位，单阶段实例分割通过边界框预测目标真实边界以及描述目标的空间位置以达到对目标检测的目的。本文根据生成目标边界方法的不同将其分成2类，即有锚框和无锚框的单阶段实例分割方法。4.1.1有锚框的单阶段实例分割方法有锚框的单阶段实例分割方法是以每个像素为中心产生与目标对象大小相匹配的边界框，用以确定相应的目标对象。该类方法通过预先设定的锚框对目标边界进行预测，对目标进行预定位，以提高分割的准确度。但是密集使用锚框会生成多个候选区域，

28、多个候选框之间可能相似或存在重叠部分，造成不必要的计算。2019 年，Zhang 等25提出了 Mask SSD方法，该方法根据对象先验预测每个锚框的对象概率，再结合回归模块对目标进行分类和定位，最后对每个检测对象进行分割，通过使用锚框预测目标边界框使得该模型具有较好的精度和较低的性能消耗。2021年，Tseng等26提出了FastOMNet方法，134周涛，等：单阶段实例分割从局部到整体的网络结构研究综述第 2 期原始图像经过特征提取后，检测的锚框被重新处理为1个固定大小的特征图作为分割任务的输入，将特征图处理成锚框大小的方式既满足实时处理的要求，又具有高精度分割的性能。4.1.2无锚框的单

29、阶段实例分割方法无锚框的单阶段实例分割方法是指不依赖于预先设定的锚框，直接对目标的位置和类别进行预测。该方法由于不依赖预定义的锚框，直接对目标进行定位，使得其分割速度快，又可减少资源的浪费。Wang等27提出了Solov2方法，将掩膜生成过程分割为卷积核学习和特征学习2个部分，利用网格对目标进行位置定位以达到对目标检测的目的，其按照位置动态分割对象，使得该模型能对目标进行高效分割。2020 年，Xie 等28提出了 PolarMask 方法，该方法通过建立极坐标的方式确定目标边界，通过极坐标系构建目标边界能精细刻画目标真实边界，分割结果更接近真实目标区域。4.2目标掩膜目标掩膜是用选定的图像将

30、待处理的图像进行遮挡来控制预分割的区域，在保证未分割的区域信息不受影响的同时有效提高分割的精度。目标掩膜分为全局掩膜和局部掩膜29，全局掩膜首先生成中间共享层，然后组合提取的特征生成最终掩膜，全局掩膜能够保存目标在原图像中的位置信息。局部掩膜直接根据图像信息生成掩膜，能够快速确定目标边界，但是其在原图像位置的确定需要先还原成全局掩膜。本文从全局掩膜和局部掩膜的角度进行总结，目标掩膜分类如图 3 所示。图 3的中间部分是全局掩膜和局部掩膜的生成方式，左侧是全局掩膜类别，有原型系数方法、目标位置方法和目标边界方法3种类别，右侧是局部掩膜类别，有目标轮廓方法、目标位置方法和目标特征方法3种类别。4.

31、2.1全局掩膜1）原型系数方法原型系数方法是通过生成掩膜系数和掩膜以一一对应的线性关系进行组合来得到分割结果，该类方法通过构建目标区域和掩膜的关系，在精准分割目标的同时能够定位目标在原图像中的位置，如图4所示。通过输入图像生成特征图后，特征图传入原型分支和预测头，在预测头结构中生成目标检测框，并为检测框生成相应的掩膜系数，然后将掩膜系数和相应的原型分支进行线性组合得到分割结果。图3目标掩膜分类Fig.3Classification diagram of object masks图4原型系数方法Fig.4Prototype coefficient method135第 19 卷中国科技

32、论文2020 年，Lee 等30将混合精度量化技术应用于Yolact网络8，从而提出了MPQ_YOLACT方法，图像经过特征提取与特征融合后，在特征预测部分利用掩膜系数和掩膜生成最终的分割结果，MPQ-YOLACT相较于Yolact运行速度得到极大提高，网络规模减小了 75.4%。同年，Huang 等21提出了EISNET方法，该方法通过添加原型掩膜分支和掩膜系数分支到 RetinaNet22进行线性组合得出分割结果，实现了使用COCO数据集时只有17.2 MB参数、而分割精度却比Yolact更高的目的。除此之外，Tian等20提出了CondInst方法，当图像经过骨干网和特征金字塔后，通过

33、预测目标位置的类概率方式以及控制器生成掩码头的滤波参数生成系数，在掩膜分支生成掩膜，最终将2个分支进行线性组合即可得到最终的实例分割结果。2021年，Xie等31提出了PlaneSegNet方法，该方法在预测头提供类、框和掩膜系数的预测，原型分支预测多个实例独立的原型掩膜，通过将原型掩膜和掩码系数进行线性组合得到实例掩膜，该方法实现了可比拟于两阶段实例分割的分割精度。2）目标位置方法目标位置方法是通过将目标区域划分成网格区域从而确定目标位置，最后根据目标位置进行分割，该类方法可消除掩膜和目标对应的分组处理问题，显著提高分割速度，如图5所示。原始图像经过特征提取网络提取不同尺度特征图，经过特征融

34、合模块对多尺度的特征图进行特征融合，在特征预测阶段将目标区域构建成网格区域，实现对目标的定位，最后将掩膜和目标位置进行组合以实现对目标区域的分割。2020年，Wang等4提出了对图像直接进行实例分割的Solo方法，该方法通过网格划分的方式确定目标位置，将实例分割重新定义为类别预测与实例掩码生成2个子任务，并将这2个分支结合获取分割结果，该方法具有简单、灵活的强大性能，实现了与Mask R-CNN3相同的精度。同年，Cao等32提出了SipMask方法，该方法通过对边界框进行网格划分实现目标检测，并对每个子区域预测空间系数及图像掩膜，进行线性组合得出分割结果，与 TensorMask23相比，S

35、ipMask分割精度提高了1%，同时分割速度更快。2022年，Han等33基于网格的特性提出了VISOLO方法，其引入了协作操作模块以丰富方法中所有子任务的特征，使得模型不仅实现了分割精度的提高，同时分割速度也得到提升。3）目标边界方法目标边界方法首先通过确定目标区域边界框，再融合特征图中每个像素的特征信息获取目标边界，最后根据目标边界进行分割，该类方法可有效避免低质量目标掩膜的生成，实现对目标的精准刻画，在有效分割目标的同时还能确定目标在原图像中的位置，如图6所示。原始图像经过特征提取网络形成特征图，经过特征图的融合后，在特征预测部分通过目标边界框确定目标边界，再利用目标边界生成相应的掩膜对

36、目标区域进行分割。2020 年，Chen 等14提出了 BlendMask 方法，该方法由检测器和原型分支组成，检测器确定目标边界框，原型分支将注意力模块和blender模块合并对目标边界进行细化，最后将2个分支组合获取目标边界进而实现目标分割，该方法通过利用细化的边界区域进行精准分割，分割精度高于Mask R-CNN3。2021年，Kim等15提出了B2Inst方法，该方法通过显式的边界预测方式获取目标边界，然后将边界和掩膜组合在一起，以计算最终的实例掩膜，其通过边界预测来获取目标边界的方式使得模型精准刻画目标边界从而实现准确分割。4.2.2局部掩膜1）目标轮廓方法目标轮廓方法是通过目标的中

37、心点确定目标轮廓，然后根据目标轮廓得出分割结果，该类方法能得到精细化的目标轮廓，生成的掩膜更贴合目标轮廓边缘，如图 7所示。该类方法首先确定目标的中心点，用中心点作为坐标参考点，并利用坐标轴对目标轮廓进行计算，然后根据求得的目标轮廓生成相应的掩膜，最后分割目标图像。2019年，Xu等34为了能够让编码形状相对较短但包含足够的信息而提出ESE-Seg方法，该方法首先定位目标线段内的内中心点，并使用切比雪夫多项式来近似具有少量系数的形状签名向量，然后将图5目标位置方法Fig.5Object location method图6目标边界方法Fig.6Object boundary method136周

38、涛，等：单阶段实例分割从局部到整体的网络结构研究综述第 2 期系数作为形状描述符，将签名和系数拟合得出分割结果，该方法通过使用张量操作显式地解码多个对象形状，大大减少了实例分割的计算消耗。2020年，Xie等28提出了PolarMask方法，该方法首先获取目标中心点的位置并建立相应坐标，然后根据角度和长度计算出轮廓上的点坐标并连接这些点，最后根据联通区域进行目标分割，该方法能生成精细目标掩膜对目标轮廓进行精细刻画并分割目标区域。同年，为了解决 PolarMask 分割结果中边缘信息模糊的问题，张绪义等35提出了基于轮廓点细化的单阶段实例分割网络，其通过语义分割子网络对实例边缘进行进一步细化，有

39、效提高了模型的分割性能。2）目标位置方法目标位置方法是通过计算边界框内像素点位置距离边界框的距离获取目标定位，然后利用目标位置与掩膜对目标进行分割，该方法能够获得目标精准的空间定位，有效缓解局部掩膜还原成全局掩膜后的位置信息发生丢失和偏差问题，如图8所示。图像经过特征提取、特征融合后在特征预测阶段通过确定目标的位置并生成目标边界框，最后对边界框进行回归并生成相应掩膜。2020年，Lee等19提出了CenterMask方法，该方法提取特征后，将特征图输入Fcos36检测头中，而空间注意力引导掩膜分支从Fcos检测器中获取目标位置并生成目标边界框，并根据目标边界框生成相应的掩膜，这种通过确定目标位

40、置再生成目标边界框及对应掩膜的方式，使得模型分割速度得到极大提升。同年，Zhang等37提出MEInst方法，该方法在获取目标位置后，通过将掩膜编码的方式，将掩膜提炼成一个紧凑且固定维的表示向量，然后将向量合并到单阶段目标检测器中，从而得到一个简单而有效的实例分割框架。3）目标特征方法目标特征方法是通过区域特征探索前景、背景的特征分离信息，并根据区域特征进行分割，该类方法通过引入目标和周围背景间的特征分离信息，抑制背景信息的干扰，有助于高质量的分割，如图9所示。图像经过特征提取及特征融合部分后，在特征预测部分通过目标特征获取目标区域，并将目标区域从特征图中分离出来，并生成对应目标区域的掩膜。2

41、020年，Fan等38提出了能够对实例级显著性对象进行实时分割的S4net方法，该方法分成检测分支和分割分支，检测分支通过目标特征确定实例对象，并生成相应的目标边界和掩膜，使得模型避免了背景信息的干扰，分割精度得到大幅提升。2021年，Tseng等26提出了 FastOMNet方法，该方法通过目标边界框的区域特征重新处理特征图，并生成相应的掩膜，最终得出分割结果，这种根据目标特征确定目标区域的方式，将目标区域和背景信息分离出来，有利于模型处理背景信息杂乱的图像，达到提高模型精度的目的。4.3目标类别目标类别是通过判别器将特征信息转换成数量图7目标轮廓方法Fig.7Object contour

42、method图8目标位置方法Fig.8Object location method图9目标特征方法Fig.9Object feature method137第 19 卷中国科技论文信息进行拟合从而实现对目标的分类。单阶段实例分割常用的判别器是SoftMax，它可以将输入的1个实数映射到 01 区间上，直接输出分类的概率，从而确定目标类别。2020 年，Zhang 等37提出了MEInst方法，该方法在检测头中分为分类、边界框回归和中心点3个分支，其在分类分支中使用SoftMax 进行类别判定。2020 年，Chen 等14提出了BlendMask方法，该方法由1个检

43、测器和1个掩码分支组成，在Fcos36目标检测器中使用SoftMax进行类别判定。5单阶段实例分割的整体网络单阶段实例分割的整体网络由特征提取、特征融合和特征预测3个部分组成，本文从局部到整体的网络结构角度，对主流的单阶段实例分割方法进行总结。按照时间排序的方式，列举了经典的单阶段实例分割方法，并对其网络结构进行剖析，研究单阶段实例分割方法在特征提取网络、特征融合方法上的不同以及在特征预测部分中是否使用锚框生成目标边界框、是否使用局部掩膜或全局掩膜对目标进行分割，其中，特征提取网络包括 ResNet101、ResNet50、ResNeXt101、VovNetV2、Mobil

44、eNet，特征融合方法包括特征金字塔、双向张量金字塔、门控特征金字塔，锚框包括有锚框和无锚框，掩膜包括全局掩膜和局部掩膜，具体见表1。单阶段实例分割模型性能对比见表2。表1单阶段实例分割整体网络Table 1Overall network of single-stage instance segmentation序号12345678910111213141516171819202122时间2019201920192020202020202020202120202020202020202020202020202021202120212021202220222023名称YolactYolact+T

45、ensorMaskSoloSolov2PolarMaskPolarMask+SSS-NetCenterMaskMEInstMask SSDCondInstSipMaskB2InstBlendMaskPointINSBoderPointsMaskCIMaskSPRNetVISOLOFASSSTSipMaskv2特征提取网络ResNet50ResNet101ResNet50ResNet101ResNet50ResNet101ResNet50ResNet101ResNet50ResNet101ResNet50ResNet101ResNet101ResNet50ResNet101ResNeXt101V

46、ovNetV2-99ResNet101ResNeXt101ResNet101ResNet50ResNet101ResNet50ResNet101ResNet50ResNet101ResNet50ResNet101ResNet50ResNet101ResNet50ResNet101ResNet50ResNet50ResNet101ResNet50MobileNet54ResNet101特征融合方法特征金字塔特征金字塔特征金字塔特征金字塔双向张量特征金字塔双向张量特征金字塔特征金字塔特征金字塔特征金字塔特征金字塔特征金字塔特征金字塔特征金字塔特征金字塔特征金字塔特征金字塔特征金字塔特征金字塔特征金

47、字塔特征金字塔特征金字塔特征金字塔特征金字塔特征金字塔特征金字塔特征金字塔特征金字塔特征金字塔特征金字塔特征金字塔特征金字塔特征金字塔特征金字塔门控特征金字塔门控特征金字塔特征金字塔特征金字塔特征金字塔锚框有锚框有锚框有锚框有锚框无锚框无锚框无锚框无锚框无锚框无锚框无锚框无锚框无锚框无锚框无锚框无锚框无锚框无锚框无锚框有锚框无锚框无锚框有锚框有锚框有锚框有锚框无锚框无锚框无锚框无锚框有锚框有锚框无锚框有锚框有锚框无锚框无锚框有锚框掩膜全局掩膜全局掩膜全局掩膜全局掩膜局部掩膜局部掩膜全局掩膜全局掩膜全局掩膜全局掩膜局部掩膜局部掩膜局部掩膜局部掩膜局部掩膜全局掩膜全局掩膜局部掩膜局部掩膜局部掩膜全

48、局掩膜全局掩膜全局掩膜全局掩膜全局掩膜全局掩膜全局掩膜全局掩膜局部掩膜局部掩膜局部掩膜局部掩膜全局掩膜全局掩膜全局掩膜全局掩膜局部掩膜全局掩膜138周涛，等：单阶段实例分割从局部到整体的网络结构研究综述第 2 期其中，数据集有MSCOCO数据集，它包含自然图片及生活中常见的目标图片，背景比较复杂，目标数量较多，包含 80 个成对的不同类别，总共有118 000个训练图像、5 000个验证图像和41 000个测试图像。用于航空图像实例分割的大规模数据集（a large-scale dataset for instance segmentation in aerial images，ISAID）由

49、2 348张图像组成（1 411张用于训练，917张用于验证，937张用于测试），其中注释了15种多分辨率的对象。YouTube-VIS中有 40个常见类别标签作为类别集，然后从40个类中抽取大约2.9103个样本，目标包括人、动物、车辆，有4 883个独立视频实例和 1.31105高质量 masks，可用于视频实例分割、视频语义分割和视频对象检测。而平均精度（average precision，AP）是单阶段实例分割常用评价指标，平均精度数值越高，则模型分割性能越好，AP50、AP75表示在真实标注区域和分割区域的面积交并比为 50%、75%下的平均精度，APS、APM、APL表示在不同大小

50、的目标物体上的平均精度。每秒传输帧数（frames per second，FPS）是衡量模型分割快慢的指标，数值越高则表明模型分割速度越快。表2单阶段实例分割模型性能对比Table 2Performance comparison of single-stage instance segmentation models序号12345678910111213141516171819202122名称YolactYolact+TensorMaskSoloSolov2PolarMaskPolarMask+SSS-NetCenterMaskMEInstMask SSDCondInstSipMaskB2In

展开阅读全文