收藏 分销(赏)

语义分割评价指标和评价方法综述_于营.pdf

上传人:自信****多点 文档编号:607814 上传时间:2024-01-12 格式:PDF 页数:13 大小:1.83MB
下载 相关 举报
语义分割评价指标和评价方法综述_于营.pdf_第1页
第1页 / 共13页
语义分割评价指标和评价方法综述_于营.pdf_第2页
第2页 / 共13页
语义分割评价指标和评价方法综述_于营.pdf_第3页
第3页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023,59(6)语义分割需要将图像中每个像素点与其对应的语义标签相关联,是实现精细化视觉场景理解的基础。语义分割是一种细粒度的图像分割技术,是计算机视觉领域最热门的研究方向之一。近年来,深度学习(deep语义分割评价指标和评价方法综述于营1,2,王春平1,付强1,寇人可1,吴巍屹3,刘天勇41.陆军工程大学石家庄校区 电子与光学工程系,石家庄 0500052.三亚学院 信息与智能工程学院,海南 三亚 5720223.陆军工程大学石家庄校区 装备指挥与管理系,石家庄 0500054.东北石油大学 地球科学学院,黑龙江 大庆 163319摘要:深度学习算法在语义分割领域已经取得大量突破,对这些

2、算法的性能评估应选择标准、通用、全面的度量指标,以保证评价的客观性和有效性。通过对当前语义分割评价指标和度量方法进行归纳分析,从像素标记准确性、深度估计误差度量、执行效率、内存占用、鲁棒性等方面进行了多角度阐述,尤其对广泛应用的F1分数、mIoU、mPA、Dice系数、Hausdorff距离等准确性指标进行了详细介绍,并总结了提高分割网络鲁棒性的方法,指出了语义分割实验的要求和当前分割质量评价存在的问题。关键词:语义分割;评价指标;平均交并比(mIoU);平均像素精度(mPA);鲁棒性文献标志码:A中图分类号:TP183doi:10.3778/j.issn.1002-8331.2207-013

3、9Survey of Evaluation Metrics and Methods for Semantic SegmentationYU Ying1,2,WANG Chunping1,FU Qiang1,KOU Renke1,WU Weiyi3,LIU Tianyong41.Department of Electronic and Optical Engineering,Shijiazhuang Campus,Army Engineering University of PLA,Shijiazhuang050005,China2.School of Information and Intel

4、ligent Engineering,University of Sanya,Sanya,Hainan 572022,China3.Department of Equipment Command and Management,Shijiazhuang Campus,Army Engineering University of PLA,Shijiazhuang 050005,China4.School of Earth Sciences,Northeast Petroleum University,Daqing,Heilongjiang 163319,ChinaAbstract:Deep lea

5、rning has made major breakthroughs in the field of semantic segmentation.Standard,well-known andcomprehensive metrics should be used to evaluate the performance of these algorithms to ensure objectivity and effective-ness of the evaluation.Through summary of the existing semantic segmentation evalua

6、tion metrics,this paper elaboratesfrom some aspects,e.g.,pixel accuracy,depth estimation error metric,operation efficiency,memory demand and robust-ness.Especially,the widely used accuracy metrics such as F1 score,mIoU,mPA,Dice coefficient and Hausdorff distanceare introduced in detail.In addition,t

7、his paper expounds the related research on the robustness and generalization.Further-more,this paper points out the requirements in the semantic segmentation experiment and the limitations of segmentationquality evaluation.Key words:semantic segmentation;evaluation metric;mean intersection over unio

8、n(mIoU);mean pixel accuracy(mPA);robustness基金项目:海南省自然科学基金(621QN270)。作者简介:于营(1990),女,博士研究生,副教授,CCF会员,研究方向为计算机视觉、模式识别;王春平(1965),男,博士,教授,博士生导师,研究方向为图像处理、人工智能、火力控制理论与应用;付强(1981),通信作者,男,博士,讲师,研究方向为自动控制、图像工程,E-mail:;寇人可(1992),男,博士研究生,研究方向为图像处理、目标检测;吴巍屹(1982),女,博士研究生,讲师,研究方向为维修资源优化配置、模式识别、计算机仿真;刘天勇(1997),男

9、,硕士研究生,CCF会员,研究方向为语义分割、三维重建、资源勘探。收稿日期:2022-07-08修回日期:2022-10-17文章编号:1002-8331(2023)06-0057-13Computer Engineering and Applications计算机工程与应用57Computer Engineering and Applications计算机工程与应用2023,59(6)learning)方法广泛应用于语义分割任务中,在准确性和效率方面带来了革命性突破,显示出强大的市场前景和应用潜力,大幅推动了自动驾驶、智能医疗、增强现实、工业检测、安防监控等领域的进步与变革。在对语义分割的结

10、果进行验证和评价时,不仅需要视觉感知上的定性评价,还需要客观的定量评价。图1中展示了两个语义分割结果,视觉上分割结果A比B效果要“好”(更接近Ground Truth),但仅凭主观感受,无法得到定量的、客观的度量结果,这就需要采用实验法对已分割图像与原始标注图像的质量进行对比来评价分割算法。实验法要求评价指标具有可计算性和可比较性,不受人的主观意识影响。评价指标是评析算法优劣的标准,针对不同的应用场景和算法模型选择恰当、全面的评价指标,对算法优化与改进有着举足轻重的作用。当前语义分割评价主要存在以下问题:第一,不少研究者对语义分割的评价标准认识较为片面,往往只注重分割结果的准确性,而忽略其他方

11、面;第二,由于语义分割并没有统一的指标集,部分研究成果只比较其占优势的指标,而在没有呈现的指标上往往表现不好;第三,一些研究者对不同指标的差异性和适用性了解较少,在评价标准的选择和结果解释方面存在不足之处。文献1-4对语义分割技术、常用数据集进行了归纳和介绍,但这些综述文献都未能从算法评价的角度对语义分割算法的评价指标和评价方法进行有针对性地总结。本文通过对近年来有影响力的语义分割算法进行分析和归纳,选择当前广泛认可且客观有效的评价指标进行总结与分析,从分割准确性、误差度量方法、性能和鲁棒性方面进行了全面陈述,希望对基于深度学习的语义分割研究有所助益。1语义分割技术概述图像分割的主要任务是根据

12、人的视觉感知将图像分割成有意义、不重叠的区域。图像分割问题发展已久,产生了很多经典算法,如早期的阈值分割法5、基于直方图的分割6、区域生长(region growing)法7、聚类算法8、流域(watershed)算法9、活动轮廓(active contours)法10,图割(graph cuts)法11、条件随机场(conditional ran-dom field,CRF)12、马尔可夫随机场(Markov randomfield,MRF)算法13,以及基于稀疏特征的算法14-15等。随着像素级标注的大规模图像数据集增多,图像分割研究已经转向实现细粒度的语义分割。语义分割是一种密集的分类任

13、务,需要将每个像素按照其蕴含的高级语义信息进行分类。近年来,深度学习算法越来越多地应用于语义分割中,分割效果和性能得到明显改善。FCN(fully convolutional networks,全卷积神经网络)16是深度学习在语义分割中的开山之作,证明了神经网络可以对图像进行端到端的语义分割训练,但FCN存在精度低、对细节不敏感等问题。U-Net17在FCN的基础上,提出“编码器-解码器”架构,在上采样时使用反卷积,增加特征图维数的同时减少了特征图数量;在编码和解码的对应层之间添加了跳跃连接,以保留图像的低层特征。SegNet18同样采用“编码器-解码器”架构,采用最大值池化非线性上采样,然后

14、对稀疏的上采样映射进行卷积,改善了分割的分辨率。卷积和下采样会丢失图像的部分高频信息,为解决这个问题,Zhao等人19开发了基于多尺度特征金字塔(feature pyramid network,FPN)的网络模型PSPNet,利用残差网络(ResNet)20作为特征提取器,从输入图像中提取不同尺度的信息进行融合,以获取局部和全局信息。Ghiasi等人21提出一种基于拉普拉斯金字塔的多分辨率重建架构,从金字塔低层图像重建上层未采样图像,以对图像进行最大程度的还原。Yu等人22使用膨胀卷积融合多尺度上下文信息而不损失分辨率,证明简化的自适应网络可以进一步提高准确度,在实时性语义分割研究中很受欢迎。

15、DeepLab系列在图像分割领域取得了令人瞩目的成就。DeepLab v123将神经网络的最后一层与全连接条件随机场(fully connected CRFs)结合起来,解决了深层CNN定位能力差的问题。DeepLab v224使用膨胀卷积解决上采样过程中分辨率下降的问题,并且使用空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)和全连接条件随机场,在多个尺度上获取目标和图像语义信息。随后,DeepLab v325将膨胀卷积的级联模块和并行模块相结合,并行卷积在ASPP中分组,在ASPP中增加了11卷积和批归一化处理。DeepLab v3+26采用了含

16、膨胀可分离卷积的“编码器-解码器”架构,使用DeepLab v3作为编码器,使用膨胀可分离卷积代替最大值池化和批归一化,使网络保留了比较多的低层次信息,同时优化了网络性能。RNN(recurrent neural network,循环神经网络)可以对像素间的依赖关系进行建模,使用RNN可以顺序地处理像素,从而建立全局上下文关系,改进分割效果。ReSeg 模型27基于 ReNet28,每个 ReNet 层由 4 个RNN组成,分别在水平和垂直两个方向扫描图像,以提ImageGround TruthSegmentation ASegmentation B图1两种分割结果比较Fig.1Compari

17、son of two semantic segmentation results582023,59(6)供相关的全局信息。Byeon等人29利用长/短期记忆模型(long-short term memory,LSTM)实现了场景图像的像素级分割,通过二维LSTM可以在单个模型中学习图像纹理信息和空间模型参数。Liang等人30提出了一种基于图长/短期记忆模型(graph LSTM)的语义分割模型,将LSTM从顺序数据或多维数据推广到一般的图结构,进一步增强了全局上下文的视觉特征。Dosovitskiy等人31提出了ViT(vision Transformer)模型,将文本领域的Transfor

18、mer32应用到图像领域,ViT将图像切分为1616个小块并映射为固定长度的向量输入到分类网络中,取得了相当于 CNN 的分类效果,当经过足够多数据的预训练时,其表现会超过 CNN,在下游任务中取得很好的迁移效果。之后,Transformer及其变体X-Transformer在计算机视觉中取得了巨大成功,尤其是Swin Transformer33改进了窗口划分规则,提出一种包含滑动窗口和层级设计的网络架构,兼顾了局部特征获取的同时,降低了计算量,在语义分割和目标检测任务中都取得了先进的性能。深度学习在语义分割任务中取得不懈成功,关键在于其能够以端到端的方式学习图像的特征表示,学习过程中利用损失

19、函数不断地优化模型,使每个像素的预测结果越来越接近其语义标签(groundtruth)。这些算法中的每个环节,如训练数据、网络架构、损失函数、训练策略以及度量指标的选择都会影响模型的评价结果,而这其中度量指标的选择往往被忽略。如果选择的度量指标不合理,可能会得到错误的结论,并且一种指标往往只能反映模型的一部分或一个方面的性能,因此,选择恰当的度量指标非常重要。此外,损失函数也是一种度量标准,它在训练过程中求解和评估模型。2像素标记准确性准确性指标是评价语义分割网络的最基本指标,它表示算法分割结果与标签之间的符合程度。评估算法的准确性需要通过实验比较分割结果与图像标签之间的差异,根据实验结果可以

20、客观、定量地衡量分割网络的性能。2.1精确度度量精确度指算法分割结果的正确程度。通常使用精确率、召回率、F1分数、像素精度等指标来描述。2.1.1精确率、召回率与F1分数精确率(Precision)、召回率(Recall)和F1分数是二分类任务中常用的衡量模型准确性的指标,可以使用混淆矩阵34来定义,如图2所示。精确率表示在预测为正样本(含真正例和假正例)的结果中,真正例所占的比例,如式(1)所示:Precision=TPTP+FP(1)精确率反应了模型的预测结果为正样本时,这个结果的可靠度。当分类模型阈值较高时,例如仅有1个正样本被正确地预测为正样本,其他全部样本都预测为负样本,此时,精确率

21、为100%,显然该结果具有片面性。召回率衡量模型预测正样本的能力,表示预测正确的正样本与标签正样本总数之间的比例,如式(2)所示:Recall=Sensitivity=TPR=TPTP+FN(2)召回率仅关注正样本的分类情况,可以在一定程度上反映模型的灵敏度(Sensitivity),也称为真阳性率(true positive rate,TPR)。当分类模型阈值较低时,例如将所有样本全归为正样本时,召回率为100%。可见,查全率同样不适合单独作为评价指标。鉴于精确率和召回率存在各自的缺点,需要在其中选择某种平衡。F1分数,又称F-Measure,是精确率和召回率的调和平均值,它综合了精确率和召

22、回率的结果,表示预测结果中的真正例TP是否多且准确。由式(3)可以看出,只有当Precision和Recall的值都比较大时,F1分数才会高。F1分数越高,模型越有效。F1_Score=2PrecisionRecallPrecision+Recall(3)基于混淆矩阵的评价指标中,也会使用特异性(Specificity)衡量非目标元素(背景)被正确地识别出来的能力。特异性即真阴性率(true negative rate,TNR),公式定义如下:Specificity=TNR=TNTN+FP(4)在语义分割任务中往往面临多类别分割,所以需要将上述指标扩展到多标签问题中。通常有三种方式求精确率、召

23、回率和F1分数在多个类别上的平均值,分别为宏平均(macro_average)、微平均(micro_average)和加权平均(weighted_average)35。其中,微平均又称作Instance-wise,是对数据集中的每一个实例不分类别地进行统计,然后计算相应指标36。以下主要介绍宏平均和加权平均。宏平均对每个类别分别计算精确率、召回率,并采用二者的算术平均值作为F1分数;加权平均是对宏平预测结果正样本负样本负样本正样本真实结果TPFPFNTN图2二分类混淆矩阵Fig.2Binary confusion matrix于营,等:语义分割评价指标和评价方法综述59Computer Eng

24、ineering and Applications计算机工程与应用2023,59(6)均的改进,考虑了每个类别的样本数在总样本中所占的比例。计算公式分别如下:Precisionmacro_avg=1ki=1kPrecision(i)(5)Recallmacro_avg=1ki=1kRecall(i)(6)F1_Scoremacro_avg=1ki=1k2Precision(i)Recall(i)Precision(i)+Recall(i)(7)Precisionweighted_avg=i=1kriPrecision(i)(8)Recallweighted_avg=i=1kriRecall(i

25、)(9)F1_Scoreweighted_avg=i=1kri2Precision(i)Recall(i)Precision(i)+Recall(i)(10)其中,Precision(i)表示第i类的精确率,Recall(i)表示第i类的召回率,k表示类别数,ri表示第i类样本数量在总样本中所占的比例。2.1.2像素精度像素精度(pixel accuracy,PA),又称global accuracy,表示分割正确的像素数量所占的比例,即正确分割的像素数除以总像素数,用来评估模型的全局准确度。对于k+1类(含k个前景类和1个背景类),令pii表示正确分类的像素数;pij是第i类被预测为第j类的

26、像素数,则像素精度计算公式为:PA=i=0kpiii=0kj=0kpij(11)像素精度描述图像中所有类别的分割准确性,常用于总体分割效果的估计。像素精度越接近1,表示模型性能越好。但像素精度所包含的信息有限,容易掩盖某一类别分割效果差的现象,不能反应出单个类别的分割准确性。对此,可以使用类别像素精度(class pixelaccuracy,CPA)分别评估每个类别的分割准确性。对第i类的分割结果来说,CPA计算公式为:CPA=piij=0kpij(12)平均像素精度(mean pixel accuracy,mPA)表示所有CPA的平均值,有时也称为平均精度(mean accuracy),mP

27、A计算公式为:mPA=1k+1i=0kpiij=0kpij(13)平均像素精度常用于总体的像素分割效果估计,相较于像素精度,平均像素精度的结果更加可靠。欠分割率(under-segmentation rate,UR)和过分割率(over-segmentation rate,OR)也会用于分割精确度的评估。欠分割率表示预测结果在标签区域中欠缺的像素比例;过分割率表示标签区域之外的像素点的比例。因这两个指标比较单一,需要与其他准则配合使用。2.2相关度度量相关性主要指预测分割区域与标签区域之间的相似程度,常用的相关性指标主要有交并比和Dice系数。2.2.1交并比交并比(intersection

28、over union,IoU),又称为Jaccard相似系数(Jaccard similarity coefficient,JSC),是当前语义分割研究中最常用的指标。在语义分割中,交并比表示预测掩码与标签像素的交叠率,评价预测的前景区域是否精准,也用于目标检测和实例分割中。平均交并比(mean-IoU,mIoU)是计算每个类别中 IoU 值的算术平均值,用于总体数据集的像素重叠情况。频率加权交并比(frequency weighted IoU,FWIoU)是对mIoU改进后的新的评价标准,需要对每个像素的类别按照其出现的频率设置权重。计算公式分别如下:IoU=|AB|AB=i=0kpiii=

29、0k(j=0kpji+j=0kpij-pii)(14)mIoU=1k+1i=0kpiij=0kpij+j=0kpji-pii(15)FWIoU=1i=0ki=0kpiji=0kj=0npijpiij=0kpij+j=0kpji-pii(16)上式中,A、B分别为标签区域和预测分割区域,pji是第j类被预测为第i类的像素数。交并比的取值范围是01,最理想情况是预测区域与标签区域完全重叠,此时IoU的值为1。mIoU因其自身的简洁性、代表性成为最常用的语义分割度量标准,在大多数研究中使用该标准评价实验结果。虽然FWIoU结果更加合理,但在主流的语义分割算法评价中很少使用。表1为当前先进模型在Cit

30、yscapes、ADE20K和COCO-Stuff数据集上取得的mIoU评分。除RGB图像分割之外,IoU与mIoU同样适于RGB-D图像和3D点云图像分割。在3D点云分割中使用的3DIoU指标与IoU定义几乎一致,只需将面积改为体积再计算重叠部分。作为语义分割中应用最广泛的指标,平均交并比和平均像素精度都表示模型对正确像素的预测能力。表2中展示了不同算法在 NYUD-v2与 SUN-RGBD数据集上取得的分割评分,可以看出,mIoU和mPA得分基本是正相关的,可以在同一数据集上客观地比较出不同分602023,59(6)割模型的准确性。但 mPA 会受图像中目标像素数量(前景背景比例)影响,因

31、此在不同数据集上的度量结果往往差异较大;相较而言,mIoU得分更稳定,是更标准的分割评价指标。2.2.2Dice系数Dice系数(Dice similarity coefficient,DSC)55也称作 Dice 相似性系数,它根据 Lee Raymond Dice 命名,是一种集合相似度度量函数,定义为预测区域与标签区域的重叠面积的两倍除以两幅图像的总像素数。在实际应用中,为防止分母为0,往往会在分子分母上同时加上一个smooth,smooth通常取值为156。Dice系数也可以转换为Dice损失(Dice loss),衡量分割结果和标签之间的差距。其公式如下:DiceCoefficien

32、t=2|AB+smooth|A+|B+smooth=1-DiceLose(17)在实际应用中,可以使用Dice per case或Dice global作为Dice系数指标,前者表示Dice系数的均值,后者应用于分割目标面积差异较大时,计算时采用测试集中样本Dice系数的分子的累加除以分母的累加。当分割目标面积较大时,两个评价指标的值基本相等。Dice系数和 Dice损失常用于医学影像分割领域。Klein等人57通过局部信息图谱匹配自动分割三维MR图像中的前列腺,采用Dice系数量化分割重叠区域的相似性。Milletari等人58提出一种基于体积的三维医学图像分割的全卷积神经网络V-Net,在

33、训练期间使用Dice系数对模型进行优化,取得了良好的性能。Ghosal等人59提出一种线性模型,该模型可以学习不确定量化的学习系数和相关性,来预测医学图像特定区域的Dice系数。一些医学图像分割挑战赛中指定Dice系数作为评价标准,表3中展示了不同模型在Kaggle 2018 Data ScienceBowl数据集上语义分割的Dice系数、类平均交并比、精确率和召回率的度量结果。2.3距离度量实际分割结果中常有一些像素被错误地划分到并不应属于的区域,这些被错误分类的像素与它们本应属于的正确区域的距离(带有一定的空间信息),从另一角度反映了分割质量的好坏。距离度量方法尤其应用于三维图像分割中,往

34、往使用空间距离或表面距离进行度量。下面介绍常用的语义分割距离度量指标。2.3.1豪斯多夫距离豪斯多夫距离(Hausdorff distance,HD)以 FelixHausdorff的名字命名,描述图像边缘点与最近的边缘点之间的最大距离,也称为最大对称表面距离(maximumsymmetric surface distance,MSD)。两个样本集合A和B的豪斯多夫距离定义为:H(A,B)=max(h(A,B),h(B,A)(18)其中,h(A,B)是A到B的单向豪斯多夫距离,h(B,A)是B到A的单向豪斯多夫距离:|h(A,B)=maxaAminbBa-b h(B,A)=maxbBminaA

35、b-a(19)是A和B之间的距离范式,如,欧式距离。从式(18)中可以看出,双向豪斯多夫距离度量两个点集之间的最大不匹配程度,在语义分割任务中主要描述分割边界与实际标定边界的差异性。算法模型PSPNet19GCNet37PSANet38DeepLab V325NonLocal39DANet40DeepLab V3+26OCR41SETR42SegFormer43Lawin44ViT-Adapter-L45Cityscapes80.080.780.980.880.982.082.280.682.284.084.485.8ADE20K55.445.245.446.745.845.046.445.7

36、50.351.256.260.5COCO-Stuff37.939.738.440.545.846.747.554.2表1Cityscapes、ADE20K和COCO-Stuff数据集上的mIoU性能Table 1mIoU performance on Cityscapes,ADE20Kand COCO-Stuff单位:%算法模型CMX(B5)46TokenFusion47CEN-PSPNet48SA-Gate49ShapeConv50VCD+ACNet51D-Aware CNN52RDFNet53RefineNet54NYUD-v2mIoU56.954.252.552.451.351.948.

37、450.146.5mPA66.965.063.564.461.162.858.9SUN-RGBDmIoU52.453.051.549.448.651.242.047.745.9mPA64.163.259.264.153.560.158.5表2NYUD-v2和SUN-RGBD数据集上mIoU和mPA性能比较Table 2Performance comparison of mIoU and mPAon NYUD-v2 and SUN-RGBD单位:%算法模型SSFormer-L60MSRF-Net61FANet62DCSAU-Net63DoubleUNet64UNet+65Dice92.3092.

38、2491.7691.4191.3389.74mIoU86.1485.3485.6985.0165.092.55Recall94.0292.2292.4064.07Precision90.2291.9491.3795.96表3DSB2018上的Dice系数、mIoU、召回率和精确率Table 3Dice coefficient,mIoU,recall and presidionon 2018 Data Science Bowl单位:%于营,等:语义分割评价指标和评价方法综述61Computer Engineering and Applications计算机工程与应用2023,59(6)豪斯多夫距

39、离对异常值敏感,为了消除噪声和异常值的影响,保持评估的稳定性,在实际应用中通过分位数排除不合理的距离,例如,使用95分位数,表示将豪斯多夫距离从大到小排列后,选取前5%覆盖的距离范围来评估模型在边界上分割的准确性。相比之下,Dice系数对标注区域之间内部的像素更敏感,而HD对分割出的边界更敏感,主要用来度量边界的分割准确性。2.3.2表面相似度平均表面距离(average surface distance,ASD)66,也称为对称平均表面距离(average symmetric surfacedistance,ASSD),主要表示预测的表面点集与标签之间的表面距离的平均值,是医学图像分割竞赛

40、CHAOS(combined healthy abdominal organ segmentation)中的一个常用的评估指标。另S(A)表示A表面的体素集合,对于任一体素v到S(A)的最短距离定义为:d(v,S(A)=minsAS(A)v-sA(20)则平均表面距离定义为:ASD=1|S(A)+|S(B)(sAS(A)d(sA,S(B)+sBS(B)d(sB,S(A)(21)表面重叠度(surface overlap)与表面 DSC(surfacedice similarity coefficient)67衡量重叠部分与总的表面面积的相关性。前者为预测表面面积与计算标签区域的表面面积的重叠比

41、例,后者为预测表面面积与计算标签区域的表面面积的Dice值。在使用时,通常给定误差距离,计算误差范围内的值。2.3.3体积相似度体积距离(volumetric distance)68与体积 Dice 值(volumetric Dice)计算预测分割结果与标签之间的体积相似性,前者度量体素的空间距离,后者度量空间Dice值。计算如下:V_Distance=|St-|Sg|St+|Sg(22)V_Dice=2|StSg+smooth|St+|Sg+smooth(23)其中,St为测试分割结果,Sg为标签。这里的体积距离不是基于重叠率的度量,而是分割区域的绝对体积与实际体积之间的比例;体积Dice值

42、与Dice系数的定义类似,只是将二维扩展到三维。表4中是IEEE Xplore近三年以及ISBI 2019的CHAOS中的准确性评价方法和准则的归纳和比较。3深度估计误差度量在语义分割网络的训练过程中,需要计算预测结果和标签之间的差异,通过对这些差异进行操作来量化误差并最小化误差所带来的负面结果,提供进一步的学习准则和优化方向。通常采用损失函数L(,d)0表示参数真值为而产生的预测d所造成的损失,预测越正确,损失越小。评价准则Sensitivity/TPRSpecificity/TNRPrecisionmacro_avg/Precisionweighted_avgRecallmacro_avg

43、/Recallweighted_avgF1_Scoremacro_avgF1_Scoreweighted_avgPACPAmPAURORIoUmIoUFWIoU3D IoUDSCHD/MSDASD/ASSDSurface OverlapSurface DSCVolumetric DistanceVolumetric Dice通用性所有算法所有算法所有算法所有算法所有算法所有算法所有算法所有算法所有算法所有算法所有算法所有算法所有算法所有算法三维点云、体素所有算法所有算法三维点云、体素三维体素三维体素三维体素三维体素使用频率中低低低低低低中高低低高高低低高高中低低低中复杂度低低中中高高低低低低低

44、中中中中中高高高高中中基于重叠是是是是是是否否否是是是是是是是否否是是否是基于距离否否否否否否否否否否否否否否是否是是否是否否说明具有片面性,需要与其他准则配合使用具有片面性,需要与其他准则配合使用具有片面性,需要与其他准则配合使用具有片面性,需要与其他准则配合使用样本不均匀时,指标效果不好既考虑了准确率和召回率,又考虑了样本不均衡问题简单但粗糙,图像中目标像素数量较少时不精确可以检验算法在哪些类别上效果好最常用的准确度度量准则之一评价指标单一,较少使用评价指标单一,较少使用可能会掩盖某些类别分割不准确的情况最常用的准确度度量准则之一反映了不同类别的占比也可用于3D目标检测医学图像分割最常用的

45、指标之一常使用Hausdorff Distance 95%CHAOS挑战赛评估指标度量三维分割的表面相似性度量三维分割的表面相似性与重叠率无关,表示分割结果的绝对体积之比CHAOS挑战赛评估指标表4语义分割准确性评价方法和准则的分析比较Table 4Analysis and comparison of semantic segmentation accuracy evaluation metrics622023,59(6)3.1均方损失使用均方误差(mean squared error,MSE)度量预测结果与标签之间的距离,所构造的损失函数称为均方损失,表示估计值与真值之间的距离平方的均值。均

46、方损失是常用的回归损失函数,公式如下:LMSE=1nnc(tn,c-yn,c)2(24)其中,n为样本数,c为类别数,y表示输出的预测结果,t表示标签。与均方误差相似的度量方法有:平方和误差(sum of the squared errors,SSE)、均方根误差(rootmean square error,RMSE)和平均绝对误差(mean abso-lute error,MAE),对应的损失函数分别如下:LSSE=nc(tn,c-yn,c)2(25)LRMSE=1nnc(tn,c-yn,c)2(26)LMAE=1nnc|tn,c-yn,c(27)SSE与MSE相似,属于L2损失;RMSE是

47、MSE开平方,与样本同量纲,计算时对残差的观测更加直观;MAE 属于L1损失,是对残差直接计算平均值。因为L2损失将误差乘方,对较高的(大于1的)误差惩罚更多,模型对这样的样本更敏感,所以L1损失函数比L2损失函数的鲁棒性更好。但MAE是线性的,其零点不可导,且优化后期不稳定,而使用RMSE定义的损失函数是平滑可微的,更方便进行数学运算,所以RMSE是许多回归模型的默认度量标准。3.2交叉熵损失交叉熵损失使用交叉熵误差(cross entropy error,CEE)表示预测结果与标签的残差,随着算法的不断优化,预期结果越来越接近真实值,此时交叉熵趋近于0。交叉熵损失定义如下:LCEE=-1n

48、nctn,cloga(yn,c)(28)由式(28)可以看出,为保证损失函数的可导性,交叉熵损失取为正确标签的对数似然函数,对数底数a一般取2或自然常数e。文献69-70证明了使用交叉熵训练的神经网络分类器在有限数据集上比均方误差具有显著性能优势。交叉熵描述的是两个概率分布之间的差异性,差异越小,表示两个概率分布越接近。交叉熵损失通过梯度下降使预测值的概率分布不断接近标签值的概率分布,能够真实地反映出预测分割结果和标签之间的误差,可应用于大多数语义分割场景中。3.3带权交叉熵损失对交叉熵中的每个类别引入一个权重w0,1来缓解图像中前景与背景不平衡(例如,Ground Truth像素在图像中占比

49、较少)问题,这就是带权交叉熵损失,公式如下:Lweight_CE=-1nncwn,ctn,cloga(yn,c)(29)其中,权重系数wn,c=n-ncn,n表示总的像素个数,nc表示Ground Truth的像素个数。Focal Loss71是一种改进的加权交叉熵损失,通过在交叉熵损失函数中加入一个带有可调节的焦点参数0的调制因子(1-pt),并引入t表示正负样本对总体损失值的共享权重,从而度量不平衡样本,以及难易样本对总的损失的贡献。计算公式为:FL(pt)=-t(1-pt)loga(pt)(30)调制因子(1-pt)减少了简单样本带来的损失,并扩展了样本接收低损失值的范围。当=0时,式(

50、30)退化为普通的加权交叉熵。3.4Dice损失与IoU损失Dice损失源于Dice系数,可以度量预测结果与标签之间的相似度,适用于图像的二值分割,其定义如式(17)中所示。IoU损失(IOU Loss,or Jaccard Loss)72与Dice损失类似,同样用于描述区域相关性,计算公式为:IoUloss=-lnABAB,or IoUloss=1-ABAB(31)Dice损失和IoU损失在语义分割网络中的优化目标是最大化Dice系数和交并比的度量指标,损失越小,说明预测区域与分割区域的相关度越高。随着迭代次数的增加,得到更低的损失值,预测的分割区域更加准确。Dice损失和IoU损失可用于样

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服