1、Journal of Image and Signal Processing 图像与信号处理图像与信号处理,2023,12(3),279-289 Published Online July 2023 in Hans.https:/www.hanspub.org/journal/jisp https:/doi.org/10.12677/jisp.2023.123028 文章引用文章引用:刘斌,潘蜜.基于四通道不可分加性小波与 DeepLabv3+结合的语义分割模型J.图像与信号处理,2023,12(3):279-289.DOI:10.12677/jisp.2023.123028 基于基于四四通道
2、通道不可分不可分加性小波与加性小波与DeepLabv3+结合结合的语义分割模型的语义分割模型 刘刘 斌,潘斌,潘 蜜蜜 湖北大学计算机与信息工程学院,湖北 武汉 收稿日期:2023年6月18日;录用日期:2023年7月9日;发布日期:2023年7月20日 摘摘 要要 为了改善传统语义分割模型为了改善传统语义分割模型中因中因丢失细节,丢失细节,从而从而导致信息下降的问题,我们提出了一种改进的导致信息下降的问题,我们提出了一种改进的DeepLabv3+网络分割模型。网络分割模型。首先将主干网络替换为首先将主干网络替换为MobileNetV2网络网络;其次通过构造四通道不可分小;其次通过构造四通道不
3、可分小波低通滤波器,对源图像进行分解,提取源图像的高频子图;再次,将普通卷积更换为深度可分离卷积波低通滤波器,对源图像进行分解,提取源图像的高频子图;再次,将普通卷积更换为深度可分离卷积并且并且引入卷积注意力模块引入卷积注意力模块(CBAM)自适应细化特征自适应细化特征,从而提高网络模型的分割效果。,从而提高网络模型的分割效果。实验结果表明,改实验结果表明,改进后的模型在进后的模型在VOC数据集上数据集上均交并比均交并比(mean intersection over union,MIoU)比原始的比原始的DeepLabv3+模型模型提提高高0.94%,平均像素精度,平均像素精度(mean pi
4、xel accuracy,MPA)比原始比原始DeepLabv3+模型提高了模型提高了1.34%,准确度,准确度比原始比原始DeepLabv3+模型提高模型提高0.19%。在在BDD100K数据集上数据集上均交并比均交并比比原始的比原始的DeepLabv3+模型提模型提高高0.53%,平均像素精度比原始,平均像素精度比原始DeepLabv3+模型提高了模型提高了0.15%,准确率比原始,准确率比原始DeepLabv3+模型提高模型提高0.13%。在主观和客观结果上均显示我们的模型优于原模型在主观和客观结果上均显示我们的模型优于原模型。关键词关键词 语义分割语义分割,空洞空间卷积池化金字塔空洞空
5、间卷积池化金字塔,不可分小波不可分小波,加性小波加性小波,卷积注意力模块卷积注意力模块 Semantic Segmentation Model Based on Four Channel Non-Separable Additive Wavelet Combined with DeepLabv3+Bin Liu,Mi Pan School of Computer Science,Hubei University,Wuhan Hubei Received:Jun.18th,2023;accepted:Jul.9th,2023;published:Jul.20th,2023 刘斌,潘蜜 DOI:1
6、0.12677/jisp.2023.123028 280 图像与信号处理 Abstract In order to improve the loss of details in the traditional semantic segmentation model,which leads to the decline of information,we propose an improved DeepLabv3+network segmentation model.Firstly,replace the backbone network with the MobileNetV2 network
7、.Secondly,the source image is decomposed by constructing a four-channel non-separable wavelet low-pass filter,and the high-frequency subimage of the source image is extracted.Thirdly,the common convolution is re-placed by deep separable convolution and the adaptive refinement feature of convolutiona
8、l atten-tion module(CBAM)is introduced to improve the segmentation effect of the network model.The experimental results show that on the VOC data set,the mean intersection over union(MIoU)of the improved model is 0.94%higher than that of the original DeepLabv3+model,the mean pixel accuracy(MPA)is 1.
9、34%higher than the original DeepLabv3+model,and the accuracy is 0.19%higher than the original DeepLabv3+model.On the BDD100K data set,mean intersection over union is 0.53%higher than the original DeepLabv3+model.The DeepLabv3+mean pixel accuracy is 0.15%higher than the original DeepLabv3+model,and t
10、he accuracy is 0.13%higher than the original DeepLabv3+model.Both subjective and objective results show that our model is better than the original model.Keywords Semantic Segmentation,Atrous Spatial Pyramid Pooling,Non-Separable Wavelet,Additive Wavelet,Attention Mechanism,Convolutional Attention Mo
11、dule Copyright 2023 by author(s)and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License(CC BY 4.0).http:/creativecommons.org/licenses/by/4.0/1.引言引言 语义分割作为计算机视觉中的一个重要分支,通过为每个像素进行密集的预测推断标签来实现细粒度推理,从而实现图像像素级的分类。语义分割任务就是从低层语义向高层语义推理的过程。目前语义分割在现实生活,如自主驱动
12、1 2 3,人机交互4,计算摄影5,图像搜索引擎6以及增强现实技术等7具有广泛的应用。在图像处理的早期,传统图像分割方式包括基于阈值的图像分割方法、基于边缘的图像分割方法8 9 10、基于区域的图像分割方法11 12 13、基于聚类的图像分割方法14 15 16和基于图论的图像分割方法17 18 19。这些传统图像分割方法大多数是利用图像的表层信息进行分析处理,因此对于需要“处理”大量语义信息的图像分割任务并不适用。而基于小波变换的图像分割技术具有较强的抗噪声性能,并且能够有效地保留边缘信息,以达到分割的目的。随着深度学习技术的不断发展,涌现出了大量基于深度学习的高效语义分割方法。其中 Lon
13、g 等人首次将卷积神经网络(CNN)的全连接改为卷积操作,得到全卷积神经网络(FCN)20。FCN 对图像进行像素级的分类,从而解决了语义级别的图像分割问题,被称为深度学习用于语义分割的开创之作。随后 SegNet网络21,UNet 22,PSPNet 23,DeepLab 系列24等经典网络相继被提出。然而 FCN 和 SegNet 模型不够精细,没有充分利用上下文关系,UNet 网络冗余太大,PSPNet 网络得到的结果不够精细。Deeplab系列相比这些网络具有准确度高、速度快、参数量小和感受野大等优点。其中,DeepLabv3+利用空间金Open AccessOpen Access刘斌
14、,潘蜜 DOI:10.12677/jisp.2023.123028 281 图像与信号处理 字塔模块和 encoder-decoder 来实现语义分割。为了增强分割结果,Xu 等人提出加入通道注意力机制模块以增强分割结果的方法25;Zhen 等人采用更密集的特征池化模块有效聚合多尺度特征,同时使用深度可分离卷积降低网络计算复杂度26;Ma 等人提出了使用 DeepLabv3+网络识别时频分布中故障特征的方法,对采集到的滚动轴承振动信号使用短时傅里叶变换得到时频分布27;Zhang 等人提出了一种基于DeepLabv3 架构的小波域 DeepLabv3-MRF(Markov random fie
15、ld,MRF)算法,从而获得更为清晰的边缘细节信息28。由于经典方法和深度学习方法不足,为了提高 DeepLabv3+网络分割图像效果,本文提出一种基于改进 DeepLabv3+模型的语义分割网络,将轻量级网络 MobileNetV2 29作为主干网络,利用不可分小波具有各向同性的特点,将加性小波加入模型中进行各个方向的特征提取。实验结果显示,相比于原模型,我们的模型在主观视觉分割效果以及客观指标上都取得了更好的结果。2.相关理论介绍相关理论介绍 2.1.二维不可分小波二维不可分小波 Liu 等人30 31对不可分小波进行了广泛的研究,并成功地将其应用于图像处理的不同领域,如图像分割、图像融合
16、和图像增强等。Chen 等人以高维小波的多尺度分析为基础,提出了构造具有正交性和紧支撑的高维非张量积小波滤波器组32,其构造的高维低通滤波器频域形式如下:()()()()TT0101,nndjNjj Zj ZmXU D AUVRs=(1)对应的1s个相应的正交共轭滤波器(CQF)的形式如下:()()()()()TT11,1,2,1NndjjNljl Zl ZmXU D AUVRjss=(2)Liu 等人在此基础上构建了二维四通道滤波器组30,假设小波变换的伸缩矩阵为2,0;0,2,则滤波器组的形式可构造为:()()()()()()22T012311,1,4kjjjmx ymx ymx ymx
17、yXx y xyU D xyUV=(3)其中1eix=,2eiy=,()1,2,jUjk=以及()01232,2VV V V V=为正交阵,123,V V V为 4 1 向量,()T01,1,1,1V=。2.2.加性小波加性小波 近些年来小波分析迅速发展,在信号处理、图像识别、计算机视觉和数据压缩等方面具有广泛的应用。二维小波可以分为张量积小波和不可分小波,张量积小波并不具有多方向性,无法处理图像中多方向的信息。与张量积小波相比,不可分小波可以提取到图像各个方向的信息,具有良好的适应性。加性小波是利用低通滤波器对图像进行 atrous 分解,具体过程如下:()()()0011010122120
18、23323,Hpp wppHpp wppHpp wpp=(4)其中iw为小波平面,也就是对应图像的高频信息;ip为低频分量,也就是对应图像的低频信息;rp为刘斌,潘蜜 DOI:10.12677/jisp.2023.123028 282 图像与信号处理 残余图像。重构公式如下:01niripwp=+(5)2.3.注意力机制注意力机制 CBAM 33是一种轻量级通用的模块,同时也是一个即插即用模块,可以嵌套在任何 CNN 架构中,它结合了空间与通道注意力机制模块。CBAM 包含 CAM 和 SAM 两个子模块。输入特征C H WFR,再将通道注意力模块进行一维卷积1 1CcMR,然后将卷积结果与原
19、图相乘,以 CAM 的输出结果作为输入,进行空间注意力模块的二维卷积1 H WsMR,再将输出结果与原图相乘,具体过程如下:()cFMFF=(6)()sFMFF=(7)通道注意力机制类似于 SENet 34,其主要思想是增加有效通道的权重,降低无效通道的权重。公式表示为:()()()()()()()()()()()10avg10maxcccMFMLP AvgPool FMLP MaxPool FW WFW WF=+=+(8)其中avgcF表示平均池特征,maxcF表示最大池特征,0c r cWR,1c c rWR表示共享网络层的两层神经网络。在网络层0W后面,使用函数 ReLU 作为激活函数,
20、表示 Sigmoid 函数。为了减少参数开销,隐藏的激活大小设置为1 1C rR,其中 r 是压缩率,本文实验中 r 取值为 16。通道注意机制关注的是通道层面的哪些层具有更强的反馈能力,空间注意机制则是增强特定区域的特征。空间注意机制的表述如下:()()()()()()()7 77 7avgmax;sssMFfAvgPool FMaxPool FfFF=(9)使用平均池化和最大池化来评估信息,并使用卷积进行提取。最后,用 sigmoid 层进行归一化。通道注意机制和空间注意机制示意图见图 1。Figure 1.Channel attention and Spatial attention s
21、tructure in CBAM 图图 1.CBAM 中通道注意力和空间注意力结构 刘斌,潘蜜 DOI:10.12677/jisp.2023.123028 283 图像与信号处理 2.4.DeepLabv3+DeepLabv3+是一个经典的语义分割模型,是经典的编码器解码器结构,为了使得模型具有轻量级特点,且提高模型训练速度,这里我们选用 MobileNetV2 为主干网络。经过主干网络进行特征提取后,进入 ASPP(空洞空间卷积池化金字塔),其中 ASPP 包括 1*1 卷积,空洞率分别为 6、12、18 的空洞卷积和全局平均池化35。然后将其进行堆叠,再经过 1*1 卷积从而实现降低特征图
22、的通道数。在 decoder 部分,主干网络会将低级特征(Low-Level Features)经过 1*1 卷积后的特征与 decoder 部分得到的特征图进行4 倍上采样,再进行拼接融合,融合得到的特征图进行 3*3 卷积后进行 4 倍上采样,最终得到语义分割后的图像。3.方法方法 3.1.二维四通道不可分小波滤波器构造二维四通道不可分小波滤波器构造 在公式(3)的基础上,取 k=2,构造四通道 6 6 滤波器组:取:1111111111111111V=(10)1010010101011010P=(11)()cossin00sincos001,2,00cossin00sincosjjjjj
23、jjjjAjk=(12)按照T1 2jjUPAP=构造()1,2,jUjk=,(),jjjU是中心对称矩阵。取1=,130=,215=,224=,可得四通道不可分小波滤波器组的低通滤波器为:00.00000567240.00010823640.0010828680.0018755820.00016666940.00000873480.00010823640.0020652730.020662350.035788240.0031802410.00016666940.00098828410.018857580.1904220.29322420.025955240.H=0013602560.0013
24、602560.025955240.29322420.1904220.018857580.00098828410.00016666940.0031802410.035788240.020662350.0020652730.00010823640.00000873480.00016666940.0018755820.0010828680.00010823640.0000056724(13)3.2.提取图像高频子图提取图像高频子图 根据我们所构造出的滤波器,基于加性小波的分解原理,我们将图像经过所构造的低通滤波器进行卷积提取到低频ip,因为加性小波是完全无损的,保存边缘信息较好。因此我们将原图利用所
25、构造的低通滤波器进行不可分小波分解,然后把源图像与上次分解的低频相减得到高频iw,取到图像高频部分。提取到图像如图 2(a)的低频及高频信息如图 2(b),图 2(c)所示。刘斌,潘蜜 DOI:10.12677/jisp.2023.123028 284 图像与信号处理 (a)原图 (b)低频 (c)高频 Figure 2.Low frequency and high frequency of image 图图 2.图像的低频高频 3.3.对对 DeepLabv3+模型进行修改模型进行修改 语义分割最终结果正是图像的轮廓信息,而图像的轮廓信息是由边缘信息所构成,因此提取图像中的高频信息对语义分割
26、而言具有重要作用。不可分小波具有各向同性特征,可以提取到图像当中各个方向的信息,具有不丢失源图像信息的特点36。因此可以很好提取图像轮廓信息。基于此,我们利用加性小波的分解原理,将不可分小波的高频信息送入到网络中。在模型的 Decoder 部分以及 ASPP 部分加入 CBAM 模块,注意力机制可以告知 Feature Map 关注的对象,提高了特征感兴趣的表现,提高了模型自适应细化特征。改进后的网络结构见图 3。Figure 3.Overall framework of our model 图图 3.本文模型框架 刘斌,潘蜜 DOI:10.12677/jisp.2023.123028 285
27、 图像与信号处理 4.结果结果 4.1.数据集数据集 我们采用 PASCAL VOC 以及 BDD100K 数据集,将数据集按照 9:1 划分训练集和测试集,VOC 数据集以及 BDD100K 数据集均为语义分割领域中常用的数据集。其中 VOC 数据集包含 20 个类别以及一个背景类别,共有 10828 张图像作为训练集图像,共有 7200 张图像作为 BDD100K 训练集图像。4.2.实验环境实验环境 实验的系统环境在处理器为 Intel(R)Xeon(R)Silver 4210 CPU2.20GHz,运行内存为 24G,显卡为NVIDIA Quadro RTX 5000 的主机上进行的,
28、程序是基于 CUDA11.0 以及 CUDNN10.1 的深度学习框架上实现的。训练分为两个阶段,利用迁移学习思想将模型分为冻结和解冻阶段。冻结阶段会将模型的主干部分冻结,特征提取网络不发生变化,占用的显存较小,仅仅只是对网络进行微调,提升速度的同时保留训练网络的参数。在解冻阶段,此时模型的主干不再被冻结,特征提取网络发生变化,模型的所有参数都会发生变化。冻结阶段将 Epoch 设置为 50,Batch size 设置为 8,模型的最小学习率设置为 0.00007;解冻阶段,Epoch 设置为 100,Batch size 设置为 4,学习率设置为 0.00007。4.3.分析与分析与评价评价
29、 为了客观评价改进后的模型性能,本文选用 MIoU(Mean Intersection over Union),MPA(Mean Pixel Accuracy,类别平均像素准确率),Accuracy(准确度)三个指标来评价语义分割算法的性能。以 VOC 数据集为例,该数据集包含 20 个类以及一个背景类,k 表示类别,因此共有 k+1 个类别,i表示真实值,j 表示预测值,ijp表示将 i 预测为 j。1)MIoU 即均交并比,计算所有类别交集和并集之比的平均值。某一个类别的 MIoU 计算公式如下:0001MIoU1kiikkiijjiiijjpkppp=+2)MPA 即计算每一类分类正确的
30、像素点数和该类的所有像素点数的比例,然后求取平均值,计算公式如下:001MPA1kiikiijjpkp=+3)Accuracy 即全部预测正确的概率。计算公式如下:TPTNAccuracyTPTNFNFP+=+其中:TP(True Positive 真正例)指预测的结果为正例,并且预测正确。FN(False Negative 假反例)表示实际为真,预测为假。FP(False Positive)指假正例,模型预测为正例,实际是反例。FN(False Negative)表示假反例,模型预测为反例,实际是正例。TN(True Negative)表示真反例,模型预测为反例,实际是反例。4.4.不同网络
31、在不同网络在 VOC 数据集上的测试结果数据集上的测试结果 基于以上所提的评价指标,将本文所提出的新的模型与目前几种比较先进的语义分割模型在 VOC 数据集上进行对比,结果见表 1。刘斌,潘蜜 DOI:10.12677/jisp.2023.123028 286 图像与信号处理 Table 1.Comparison of objective indicators of different Classical semantic Segmentation methods on VOC datasets 表表 1.不同经典语义分割方法在 VOC 数据集上客观指标比较 训练网络 MIoU%MPA%Acc
32、uracy%DeepLabv3+76.29 86.51 93.39 UNet 61.68 72.44 91.28 PSPNet 70.31 83.04 92.83 Our Methods 77.23 87.85 93.58 4.5.不同网络在不同网络在 BDD100K 数据集上的测试结果数据集上的测试结果 将本文所提出的新的模型与目前几种比较先进的语义分割模型在 BDD100K 数据集上进行对比,结果见表 2。Table 2.Comparison of objective indicators of different Classical semantic Segmentation metho
33、ds on BDD100K datasets 表表 2.不同经典语义分割方法在 BDD100K 数据集上客观指标比较 训练网络 MIoU%MPA%Accuracy%DeepLabv3+51.75 59.52 90.09 UNet 48.35 56.31 91.35 PSPNet 33.28 39.57 86.62 Our Methods 52.28 59.67 90.22 4.6.Wavelet 模块性能验证模块性能验证 为了进一步验证 Wavelet 模块的性能,我们将加入 Wavelet 模块的网络模型与原模型在 VOC 数据集上进行对比试验,实验结果见表 3。加入 Wavelet 模块后
34、,MIoU 提高 0.79%,MPA 提高 0.31%,Accuracy提高了 0.11%。证明 Wavelet 模块对于分割任务有明显提升效果。Table 3.Wavelet module performance 表表 3.Wavelet 模块性能 网络模型 MIoU%MPA%Accuracy%未引入 Wavelet 模块 76.44 87.54 93.47 引入 Wavelet 模块 77.23 87.85 93.58 4.7.主观评价主观评价 原图如图 4(a)所示。使用 PSPNet 处理后的结果如图 4(b)所示,猫的耳朵没有完成分割;鹦鹉身体出现过分割;运动员分割完全但是自行车后轮
35、仅仅只分割 1/3。使用 UNet 模型处理后的结果如图 4(c)所示,图像不包含猫的部分却仍然进行小部分分割;鸟的身体分割过度;自行车轮胎没有分割完全,仅仅只是将后部分车轮分割 2/3。使用 DeepLabv3+处理后的结果如图 4(d)所示,很明显发现 DeepLabv3+存在分割不清楚问题,猫的轮廓出现阴影;鹦鹉翅膀没有分割完全;运动员头部和前轮还有部分没有完成分割。刘斌,潘蜜 DOI:10.12677/jisp.2023.123028 287 图像与信号处理 对比我们改进后的模型得到的分割图像如图 4(e)所示,分割细节以及效果从主观角度看均有明显的提升。(a)原图 (b)PSPNet
36、 (c)UNet (d)Deeplabv3+(e)Ours Figure 4.Comparison of Segmentation effects of different models 图图 4.不同模型分割效果对比 5.结论结论 本文提出了一种基于四通道加性小波与 DeepLabv3+网络结合的语义分割模型,能够较好地提取图像的特征,使得分割对象具有更清楚的细节信息。实验结果表明,对比语义分割领域经典模型 PSPNet,UNet以及 DeepLabv3+模型,本文模型效果更好,明显提升了模型性能。将主干网络替换为 MobileNetv2,减少了网络的参数,使得模型更轻量级;加入 CBAM
37、模块提高物体分割精度;加入小波变换后,明显提升网络的边缘学习效果,图像的高频是图像轮廓信息,我们将图像经过小波处理放入模型中提升了模型对于细节信息的捕获。无论是主观还是客观结果均显示出我们的模型优于原模型。基金项目基金项目 国家自然科学基金面上项目(No.61471160)。参考文献参考文献 1 Ess,A.,Mller,T.,Grabner,H.,et al.(2009)Segmentation-Based Urban Traffic Scene Understanding.British Ma-chine Vision Conference,BMVC 2009,London,7-10 Se
38、ptember 2009,2.https:/doi.org/10.5244/C.23.84 2 Geiger,A.,Lenz,P.and Urtasun,R.(2012)Are We Ready for Autonomous Driving?The KITTI Vision Benchmark Suite.2012 IEEE Conference on Computer Vision and Pattern Recognition,Providence,16-21 June 2012,3354-3361.https:/doi.org/10.1109/CVPR.2012.6248074 3 Co
39、rdts,M.,Omran,M.,Ramos,S.,et al.(2016)The Cityscapes Dataset for Semantic Urban Scene Understanding.Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas,27-30 June 2016,3213-3223.https:/doi.org/10.1109/CVPR.2016.350 4 Oberweger,M.,Wohlhart,P.and Lepetit,V.(2015)Han
40、ds Deep in Deep Learning for Hand Pose Estimation.刘斌,潘蜜 DOI:10.12677/jisp.2023.123028 288 图像与信号处理 5 Yoon,Y.,Jeon,H.G.,Yoo,D.,et al.(2015)Learning a Deep Convolutional Network for Light-Field Image Su-per-Resolution.Proceedings of the IEEE International Conference on Computer Vision Workshops,Santiag
41、o,7-13 December 2015,24-32.https:/doi.org/10.1109/ICCVW.2015.17 6 Wan,J.,Wang,D.,Hoi,S.C.H.,et al.(2014)Deep Learning for Content-Based Image Retrieval:A Comprehensive Study.Proceedings of the 22nd ACM International Conference on Multimedia,Orlando,3-7 November 2014,157-166.https:/doi.org/10.1145/26
42、47868.2654948 7 邱艺东.基于图像分割的增强现实导航方法研究D:硕士学位论文.福州:福州大学,2020.8 Rosenfeld,A.(1981)The Max Roberts Operator Is a Hueckel-Type Edge Detector.IEEE Transactions on Pattern Analysis and Machine Intelligence,PAMI-3,101-103.https:/doi.org/10.1109/TPAMI.1981.4767056 9 Lang,Y.and Zheng,D.(2016)An Improved Sobel
43、 Edge Detection Operator.2016 6th International Conference on Mechatronics,Computer and Education Informationization(MCEI 2016),Shenyang,11-13 November 2016,590-593.https:/doi.org/10.2991/mcei-16.2016.123 10 Yang,L.,Wu,X.,Zhao,D.,et al.(2011)An Improved Prewitt Algorithm for Edge Detection Based on
44、Noised Image.2011 4th International Congress on Image and Signal Processing,Vol.3,1197-1200.https:/doi.org/10.1109/CISP.2011.6100495 11 Zhang,Y.J.(2006)An Overview of Image and Video Segmentation in the Last 40 Years.In:Zhang,Y.-J.,Ed.,Ad-vances in Image and Video Segmentation,IGI Global,Hershey,1-1
45、6.https:/doi.org/10.4018/978-1-59140-753-9.ch001 12 Pham,D.L.,Xu,C.and Prince,J.L.(2000)A Survey of Current Methods in Medical Image Segmentation.Annual Re-view of Biomedical Engineering,2,315-337.https:/doi.org/10.1146/annurev.bioeng.2.1.315 13 Tremeau,A.and Borel,N.(1997)A Region Growing and Mergi
46、ng Algorithm to Color Segmentation.Pattern Recog-nition,30,1191-1203.https:/doi.org/10.1016/S0031-3203(96)00147-1 14 Cheng,Y.(1995)Mean Shift,Mode Seeking,and Clustering.IEEE Transactions on Pattern Analysis and Machine In-telligence,17,790-799.https:/doi.org/10.1109/34.400568 15 Fukunaga,K.and Host
47、etler,L.(1975)The Estimation of the Gradient of a Density Function,with Applications in Pat-tern Recognition.IEEE Transactions on Information Theory,21,32-40.https:/doi.org/10.1109/TIT.1975.1055330 16 Sheikh,Y.A.,Khan,E.A.and Kanade,T.(2007)Mode-Seeking by Medoidshifts.2007 IEEE 11th International C
48、on-ference on Computer Vision,Rio de Janeiro,14-21 October 2007,1-8.https:/doi.org/10.1109/ICCV.2007.4408978 17 Boykov,Y.Y.and Jolly,M.P.(2001)Interactive Graph Cuts for Optimal Boundary&Region Segmentation of Objects in ND Images.Proceedings 8th IEEE International Conference on Computer Vision,ICCV
49、 2001,Vol.1,105-112.18 Rother,C.,Kolmogorov,V.and Blake,A.(2004)“GrabCut”Interactive Foreground Extraction Using Iterated Graph Cuts.ACM Transactions on Graphics(TOG),23,309-314.https:/doi.org/10.1145/1015706.1015720 19 Tang,M.,Gorelick,L.,Veksler,O.,et al.(2013)Grabcut in One Cut.Proceedings of the
50、 IEEE International Confe-rence on Computer Vision,Sydney,1-8 December 2013,1769-1776.https:/doi.org/10.1109/ICCV.2013.222 20 Long,J.,Shelhamer,E.and Darrell,T.(2015)Fully Convolutional Networks for Semantic Segmentation.Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,B