一种基于注意力机制的文物图像显著性检测方法_雷雨晴.pdf

资源描述

1、第 25 卷第 1 期2023 年 1 月大连民族大学学报Journal of Dalian Minzu UniversityVol25，No1January 2023收稿日期:20220409;最后修回日期:20220730基金项目:辽宁省自然科学基金项目(2020MZLH19);贵州省科技支撑计划项目(2021534)。作者简介:雷雨晴(1998)，女，辽宁盘锦人，大连民族大学计算机科学与工程学院硕士研究生，主要从事图像处理研究。文章编号:20961383(2023)01006405一种基于注意力机制的文物图像显著性检测方法雷雨晴1a，1b，杨楠1a，1b，冉勇2，闫宇1a，

2、1b(1大连民族大学 a计算机科学与工程学院;b大连市汉字计算机字库设计技术创新中心，辽宁大连 116650;2德江傩堂戏博物馆，贵州铜仁 565200)摘要:针对以往的显著性模型在文物检测中，边框突出类图像和背景复杂类图像对非显著性区域的背景做出反应的问题，有效地对文物图片进行显著性检测，构建了文物图像显著性数据集。使用了基于深层次的“层次集”网络(Deep Level Sets，DLS)算法的显著性检测，替换基于卷积神经网络(ConvolutionalNeural Network，CNN)的 VGG16 网络，将其换为更有效的网络，并引入注意力机制。针对边框明显图像，对原始图像进行显著

3、性检测后，根据设定的阈值判断其是否为边框明显类图像，从而判断是否应该重新输入到网络。与已有的算法进行定量分析与定性分析，在构建的文物数据集上进行的实验结果表明:该方法对于图像显著性区域的检测非常有效。关键词:文物图像;注意力机制;显著性矩阵中图分类号:TP391文献标志码:AA Method for Significance Detection of Cultural elic ImagesBased on Attention MechanismLEI Yuqing1a，1b，YANG Nan1a，1b，AN Yong2，YAN Yu1a，1b(1aSchool of Computer Sci

4、ence and Engineering;bDalian Chinese Character Computer Font DesignTechnology Innovation Center，Dalian Minzu University，Dalian Liaoning 116650，China;2 DejiangNuotang Opera Museum，Tongren Guizhou 565200，China)Abstract:In the detection of cultural relics using significance models before，the images wit

5、hobvious borders and the background complex images will respond to the background of the nonsignificant area In order to detect the significance of cultural relic images effectively，the signifi-cance data set of cultural relic images is constructed The significance detection algorithm basedon deep l

6、evel sets(DLS)is used to replace the VGG 16 network based on convolutional neuralnetwork(CNN)，which is more effective and introduces attention mechanism For the imageswith obvious borders，after the significance detection of the original image，whether it is an im-age with obvious borders according to

7、 the set threshold is identified，so as to judge whether itshould be reinput into the network Compared with the existing algorithms，the quantitative andqualitative analysis are carried out The experimental results on the constructed cultural relic da-ta set show that this method is very effective for

8、 the detection of image salient regionsKey words:cultural relic image;attention mechanism;significance matrixDOI:10.13744/21-1431/g4.2023.01.013视觉显著性检测是通过模拟人类视觉来提取图像显著区域的算法，在图像重定位、图像自动裁剪、图像压缩和目标识别领域具有重要的应用。1998 年 Itti 等从视觉心理学对人类自下而上的视觉选择性注意过程进行研究并提出了显著性检测模型1。显著性目标检测方法可分为传统显著性检测方法和基于深度学习的显著性检测方法。传统显著

9、性检测方法研究中，Liu 等提出将显著性检测定义为二元分割问题2，Zhang L 等利用背景和前景区分，进而构建图层排序的显著性检测方法3，Hou X 等通过观察图片背景的特征分布和属性，通过剔除图像背景信息得到显著区域4。深度学习的显著性方法研究中又分为传统的卷积神经网络方法和完全卷积神经网络方法。传统的卷积神经网络方法中，Wang L 等提出了一种结合局部估计和全局搜索的显著性检测算法5，Li G等将嵌套窗口中提取的多尺度 CNN 特征与具有多个完全连接层的深度神经网络结合将图像分为三个区域再对他们进行特征提取而后进行整和6。完全卷积神经网络中，Wu 等提出以VGG16 作为基础网络附加互

10、学习模块、边缘模块和解码模块的模型7，Wang W 等通过完整的迭代前馈和反馈策略扩展深度显著性目标检测(Sa-lient Object Detection，SOD)模型，使其足够通用和灵活，涵盖大多数其他基于全卷积网络(FullyConvolutional Network，FCN)的显著性模型8，LiuJ J 等人基于 U 形结构的模型9。显著性检测在文物图像缩略图生成时具有重要作用。在文物系统展示中需要对大量的文物图像进行剪切显著性区域，这些需要大量人工进行。本文通过分析文物图像的背景属性和规律，提出了一种基于注意力机制的文物图像显著性检测方法。自 2014 年以来，深度学习在显著性检测方

11、向以其优异的性能，证明了其在显著性检测方向的可行性。然而，深层网络在面对如书画类文物图像这样图像特征多样化的情况下，现有的深度学习方法很难区分对象边界和周围相似区域域的像素，因此深层网络可能会输出高度模糊且边界不准确的显著图。2017 年 pinghu 等提出了一个深层次的“层次集”(Deep Level Sets)网络来生成紧凑而统一的显著性图，即 DLS10。DLS 模型主要包括基于 CNN 的 VGG16 网络、超像素过滤(GSF)层和重量函数(HF)三个部分。首先原始图像通过基于 CNN 的 VGG16 网络，并输出全分辨率的粗略显著图像，于此同时对原始图像使用 gSLICr进行超像素

12、分割，统一输入到超像素过滤层，最后使用重量函数将 GSF 层的输出转换为最终显著图。但作用于文物图像时会存在不足。(1)当文物图像较为复杂，前景背景差异较小的情况下，基于 CNN 的 VGG16 网络处理得到的粗略显著图会过于模糊，即使经过与超像素结果优化，得到的效果依旧不好。(2)文物图像中会存在如图 1a 这类图像，图像边缘会有边框将其部分突出，但对于网络模型来说只能得出如图 1b 的结果。a)边缘突出类图像b)预测结果图 1边缘突出类图像及其预测结果2本文方法21DLS 模型针对上文提到的问题，在 DLS 的基础上对其进行修改。(1)基于 CNN 的 VGG16 网络部分。首先使用膨胀的

13、卷积层替换了最后三个 Maxpooling 层，并最后一个完全连接的层更改为卷积层和 Sig-moid 层，以便网络获取 GB 图像 224224。作为输入并产生 5656。最后，添加没有学习参数的上采样层，以将图像缩放到全分辨率。由于后续算法中使用了水平集的方法，因此将卷积神经网络输出的显著性值线性的转移至 05，05 并将其视为水平集。(2)超像素过滤(GSF)层部分。在 CNN 网络运算的过程中，利用 gSLICr 将图像分割为 400500 个超像素，而后将其与 CNN 网络产生后转换为的水平集一同输入 GSF 超像素过滤层。(3)重量函数(HF)部分。由于如果使用简单的 Heavis

14、ide 函数作用于零水平集，会陷入局部最小值。为解决这种问题，采用了文献中提出的近似重载函数(AHF)，该函数作用于所有的水平曲线并趋向于寻找一个全局最小化器，最终即可得到最终显著图。其次设定阈值，在最终图像输出后对其进行56第 1 期雷雨晴，等:一种基于注意力机制的文物图像显著性检测方法判断，如大于阈值则在处理后重新输入网络。修改后网络模型如图 2。图 2基于注意力机制的 DLS 模型其中网络部分是对称的编解码器架构，编码器组件基于 esNet50 来提取多级特征，编码器结构与解码器结构一一对应。A 模型为注意力机制模块11，D 模块为自制的判别模块，C 模块为图像像素改变模块。22注意力机

15、制模块注意力机制是通过算法模拟生物观察这一行为，将内部经验和外部感觉融合，增加部分区域观察仔细度的一个机制。而自注意力机制是在注意力机制的基础上做出改进，可有效的减少对外部信息的依赖，与注意力机制相比，自注意力机制更擅长捕捉特征或数据的内部相关性。在未引入自注意力机制之前，大多数用于图像处理的模型都是用卷积操作堆叠起来的。但这存在一个明显的问题，卷积运算仅仅关注整个图像的局部区域，因此通过使用卷积层来建模图像中的依存关系是无效的或效果不明显的。而这导致了一个后果，对于多类别的数据集，哪怕是最新的生成模型，都难以捕捉某些类别中经常出现的几何或结构模式。为了解决这些问题，通常在网络中引入自注意力机

16、制来缓解这一难题。在卷积神经网络中，每张图片初始会由 GB三通道表示出来，之后经过不同的卷积核之后，每一个通道又会生成新的信号，比如图片特征的每个通道使用 64 核卷积，就会产生 64 个新通道的矩阵(H，W，64)，其中 H，W 分别表示图片特征的高度和宽度每个通道的特征其实就表示该图片在不同卷积核上的分量，类似于时频变换，而这里面用卷积核的卷积类似于信号做了傅里叶变换，从而能够将这个特征一个通道的信息给分解成 64个卷积核上的信号分量。既然每个信号都可以被分解成核函数上的分量，产生的新的 64 个通道对于关键信息的贡献肯定有多有少，如果我们给每个通道上的信号都增加一个权重，来代表该通道与关

17、键信息的相关度的话，这个权重越大，则表示相关度越高，也就是我们越需要去注意的通道了。模块的具体结构如图 3。原始图像通过编译器，产生了新的特征信号 U。U 有 C 个通道，我们希望通过注意力模块来学习出每个通道的权重，从而产生通道域的注意力。该注意力机制主要分成三个部分:挤压(squeeze)，激励(excitation)，以及注意(attention)。图 3模块具体结构图23判别模块当文物图片有边框突出的情况，进行显著性检测会将其突出部分视作显著区域，因此对于网络输出的显著图 S，置显著图 S 中显著点个数为nums，总像素个数 numall，这样网络输出显著图的显著率 rr为rr=num

18、snumall。(1)根据数据集标注人员对数据集图像的判断，最终决定设置阈值 T=80%，如果显著率 rr大于阈值 T，则会将显著图 S 输入图像像素改变模块。24图像像素改变模块该模块主要接收判别模块传入的显著率过大的显著图，在接收后会按照图像宽高比例，去除图像边缘区域，直到得到的矩阵均为如图 1b 图中白色的区域。而后记录裁切位置，将裁切后的图像重新输入至模型，直至生成的显著图的显著率小于阈值，按照裁切的位置重新生成新的显著图像，过程与结果如图 4。a)裁剪后图像b)最终结果图 4边缘突出类图像及其预测结果66大连民族大学学报第 25 卷3实验结果与分析采用人手工标注的方法制作逐像素标注图

19、像，对于陶瓷、雕塑和青铜器具等物品展示类的文物图，显著目标区域通常为一个很明显的区域，对于这部分的文物图的标注通常是没有争议的，可以由一个人完成。而对于复杂的书画类文物图像，显著目标通常并不明显，因此该类文物标注由三个人分别完成，标注后采取少数服从多数的原则，最终决定图像的标注区域。这两类的文物图的标注结果如图 5。a)物品展示类图像b)书画类图像图 5物品展示类和书画类图像31评估方法与其他显著性检测论文相同，本文主要使用定性分析和定量分析的以下三种数值比较方法，对所提到的文物显著区域检测算法进行评估:准确率(Precision)和召回率(ecall)构成的 P 曲线、真正率(True Po

20、sitive ate)和假正率(FalsePositive ate)构成的 OC 曲线以及 F 值柱状图。32性能评估本文从定性和定量两方面对比传统显著性检测算法与深度学习模型，包含的传统方法有LC 算法 12 和 SBM 算法 13，DLS 模型 10 和 SCN 模型 14。(1)定性分析。对上述对比模型和本模型分别在上述文物数据集上进行训练，并选取各类型图像，在多种模型检测方法内得到的对比结果如图 6。从图 6 中前四幅图的对比结果可以看出深度学习的算法要优于传统算法，但是在最后一幅图这样有存在明显边框的图像中基于深度学习的算法会将边框突出部分认为显著区域，而不会像传统方法那样依次计算每

21、个像素点的显著值。从以上对比可以看出，在手工标注的图像显著区域数据集中，相较于其他方法，本文提出的方法能够更好的检测出图像显著区域。(2)定量分析。为上述方法在手工标注的文物图像显著性数据集的准确率和召回率构成的 P 曲线如图 7。P 曲线就是精确率 precisionvs 召回率 recall 曲线，以 recall 作为横坐标轴，pre-cision 作为纵坐标轴。可以合理的评估检测算法在输入图像上的运行效果，是计算机视觉领域中最常用的评估方法。准确率是指显著性算法正确检测出来的显著性像素的总数与检测到的像素总数的比率;召回率是指正确检测出来的显著性像素个数占标准集中显著性像素总数的比率。

22、图 6文物图像数据对比结果图 7P 曲线真正值率和假正值率构成的 OC 曲线如图8。OC 曲线的全称是 eceiverOperating Characteristic Curve，中文名字叫“受试者工作特征曲线”，和 P 曲线皆为类别不平衡问题中常用的评估方法，二者既有相同也有不同点。OC 曲线常用于二分类问题中的模型比较，主要表现为一种真正例率(TP)和假正例率(FP)的权衡。其中，真正类率(True Postive ate)代表分类器预测的正类中实际正实例占所有正实例的比例，负正类率(False Postive ate)代表分类器预测的正类中实际负实例占所有负实例的比例。F 值柱状图如图

23、9。对于一个性能优越的检测算法来说，应该同时具备良好的准确率和召回率。但在实际情况中，通常是准确率的提高就意味着召回率的下降，反之亦然。综合了 P 和的76第 1 期雷雨晴，等:一种基于注意力机制的文物图像显著性检测方法结果，而当 F 较高时则能说明试验方法比较有效，见表 1。图 8OC 曲线图 9F 值柱状图表 1对比结果指标算法DLS 模型SCN 模型LC 算法SBM 算法本文算法P082085032054080084079028017092F0800830310360834总结本文详细的介绍了基于视觉显著性的文物显著区域提取方法。根据 DLS 显著性检测模型在文物数据集中存在的问题，

24、对 DLS 模型部分功能进行修改，使其在上文中的文物数据集进行训练并与现有比较经典的视觉显著性检测算法结果进行比较。实验结果表明:本文提出的检测方法对于图像显著性区域的检测非常有效。参考文献:1 ITTI L，KOCH C，NIEBU E A model of saliencybased visual attention for rapid scene analysis J IEEETransactions on pattern analysis and machine intelli-gence，1998，20(11):12541259 2LIU T，YUAN Z，SUN J，et al L

25、earning to detect a sa-lient objectJ IEEE Transactions on Pattern analysisand machine intelligence，2010，33(2):353367 3ZHANG L，YANG C，LU H，et al anking saliency J IEEE transactions on pattern analysis and machineintelligence，2016，39(9):18921904 4HOU X，ZHANG L Saliency detection:A spectral re-sidual a

26、pproachC/2007 IEEE Conference on com-puter vision and pattern recognition Ieee，2007:18 5WANG L，LU H，UAN X，et al Deep networks for sa-liency detection via local estimation and global search C/Proceedings of the IEEE conference on computervision and pattern recognition 2015:31833192 6LI G，YU Y Visual

27、saliency based on multiscale deep fea-tures C/Proceedings of the IEEE conference on comput-er vision and pattern recognition 2015:54555463 7WU，FENG M，GUAN W，et al A mutual learningmethod for salient object detection with intertwined multisupervisionC/Proceedings of the IEEE/CVF con-ference on comput

28、er vision and pattern recognition2019:81508159 8WANG W，SHEN J，CHENG M M，et al An iterativeand cooperative topdown and bottomup inference net-work for salient object detection C/Proceedings of theIEEE/CVF Conference on Computer Vision and Patternecognition 2019:59685977 9LIU J J，HOU Q，CHENG M M，et al

29、 A simple poolingbased design for realtime salient object detection C/Proceedings of the IEEE/CVF conference on computer vi-sion and pattern recognition 2019:39173926 10HU P，SHUAI B，LIU J，et al Deep Level Sets for Sa-lient Object DetectionC/2017 IEEE Conference onComputer Vision and Pattern ecogniti

30、on(CVP)2017:540 549 11HU J，SHEN L，SUN G Squeezeandexcitation net-worksC/Proceedings of the IEEE conference oncomputer vision and pattern recognition 2018:71327141 12ZHAI Y，SHAH M Visual attention detection in videosequences using spatiotemporal cuesC/Proceedingsof the 14th ACM international conferen

31、ce on Multimedia2006:815824 13YANG C，ZHANG L，LU H，et al Saliency detectionvia graphbased manifold rankingC/Proceedings ofthe IEEE conference on computer vision and pattern rec-ognition 2013:31663173 14WU Z，SU L，HUANG Q Stacked cross refinementnetwork for edgeaware salient object detectionC/Proceedings of the IEEE/CVF international conferenceon computer vision 2019:72647273(责任编辑王楠楠)86大连民族大学学报第 25 卷

展开阅读全文