基于注意力机制的细粒度图像分类算法.pdf

资源描述

1、2023年9月计算机应用文摘第39卷第17 期基于注意力机制的细粒度图像分类算法温昌文（桂林电子科技大学，广西桂林5410 0 4）摘要：针对在细粒度图像分类任务中对物体进行精准定位并提取更具表达力特征的难题，提出结合混合注意力机制与循环注意力的分类算法：一方面在网络中融入的混合注意力机制能够让系统忽略图像中的背景干扰信息，而将更多的关注重点放在有效信息上，以提高模型的判别性区域定位能力；另一方面通过RA-CNN网络，可以从粗到细逐渐关注图像最具辨别力的区域。实验结果表明，相比现有主流方法，该网络模型在公开数据集CUB200-2011上性能较好，准确率达到了8 7.1%，有明显提升，证明了本模

2、型在细粒度图像分类任务上的有效性和优越性。关键词：细粒度图像分类；注意力机制；循环注意力WEN Changwen中图法分类号：TP393Fine grained image classification algorithm based on attention mechanismAbstract:Aiming at the problem of accurately locating objects and extracting more expressive featuresin the fine-grained visual categorization task,a classifica

3、tion algorithm combining hybrid attentionmechanism and circular attention is proposed:on the one hand,the hybrid attention mechanismintegrated into the network can allow the system ignores the background interference information inthe image and focuses more on the effective information to improve th

4、e discriminative regionlocalization ability of the model,on the other hand,through the RA-CNN network,it can graduallyfocus on the most discriminative region of the image from coarse to fine.The experimental resultsshow that compared with the existing mainstream methods,the network model has betterp

5、erformance on the public dataset CUB200-2011,and the accuracy rate reaches 87.1%,which issignificantly improved,which proves the effectiveness of this model in the task of fine-grained visualcategorization and superiority.Key words:fine grained image classification,attention mechanism,recurrent atte

6、ntion细粒度图像分类是一个具有挑战性的任务，待分类的对象在整体结构上难以区分,往往只在一些细微的区域存在差异。现有的细粒度分类算法大部分基于定位-识别的方法：先找到有区分度的局部，然后进行特征提取和分类。因为细粒度分类对象的外观差异仅仅存在于某些细微的局部区域,所以如何定位到图像中具有判别力的局部区域并利用这些区域中的信息就成了分类成功的关键因素。基于目标检测框架R-CNN1,Zhang 等 2 提出了Part-Based R-CNN方法,使用了Bounding Box标注框训练模型。首先在输人图像上通过自底向上的选择搜索算法产生候选框，然后使用R-CNN算法检测产生的候选框并评分,最后筛

7、选出这些区域并提取特征及分类。为了缩短细粒度分类对象的类内距离,Branson 等 3 提出了Pose文献标识码：A(Guilin University of Electronic Technology,Guilin,Guangxi 541004,China)Normalized CNN算法,对每一张输人图像,利用该算法完成对局部区域的定位检测，根据检测的标注框对图像进行裁剪，提取出不同层次的局部信息，并进行姿态对齐操作。Xiao等 4 最先提出了不使用标注信息的两级注意力模型，分别关注对象级别和部件级别信息，将获取到的两部分信息相结合并作为模型的输出,从而提高分类准确率。Lin等 5 提出了

8、双线性CNN(BilinearCNN），该方法使用2 个卷积网络从图像中提取特征，并将2 个网络提取的特征通过张量积进行汇合，张量积可以捕获特征通道之间成对的相关关系，从而得到大量的特征组合，能够达到类似注意力机制的局部区域特征提取的效果。Fu等 6 提出了一种循环注意力卷积神经网络（R A-CNN）,其以相互增强的方式递归地学习局部区域2023年第17 期和基于区域的特征表示。此方法属于弱监督学习方式,仅靠图像类别标签便能完成分类，从而节省了研究成本。本文在RA-CNN模型的基础上,构建结合混合注意力机制的递归注意卷积神经网络模型，通过融合注意力机制避免图片中的穴余信息的影响，以提升单个分类

9、子网络的分类精度,以及判别性区域定位的精度。1相关研究工作1.1循环注意力卷积神经网络(RA-CNN)循环注意力卷积神经网络(RA-CNN)的架构如图1所示,整个网络由3个结构相同、参数独立的子网络构成,分别关注图像不同尺度的区域。单个网络提取的深度表征被表示为W。*X,其中*表示一组卷积、池化和激活的操作，W。表示所有的参数。将每个尺度的网络建模成一个具有两个输出的多任务模型。第一项任务为生成一个关于细粒度类别的概率分布,表达式为：p(X)=f(W。*X)其中，f（)代表全连接层,用于将卷积特征映射为可与类别条目相匹配的特征向量,其包括一个softmax层,用于进一步将特征向量转化为概率。第

10、二项任务是为下一个更精细的尺度预测一组关于被关注区域的坐标参数：tx,ty,ti=g(W。*X)其中,g（）代表2 个堆叠的全连接层,有3个输出tt,和t,t和t,为候选区域的中心坐标,t为该区域边长的一半,通过这3个参数可以确定一个更小尺度的区域。利用该坐标参数对原图像进行裁剪：Xat=XOM(tx,ty,ti)M()=h(x-tx(u)-h(x-tx(br)h(y-ty(u)-h(y-ty(br)其中,h()为一个带参数k的逻辑函数：h(x)=1/(1+exp-kx)(tx(u),ty(u)）和(t(br),ty(br)）为候选区域左上和右下端点的坐标：(tx(tl)=tx-ti,ty(u

11、)=ty-t)(tx(br)=tx+ti,ty(br)=ty+t)coarse(at)scale1cropom(a2)Scale 2crop(a)scaie 3finer计算机应用文摘1.2混合域注意力机制混合域注意力机制CBAM7结构如图2 所示。其中通道注意力（Channel Attention）关注“什么是有意义的”,空间注意力（Spatial Attention）侧重“何处是有效信息”。混合域注意力机制采用串联结构，且通道注意力在前、空间注意力在后，能够最大程度地提高分类准确率。IInputfeatrueChannelAttention图2 CBAM 结构CBAM模块的实现过程如下：F

12、=M(F)OF(F=M,(F)?F式中,M（F)表示F经过通道注意力的输出权值,M,(1)（F )表示F经过空间注意力的输出权值,F表示最终的注意力模型的输出，表示特征图加权乘法运算符号。2结合循环注意力与混合域注意力机制的细粒度图像分类算法(2)2.1网络结构为了让RA-CNN模型捕获更精准的局部特征，以达到更好的分类效果,在特征提取器中加人注意力模块CBAM,改进的RA-CNN模型网络结构如图3所示。本文改进的RA-CNN网络是在特征提取VGG-198的(3)最后一个卷积层的后面加人注意力模块。通过学习权重获得图像中的重要信息，以增强最后一层提取的特征,通过APN生成一组更精细区域的坐标参

13、数,最(4)后进行分类。(5)region parameters(t-thr.b)classificationoPainted buntingo Laysan albatrossBedbCsoftmaxs(tx,ty.t)(d)APN(ca)2classficationregion parameters(k,ty.t)(d2)APNonvolu图1RA-CNN结构111SpatialAllentionCBAMpatiaoCrestedaujetAY图3改进的RA-CNN模型网络结构fcsoftmax(ca)3classificationsoftmax(6)(ci)1classicatiosof

14、tmax(d):APN2.2损失函数循环注意力神经网络(RA-CNN)通过两种监督方式进行优化，即尺度内分类损失和尺度间成对排名损失，以交替生成准确的区域注意力和学习更精细的特112征。一个图像样本的损失函数被定义为：32L(X)=(La(Y(),Y*)+(L5=1p(s+1)1其中,s表示每个尺度,Y(s）和Y*分别表示来自特定尺度的预测标签向量、真实标签向量。Lcl表示分类损失，主要优化图2 中的卷积层和分类层的参数，以确保在每个s尺度有足够的分辨能力。训练是通过softmax函数拟合类别标签在整体训练样本上实现的。此外,来自成对排名损失Lrank的p(）表示对正确类别标签t的预测概率。具

15、体来说，排名损失由以下公式给出：La(p(),p(*1)=max/,p2)-ps*)+-ml/(8)损失函数可以强制p(s+1)p()+m,这样的设计可以使网络以粗尺度的预测为参考,并通过强制更精细的网络来产生更置信的预测,逐渐接近最具判别性的区域。3实验3.1实验数据集本实验数据集来自 CUB-200-20119。CU B-2 0 0-2011是加州理工学院在2 0 10 年提出的用于细粒度图像分类的公共数据集，该数据集包含2 0 0 个类别，其中共有117 8 8 张鸟类图片,用于测试和训练的图片分别有57 9 4张和59 9 4张。3.2实实验过程在实验过程中,使用预训练参数初始化模型能

16、够使模型收敛更快，因此主干网络在提取特征时使用VGG-19在Image Net上的预训练参数。本文在特征提取器VGG-19的最后一层添加注意力模块，且注意力模块随机初始化参数。步骤1:通过ImageNet中相同预训练的VGG网络初始化卷积/分类层参数。固定注意力模块前的卷积层参数，只训练注意力模块和全连接层，以得到模型的最优参数。步骤2：通过搜索原始图像中最后一个卷积层响应值最高的区域,选择一个边长为原始图像一半的方形区域。这些被选中的方形区域被用来预训练APN，通过学习从卷积特征到(tx,ty,ti的转换来获得APN网络中的参数。步骤3：以交替方式优化上述两个步骤中的参数。具体而言，保持AP

17、N参数不变，并在3个尺度上优化softmax损失以达到收敛。然后，固定卷积层和分类层的参数,并改用rankinglosst来优化2 个APN。两部分的学习过程是迭代的,直到两类损失不再变化。计算机应用文摘3.3评价指标（s)本文实验以精度（Accuracy）为评价指标，计算公Pt5=1式如下：(7)其中,Accuracy表示图像分类的精度；TP表示分类正确的图像个数；FP表示分类错误的图像个数；Accuracy值越大表示图像分类模型的分类效果越好。3.4实验结果为了验证本文方法的有效性,将该方法与目前细粒度图像分类领域的先进方法ST-CNN10,FCAN11,B-CNN进行对比。在数据集CUB

18、-200-2011上的实验结果如表1所列。表1不同算法在CUB200-2011数据集上的分类精度算法分类精度VGG-1977.8ST-CNN(Inception net)84.1FCAN82.0B-CNN(250k-dims)84.1RA-CNN(scale 1+2+3)85.3本文算法87.1由表1可知,本文算法的精度均比其他算法高。在CUB-200-2011数据集上的精度达到了8 7.1%。本文方法相较于之前的方法,在细粒度分类准确率上提升了 1.8%。4结束语本文对循环注意力卷积神经网络(RA-CNN)算法进行改进,利用注意力模块CBAM提升深层特征的表达能力,以及提高单个尺度网络的分类

19、效果,使注意力建议子网络（APN）生成的坐标参数能定位到更加有效的判别性区域。在CUB-200-2011数据集上,将该算法与目前先进的细粒度图像分类算法进行比较。结果表明，本文算法能较好捕捉图像局部区域，从而实现了更好的细粒度图像分类效果。参考文献：1 GIRSHICK B R,DONAHUE J,DARRELL T,et al.Richfeature hierarchies for accurate object detection and semanticsegmentation EB/OL.https:/ _37993251/article/details/89052396.2 ZHAN

20、G N,DONAHUE J,GIRSHICK B R,et al.Part-based R-CNNs for Fine-grained Category Detection EB/OL.https:/ 页)2023年第17 期TPAccuracy=100%(9)TP+FP1166结束语本文参考相关文献资料，针对配电网扩展规划理论存在的缺陷，将改进粒子群算法应用到电网规划中,提出了一个全新的配电网拓展规划思路,有效降低了配电网扩展投资成本，改善了配电网节点电压，实现了对配电网扩展规划理论的完善。本文为配电网扩展规划提供了参考依据，有助于提高配电网扩展质量,具有一定的研究价值。但是本文方法尚未在实

21、际工程中得到大量应用与实践,在某些方面可能存在不足，今后会在方法优化设计方面展开进一步研究，为配电网扩展规划提供有力的理论支撑参考文献：1李文龙,张华东,于宝鑫.基于效益耦合和时序关联特性的配电网规划项目优选模型J.电力科学与技术学报，2022,37(6):55-61.2盛万兴,段青,王良，等.基于多代理协调机制的能量路由器群组与配电网综合规划 J.高电压技术,2 0 2 1,47(1)：1-13.3刘雪飞,刘洋,马国真，等.考虑负荷差异化需求响应的配电网多目标扩展规划 J.电力系统保护与控制,2 0 2 2,50(22):131-141.(上接第112 页3 BRANSON S,VAN HO

22、RN G,BELONGIE S,et al.BirdSpecies Categorization Using Pose Normalized DeepConvolutional Nets EB/OL.https:/ XIAO T J,XU Y C,YANG K Y,et al.The Application of Two-level Attention Models in Deep Convolutional Neural Networkfor Fine-grained Image Classification EB/OL.htps:/ LIN T,ROYCHOWDHURY A,MAJI S.

23、Bilinear CNN Modelsfor Fine-grained Visual Recognition J.https:/ FU J L,ZHENG H L,MEI T.Look Closer to See Better:Recurrent Attention Convolutional Neural Network for Fine-Grained Image Recognition EB/OL.https:/ WOO S,PARK J,LEE J Y,et al.Cbam:Convolutional block计算机应用文摘4闫明文,刘惠颖，宫游，等.基于改进Benders分解的配电

24、网扩展规划机会约束优化方法J.电测与仪表，2 0 2 3，6 0(1):124-131.5赵海洲,陈建凯,杨海跃,等.考虑传输能力的含分布式电源配电网扩展规划方法 J.电力自动化设备，2 0 2 1,41(12):70-77.6李楠,王炜,马雪,李芳,等.考虑碳交易成本及区域能源优化的配电网扩展规划研究 J.科学技术与工程,2 0 2 2,2 2(8):3101-3109.7周孟戈,谢松,彭搏,等.计及5G基站负荷概率特性的配电网扩展规划方法 J.电工电能新技术,2 0 2 2,41(1)：6 0-6 8.8朱海南,李玉志,李丰硕,等.基于目标级联分析的配电-气网分布式协同扩展规划方法 J.智

25、慧电力,2 0 2 1,49（12)：72-79.9李芸漫,高红均,李海波,等.考虑综合能源站柔性调控作用的城市配电网多阶段规划方法 J.电力自动化设备，2022,42(1):45-54.10王梓旭,林伟,杨知方,等.考虑负荷弹性空间的配电网可靠性扩展规划方法J.中国电机工程学报，2 0 2 2，42(18):6655-6668.作者简介：安颖坤（19 9 2 一），硕士，工程师，研究方向：电网建设。attention module C/European Conference on Com-puterVision(ECCV),Springer Cham,2018:3-19.8 SIMONYAN

26、 K,ZISSERMAN A.Very Deep ConvolutionalNetworks for Large-Scale Image Recognition EB/OL.https:/arxiv.org/abs/1409.1556.9 WELINDER P,BRANSONS,MITA T,et al.Caltech-UCSD Birds 200 J.californiainstitute of technology,2010:45-52.1O JADERBERg M,SIMONYAN K,ZISSERMAN A,et al.Spatial Transformer Networks JJ.MIT Press,2015(5):62-66.11 LIU X,XIA T,WANG J,et al.Fully ConvolutionalAttention Localization Networks:Efficient AttentionLocalization for Fine-Grained Recognition EB/OL.https:/ 9 7 一），硕士，研究方向：数字图像处理。2023年第17 期

展开阅读全文