基于中层细微特征提取与多尺度特征融合细粒度图像识别.pdf

资源描述

1、2023 08 10计算机应用,Journal of Computer Applications2023,43(8):2556-2563ISSN 10019081CODEN JYIIDUhttp：/基于中层细微特征提取与多尺度特征融合细粒度图像识别齐爱玲，王宣淋*（西安科技大学计算机科学与技术学院，西安 710600）（通信作者电子邮箱）摘要：在细粒度视觉识别领域，由于高度近似的类别之间差异细微，图像细微特征的精确提取对识别的准确率有着至关重要的影响。现有的相关热点研究算法中使用注意力机制提取类别特征已经成为一种趋势，然而这些算法忽略了不明显但可区分的细微部分特征，并且孤立了对象不同判别性区

2、域之间的特征关系。针对这些问题，提出了基于中层细微特征提取与多尺度特征融合的图像细粒度识别算法。首先，利用通道与位置信息融合中层特征的权重方差度量提取图像显著特征，之后通过通道平均池化获得掩码矩阵抑制显著特征，并增强其他判别性区域细微特征的提取；然后，通过通道权重信息与像素互补信息获得通道与像素多尺度融合特征，以增强不同判别性区域特征的多样性与丰富性。实验结果表明，所提算法在数据集CUB-200-2011上达到89.52%的Top-1准确率、98.46%的Top-5准确率；在Stanford Cars数据集上达到94.64%的Top-1准确率、98.62%的Top-5准确率；在飞行器细粒度分类

3、（FGVC-Aircraft）数据集上达到93.20%的Top-1准确率、97.98%的Top-5准确率。与循环协同注意力特征学习网络PCA-Net（Progressive Co-Attention Network）算法相比，所提算法的Top-1准确率分别提升了1.22、0.34和0.80个百分点，Top-5准确率分别提升了1.03、0.88和1.12个百分点。关键词：细粒度图像识别；注意力机制；权重方差；掩码矩阵；多尺度融合；中层特征中图分类号：TP391.4 文献标志码：AFine-grained image recognition based on mid-level subtle fe

4、ature extraction and multi-scale feature fusionQI Ailing，WANG Xuanlin*（College of Computer Science and Technology，Xi an University of Science and Technology，Xi an Shaanxi 710600，China）Abstract:In the field of fine-grained visual recognition，due to subtle differences between highly similar categories

5、，precise extraction of subtle image features has a crucial impact on recognition accuracy.It has become a trend for the existing related hot research algorithms to use attention mechanism to extract categorical features，however，these algorithms ignore the subtle but distinguishable features，and isol

6、ate the feature relationships between different discriminative regions of objects.Aiming at these problems，a fine-grained image recognition algorithm based on mid-level subtle feature extraction and multi-scale feature fusion was proposed.First，the salient features of image were extracted by using t

7、he weight variance measures of channel and position information fused mid-level features.Then，the mask matrix was obtained through the channel average pooling to suppress salient features and enhance the extraction of subtle features in other discriminative regions.Finally，channel weight information

8、 and pixel complementary information were used to obtain multi-scale fusion features of channels and pixels to enhance the diversity and richness of different discriminative regional features.Experimental results show that the proposed algorithm achieves 89.52%Top-1 accuracy and 98.46%Top-5 accuracy

9、 on dataset CUB-200-211，and 94.64%Top-1 accuracy and 98.62%Top-5 accuracy on dataset Stanford Cars，and 93.20%Top-1 accuracy and 97.98%Top-5 accuracy on dataset Fine-Grained Visual Classification of Aircraft（FGVC-Aircraft）.Compared with recurrent collaborative attention feature learning network PCA-N

10、et（Progressive Co-Attention Network）algorithm，the proposed algorithm has the Top-1 accuracy increased by 1.22，0.34 and 0.80 percentage points respectively，and the Top-5 accuracy increased by 1.03，0.88 and 1.12 percentage points respectively.Key words:fine-grained image recognition;attention mechanis

11、m;weight variance;mask matrix;multi-scale fusion;mid-level feature0 引言近年，细粒度图像识别任务在计算机视觉、模式识别、人工智能等众多领域掀起了一阵热潮，在农业界和工业界也都获得了极大的关注度。细粒度图像识别对高度近似的类别之间实现更精细的类别划分，例如不同种类的鸟、汽车、飞机等。由于存在光照、目标对象姿态以及背景干扰等不确定因素，通常细粒度图像识别的难点在于类别内部仅存在细微差异，并文章编号：1001-9081（2023）08-2556-08DOI：10.11772/j.issn.1001-9081.2022071090收

12、稿日期：20220727；修回日期：20221103；录用日期：20221107。基金项目：国家自然科学基金资助项目（61674121）。作者简介：齐爱玲（1972），女，陕西西安人，副教授，博士，主要研究方向：人工智能、数字图像处理；王宣淋（1997），男，河南洛阳人，硕士研究生，主要研究方向：图像处理、人工智能。第 8 期齐爱玲等：基于中层细微特征提取与多尺度特征融合细粒度图像识别且传统的卷积神经网络（Convolutional Neural Network，CNN）难以捕获图像间具有判别性区域的细微特征容易导致识别错误。因此，研究如何有效提取细粒度图像中具有判别性区域的细微特征是解决细粒

13、度识别问题的关键。现有的细粒度识别算法主要分为两类1：第一类是基于强监督细粒度图像识别的研究算法，首先在辨别对象区域定位并标注信息，然后依据可辨别区域进行分类。例如 Wei等2提出的Mask-CNN算法以端到端的方式将深度CNN应用到细粒度图像识别任务中，利用画图框、标注等方法定位特定目标的头部、羽毛和躯干等具有判别性的部位后进行局部与整体融合提取判别性区域特征，通过支持向量机（Support Vector Machine，SVM）分类器得到最终的分类结果；Zhang等3提出的 Part R-CNN（Region-based Convolutional Neural Network）算法利

14、用自动检测功能选择关键的具有判别性部位的候选框，通过目标检测算法对候选框部位进行检测识别，从中挑选得分较高且特征区域较明显的部分送入卷积网络中用于训练SVM分类器。强监督算法在识别精度和模型泛化性能上均有显著提升，但该类算法需要图片标签信息、物体的标注框和部件位置等特征信息，对于识别任务来说操作步骤非常复杂，容易出现错误，极大降低了图像细粒度识别的效率。综上所述，强监督算法极大限制了在实际场景中的应用4。因此，一些学者提出了细粒度图像分类的弱监督识别算法。第二类弱监督算法优点在于不使用局部语义标注，仅仅利用图像真实类别标签就能定位局部关键区域，其中主要通过注意力机制，以弱监督的方式自动定位判别

15、性区域，不需要额外的注释。通常设计具有注意力模块的子网络以定位具有判别性区域，而后用于分类网络进行识别，但是这些算法的注意力模块与损失函数很难进行优化。此外，过于关注显著判别区域容易忽略其他具有判别性区域的细微特征。例如 Chen等5提出 DCL-Net（Destruction and Construction Learning Network）算法对输入图像通过区域混淆注意模块进行破坏，再通过区域对齐网络重建图像以提取局部判别性区域特征。DCL-Net算法有效提高了细粒度识别的准确率，但破坏了图像的整体结构，破坏了类间其他具有判别性区域的细微特征，从而制约判别性区域细微特征的有效利用。Ya

16、n等6提出了一种渐进式定位注意力网络（Progressive Patch Localization Network，PPL-Net），更加准确、快速地定位具有判别性的区域。PPL-Net算法利用分类模块找到最具判别性的目标对象区域，将显著部分区域送入特征提取网络中进行分类识别，然后擦除最显著的区域，以帮助定位下一个最具判别性的区域。此外，PPL-Net算法利用全局信息选择性地突出判别性特征并抑制无用信息，帮助识别网络获得更高的识别正确率。Zhang等7提出了一种循环协同注意力特征学习网络 PCA-Net（Progressive Co-Attention Network），其中的协同注意力模块通

17、过对比图像对学习具有判别性区域，注意力删除模块通过删除最显著区域部分特征学习目标图像的潜在细微特征。Zhao等8提出了一种基于拓扑图关系算法建立对高阶细粒度图像信息关系的上下文理解，通过一种有效的依赖关系察觉模块来学习位置和语义特征信息，从而获得细粒度对象关键的上下文潜在细微特征，提高了识别效率。Wei等9提出两级渐进式注意力卷积神经网络（Two-level Progressive Attention Convolutional Network，TPA-CNN），不但可以获取具有判别性的区域，还可以随机选择辨别性区域的个数。TPA-CNN算法由多通道注意力融合（Multi-C

18、hannel Attention-Fusion，MCAF）和跨层元素注意力（Cross-layer Element Attention，CEA）两个模块组成：MCAF模块学习显著特定区域特征图的通道信息；CEA模块为特定特征像素分配权重值。两个模块共同作用可以达到较高的识别率。杨绿溪等10提出一种基于多尺度特征融合的图像细粒度识别算法，首先利用特征金字塔方式融合多尺度特征，通过特征提取网络获得各层特征图；其次根据金字塔方式相加融合各层特征；最后对融合后的各层特征语义信息进行双线性操作获得预测结果。然而，使用特征相加作为融合操作使得深层语义特征表述不完整且容易造成空间特征冗余。Ji 等11提出了

19、注意力卷积二叉神经树（Attention Convolutional Binary Neural tree，ACB-Net）特征学习算法，该算法将注意力模块与树型结构相结合，实现从粗到细分层结构下细粒度图像细微判别区域特征学习，树型结构描述由粗到细分层特征学习过程，最终通过对叶节点的预测进行决策。上述研究表明，弱监督算法中使用各种注意力模块的确能够定位到目标对象判别性区域12-14，减少目标图像背景的干扰，提升细粒度图像识别准确率；然而，对于得到的判别性区域，虽然包含了目标对象的部分细微特征，但是类内判别性差异甚微并且没有注意到目标对象判别性区域显著信息与其他具有判别性区显著信息的关系，造成多

20、个特定判别区域显著特征信息孤立不相关，导致目标对象细微特征有效信息提取易出错，影响最终识别结果。此外，通过文献 6-7 可知，擦除最具判别性部分特征信息对于细粒度识别任务中捕获全局其他判别性区域是有效的。因此，本文使用ResNet（Residual Network）15作为特征提取网络。首先，提出通道与位置信息融合中层细微特征提取网络（Channel Position Fusion Detail Extraction Network，CPFDEN），通过从特征提取网络中间层中得到特征映射表示，而后提取判别性区域显著特征同时抑制目标对象显著特征，以帮助下一阶段特征提取网络定位更加细微的判别性区域

21、；其次，提出通道与多尺度信息融合网络（Channel Similarity Multi-scale Fusion Network，CSMFN），对得到的相同目标对象不同判别性区域显著特征进行通道语义信息与像素信息互补融合，使对象局部与整体间特征信息具有丰富性与多样性；最后，同时融合具有多个不同判别性区域特征信息，送入支持向量机分类器进行识别。本文算法易于训练，没有增加过多的损耗，在3个公开的细粒度图像数据集上进行识别验证，均有效地提升了识别准确率。1 中层细微特征提取与多尺度特征融合本文提出了基于中层细微特征提取与多尺度特征融合图像细粒度识别算法。如图1所示，中层细微特征提取与多尺度特征融合

22、算法由两种网络组成，分为通道与位置信息融合的中层细微特征提取网络（CPFDEN）和通道权重信息与像素互补信息多尺度融合网络（CSMFN）。本文使用ResNet作为图像特征提取网络。在通道与位置信息融合中层细微特征提取网络中，为了有效提取类内具有判别性区域细微差异，首先利用ResNet特征提取阶段中间层得到中层特征图，捕捉其局部丰富的具有判别性特征信息，以突出特征图像素权值来得到判别性区域显著特征；其次，利用通道平均池获得自注意力图，最后对自注意力图进行阈值化处理获得掩码矩阵以抑制显著特征，有利于下一个ResNet特征语义信息提取阶段定位2557第 43 卷计算机应用其他具有判别性区域并获取潜在

23、细微特征。通道权重信息与像素互补信息多尺度融合网络是为了将中层细微特征提取阶段获得的多个不同判别性区域的显著特征进行特征通道信息与像素信息互补融合，增强各个判别性区域特征信息间的相关性，使局部与整体对象特征之间的上下文关系更紧密，从而使局部特征信息表示更具有丰富性与完整性。1.1通道与位置信息融合中层细微特征提取网络CPFDEN不仅考虑了通道注意力信息和位置信息，还能获取具有判别性区域显著特征信息，同时利用输入中层特征通道的平均语义信息得到掩码矩阵以抑制显著特征。注意力网络SE-Net（Squeeze and Excitation Network）16只考虑了通道信息而忽略了位置信息的重要性，

24、但位置信息对于细粒度图像识别任务中捕获对象结构很重要。CBAM（Convolutional Block Attention Module）17使用自注意力图提高网络识别的准确率，通过加入空间注意力利用目标对象位置信息，然而卷积只能捕获局部信息，无法建立细粒度识别任务所需要的长期依赖关系。两者都是在通道与空间信息的基础上获得特征权重影响大的特征信息，并未对较显著特征进行抑制，在下阶段网络学习中仍继续关注区域显著特征，不利于细粒度识别任务上学习细微特征。在细粒度图像识别任务中，目标对象位置信息与长距离依赖信息都至关重要，是获取具有判别性区域的关键。深度卷积网络虽然具有很强的局部表达能力，但当网络较

25、深时位置信息与长距离依赖信息较模糊并不能得到完整表示。全局平均池化有助于网络捕获全局信息，因此，通过使用全局池化分别对特征提取网络中层特征图以水平和垂直两个方向进行特征向量编码，同时在两个空间方向上融合，通过1 1卷积进行降维使两个空间方向上通道信息充分交互，最终获得两个具有嵌入方向特定信息的特征图。这两个特征图被分别编码为两个注意力图，每个注意力图沿两个空间方向捕获中层特征图的通道与位置融合语义特征信息。位置信息可以被保存在生成的注意力特征图中，通过乘法将两个注意力特征图应用于中层特征图，以强调细粒度图像具有判别性区域特征图表示。通过突出具有判别性区域的特征图权值来得到显著特征。随后，利用通

26、道平均池化生成自注意力图使用Sigmoid激活对注意力映射进行归一化。最后，采取适宜阈值得到掩码矩阵作用于输入的中层特征信息抑制显著特征，以利于ResNet下一个阶段提取目标对象全局范围其他具有判别性区域细微特征。首先，给定中层特征图X R C W H，其中C代表通道数，W和H代表特征图的宽度和高度。利用宽度和高度两个空间范围的自适应平均池化（Adaptive Average Pooling，AVG）作用于每个通道，其中垂直方向使用自适应平均池核(H，1)，水平方向使用自适应平均池核(1，W)。因此，高度为H的第C个通道与宽度为W的第C个通道经过AVG得到的结果能够公式化为：Vhc(h)=1W

27、0 i WXc(h，i)Vwc(w)=1H0 j 1，其他（7）其中：(0 1)表示自注意力特征图设置的超参数像素阈值，的取值将在后续实验部分讨论。Xm(i，j)为Xm的像素值，其中i (1，2，W)，j (1，2，H)。Xmask RC W H以此惩罚最具有判别性的区域以获得具有其他判别性区域潜在特征图Xs：Xs=Xmask X（8）其中：X表示中层特征图。Xs在现阶段抑制了最显著的判别性区域特征信息，将Xs传入ResNet下一阶段网络中学习其他不显著但可区分的细微特征。通道和位置信息融合中层细微特征提取网络表示为：给定中层特征图X，得到显著特征Xq与具有被抑制最显著部分特征图Xs，由于Xs

28、抑制了当前阶段显著特征，其他具有判别性区域的潜在细微特征Xs将输入下一阶段网络进行有效学习。1.2多尺度通道与像素信息融合网络文献 10 中提出基于多尺度特征融合的图像细粒度识别算法，仅对来自不同网络中层特征信息进行求和融合，但求和仅提供特征图的固定线性聚合，完全不知道这种组合是否适合特定对象特征，并且未能考虑不同中层特征语义信息之间通道与空间像素相关性，会导致中层细微特征信息丢失。在图像细粒度识别任务中，通道信息与像素信息可以有效获取局部与全局之间的相关性，弥补直接求和融合带来的细微信息丢失现象。本文提出多尺度通道与像素信息融合网络（CSMFN）解决了目标对象不同判别性区域显著特征Xq之间相

29、关性以及与对象整体全局观被忽略的问题。从CPFDEN中获得具有判别性区域的对象显著特征Xq，可以通过融合互补其他具有判别性区域提取的显著特征的通道信息与像素信息使目标对象的特征信息表示能力更具丰富性和完整性。CSMFN的简单结构如图3所示。首先，将来自不同判别性区域的显著特征图Xq1 RC1 W1H1，Xq2 RC2 W2H2，通过AVG得到特征图的重要信息，以通道维度进行拼接得到Xq12，其中C1和C2表示通道个数，W1H1和W2H2表示特征图的尺寸。通过AVG得到特征图的重要信息，以通道维度进行拼接得到Xq12。Xq12=view concat(AVG(Xq

30、1)，AVG(Xq2)（9）其中：concat表示以通道维度对经过AVG后的特征信息进行拼接；view表示对特征信息以C1与C2通道数进行重塑通道尺寸。为了得到不同判别性区域的显著特征通道之间多尺度特征信息。Xq12进行1和2线性变换得到g1，g2。g1=1(Xq12)g2=2(Xq12)（10）其中：1=FC1(C1，Cmid/r)，2=FC2(C2，Cmid/r)，/表示向下取整操作；Cmid=(C1+C2)/2，r为通道收缩率。适当的中间通道维数不仅可以保留信息，还可以避免参数大幅增加和通道冗余。11=FC1(Cmid/r，C2)和22=FC2(Cmid/r，C1)作为二次线性变换分别得

31、到特征图通道之间信息权重因子g11和g22：g11=(11(SILU(g1)g22=(22(SILU(g2)（11）其中：表示 Sigmoid激活函数；VSILU=gi*Sigmoid(gi)且此时i=1或i=2。若g1与g2值很小且为负值时，SILU可以输入或输出一个非零值，允许最大范围内保留g1与g2的通道线性变图2CPFDEN结构Fig.2Structure of CPFDEN2559第 43 卷计算机应用换特征语义信息。对于具有判别性区域的显著特征图Xq1得到Xq2的通道权重丰富信息为X21，那么对于Xq2得到Xq1的通道权重丰富信息为X12。X21=Xq1 g22X12=Xq2 g1

32、1（12）其中：表示元素乘法，具有不同判别性区域的显著特征图集合p=Xq1，Xq2，Xqi，Xqn，其中Xq1多尺度通道之间的丰富互补信息表示为Yi=Xj q i jXji，同时Yi进行卷积操作得到具有相同通道数的特征张量XPi。XPi=(conv_3 3(conv_1 1(Yi)（13）其中：表示 ReLU 激活函数；conv_1 1表示 11 卷积；conv_3 3表示 33 卷积。XP1与XP2 RC W H是Y1与Y2经过卷积得到，两者内积得到像素间互补矩阵从而获得来自不同判别性区域间多尺度特征互补信息。计算XP1与XP2的像素相似度矩阵M，如式（14）所示：M=(XP1，XP2)；(

33、X，Y)=XTY（14）其中：Mi，j表示XP1的第i个像素和XP2的第j个像素的相似性。两个像素相似度越低，互补性越强，所以采用-M作为互补矩阵，对互补矩阵行和列进行归一化操作，如式（15）（16）所示：AP2P1=softmax(-MT)0，1W2H2 W1H1（15）AP1P2=softmax(-M)0，1W1H1 W2H2（16）softmax按列执行。像素互补信息如式（17）所示：SP2P1=XP2；AP2P1 C W1H1SP1P2=XP1；AP1P2 C W2H2（17）SPjPi表示XPi相对于XPj的互补像素信息。给定通道丰富度融合特征信息集合U=Y1，Y2，Yn，经过卷积变

34、换后的特征集合为G=XP1，XP2，XPn所以XPi特征像素互补信息为：MPi=XPj p i jSPjPi（18）SPjPi使用XPi和XPj根据式（14）（17）计算得到，最终得到判别性区域显著特征XPi的特征通道与像素多尺度融合特征信息为Zi：Zi=XPi+MPi（19）多尺度通道与像素信息融合网络表示为：首先，给定判别性区域显著特征图Xqi，得到通道权重信息多尺度融合特征Yi，其次计算不同尺度特征像素互补信息得到MPi，最终得到通道与像素多尺度融合特征Zi。1.3网络结构设计与模型训练残差网络（ResNet）15提出了残差结构，基本结构如图4所示。残差结构在增加网络层的同时能够增强特征

35、信息在网络间的传播，防止过拟合现象发生，避免网络性能随层数增加而降低。图4ResNet中的残差块结构Fig.4Residual block structure in ResNetResNet有不同的网络层数，其中ResNet-50共有50层网络层，分为 Conv_1 层、Conv_2 层、Conv_3 层、Conv_4 层和Conv_5层，Conv_1层为单独卷积层，Conv_2层到Conv_5层分别包含3、4、6、3个残差块结构，Conv_5层后为全局均值池化层（Global Average Pooling，GAP），GAP 层后为全连接层（Fully Connected lay

36、er，FC）。本文算法可以很容易在各种深度 CNN 的中层上实现。由于深层网络的中层具有丰富的语义特征，在细粒度识别任务中网络的中层特征信息可以被有效用于学习更加丰富的细粒度语义特征信息，同时避免网络训练过程中重复计算无用的背景信息。如文献 7 中迫使网络一轮训练完成后擦除显著特征，再重新把擦除显著信息后的特征图送入特征提取器，这不仅增加了网络训练时间，更使得网络训练过程中冗余信息大幅增加。因此，本文将ResNet-50划分为5个阶段，每个阶段后特征图的空间大小减半。网络深层具有更多的语义信息，从Conv_3层、Conv_4层和Conv_5层的末尾得到输出的中层特征映射并将它作为 CPFDEN

37、特征学习算法的输入。CPFDEN不仅能提取当前阶段判别性区域的显著特征信息，而且能抑制此刻判别性区域的显著特征，而后将抑制后的特征信息当作ResNet下一阶段的输入。从CPFDEN中得到的不同区域显著特征被输入到CSMFN中，使每个判别性区域特征表示更具多样性与完整性。首先，获得多个丰富多样性特征图Zi，并将每个特征图进行GAP信息采样为Bi，最后将每个采样信息进行拼接得到整体采样信息Bconcat，公式如下所示：Bi=GAP(Zi)（20）Bconcat=concat B1，B2，Bi（21）图3CSMFN结构Fig.3Structure of CSMFN2560第 8 期齐爱玲等：基于中

38、层细微特征提取与多尺度特征融合细粒度图像识别计算每个特征图Zi和整体采样信息的分类损失：Mi=softmax(classi(Bi)（22）Liclass=-yT log(i)（23）Lconcatclass=-y log(softmax(class(1，2，i)(Bconcat)（24）其中：yT表示输入图像真实标签的one-hot编码表示；classi表示第i部分的分类器；Mi RN表示预测得分向量值；N表示目标对象类别的数量。最终的优化目标是：L=i=1TLiclass+Lconcatclass（25）本文中T=3是多样性特征图Zi的数量。2 实验与结果分析 2.1数据集与实验设置本文在

39、3个常用的细粒度识别数据集 CUB-200-2011鸟类 18、Stanford Cars19和飞行器细粒度分类（Fine-Grained Visual Classification of Aircraft，FGVC-Aircraft）20上验证了所提算法的可行性，并在此基础上训练出算法的最佳准确率。CUB-200-2011是加州理工学院整理收集的鸟类图像数集，该数据集有200种鸟类图像，一共11 788张图片。Stanford Cars是斯坦福大学收集的汽车图像数据集，该数据集包含196类，一共16 185张汽车图片。FGVC-Aircraft数据集来自Kaggle网站数据集，该数据集包含1

40、00类别，总共10 000张飞机图片。表1总结了各个数据集的类别数、训练集和测试集划分的详细统计数据。图5展示了3个数据集的部分图像，从图中可以看出细粒度图像子类别间仅存在细微差异，而同类别间外观差异大，并且容易受姿态、遮挡和拍摄角度等不确定因素影响。实验过程中采用Top-1和Top-5准确率作为评估指标。本文所有实验中均使用ResNet-5015作为整个图像的特征提取网络。通过选取预加载训练好的ResNet网络参数，迁移学习到细粒度图像分类任务中21。在 Conv_3、Conv_4 和Conv_5的末尾引入通道与位置信息融合特征提取网络。在训练期间的通道收缩率r值相同且设置为32。对于CUB

41、-200-2011、Stanford Cars和FGVC-Aircraft数据集，在保持长宽比的前提下将图像大小缩放为550550，并随机裁剪为448448作为网络的输入。训练过程中使用随机梯度下降法（Stochastic Gradient Descent，SGD）作为优化器。优化器中动量为0.9，权重系数为0.000 01。训练迭代次数设置为100，批次大小设置为16。整个训练过程中初始主干层特征提取网络的学习率设置为0.002，新增加卷积层模块设置为0.02，使用余弦退火学习算法对学习率进行调整。实验采用的服务器硬件配置为Tesla P100 PCIe 16 GB的显卡，16 GB的内存。

42、CUDA 11.1的驱动，Python3.7的语言环境，pytorch 1.9的深度学习框架。2.2实验结果与分析式（7）中的是控制抑制程度的超参数，(0，1)，不同的取值代表对当前中层特征的像素抑制程度，而且直接关系到特征提取ResNet下阶段对其他具有判别性区域细微特征的学习效果，对最终的分类结果有很大影响。值得关注的是这个最合适的值会随着数据集的不同而改变，在实验中需要尝试多次才能获得最适合的值。表2记录了3个细粒度数据集上分类准确率随着值变化的情况。实验结果表明，CUB-200-2011数据集与Stanford Cars数据集都在为0.8时Top-1的准确率达到最高，FGVC-Airc

43、raft数据集则是在为0.7时Top-1的准确率达到最高。本文构建基于中层细微特征提取与多尺度特征融合算法在3个公开细粒度图像数据集中表现出色，算法训练过程图如图6所示。如图6（a）所示，CUB-200-2011数据集在优化迭代到15次时，测试集Top-1准确率达到88.20%，最后经过100次迭代训练，算法损失收敛至 0.2 附近，Top-1 准确率最高达89.52%。如图6（b）所示，Stanford Cars数据集在优化迭代到15次时，测试集Top-1准确率达到93.50%，最后经过100次迭代训练，算法损失收敛至0.2附近，Top-1准确率最高达94.64%。如图6（c）所示，FGVC

44、-Aircraft数据集优化迭代到15次时，测试集Top-1准确率达到92.22%，最后经过100次迭代训练，算法损失收敛至0.66附近，Top-1准确率最高达93.20%。表3所展示的消融实验结果是为了验证中层细微特征提表13个细粒度数据集的统计信息Tab.1Statistics of three fine-grained datasets数据集CUB-200-2011Stanford CarsFGVC-Aircraft名字BirdCarAircraft类别数200196100样本数训练集5 9948 1446 667测试集5 7948 0413 333图5数据集示例Fig.5Example

45、s from datasets表2不同取值在数据集上的Top-1准确率单位：%Tab.2Top-1 Accuracy of different values on datasets unit：%0.50.60.70.80.9CUB-200-201187.6488.1088.9489.5289.18Stanford Cars91.1092.5493.3694.6493.87FGVC-Aircraft90.9491.4693.2092.7992.562561第 43 卷计算机应用取与多尺度特征融合模型中CPFDEN和CSMFN每个模块的有效性。本文以ResNet-50作为图像特征提取器，分别先后引

46、入CPFDEN与CSMFN算法在3个数据集上进行了实验。如果仅仅引入CPFDEN，相较于只使用特征提取器网络而言，3个数据集CUB-200-2011、Stanford-Cars和FGVC-Aircraft的Top-1精度分别提升了3.44、3.60和2.30个百分点；Top-5精度分别提升了3.90、3.19和2.42个百分点。CPFDEN算法的确能够获得多个具有判别性区域特征表示，网络共同学习提高识别精度。其次，CPFDEN与CSMFN同时引入图像特征提取器网络，相较于单独引入CPFDEN到特征提取器网络而言，Top-1的识别精度分别提升了0.58、1.24和0.60个百分点；Top-5精度

47、分别提升了2.02、0.80和1.15个百分点。证明CSMFN算法能够使其他不同判别性区域特征之间相互补充充分体现出特征丰富性与多样性，解决了单个判别性区域特征表示忽略了对目标对象整体的认知问题，最终将融合后的丰富与完整特征送入支持向量机识别器。为了进一步证明本文算法的有效性，使用梯度激活映射（Gradient-weighted Class Activation Mapping，Grad-CAM）22在3个数据集上获得热力图，如图7所示。Grad-CAM是利用特征图的加权求和形成的，它可以显示每个区域对其分类的重要性。将本文算法热力图结果与图像特征提取网络

48、（ResNet-50）进行比较，本文算法可以挖掘出多个不同的判别性区域。从热力图的对比结果来看，三种数据集在图片目标主体识别上差别不大，都能定位到主体对象，但是在注意力特征区域定位上存在一些差异。在图7中，ResNet-50产生的注意力集中到目标对象的一个判别性区域（如鸟的头部、汽车前盖区域等）而忽略了其他具有判别性区域（如鸟躯干、羽毛等区域）。本文算法不仅将网络注意力进一步集中到多个具有判别性区域上，而且还能使多个判别性区域与对象整体具有体全局相关性，体现出本文算法强化注意力特征区域的能力。为了验证本文算法有较好的分类准确率和良好的泛化能力，表4展示了不同算法在3个数据集上达到的分类准确率。

49、比较表4实验结果表明，本文算法能有效地将网络注意力集中到多个具有判别性区域细微特征上，在CUB-200-2011数据集上达到 89.52%的 Top-1分类准确率；Stanford Cars 数据集上达到94.64%的Top-1分类准确率；FGVC-Aircraft数据集上达到93.20%的Top-1分类准确率，均略高于目前主流的几种算法。表 5展示了本文算法与 PPL-Net6和 PCA-Net7在3个数据集上识别准确率的对比。本文算法相比 PPL-Net 算法在CUB-200-2011、Stanford Cars和 FGVC-Aircraft数据集上 Top-1的准确率分别提升了 1.22

50、、0.64和 0.60个百分点。相较于PCA-Net 算法，在 CUB-200-2011、Stanford Cars 和 FGVC-Aircraft 数据集上 Top-1 的准确率分别提升了 1.22、0.34 和0.80个百分点；Top-5的准确率分别提升了1.03、0.88和1.12个百分点。首先，相较于PPL-Net算法虽然能够准确地找到多个具有判别性区域部分，但是对于多个判别性区域块独自送入网络识别器进行处理，未能及时注意到各个判别性区域之间的相互关系，且候选判别性区域存在较大的噪声干扰；其次，对于PCA-Net算法能够擦除判别性区域的显著特征，再进行其他具有判别性区域潜在特征学习，

展开阅读全文