基于Swin Transformer的深度有监督哈希图像检索方法.pdf

资源描述

1、第 50 卷第 8 期2 0 2 3 年 8 月Vol.50，No.8Aug.2 0 2 3湖南大学学报（自然科学版）Journal of Hunan University（Natural Sciences）基于Swin Transformer的深度有监督哈希图像检索方法苗壮，赵昕昕，李阳，王家宝，张睿（陆军工程大学指挥控制工程学院，江苏南京 210007）摘要：在深度有监督哈希图像检索的特征提取过程中，一直由卷积神经网络架构主导，但是随着Transformer在视觉领域中的应用，Transformer替代卷积神经网络架构成为可能.为了解决现存基于Transforme

2、r的哈希方法中不能生成层次表示和计算复杂度高等问题，提出了一种基于Swin Transformer的深度有监督哈希图像检索方法.该方法以Swin Transformer网络模型为基础，在网络最后添加一个哈希层，为图像进行哈希编码.该模型中引入了局部思想和层级结构，能够有效解决上述问题.与现有的13种先进方法相比，所提方法的哈希检索性能得到大幅提升.在两个常用检索数据集 CIFAR-10 和 NUS-WIDE 上进行实验，实验结果表明：在CIFAR-10数据集上所提方法mAP最高达到98.4%，与TransHash方法相比平均提高7.1%，与VTS16-CSQ方法相比平均提高0.57%；在NUS

3、-WIDE数据集上所提方法mAP最高达到93.6%，与TransHash方法相比平均提高18.61%，与VTS16-CSQ方法相比检索精度平均提高8.6%.关键词：哈希学习；深度学习；图像检索；Swin Transformer中图分类号：TP391 文献标志码：A Deep Supervised Hashing Image Retrieval Method Based on Swin TransformerMIAO Zhuang，ZHAO Xinxin，LI Yang，WANG Jiabao，ZHANG Rui（Command and Control Engineering College，A

4、rmy Engineering University of PLA，Nanjing 210007，China）Abstract：The feature extraction process in deep supervised Hash image retrieval has been dominated by the convolutional neural network architecture.However，with the application of Transformer in the field of vision，it becomes possible to replace

5、 the convolutional neural network architecture with Transformer.In order to address the limitations of existing Transformer-based hashing methods，such as the inability to generate hierarchical representations and high computational complexity，a deep supervised hash image retrieval method based on Sw

6、in Transformer is proposed.The proposed method utilizes the Swin Transformer network model，and incorporates a hash layer at the end of the network to generate hash encode for images.By introducing the concepts of locality and hierarchy into the model，the method effectively solve the above problems.C

7、ompared with 13 existing state-of-the-收稿日期：2022-06-20基金项目：国家自然科学基金资助项目（61806220），National Natural Science Foundation of China（61806220）；国家重点研发计划项目（2017YFC0821905），National Key Research and Development Program of China（2017YFC0821905）作者简介：苗壮（1976），男，辽宁辽阳人，陆军工程大学教授，博士生导师，博士通信联系人，E-mail：文章编号：1674-2974

8、（2023）08-0062-10DOI：10.16339/ki.hdxbzkb.2023274第 8 期苗壮等：基于Swin Transformer的深度有监督哈希图像检索方法art methods，the method proposed in this paper has greatly improved the performance of hash retrieval.Experiments are carried out on two commonly used retrieval datasets，namely CIFAR-10 and NUS-WIDE.The experiment

9、al results show that the proposed method achieves the highest mean average precision（mAP）of 98.4%on the CIFAR-10 dataset.This represents an average increase of 7.1%compared with the TransHash method and an average increase of 0.57%compared with the VTS16-CSQ method.On the NUS-WIDE dataset，the propos

10、ed method achieves the highest mAP of 93.6%.This corresponds to an average improvement of 18.61%compared with the TransHash method，and an average increase of 8.6%in retrieval accuracy compared with the VTS16-CSQ method.Key words：hash learning；deep learning；image retrieval；Swin Transformer随着互联网技术的飞速发

11、展，高维数据呈爆炸性增长，如何高效地实现大规模信息检索已经成为表示学习领域的严峻挑战.在解决这项具有挑战性任务所提的方法中1-4，基于哈希的方法取得了显著的成功5.哈希方法旨在学习一个哈希函数，该函数能够将高维像素空间中的图像映射到低维汉明空间，同时保留它们在原始像素空间中的视觉相似性.根据特征提取方式的不同，现存的基于哈希方法可以分为两类，即传统方法和基于深度学习的方法.传统方法6-8通过手工制作的视觉描述符（例如GIST9）来学习哈希函数.然而，其并不能准确地保留原始图像对的语义相似性，导致后续哈希函数学习过程中性能的下降.与传统的哈希方法相比，基于深度学习的哈

12、希方法10-11通常可以实现显著的性能改进.基于深度学习的哈希方法包括两个阶段：第一阶段旨在学习一个能够生成图像特征表示的深度卷积神经网络（Convolutional Neural Networks，CNNs），例如AlexNet.第二阶段通过深度哈希函数将连续特征映射为二进制哈希码，并利用各种损失函数12-16来保留图像原始像素空间中的相似性.基于深度学习的哈希方法通过卷积神经网络17-22以端到端的方式来同时学习图像的特征表示和二进制哈希码，取得了较好的检索性能.例如，文献 23 提出采用成对损失的贝叶斯学习框架；文献13 进一步提出用柯西分布代替先前的神经网络输出对数的概率生成函数，来惩

13、罚汉明距离大于阈值的相似图像对；文献 24 开创性提出了一种针对多标签图像检索的相似矩阵.虽然上述方法取得了较好的检索性能，但是依然存在一些问题.例如，图像的二进制哈希码是由图像连续特征表示通过sign函数量化得到，由于sign函数不可导，这使得优化过程变成NP难问题.先前大多数工作25都采用连续松弛方法来解决该问题（使用tanh函数或sigmoid函数代替sign函数），然后在测试阶段使用sign函数直接得到最终的二进制哈希码.第一种典型的方法就是通过在损失函数中添加一个惩罚项来量化函数，这个惩罚项有助于获得sign（h）h.该方法还存在一些变体，如文献 23 提出DHN方法实现了同时控制量

14、化误差和优化损失函数.文献 26 提出DCH架构，通过联合优化柯西交叉熵损失和柯西量化损失生成紧凑且集中的二进制哈希码，实现了高效的汉明空间检索.第二种方法是替代方案，它将优化问题分解为几个子问题，可以用交替最小化方法迭代求解.在这个替代过程中，反向传播只能用于一个子问题，而其他的子问题可以用其他的优化方法来解决.例如，文献 27 的最后一层输出直接限制为二进制哈希码，它保留了哈希编码的离散化这一特性，并提出了交替优化策略优化目标函数.第三种方法如HashNet28方法提出通过收敛的连续方法直接进行哈希码学习，从连续的相似数据中学习到准确的二进制哈希码，即使用不同的值来使 tan（z）无限接

15、近于 sign（h）.除上述三种常用方法外，还存在其他方法.例如，Greedy Hash29方法提出使用贪心算法在前传过程中保持对网络输出的离散约束，在反传过程中将哈希层的梯度完全传送到网络前层，进一步解决了离散优化问题并提高了哈希检索精度.在此启发下，设计了贪心非对称损失函数，该损失函数能够解决优化过程中梯度消失问题，并充分利用训练数据，提高了哈希码学习精度.近年来，Transformer30在自然语言处理31-32中取得了巨大的成功.随着Transformer在自然语言处理中的成功，许多研究人员开始探索将Transformer作为视觉任务的独立架构使用.将Transformer用于计算机视

16、觉存在两个主要的挑战.首先，Transformer在63湖南大学学报（自然科学版）2023 年一组Token上操作，但在图像中不存在类似自然语言中的单词的自然Token.其次，图像具有较强的局部结构，而Transformer结构以同样的方式处理所有的Token，忽略了图像局部性.因此，2020年谷歌提出了Vision Transformer（ViT）33，开创性地解决了第一个挑战，即简单地将图像分割为不重叠的块，并将每个块作为视觉 Token，有效地缓解了这一问题.随后，Swin34和Twins35提出了用局部ViT来解决第二个问题.它们在非重叠窗口内进行自注意力计算以及采用局部分组的自注意力

17、机制.这些机制引入了局部性，不仅提高了架构的性能，而且能够充分利用内存并提高计算效率.与此同时，Transformer在哈希图像检索领域中也存在一定的应用.TransHash36提出一种基于纯视觉Transformer的双流特征学习架构，能够同时学习图像有区别的全局和局部特征表示.然而，TransHash未能利用在大规模数据集上预训练的Transformer模型和最新研究的目标函数.因此，文献 33 提出了用于图像检索的视觉 Transformer 哈希方法（VTS），该方法通过预训练的ViT模型来提取图像的连续特征表示，并在网络最后添加一个哈希模块来学习图像的二进制哈希码，并达到当前深度有监

18、督哈希图像检索领域最先进水平.但是，研究发现ViT在特征提取阶段均保持相同的特征分辨率以及在整幅图像内计算各像素点之间的依赖关系，这导致ViT不能提取图像的多层次表示和计算复杂度高等问题.因此，尝试探索以Swin Transformer34为基础设计哈希骨干网，将局部思想和层级结构引入Transformer来解决上述问题，并进一步提高哈希检索性能.本文建立了一个基于Swin Transformer的深度有监督哈希图像检索方法，这是第一个以Swin Transformer为基础设计的哈希学习方法.图像经过 Swin Transformer能够得到深度特征表示，然而学习得到的深度特征表示是连续的，

19、因此在测试阶段需要通过sign函数将特征表示转化为二进制哈希码.但是，由于 sign 函数不可导，使得优化过程变为 NP 难问题，这导致了次优的哈希检索性能.因此，设计了贪心非对称损失来解决此问题，并得了较好的结果.综上所述，本文主要贡献可以概括为：1）提出了一种基于 Swin Transformer 的深度有监督哈希图像检索方法.该方法通过将局部思想和层级结构引入Transformer来生成图像的层次表示，能够得到更好保留图像底层信息的深度特征.2）设计了一种贪心非对称损失函数.该损失函数能够解决优化过程中梯度消失问题，并充分利用训练数据，提高哈希码学习精度.3）在两个常用检索数据集 CIF

20、AR-10 和 NUS-WIDE上的实验结果表明，本文方法检索性能优于其他方法.在CIFAR-10数据集上，与TransHash方法相比，当训练数据远远小于 TransHash 时，本文方法mAP平均提高7.1%，与VTS16-CSQ方法相比，本文方法mAP平均提高0.57%.在NUS-WIDE数据集上，与 TransHash 方法相比，本文方法 mAP 平均提高18.61%，与 VTS16-CSQ 方法相比，本文方法检索精度平均提高8.6%.充分验证了所提方法的有效性.1 本文方法图 1为本文网络结构的总体框架，主要包含特征提取和损失函数两个阶段.本文方法的主要思路是：通过以Swin Tra

21、nsformer为基础设计的哈希网络对输入图像进行深度特征提取，再使用深度哈希函数生成图像的哈希编码，最后通过图像之间哈希编码的汉明距离远近来进行图像检索.1.1 特征提取以Swin Transformer为基础设计的哈希网络进行图像深度特征提取.Swin Transformer与主流的CNN模型相似，均采用金字塔结构将模型分为不同的Stage.它包含 1 个 Patch partition 和 4 个 Stage，每个Stage都是由Swin Transformer Block堆叠而成，如图2所示.在哈希特征提取过程中，首先将大小为H W（224224）的RGB图像输入哈希网络中，通过Pat

22、ch partition 层将图像划分成长宽均为p=4、特征维度为48的不重叠Patch，这样使得Transformer Block能够直接处理具有二维结构的图像.之后再将Patch送入各个Stage中，对其进行自注意力计算.在Stage 1中，先通过 Linear embedding 层将每个 Patch 的特征维度映射成C维，再送入Swin Transformer Block中；Stage 2、Stage 3 和 Stage 4 相同，通过一个 Patch merging 层将相邻 22 个 Patch 合并，来改变每个Stage中特征图的分辨率从而生成层次表示.如图2所示，Swi

23、n Transformer Block是由窗口多头自注意力机制（Window Multi-head Self-Attention，W-MSA）和滑动窗口多头自注意力机制（Shifted-Window Multi-head Self-Attention，SW-MSA）交替组成.W-MSA机制引入窗口操作将图像 Patch进行非64第 8 期苗壮等：基于Swin Transformer的深度有监督哈希图像检索方法重叠均匀划分，每个窗口包含相邻的M M个Patch.这样使得每个窗口内部可以单独进行自注意力计算，能够有效降低计算量，从而解决了上述VTS方法中计算复杂度高的问题.但是，由于W-MSA缺乏

24、跨窗口的连接，无法对全局特征进行建模.针对该问题，Swin Transformer又进一步提出了SW-MSA机制.SW-MSA机制在W-MSA模块划分的规则窗口中，从(M/2，M/2)像素开始替换第一模块中的规则窗口，这种划分方法能够引入上一模块中相邻非重叠窗口之间的连接，提高模型的全局建模能力.但是，划分后会存在许多大小不规则的窗口从而加大计算量.为了高效计算，Swin Transformer提出使用沿左上方循环移动方式计算，如图3所示（只画出88的特征图在M=4的情况）.在循环移动后的特征图中，一个窗口可以由几个在特征图中不相邻的子窗口组成，因此使用MASK机制将自注意力计算限制在每个子窗

25、口内.通过循环位移方式，窗口的数量与常规窗口保持相同.这样Swin Transformer既可以实现相邻窗口之间的信息交流，又能够保持较少的计算量.Swin Transformer Block的计算过程如下：zl=W-MSA(LN(zl-1)+zl-1zl=MLP(LN(zl)+zl，zl+1=SW-MSA(LN(zl)+zl，zl+1=MLP(LN(zl+1)+zl+1（1）式中：zl、zl代表 l 模块（S）W-MSA 和 MLP 的输出特征.在自注意力计算过程中，通过添加一个相对位置偏置P RM2 M2来计算每个head的相似性：图1 本文网络结构图Fig.1 Network archi

26、tecture of our method图2 两个连续的Swin Transformer BlocksFig.2 Two successive Swin Transformer Blocks图3 W-MSA和SW-MSAFig.3 W-MSA and SW-MSA65湖南大学学报（自然科学版）2023 年Attention(Q，K，V)=SoftMax(QKT/d+B)V（2）式中：Q、K、V RM2 d代表query、key、value矩阵；d代表 Q/K 的维度；M2代表一个窗口中包含的 Patch数量.为学习得到图像的哈希特征，本文以 Swin Transformer模型为基础，通过在

27、模型Stage 4后添加一个哈希层构建了一个哈希特征提取网络，来将输出特征向量映射到不同位大小的哈希码中.对于大小为224224的查询图像xi，通过骨干网提取特征及哈希映射得到哈希特征hi：hi=f(xi，)（3）式中：f表示骨干网函数，表示Swin Transformer骨干网的参数.1.2 损失函数为了学习得到更优的哈希码，设计了一个损失函数，可表示为：L=L1+L2，其中L1为贪心损失37，L2为非对称成对损失38，为超参数.贪心损失L1能够解决优化过程中的梯度消失问题，非对称成对损失L2能够使训练过程充分利用数据集合的标签信息，有效地训练网络.具体的贪心损失L1如式（4）所示，B表示图

28、像哈希码集合，H表示图像深度特征集合：L1=loss(B)+|H-sign(H)|pp（4）为了得到图像的哈希编码，通常会在哈希编码层后面使用sign函数将深度特征映射为二值化哈希码.但由于sign函数不可导，会使优化过程变为NP难问题.传统方法使用tanh函数或sigmoid函数进行松弛，这样虽然能够训练网络，但会产生次优解.为了更好地解决这个问题，本文的贪心损失L1提出利用贪心算法解决离散优化问题.贪心算法认为离连续最优解最近的离散点，就是所希望得到的离散最优解.算法过程如表1所示.非对称成对损失如式（5）所示，它的作用是：在训练过程中，采用非对称策略训练网络.这样不仅能够充分利用数据集合

29、的监督信息，而且也可以高效训练网络.所谓非对称策略是指，采用不同的方式来处理查询图像和数据集合图像.对于查询图像，通过骨干网进行深度特征提取，再使用深度哈希函数生成查询图像的哈希码；而对于数据集合图像，它的哈希码则是直接学习得到.min，VL2(，V)=i=1mj=1n tanh(f(xi，)Tvj-cSij2（5）式中：Sij表示相似矩阵，V表示数据集合图像.损失函数部分具体过程可参考文献 37 和文献 38.2 实验2.1 数据集本文在 CIFAR-1039和 NUS-WIDE37这两个常用的图像检索数据集上进行实验.CIFAR-10数据集是一个单标签图像数据集，共包含10个类，每类包含

30、6 000个样本，总共有60 000张彩色图像，图像大小为3232.对于CIFAR-10数据集，如果两张图像标签相同，那么将两张图像视为相似对.NUS-WIDE数据集是一个多标签图像数据集，共包含81个类，总共有269 648张图像.本文选择了195 834张属于21个最常见的类的图像进行实验.对于NUS-WIDE数据集，如果两张图像至少共享一个公共标签，那么它们将被定义为相似对.2.2 实验设置全部实验均基于PyTorch 1.7深度学习框架，使用2块Geforce RTX 2080 Ti显卡进行测试.在数据处理上，将所有图像的大小首先调整到256256.然后对于训练图像，采用标准的图像增广

31、技术，包括随机表1 贪心算法原理Tab.1 The principle of greedy algorithm训练集X以及神经网络f()，表示神经网络参数，H为图像的特征表示，B为图像哈希码-Hi=f(X，).-B=sign(H).前向传播过程-计算贪心损失L1：L1=loss(B)+|H-sign(H)|pploss可以是任何类型损失，这里loss为交叉熵损失-计算L1B=lossB-令lossH=lossB后传过程-计算L1H=lossH+|H-sign(H)|ppH =lossB+|H-sign(H)|p-1p-1-计算L1=L1HH-更新网络参数66第 8 期苗壮等：基于Swin Tr

32、ansformer的深度有监督哈希图像检索方法水平翻转和随机裁剪，其中随机裁剪大小为224.对于测试图像，只应用裁剪大小为224的中心裁剪.在参数设置上，Batch Size设置为128，采用Adam优化器，学习率为 0.000 1，权重衰减值为 0.000 01，训练次数设置为150.在数据集划分上，CIFAR-10 数据集的划分与TransHash36设置相同，随机从每类中抽取500张，总共 5 000 张作为训练集；再随机从每类中抽取 100张，共1 000张作为查询集；除查询集外的59 000张图像作为数据库集合.由于实验条件有限，对于NUS-WIDE数据集，除训练集和查询集外，其他设

33、置均与TransHash设置相同.NUS-WIDE数据集从数据集合中随机抽取 2 000张作为训练集；再随机抽取 1 000张作为查询集；除查询集外的其他图像作为数据库集合.在评价指标选取上，本文选择图像检索中最常用的评价指标：mAP（mean Average Precision）和PR（PrecisionRecall）.2.3 实验结果与分析实验在CIFAR10和NUSWIDE数据集上进行，与13种哈希方法进行了比较，其中包括4种传统哈希学习方法：SH8、ITQ40、KSH40、BRE41；9种深度哈希学习方法：DSH16、DHN23、HashNet28、DCH13、IDHN24、DPN14

34、、TransHash36、VTS16 CSQ33和DPLAH42.哈希检索性能如表2所示，其中加粗表示最优值，下画线表示次优值.除VTS16CSQ方法外，其他 12 种方法结果均取自 TransHash36和DPLAH42.其中TransHash是首个将Transformer应用于深度有监督哈希图像检索的方法，VTS16-CSQ是基于Transformer模型的哈希检索方法中检索精度最高的方法.虽然 TransHash 是首个将 Transformer 应用到深度有监督哈希图像中的方法，但是该方法与最先进的基于卷积神经网络的方法43相比仍然存在较大的劣势.由于实验条件有限，在N

35、US-WIDE数据集上本文只使用TransHash五分之一的数据进行训练，而在CIFAR-10上则与TransHash设置一样.虽然在训练集设置上与TransHash相比有较大的劣势，但实验结果表明，本文方法仍在两个数据集上不同比特条件下均表现出最优异的检索性能.在CIFAR-10数据集上mAP 最高达到 98.4%，与 TransHash 相比平均提高7.1%，与 VTS16-CSQ 相比平均提高 0.57%；在 NUS-WIDE数据集上mAP最高达到93.6%，与最先进的基于CNN的哈希方法 43 相比平均提高3.8%，与TransHash和 VTS16-CSQ 方法相比分别平均提高 18

36、.6%和8.6%.传统的非深度哈希方法因为使用手工特征而不能达到较好的检索性能，深度有监督哈希方法通过机器学习技术能够获得更具有辨别性的哈希特征并取得了较高的检索结果.然而，本文所提方法比现有的深度有监督哈希方法性能更优.在NUS-WIDE数据集上，于训练集不足 VTS16-CSQ 方法 1/5的情况下取得了93.6%的检索精度，比目前本领域最先进表2 在CIFAR-10和NUS-WIDE上图像检索精度对比Tab.2 Comparison of the retrieval accuracy on CIFAR-10 and NUS-WIDEMethodsSH8ITQ39KSH40BRE41DSH

37、16DHN23HashNet28DCH13IDHN24DPN14DPLAH42TransHash36VTS16-CSQ33OursCIFAR-10（mAP54000）16 bits0.614 50.654 40.510 50.668 00.541 90.825 00.938 00.907 50.979 00.984 032 bits0.68150.67110.62780.69360.56950.83800.910 80.979 00.984 048 bits0.632 80.692 10.663 10.680 70.589 50.830 00.960 00.914 10.983 064 bit

38、s0.691 00.673 70.682 60.677 50.597 20.829 00.958 00.916 6 0.976 00.982 0NUS-WIDE（mAP5000）16 bits0.405 80.508 60.356 10.502 70.633 80.647 10.682 10.703 60.699 90.885 00.726 30.819 00.913 032 bits0.420 90.542 50.332 70.529 00.650 70.672 50.695 30.717 80.714 90.739 30.846 00.927 048 bits0.421 10.558 00

39、.312 40.547 50.666 40.698 10.719 30.710 60.722 50.918 00.753 20.936 064 bits0.410 40.561 10.336 80.554 60.685 60.702 70.734 10.705 60.725 60.923 00.748 80.853 00.936 0 67湖南大学学报（自然科学版）2023 年的方法（VTS16-CSQ）的检索性能提高了8.6%，与基于卷积神经网络的方法（IDHN）相比，检索性能提高了20.19%.在CIFAR-10和NUS-WIDE数据集上的PR曲线如图4和图5所示.P-R曲线与横坐标轴所围面

40、积越大，则表示该方法性能越好.从图中可以看出，本文方法P-R曲线一直位于其他方法的上方，再一次证明本文方法检索性能的优越性.本文方法能够取得比较优异的检索结果原因如下：首先，设计的基于Swin Transformer的哈希特征骨干网不仅能够捕获图像的局部信息，而且能够使局部信息之间产生联系，增大感受野获得图像之间的远程依赖关系，因此能够得到更好地保留图像底层信息的哈希特征.其次，设计的贪心非对称损失函数，通过贪心原理能够更好地解决优化过程中的离散优化问题，也能通过非对称方式训练网络，充分利用数据集合中的监督信息.2.4 消融实验我们设计了详细的消融实验来证明所提方法每一部分的有效性.对 6 种

41、哈希方法（DSH16、HashNet28、GreedyHash29、IDHN24、CSQ44、DPN14）在5种不同哈希骨干网（AlexNet18、ResNet5014、VTS3233、VTS1633和本文创建的哈希骨干网）上的性能表现进行了评估.在 CIFAR-10 和 NUS-WIDE数据集上16和64比特下的检索结果如表3和表4所示，其中黑色加粗表示相同损失函数在不同的骨干网上的最优值，黑色下画线表示次优值；红色加粗表示相同骨干网在不同损失函数下的最优值，红色下画线表示次优值.为了证明所提哈希骨干网的有效性，在 5种不同的哈希骨干网中使用相同的损失函数进行了实验（表3和表4

42、纵列所示）.实验结果表明，各个损失函数在所提骨干网上的检索性能均能优于在其他骨干网上的检索性能，证明了所提骨干网的有效性.如表3 所示，在 CIFAR-10 数据集上 16 和 64 比特下，与AlexNet 网络相比 mAP 分别平均提高了 20.3%和15.6%；与 ResNet50网络相比 mAP分别平均提高了19%和 14.6%.如表 4所示，在 NUS-WIDE 数据集上16和64比特下，与AlexNet网络相比mAP分别平均提高了7.81%和4.8%；与ResNet50网络相比mAP分别平均提高了6.3%和5.55%.图4 CIFAR-10 P-R曲线Fig.4 P-R curve

43、s of CIFAR-10图5 NUS-WIDE P-R曲线Fig.5 P-R curves of NUS-WIDE表3 在CIFAR-10上图像检索精度对比Tab.3 Comparison of the retrieval accuracy on CIFAR-10骨干网AlexNet18ResNet5014VTS3233VTS1633Our backboneDSH1616 bit0.7350.6910.9300.9800.94964 bit0.7850.5240.9530.9740.952HashNet2816 bit0.6510.5550.9620.9780.91964 bit0.7980

44、.8800.9560.9830.930GreedyHash2916 bit0.7610.8150.9480.9700.97164 bit0.8160.8630.9430.9800.980IDHN2416 bit0.7590.7560.9590.9760.93464 bit0.7670.8650.9600.9840.949CSQ4416 bit0.7590.8360.9600.9790.92064 bit0.7830.8370.9560.9760.924DPN1416 bit0.7350.8200.9510.9740.92264 bit0.7790.8200.9500.9750.932Our l

45、oss16 bit0.9370.9630.98364 bit0.9470.9620.98268第 8 期苗壮等：基于Swin Transformer的深度有监督哈希图像检索方法与VTS网络相比，本文骨干网在NUS-WIDE数据集上表现出优异的检索性能，达到目前检索领域最先进的水平.然而，在CIFAR-10数据集上，所提方法次优于基于VTS的哈希方法性能，分析原因如下：首先，本文的哈希骨干网是以 Swin Transformer 在ImageNet 上的预训练模型为基础构建的，由于CIFAR-10中的图像与ImageNet中的部分图像属性相似，导致在CIFAR-10数据

46、集上再训练出现过拟合现象；其次，基于VTS的哈希方法的骨干网是以Vision Transformer 为基础构建的，与本文所使用的Swin Transformer在参数量和计算成本上存在巨大的差异.为了进一步证明所提损失函数的有效性，在 7种不同的损失函数下使用相同的骨干网进行实验（表3和表4横行所示）.如表3所示，AlexNet网络在GreedyHash损失函数下能够达到次优值，而在所提贪心非对称损失条件下能够达到最优值；ResNet50网络在 HashNet和 CSQ 损失下分别取得次优值，而在所提贪心非对称损失条件下能够达到最优值；所提骨干网在 GreedyHash 损失函数下能够达到次

47、优值，而在所提贪心非对称损失下能够达到最优.同理，表4也存在上述情况.进一步证明了所提的贪心非对称损失的有效性.2.5 特征可视化本节对该哈希特征提取网络的个阶段所得到的特征图进行可视化.如图6所示，随机选取两张图像对每个阶段产生的特征图进行可视化，可以发现：特征提取初期，骨干网更加偏向于提取图像的纹理层特征；特征提取最后阶段，骨干网更加偏向于提取图像的语义特征，得到的特征信息更加聚焦于图像中的目标.这进一步说明Swin Transformer能够更好地提取图像的深度特征.3 结论本方法以预训练的 Swin Transformer 模型为基础，提出了一个基于视觉Transformer的哈希特

48、征提取网络.同时，提出贪心非对称损失以端到端的方式进行训练并指导图像哈希码的学习.我们注意到，在不同的检索框架下，所提出的骨干网的性能在两个表4 在NUS-WIDE上图像检索精度对比Tab.4 Comparison of the retrieval accuracy on NUS-WIDE骨干网AlexNet18ResNet5014VTS3233VTS1633Our backboneDSH1616 bit0.7750.7710.7960.7980.80464 bit0.8080.7910.8290.8290.831HashNet2816 bit0.7520.7680.7760.7920.846

49、64 bit0.8450.8390.8620.8730.874GreedyHash2916 bit0.7480.7560.7580.7620.90864 bit0.8000.7880.7980.7860.932IDHN2416 bit0.7910.8090.8330.8410.84164 bit0.8130.7940.8410.8510.842CSQ4416 bit0.7800.7930.8240.8190.84564 bit0.8340.8380.8610.8530.875DPN1416 bit0.7500.7890.8020.7970.82164 bit0.8350.8400.8610.8

50、460.869Our loss16 bit0.8820.9080.91364 bit0.9250.9360.936 （a）原图（b）Stage 1 （c）Stage 2 （d）Stage 3 （e）Stage 4图6 特征图可视化Fig.6 Visualization of feature maps69湖南大学学报（自然科学版）2023 年常用数据集上均优于 AlexNet 和 ResNet 骨干网.此外，该模型的性能还优于目前所有的基于 Transformer的哈希方法，且检索性能达到目前领域的最先进水平.参考文献1FU C，XIANG C，WANG C X，et alFast appro

展开阅读全文