收藏 分销(赏)

基于类相似特征扩充与中心三元组损失的哈希图像检索.pdf

上传人:自信****多点 文档编号:2335778 上传时间:2024-05-28 格式:PDF 页数:16 大小:2.27MB
下载 相关 举报
基于类相似特征扩充与中心三元组损失的哈希图像检索.pdf_第1页
第1页 / 共16页
基于类相似特征扩充与中心三元组损失的哈希图像检索.pdf_第2页
第2页 / 共16页
基于类相似特征扩充与中心三元组损失的哈希图像检索.pdf_第3页
第3页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇基基于类相似特征扩充与中心三元组损失的哈希图像检索潘丽丽1摇 摇 马俊勇1摇 摇 熊思宇1摇 摇 邓智茂1摇 摇 胡清华2摘摇 要摇 现有的深度哈希图像检索方法主要采用卷积神经网络,提取的深度特征的相似性表征能力不足.此外,三元组深度哈希主要从小批量数据中构建局部三元组样本,样本数量较少,数据分布缺失全局性,使网络训练不够充分且收敛困难.针对上述问题,文中提出基于类相似特征扩充与中心三元组损失的哈希图像检索模型(H

2、ash ImageRetrieval Based on Category Similarity Feature Expansion and Center Triplet Loss,HRFT鄄Net).设计基于 Vision Trans鄄former 的哈希特征提取模块(Hash Feature Extraction Module Based on Vision Transformer,HViT),利用 Vision Trans鄄former 提取表征能力更强的全局特征信息.为了扩充小批量训练样本的数据量,提出基于类约束的相似特征扩充模块(Similar Feature Expansion Ba

3、sed on Category Constraint,SFEC),利用同类样本间的相似性生成新特征,丰富三元组训练样本.为了增强三元组损失的全局性,提出基于 Hadamard 的中心三元组损失函数(Central Triplet Loss Func鄄tion Based on Hadamard,CTLH),利用 Hadamard 为每个类建立全局哈希中心约束,通过增添局部约束与全局中心约束的中心三元组加速网络的学习和收敛,提高图像检索的精度.在 CIFAR10、NUS鄄WIDE 数据集上的实验表明,HR鄄FT鄄Net 在不同长度比特位哈希码检索上的平均精度均值较优,由此验证 HRFT鄄Net

4、的有效性.关键词摇 图像检索,深度哈希,Vision Transformer(ViT),特征扩充,三元组损失引用格式摇 潘丽丽,马俊勇,熊思宇,邓智茂,胡清华.基于类相似特征扩充与中心三元组损失的哈希图像检索.模式识别与人工智能,2023,36(8):685-700.DOI摇 10.16451/ki.issn1003鄄6059.202308002中图法分类号摇 TP 391Hash Image Retrieval Based onCategory Similarity Feature Expansion and Center Triplet LossPAN Lili1,MA Junyong1,

5、XIONG Siyu1,DENG Zhimao1,HU Qinghua2ABSTRACT摇 Convolutional neural networks are commonly employed in the existing deep hashing imageretrieval methods.The similarity representation of the deep features extracted by convolutional neuralnetworks is insufficient.In addition,the local triplet samples are

6、 mainly constructed for triplet deephashing from the small batch data,the size of the local triplet samples is small and the data distribution islack of globality.Consequently,the network training is insufficient and the convergence is difficult.Toaddress these issues,a model of hash image retrieval

7、 based on category similarity feature expansion andcenter triplet loss is proposed.A hash feature extraction module based on vision transformer is designed toextract global feature information with stronger representation ability.To expand the size of mini鄄batch收稿日期:2023-06-19;录用日期:2023-08-30Manuscr

8、ipt received June 19,2023;accepted August 30,2023湖南省自然科学基金面上项目(No.2021JJ31164)、湖南省教育厅科学研究重点项目(No.22A0195)资助Supported by General Program of Natural Science Foundation ofHunan Province(No.2021JJ31164),Key Program of ScienceResearchFoundationofEducationDepartmentofHunanProvince(No.22A0195)本文责任编委 张军平Rec

9、ommended by Associate Editor ZHANG Junping1.中南林业科技大学 计算机与信息工程学院摇 长沙 4100042.天津大学 智能与计算学部摇 天津 3003501.College of Computer and Information Engineering,CentralSouth University of Forestry and Technology,Changsha 4100042.College of Intelligence and Computing,Tianjin University,Tianjin 300350第 36 卷摇 第 8

10、期模式识别与人工智能Vol.36摇 No.82023 年 8 月Pattern Recognition and Artificial IntelligenceAug.摇2023摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇 摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇training samples,a similar feature expansion module based on category constraint is put forward.Newfeature is generated by the similarity among samples of the same category to

11、enrich the triplet trainingsamples.To enhance the global ability of triplet loss,a center triplet loss function based on Hadamard(CTLH)is constructed.Hadamard is utilized to establish the global hash center constraint for eachclass.With CLTH,the learning and the convergence of the network are accele

12、rated by adding the centertriplet of local constraint and global center constraint,and the accuracy of image retrieval is improved.Experiments on CIFAR10 and NUS鄄WIDE datasets show that HRFT鄄Net gains better mean averageprecision for image retrieval with different bit lengths of hash code,and the ef

13、fectiveness of HRFT鄄Net isdemonstrated.Key Words摇 Image Retrieval,Deep Hashing,Vision Transformer(ViT),Feature Expansion,TripletLossCitation摇 PAN L L,MA J Y,XIONG S Y,DENG Z M,HU Q H.Hash Image Retrieval Based on Cat鄄egory Similarity Feature Expansion and Center Triplet Loss.Pattern Recognition and

14、ArtificialIntelligence,2023,36(8):685-700.摇 摇 近年来,随着互联网与多媒体技术的飞速发展,每秒都有庞大的图像数据在互联网上产生和传输.如何从大规模的图像数据中快捷、准确地查询检索用户所需的数据,成为图像检索技术领域研究的热点之一.一幅图像蕴含的信息需要高维度特征矢量才能有效表达,而处理高维度特征矢量需要消耗大量的存储空间和计算资源.哈希技术能将图像的高维特征信息映射到低维汉明空间的二进制编码,节省存储空间并降低计算复杂度,同时保证图像检索质量和计算效率1-2.图像哈希是将图像编码成紧凑的二进制代码,同时保留它们彼此的相似性.由于二进制码具有高存储效率

15、和低计算成本,哈希技术现已成为图像检索中应用最广泛的技术之一.现有的哈希方法可以分为两类:传统哈希方法和深度哈希方法.传统哈希方法3-6使用手工特征.例如:SIFT(Scale Invariant Feature Transform)7将图像映射为哈希码,再根据数据的相似性优化哈希码.然而,传统哈希方法未考虑图像特征的高级语义等信息,只是简单地对数据进行散列或取模等操作,导致丢失数据的重要信息,无法反映数据间的语义相似性,降低检索精度.相比传统哈希方法,基于深度学习的哈希方法取得显著的性能提升8-9.现有的深度哈希模型通常由两部分组成.1)通过卷积神经网络(Convolu鄄tional Neu

16、ral Networks,CNN)等提取图像判别特征表示,如 AlexNet、ResNet10等.2)通过各种非线性函数,将图像的连续特征压缩成二进制码.深度哈希方法是一种利用深度神经网络生成哈希码的方法,通过计算汉明距离以衡量图像之间的相似性.近年来,学者们已提出许多深度哈希方法,在几个基准数据集上表现出优秀的检索性能.Zhu等11提出 DHV(Deep Hashing Network),用于监督哈希,同时优化语义相似对的交叉熵损失和紧凑哈希码的量化损失.Cao 等12提出 HashNet,利用具有收敛保证的连续方法解决深度哈希网络优化中的梯度问题,可以从不平衡的相似数据中准确学习二进制哈希

17、码.Su 等13提出 Greedy Hash,采用贪心算法解决离散哈希优化问题.林计文等14提出面向图像检索的深度汉明嵌入哈希(Deep Hamming Embe鄄dding Based Hashing,DHEH),用于图像检索,根据哈希编码特征引入汉明嵌入学习,控制相似性信息的保留.受 Fisher LDA(Fisher忆s Linear DiscriminantAnalysis)的启发,Li 等15提出 Deep Fisher Hashing,优化二值空间中的最大类可分性.冯浩等16提出深度多尺度注意力哈希(DMAH),通过多尺度注意力定位和显著性区域提取模块,捕捉图像判别性区域,并引入三

18、元组量化损失,降低量化过程中的信息损失.张志升等17提出融合稀疏差分网络和多监督哈希的方法(Sparse Difference Networks and Multi鄄super鄄vised Hashing,SDNMSH),解决基于深度哈希的CNN 特征提取效率较低和特征利用不充分的问题.随着 CNN 的发展,基于深度哈希的方法利用CNN 将图像编码为保持相似性的哈希码,显著提升图像检索任务的性能18.基于成对的方法和基于三元组的方法是两种具有代表性的深度哈希方法.在基于成对的方法中,成对标签被用作监督信息以指686模式识别与人工智能(PR&AI)摇 摇 摇第 36 卷示一对图像相似或不相似.在

19、基于三元组的方法中,三元组的形式为(A,P,N),其中,A 与 P 为同一类别,A 与 N 为不同类别,这表明 A 更接近 P 而不是N.相比基于成对的方法,三元组还捕获相对相似度信息,即三元组(A,P,N)中(A,P)和(A,N)之间的相对关系.近期工作19-21表明,基于三元组的方法性能通常优于基于成对的方法.由于 Softmax 交叉熵损失无法处理可变数量的类,Schroff 等22提出三元组损失函数,构建 Face鄄Net,并将三元组损失应用于人脸检索任务,实验表明,通过三元组损失训练的模型具有优越的识别率和检索精度.为了进一步挖掘三元组之间的潜在关系,Lu 等23提出平衡三元组损失,

20、用于全面的特征学习和稳定的模型收敛.平衡三元组损失仅在小批量中挖掘每个类别中最难的负样本.郑大刚等24提出基于三元组损失的深度人脸哈希方法,并用于人脸检索任务.不同于基于余量的三元组损失,Zhao等25提出 HCTL(Hard Mining Center鄄Triplet Loss),降低计算和挖掘困难训练样本的成本,同时有效优化类内距离和类间距离,从而增强特征的学习和优化.基于三元组损失的深度哈希方法通过从三元组数据中捕获相对相似性以学习哈希函数.Liang等19使用三元组损失同时进行特征学习和哈希编码.Zhuang 等26提出将基于三元组的学习任务转换为多标签分类任务,以此加快训练速度.还有

21、一些研究工作致力于为成对或三元组分配不同权重.Lai 等27利用平均精度作为边信息以加权三元组损失.Cao 等28提出 DCH(Deep CauchyHashing),设计基于柯西分布的成对损失,惩罚汉明距离大于汉明半径阈值的相似图像对.Wang 等29提出 MS Loss(Multi鄄similarity Loss),在样本加权过程中涉及多个相似点的损失.但是,上述方法在小批量数据集中构建的三元组样本较少,样本数据分布缺少全局性,网络在训练时仍然难以收敛.注意力机制30现已大幅推进机器学习的发展,一种为计算机视觉任务量身定制的视觉转换器(Vision Transformer,ViT)31在图

22、像分类、物体检测、语义分割任务中取得优于 CNN 的性能32-33.ViT 利用自注意力机制(Self鄄Attention,SA)及强大的全局建模能力处理计算机视觉任务,在传统的视觉分类任务中取得较大成功.相比受卷积核大小限制难以捕捉远距离像素关系的 CNN,ViT 能够通过自注意力机制学习图像的长程空间关系,在提取图像的全局视觉表征上表现优异.Transformer 首先应用于自然语言处理(NaturalLanguage Processing,NLP)领域中的顺序数据30.最近,受 NLP 领域中 Transformer 架构成功的启发,研究人员将 Transformer 应用于计算机视觉(

23、Com鄄puter Vision,CV)任务.在视觉应用中通常使用CNN 作为特征提取的基础模块10,34,但 Transformer展示的性能显示它是 CNN 的潜在替代品.Chen等35训练 Sequence Transformer 以回归预测图像,实现与 CNN 在图像分类任务上相当的结果.Dosovi鄄tskiy 等31提出的 Vision Transformer 在多个图像识别基准任务上实现最优性能.ViT 将一个原始 Transformer 直接应用于图像补丁序列,对完整图像进行分类,各种扩展应用已经取得一定成功.薛峰等36提出基于 Vision Transformer的端到端中文

24、句子级唇语识别模型.Chen 等37提出 TransHash,使用 ViT 作为深度哈希任务的主干,用于特征提取,并利用成对损失作为监督任务.Li等38提出 HashFormer,同样使用 ViT 作为主干网络,并提出一种平均精度损失,直接优化检索精度.虽然 ViT 仍处于萌芽阶段,但由于其出色的性能,越来越多的研究人员提出基于 Transformer 的模型以改善大量的视觉任务39.现有的深度哈希图像检索方法主要采用 CNN,提取的深度特征相似性表征能力不足,检索精度受限.此外,基于三元组的深度哈希网络在训练过程中从小批量数据中构建局部三元组样本,这些三元组样本不仅数量较少,而且不具有数据分

25、布的全局性,使网络训练不够充分且收敛困难,影响图像检索的性能.针对上述问题,本文提出基于类相似特征扩充与中心三元组损失的哈希图像检索模型(HashImage Retrieval Based on Category Similarity FeatureExpansion and Center Triplet Loss,HRFT鄄Net).针对CNN 提取的深度特征相似性表征能力不足的问题,使用 ViT 和哈希层构建基于 ViT 的哈希特征提取模块(Hash Feature Extraction Module Based on ViT,HViT),提取相似性表征能力更强的全局性深度哈希特征,提高图

26、像检索的精度.针对端到端的训练中从小批量数据中构建局部三元组样本数量较少的问题,提出基于类约束的相似特征扩充模块(SimilarFeature ExpansionBasedonCategoryConstraint,SFEC),通过已提取特征合成新的特征,将每个小批量的训练特征样本扩充为原来的 2 倍,从而丰富三元组样本,有利于网络模型更加充分地训练.针对局786第 8 期摇 摇 摇 摇 潘丽丽等:基于类相似特征扩充与中心三元组损失的哈希图像检索部三元组不具有全局性,导致网络的训练收敛困难、检索性能较低的问题,提出基于 Hadamard 的中心三元组损失函数(Center Triplet Los

27、s Function Based onHadamard,CTLH),利用 Hadamard 为每个类别建立全局哈希中心约束,加速网络的收敛,同时使优化生成的哈希码更好地分布在汉明空间中,提高检索性能.1摇基于类相似特征扩充与中心三元组损失的哈希图像检索模型现有的深度哈希图像检索方法主要采用 CNN提取深度特征,相似性表征能力不足,同时在三元组深度哈希网络训练过程中,从小批量数据中构建局部三元组样本数量较少,不具有数据分布的全局性,使网络训练不够充分且收敛困难等.由此本文提出基于类相似特征扩充与中心三元组损失的哈希图像检索模型(HRFT鄄Net),模型结构如图 1 所示.HRFT鄄Net 主要由

28、基于 ViT 的哈希特征提取模块(HViT)、基 于 类 约 束 的 相 似 特 征 扩 充 模 块(SFEC)和基于 Hadamard 的中心三元组损失函数(CTLH)组成.首先对输入图像进行预处理,包括缩放、剪裁等,将图像处理至统一尺寸,在大型数据集 ImageNet上预训练的 ViT 与哈希层构建的 HViT 中输入图像,对图像进行特征映射,生成紧凑的深度哈希特征.然后,使用 SFEC 扩充 HViT 提取的特征,将扩充后的样本输入 CTLH,进行损失计算,通过反向传播更新网络参数.本文模型通过上述步骤实现高效率和高精度的图像检索.?.?SFEC.N2NCTLH?.?HRFT Net-1

29、01101111011011110110010111101111011011010100100?HViTHRFT Net-?10110110?图 1摇 HRFT鄄Net 结构图Fig.1摇 Structure of HRFT鄄Net1.1摇 基于 ViT 的哈希特征提取模块基于 ViT 的哈希特征提取模块(HViT)用于提取相似性表征能力更强的全局性深度哈希特征,流程如图 2 所示.ViT 只使用 Transformer 的编码器部分,通过自注意力机制捕获图像的局部信息和全局信息.首先,图像通过线性投影和位置编码,使后续Transformer 编码器可处理一维序列和感知位置信886模式识别与人

30、工智能(PR&AI)摇 摇 摇第 36 卷息.然后,输入 Transformer 编码器中,对图像特征进行编码,每个编码器包含一个多头自注意力(Multi鄄head Self鄄Attention,MSA)层和一个多层感知机(Multi鄄layer Perceptron,MLP)层.MSA 能捕捉序列中的全局信息,增强模型的表达能力.MLP 通过非线性变换增强模型的复杂度和拟合能力.每个编码器后面均设置有残差连接和层归一化,采用 ViT 的ViT鄄B_16 预训练模型.最后,将编码后的图像特征输入哈希层,生成哈希特征.哈希层包括随机失活层、激活层和全连接层.随机失活层防止特征过拟合;激活层 Re

31、LU 对特征激活;全连接层将特征进行线性映射转换,生成深度哈希码.?+123456789?+?+?Transformer?图 2摇 HViT 流程图Fig.2摇 Schematic diagram of HViTHViT 将输入图像分割成固定尺寸的块,假设输入图像 x 大小为 H 伊 W 伊 C,先将输入图像 x 分割为H 伊 W/P2个非重叠分辨率的图像块,P2为每块的大小是 16 伊 16,将二维图像转化为一维序列,H、W 分别为图像的高和宽,C 为通道数.分割后得到的序列x忆 长度为 H 伊 W/P2.ViT 由于注意力机制无法区分位置差异,需要将位置信息嵌入序列x忆,得到位置增强特征:

32、F=x忆0,x忆1,x忆L+EP,其中,EP表示在截断高斯分布下随机初始化的位置编码信息,+表示加法操作.位置嵌入表示图像块在图像中的相对位置且是可学习的参数.Transformer 编码器包含 12 层,每层包含 MSA和 MLP.MSA 是自注意力的延伸.首先自注意力计算公式如下:SA(F)=准QKTdV,Q=FWq,K=FWk,V=FWV,其中,F 为自注意力的输入特征,Wq、Wk和 WV为具有可训练参数的权重,d 为 Q、K、V 的维数,准()为Softmax 激活函数.为了并行应用多个自注意力,MSA 具有 m 个独立的 SA,则MSA(F)=SA1(F)茌 SA2(F)茌 SAm(

33、F),其中 茌 表示 concat 操作.综上所述,在第 i 个 Transformer 层中,输出特征Fi(=MLPLNF)i+Fi,Fi=MSA(LN(Fi-1)+Fi-1,其中 LN()为层归一化.1.2摇基于类约束的相似特征扩充模块通过结合查询结果和特征组合扩充等额外相关信息,图像检索中的查询扩充和数据库扩充技术可提高图像检索性能40-42.受这些技术的启发,为了在小批量训练中增加更多的特征样本,丰富参与训练的三元组样本,本文提出基于类约束的相似特征扩充模块(SFEC),结构如图 3 所示.SFEC的输入为HViT从小批量中提取的原始特征,数量为 N.SFEC 的输出为扩充特征,数量为

34、原始特征的 2 倍,即 2N.SFEC 首先搜索原始特征中同类别特征,并进行相似性约束判断.然后,针对类相似性约束特征进行相加融合.最后,对相加融合的特征进行均值与正则化,输出基于类约束相似性扩充特征.原始特征和新生成的特征共同参与训练,为后续基于 Hadamard 的中心三元组损失函数(CTLH)损失计算增加更多的三元组样本,使模型可以进行更充分的训练.假设 HViT 提取一个小批量训练数据中的 N 幅图像,得到原始图像特征集合:SN=x1,x2,xn,其中,xi为 SN中的一个样本图像特征向量,xi=xi,1,xi,2,xi,k.986第 8 期摇 摇 摇 摇 潘丽丽等:基于类相似特征扩充

35、与中心三元组损失的哈希图像检索+C1CCCC2345SSNN-1S1SSSS2345CCNN-1.?CC1=NCC12=CC13=.?SFEC?.C CC C C12345?SSN-N1.SSSSS12345 CCN-N1C CC C C12345?CCN-N1.SSSSS12345SSN-N1?图 3摇 SFEC 结构图Fig.3摇 Structure of SFEC摇 摇 SFEC 对 SN中基于类约束的相似特征进行相加运算,融合同一类别图像之间的特征,扩充该类别样本的特征表示.每次在 SN寻找与 xi同类别的特征,并且在第 i个位置之后,欧氏距离小于 茁 的相似样本特征进行相加后取均值,

36、得SN=x-1,x-2,x-n.其中,x-i为第 i 个合成的图像特征,x-i=1Ti移m沂Nxm,1,1Ti移m沂Nxm,2,1Ti移m沂Nxm,k,i 臆 m,DE(xi,xm)茁,k 为特征维度大小,Ti为第 i 幅图像后与 xi之间的距离小于 茁 的图像数量,茁 为超参数,DE(,)为欧氏距离.为了减少部分噪声特征的干扰和降低特征信息的方差,增强模型的泛化能力,SFEC 采用均值和正则化运算,对合成特征点 x-i进行 L2 正则化,得到最终的合成图像特征:SN=x1,x2,xn,xi=x-i椰x-i椰2.最终扩充后的特征为S=SN,SN.1.3摇基于 Hadamard 的中心三元组损失

37、函数三元组损失广泛应用于图像检索领域,由于深度学习方法使用端到端的训练方法,三元组选取一般从一个批次中构建的相似矩阵选取(A,P,N),其中,A为锚样本,P为正样本,N为负样本.A与P为同类,A 与 N 为不同类别,通过不断拉近 A 与 P 之间的距离D1的同时拉远A与N之间的距离D2,造成局部三元组缺失数据分布的全局性,导致网络学习效率降低、收敛困难.为了增强三元组的全局性,本文提出基于Hadamard 的中心三元组损失(CTLH),在构建三元组损失时,利用Hadamard矩阵为每个类别建立一个全局哈希中心,增强局部三元组的全局性,加快网络训练的收敛.CTLH示例如图4所示.在图中,v1为A

38、与P的全局哈希中心,v2为 P 的哈希中心,通过 CTLH 的局部三元组约束和全局哈希中心约束,A 与 P 的距离 D1缩小,同时A与v1的距离D3靠近,P与v1距离靠近.A 与N之间的距离D2增大,同时N与v2的距离D5缩小,得到类内样本的紧凑性和类间样本的可分离性分布,提高图像哈希码的表征能力.相似图像的哈希特征在汉明空间中具有较小的距离,不相似的图像哈希特征具有较大的距离,有利于图像间的相似性表达.为了让哈希特征更好地分布在汉明空间,每个类别的哈希中心与其它类别中心之间的距离应比与它相关类别的哈希码之间的距离更远,本文使用Hadamard 矩阵构建哈希中心,Hadamard 矩阵表示为H

39、K=v1,v2,vk,其中,K 为矩阵维度,k 为特征维度.由于 Hadamard矩阵的任意两个行向量v 的点乘为0,任意两个行向量的汉明距离为 DH(,),满足每个类别的哈希中心与其它中心之间的距离分布均匀的要求,即DH(vi,vj)=12(K-掖vi,vj业)=K2.通过 Hadamard 矩阵可以得到预定义好的每个类别的全局哈希中心.由于全局哈希中心是二进制向量,所以本文使用二进制交叉熵度量全局哈希中096模式识别与人工智能(PR&AI)摇 摇 摇第 36 卷心损失:LC=1K移Ni=1移k沂Kvi,klog2hi,k+(1-vi,k)log2(1-hi,k).由于每个全局哈希中心都是二

40、进制的,而现有的优化方法不能保证生成的哈希码完全收敛到哈希中心,因此加入量化损失 LQ以细化网络生成的哈希码,减少二值哈希码与实数特征之间的误差,从而提升哈希编码的质量.LQ具体计算公式如下:LQ=移Ni移Kk=1(log2(cosh(2hi,k-1-1).将每个类别样本约束到该类别的全局哈希中心,同时利用局部三元组学习图像之间的相似性,从小批量训练数据中选出 hA、hP和 hN,分别表示锚样本、正样本和负样本,将局部三元组损失定义为LT,则LT=max(椰hA-hP椰2-椰hA-hN椰2+鄣,0),其中 鄣 为余量.最后,基于 Hadamard 的中心三元组损失函数为:LCTLH=LC+LT

41、+姿LQ,其中 姿 为平衡系数.CLTH 训练得到的深度哈希特征既保持同类样本的局部紧凑性,同时具有不同类样本的全局可分离性,有利于网络的训练和收敛.?v1D3D4D1D2?AD5?N?v2?P?CTLH?v1D3D4D1D2?A?P?ND5?v2图 4摇 CTLH 示例Fig.4摇Example of CTLH2摇实验及结果分析2.1摇实验数据集为了验证 HRFT鄄Net 的有效性,在公开的图像检索数据集 CIFAR1043和 NUS鄄WIDE44上进行实验.CIFAR10 数据集是来自 10 个类别的 60 000 幅图像的集合,每个类别有 6 000 幅图像,随机抽取5 000 幅图像用

42、于训练集,每个类别有 500 幅图像.然后,对查询集中 1 000 幅图像进行随机采样,每个类别 100 幅图像,其余图像作为查询数据库,称为 CIFAR1054000.此外,按照文献45 中的设置,将训练集也划分到查询数据库上,计算 CIFAR10 数据集上的检索结果,即 CIFAR10 All.NUS鄄WIDE 数据集是目前应用最广泛的图像检索数据集之一,包含从 Flick 收集的近27 万幅图像.按照文献45 中使用的数据集划分方法,选用其中21 个最常见的类,训练集由每类随机采样 500 幅图像组成,查询集由每个类别随机采样 100 幅图像组成,剩余的图像当作数据库进行检索,称为 NU

43、S鄄WIDE5000.2.2摇实验设置及评价指标实验环境设备采用 Windows10 操作系统,配备高性能 GPU RTX 2070 显卡,带有 8 GB 显存,搭载PyTorch1.7.0 深度学习开发环境.在训练和测试中,所有图像调整为 256 伊 256,中心裁剪为 224 伊 224,每一批次大小设置为 32,学习率初始化为 1e-4,采用权重衰减为 1e-5 的RMSprop 优化器,训练轮次设置为 120.使用 ViT31提供的预训练权重初始化模型 ViT鄄B_16,隐藏层大小为 768,多头注意力个数为 12,HRFT鄄Net 由 12 个Transformer 块组成.本文采用

44、图像检索中常用的评价指标 平均精度均值(Mean Average Precision,mAP)评估模型的性能.假设在查询数据集中有查询图像 xi的yk个相似图像,可以在查询结果中得到 yk幅图像的位置序号分别为P=p1,p2,pyk,则 xi的平均准确率为AP(xi)=1yk移ykj=1jpj,196第 8 期摇 摇 摇 摇 潘丽丽等:基于类相似特征扩充与中心三元组损失的哈希图像检索那么对于整个查询图像数据集,所有类别的平均检索精度为mAP=1N移Ni=1AP(xi).2.3摇对比模型本文选择如下对比方法.1)DPN(Deep Polarized Network)45.基于成对标签的深度哈希检

45、索模型,通过成对损失保持相似图像之间的汉明距离小、不相似图像之间的汉明距离大.同时通过量化损失,减少 CNN 输出和二进制编码之间的误差.2)DSH(Deep Supervised Hashing)46.通过类别敏感的哈希目标,保持同类图像之间的汉明距离小、异类图像之间的汉明距离大,优化深度哈希网络.3)IDHN47.在哈希层使用符号函数,而不是连续的激活函数,从而避免量化误差.4)CSQ(Central Similarity Quantization)48.鼓励相似的数据对的哈希码趋近于一个共同中心,可以提高哈希网络学习效率.5)HashFormer38.采用基于 Transformer 的

46、框架解决深度哈希任务,使用平均精度损失直接优化检索精度.6)TransHash37.设计双流多粒度视觉 Trans鄄former 模块,并采用动态构造相似矩阵的方法学习紧凑的哈希码,提高图像检索性能.2.4摇模块有效性分析本节在 CIFAR10、NUS鄄WIDE 图像检索数据集上进行实验,采用16 bits、32 bits、64 bits、128 bits这4 种不同长度比特位哈希码,计算平均检索精度,评估不同模型.为了实现不同方法的公平对比并验证HRFT鄄Net 的泛化性和优越性,本文设计如下3 种不同的深度哈希特征提取模块.1)HAN(Hash Feature Extraction Bas

47、ed on Alex鄄Net).表示使用 AlexNet 与哈希层构建的基于AlexNet 的哈希特征提取模块.2)HRN(Hash Feature Extraction Based on Res鄄Net50).表示使用 ResNet50 与哈希层构建的基于ResNet50 的哈希特征提取模块.3)HViT.本文提出的基于Vision Transformer的哈希特征提取模块.各模块具体信息如表 1 所示.表 1摇特征提取模块信息Table 1摇 Information of feature extraction modules名称特征提取网络哈希层HANAlexNet随机失活层,激活层,全连

48、接层HRNResNet50随机失活层,激活层,全连接层HViTViT随机失活层,激活层,全连接层首先,在不同检索方法均以 HAN 作为特征提取模块的情况下进行实验,具体mAP值如表2所示,表中黑体数字表示最优值.HAN 由 AlexNet 和哈希层构成,其中 AlexNet 由5 层卷积层和3 层全连接层构成,整 体 网 络 深 度 较 浅.从 表 中 结 果 可 知,在CIFAR10、NUS鄄WIDE数据集上,HRFT鄄Net的128 bits哈希码检索 mAP 值最高,分别达到 78.5%和84.0%.表 2摇基于 HAN 的不同检索方法 mAP 值对比Table 2摇 mAP compa

49、rison of different retrieval methods based on HAN方法CIFAR105400016 bits32 bits64 bits128 bitsNUS鄄WIDE500016 bits32 bits64 bits128 bitsDPN73.5%76.2%77.1%76.9%75.0%81.2%83.4%83.3%DSH73.4%77.7%78.5%77.3%76.5%79.2%80.5%82.7%IDHN75.8%76.4%76.4%76.6%79.4%80.5%81.3%82.6%CSQ76.2%76.6%76.5%78.3%78.1%81.8%83.1

50、%83.2%HRFT鄄Net75.9%78.4%77.7%78.5%78.8%82.4%83.4%84.0%摇 摇使用基于 ResNet50 的卷积层数更深的 HRN 作为特征提取模块,不同方法的mAP值如表3所示,表中黑体数字表示最优值.HRN 由预训练的 ResNet50与哈希层构建而成,ResNet50 由 50 层深度卷积组成,使用更深的网络,同时使用残差连接,可以有效解决深度网络的梯度消失和退化问题.相比 HAN,HRN 更深,有更多的参数和计算量.由表 3 结果可看出,在 CIFAR10 数据集上,HRFT鄄Net 的 16 bits 哈希码检索 mAP 值为84.9%,对比次优的

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服