收藏 分销(赏)

基于判别性矩阵分解的多标签跨模态哈希检索_谭钰.pdf

上传人:自信****多点 文档编号:275501 上传时间:2023-06-26 格式:PDF 页数:6 大小:1.52MB
下载 相关 举报
基于判别性矩阵分解的多标签跨模态哈希检索_谭钰.pdf_第1页
第1页 / 共6页
基于判别性矩阵分解的多标签跨模态哈希检索_谭钰.pdf_第2页
第2页 / 共6页
基于判别性矩阵分解的多标签跨模态哈希检索_谭钰.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1349-1354ISSN 1001-9081CODEN JYIIDUhttp:/基于判别性矩阵分解的多标签跨模态哈希检索谭钰1,王小琴1,蓝如师1*,刘振丙1,罗笑南2(1.广西图像图形与智能处理重点实验室(桂林电子科技大学),广西 桂林 541004;2.卫星导航定位与位置服务国家地方联合工程研究中心(桂林电子科技大学),广西 桂林 541004)(通信作者电子邮箱)摘要:现有的跨模态哈希算法低估了不同类别标签之间语义差异的重要性,忽略了哈希向量的平衡条件,导致所学习到的哈

2、希码的判别性能差。此外,一些方法利用标签信息构造相似性矩阵,并将多标签数据视为单标签数据进行建模,这在多标签跨模态检索中造成了较大的语义损失。为了保留异构数据之间精确的相似程度和哈希向量的平衡特性,提出了一种新的有监督哈希算法基于判别性矩阵分解的多标签跨模态哈希检索(DMFH)。该方法利用核化特征的协同矩阵分解(CMF)获得了一个共享的隐式子空间;同时利用数据之间共有标签的比例来描述异构数据的相似程度;此外,利用标签的平衡信息构造平衡矩阵,生成具有平衡特性的哈希向量,并最大化不同类别标签之间的类间距。在两个常用多标签数据集MIRFlickr和NUS-WIDE上与7种先进的跨模态哈希方法进行对比

3、,在“以图搜文”(I2T)和“以文搜图”(T2I)任务上,DMFH均取得了最高的平均精度均值(mAP),而且T2I任务的mAP更优,说明DMFH能够更有效地利用文本模态中的多标签语义信息。还分析了所构造的平衡矩阵与相似性矩阵的有效性,验证了DMFH算法能有效保持语义信息和相似性关系,在多标签跨模式检索中是有效的。关键词:跨模态检索;矩阵分解;哈希学习;平衡向量;多标签数据中图分类号:TP181;TP391 文献标志码:AMulti-label cross-modal hashing retrieval based on discriminative matrix factorizationTA

4、N Yu1,WANG Xiaoqin1,LAN Rushi1*,LIU Zhenbing1,LUO Xiaonan2(1.Guangxi Key Laboratory of Image and Graphic Intelligent Processing(Guilin University of Electronic Technology),Guilin Guangxi 541004,China;2.Satellite Navigation Positioning and Location Service National and Local Joint Engineering Researc

5、h Center(Guilin University of Electronic Technology),Guilin Guangxi 541004,China)Abstract:Existing cross-modal hashing algorithms underestimate the importance of semantic differences between different class labels and ignore the balance condition of hash vectors,which makes the learned hash codes le

6、ss discriminative.In addition,some methods utilize the label information to construct similarity matrix and treat multi-label data as single label ones to perform modeling,which causes large semantic loss in multi-label cross-modal retrieval.To preserves accurate similarity relationship between hete

7、rogeneous data and the balance property of hash vectors,a novel supervised hashing algorithm,namely Discriminative Matrix Factorization Hashing(DMFH)was proposed.In this method,the Collective Matrix Factorization(CMF)of the kernelized features was used to obtain a shared latent subspace.The proporti

8、on of common labels between the data was also utilized to describe the similarity degree of the heterogeneous data.Besides,a balanced matrix was constructed by label balanced information to generate hash vectors with balance property and maximize the inter-class distances among different class label

9、s.By comparing with seven advanced cross-modal hashing retrieval methods on two commonly used multi-label datasets,MIRFlickr and NUS-WIDE,DMFH achieves the best mean Average Precision(mAP)on both I2T(Image to Text)and T2I(Text to Image)tasks,and the mAPs of T2I are better,indicating that DMFH can ut

10、ilize the multi-label semantic information in text modal more effectively.The validity of the constructed balanced matrix and similarity matrix is also analyzed,verifying that DMFH can maintain semantic information and similarity relations,and is effective in cross-modal hashing retrieval.Key words:

11、cross-modal retrieval;matrix factorization;hash learning;balanced vector;multi-label data文章编号:1001-9081(2023)05-1349-06DOI:10.11772/j.issn.1001-9081.2022030424收稿日期:2022-04-01;修回日期:2022-07-19;录用日期:2022-08-03。基金项目:国家自然科学基金资助项目(62172120,61936002,6202780103,61772149);广西科技计划项目(2019GXNSFFA245014,AD1821600

12、4,AD18281079,AA18118039);广西图像图形与智能处理重点实验室开发课题(GIIP2001)。作者简介:谭钰(1997),女,广西南宁人,硕士研究生,主要研究方向:跨模态检索、机器学习;王小琴(1994),女,广西桂平人,硕士,主要研究方向:图像检索、机器学习;蓝如师(1986),男,广西河池人,教授,博士,主要研究方向:人工智能、图像处理、医学信息处理;刘振丙(1980),男,山东济宁人,教授,博士,主要研究方向:机器学习、图像分类、图像复原;罗笑南(1963),男,江西南城人,教授,博士,主要研究方向:机器学习、图像分类、图像复原。第 43 卷计算机应用0 引言 随着多媒

13、体数据数量和种类的快速增长,不同类型的检索数据为检索任务带来了新挑战,由此需要更有效的算法解决多样化跨模态检索问题。跨模态检索需要解决异构数据的表示及比较问题,如给定一个图像样本,如何有效且快速地检索出相关的文本、视频等其他模态数据。为获得更好的性能,跨模态检索引入了哈希学习方法1-5以降低存储成本并获得更快的检索速度。通常,跨模态哈希方法可分为两类:有监督方法6-10和无监督方法11-15。无监督方法旨在挖掘数据之间的结构关系;而有监督方法可以充分利用标签信息,在构建相似关系时获取更多的语义关系信息。近些年来,一些现有的跨模态哈希方法16-21认为,可以通过协同矩阵分解将原始特征的语义关系保

14、留在隐式子空间中。此外,部分哈希方法22-27对哈希向量的平衡性进行了研究,并认为哈希向量的平衡性可以最大化信息熵。在现实场景中,多标签的检索样本占总检索样本的绝大部分,却很少有哈希方法关注构建多标签数据下的平衡哈希向量,并且丢弃了大部分的标签信息,导致哈希码的可信度和语义保持性降低。为解决这些问题,本文提出一种简单而有效的哈希方法判别性矩阵分解的多标签跨模态哈希(Discriminative Matrix Factorization Hashing,DMFH)。本文目标是通过矩阵分解获得具有模态特性的公共隐式子空间,并为成对的异构数据生成统一的哈希码。为使生成的哈希码更具判别性,本文进一步构

15、造了一个可以精确度量数据关系的多标签相似矩阵。此外,本文还引入哈达玛矩阵以保持哈希向量的平衡状态。最后,通过量化子空间的数据表示获得目标哈希码。1 相关研究 近些年来,协同矩阵分解(Collective Matrix Factorization,CMF)方法被应用于跨模态哈希检索中。CMF旨在使用两个低秩矩阵的乘积来逼近一个非满秩的高阶矩阵。不同于传统跨模态哈希方法直接将数据投影到汉明空间,CMF方法将数据投影到所分解出来的隐式子空间中。例如,协同矩阵分解哈希(Collective Matrix Factorization Hashing,CMFH)21方法首次将 CMF 方法应用于跨模态检索

16、领域,通过矩阵分解对原始特征进行分解并获得潜在隐式子空间,从而比较异构数据的相似性。Tang等18通过 CMF 得到隐式语义特征,并将原始空间的标签相似性与局部结构相似性保持到子空间中。Li等28将核化特征进行矩阵分解,同时利用标签下的语义嵌入获取更优子空间,并将模态间和模态内的相似性保持于子空间中。Wang等29首次将模态独立矩阵分解与模态联合矩阵分解融合:模态独立矩阵分解侧重于获取不同模态内特有的数据特征;模态联合矩阵分解侧重于获取不同模态间共有的数据特征。在哈希学习中,二值码的质量是提升模型效果的关键。传统哈希方法通过模型最终获得的精度来评价所学哈希码的优劣,而模型的效果受多方面因素影响

17、,由此对哈希码质量的判断并不准确。近些年来有研究人员对哈希码的质量作了进一步研究,Liu等22通过哈希比特的平衡度与相似关系保持能力对哈希码的质量进行评价,认为好的二值码应当拥有平衡的二值占比,并证明了哈希比特的平衡性有助于保持原始数据的相似性关系。由此可知,平衡的哈希码能够携带更多的原始语义信息,有利于哈希学习获得更好的效果。此外,为了生成更具判别性的哈希码,Lin等24将哈达玛矩阵引入哈希学习,利用哈达玛矩阵的每一行作为每个类的聚类中心,以最大化不同类别的差距。由于哈达玛矩阵为二值正交矩阵,每一行(列)在性质上与二值哈希码相同,且每一行(列)均为平衡向量,有利于生成更具平衡性的哈希码。2

18、判别性矩阵分解哈希 2.1符号及定义假设有一组用于图像和文本模式的n个成对训练样本,分别记作X=xini=1 Rp n和T=tini=1 Rq n,p和q分别代表图像和文本的特征维度。样本对应的标签矩阵记作Y=yini=1 Rm n,m表示该数据集的标签总数。通常情况下,训练样本均为零中心化的,即i=1nxi=0和i=1nti=0。本文目标为学习到维度为 d的二值哈希码B=bini=1 Rd n,在汉明空间中表示不同模态的数据。2.2方法描述本文方法旨在利用 CMF 方法获取到一个隐式子空间,以挖掘多模态数据之间的潜在关系。显然,若异构数据之间是语义相近的,它们在空间分布上也存在联系。有鉴于此

19、,假设给定两个模态数据矩阵X和T,它们的矩阵分解可写作以下形式:minUI,UT,VX-UIV2F+T-UTV2F(1)其中:UI Rp d和UT Rq d分别对应图像模态和文本模态的隐式向量矩阵;矩阵V Rd n记录异构的成对数据在子空间中的统一表示形式。检索时,需要将检索样本的原始特征投影到已获得的子空间中。为此,分别定义两个线性投影函数PI Rd p和PT Rd q,将图像和文本模态数据映射到子空间中。本文认为,具有相同标签的成对异构数据在子空间中拥有相同表示形式。基于这个思想,可通过式(2)实现异构模态数据 X和T的子空间映射:minPI,PT,VV-PIX2F+V-PTT2F(2)在

20、单标签样本的情况下,传统的相似性矩阵构造方法仅通过异构数据之间是否有相同标签来判断相似性,但该方法在多标签样本检索中显得粗糙许多。区别于传统构造方法,针对多标签跨模态哈希检索问题,本文通过比较两个样本的共有标签占比来衡量样本间的相似程度,并构造出多标签样本下的相似性矩阵。对于两个样本xi和tj,相似性关系可以表示为以下形式:si,j=()yTi yjN(3)其中:si,j0,1;N是数据xi拥有的标签总数。通过标签向量的内积计算得到两个样本共有的标签数,若两个样本完全不同,分子为 0,则si,j=0;若两个样本相似,则si,j趋向于 1,当共有标签达到xi拥有的标签总数时,认为两个样本一致。通

21、常情况下,数据的相似性关系是相互的,相似性矩阵是对称矩阵。因此,在构造该相似性矩阵时,只对矩阵的上三角进行运算,即1 i j n,矩阵的下三角部分通过si,j=sj,i得到。本文方法认为,数据在子空间中的语义关系与数据在原始空间中的语义关系应当相近。因此,异构数据投影到子空间后的语义相似性损失写作以下形式:1350第 5 期谭钰等:基于判别性矩阵分解的多标签跨模态哈希检索minVS-VTV2F(4)为了保持多标签下向量的平衡性,本文方法引入2k阶哈达玛矩阵构造一个新颖的平衡矩阵C Rd n,其中每一个ci都通过标签聚合的方式获得。更具体地说,哈达玛矩阵的每一 行 都 可 作 为 一 个 特 定

22、 的 类,通 过 计 算d*=minb|b=2k,m b,d b,k=1,2,3,获得哈达玛最短编码长度,最后执行函数 hadamard(d*)构造出相应哈达玛矩阵。对于样本xi,需要从预构造的哈达玛矩阵中选择出对应的类向量,并将所有的类向量相加作为最终的平衡向量:ci=1Nhxi(5)在 预 先 构 造 好 的 哈 达 玛 矩 阵 中,N 个 向 量hxi=h1xi,h2xi,hNxi Rd 1不重复地表示某一特定标签。值得注意的是,哈达玛矩阵的维度不总是与哈希码矩阵维度相同,即d*d。为了能保持维度相同,本文引入局部敏感哈希(Locality-Sensitive Hashing,LSH)3

23、0,构造了一个随机的投影矩阵W Rd d*把原始哈达玛矩阵映射到与哈希码矩阵相同的维度空间中。此后,为使目标哈希码具有平衡性,本文方法将式(5)构造出的平衡矩阵 C 替换式(4)中的一个子空间表示 V。由此,式(4)可以被改写成:minVS-CTV2F(6)为了捕获不同模态数据之间的潜在非线性关系,本文方法使用了径向基核函数(Radial Basis Function,RBF)的核化特 征(xi)来 替 代 数 据 的 原 始 空 间 特 征,即(xi)=exp()-xi-oj22 22,其中 ojej=1是从数据集中随机选择的e个锚点,并通过=1nei=1n j=1exi-oj2计算核宽度。

24、2.3目标函数结合式(1)、(2)、(6),本文方法的总目标函数可以写作:minV,PI,PT,UI,UT()X-UIV2F+(1-)()T-UTV2F+V-PI()X2F+V-PT()T2F+S-CTV2F+Re()V,PI,PT,UI,UT(7)其中:式子最后一项是用来防止过度拟合的正则化项,即Re(V,PI,PT,UI,UT)=V2F+PI2F+PT2F+UI2F+UT2F;0,1是控制图像和文本模态权重的平衡参数;由于异构数据在子空间中有相同的表示,第三、第四项表示图像和文本原始特征降维后与子空间近似程度,通过参数控制子空间与哈希投影近似程度;第五项用于最小化子空间与原始空间的语义差异

25、,同时保持目标哈希码的平衡性。最后,通过量化子空间中的统一表示 V 得到目标哈希码B。B=sgn(V)(8)当输入值为正数时,二值函数sgn的返回值为1,否则为-1。基于上述方法,目标哈希码同时保留了异构数据的语义关系和平衡特性。2.4模型优化由于矩阵变量V、PI、PT、UI和UT的存在,式(7)属于非凸优化问题,无法直接优化求解。但当任何一个变量是可变的,而其他变量是固定不变时,式(7)变成凸优化问题。因此,本文通过迭代优化的方式求解。求解步骤如下:1)更新UI和UT。固定除UI和UT外其他变量,并移除无关项,式(7)可被改写为:minUI()X-UIV2F+UI2F(9)minUT(1-)

26、()T-UTV2F+UT2F(10)将式(9)、(10)对UI和UT的导数分别取为零,可以得到UI和UT的闭式解:UI=(X)VT(VVT+I)-1(11)UT=(1-)(T)VT(1-)VVT+I)-1(12)其中I Rd d是单位矩阵。2)更新PI和PT。固定其他变量并移除与PI和PT无关的项,式(7)可被改写为:minPIV-PI()X2F+PI2F(13)minPTV-PT()T2F+PT2F(14)将式(13)、(14)中关于PI和PT的导数分别取为零,可以得到PI和PT的闭式解:PI=V(X)T(X)(X)T+I)-1(15)PT=V(T)T(T)(T)T+I)-1(16)3)更新

27、V。固定其他变量并将V的导数取为零,式(7)可以改写为:V=(UITUI+UTTUT+I+CTC)-1(UIT(X)+UTT(T)+PI(X)+PT(T)+CTS)(17)具体算法流程如算法1所示。算法1 判别性矩阵分解的多标签跨模态哈希。输入 不同模态数据原始特征矩阵X和T,哈希码长度d,参数、和,最大迭代次数;输出 目标哈希码矩阵B,投影矩阵PI和PT。1)随机初始化PI、PT、UI、UT和V矩阵;2)归一化原始特征,并映射到非线性空间;3)分别通过式(3)构造相似性矩阵S和式(5)构造平衡矩阵C;4)for iteration t=1 to do5)根据式(11)和(12)更新UI和UT

28、。6)根据式(15)和(16)更新PI和PT。7)据式(17)更新V。8)end for9)根据式(8)得到B。3 实验与结果分析 为验证本文方法的有效性,在两个文本-图像模态的多标签数据集MIRFlickr和NUS-WIDE上进行实验。实验采用平均精度均值(mean Average Precision,mAP)进行评估,并对比了几种最先进的跨模态哈希方法。3.1数据集MIRFlickr数据集由25 000对图像-文本数据样本组成,来源于Flickr。每一个样本都为多标签数据,并属于规定的24个种类其中一个或多个。在训练前,去除出现次数少于20次的标签类别后剩下20 015对数据;此外,去除缺

29、失文本标签的样本,最终剩下16 738对样本数据。划分出15 902对样本作为训练集,836对样本作为测试集。数据集中的图像样本由512维的边缘直方图特征进行表示,文本样本由主成1351第 43 卷计算机应用分分析(Principal Component Analysis,PCA)产生的 500 维特征表示。在训练模型时,从训练集中随机抽取出5%的样本作为检索样本,其余样本作为训练集。NUS-WIDE数据集是源于Flickr的真实场景数据集。完整的数据集包含269 648对图像-文本样本,每个样本属于规定的 81 个种类中的一个或多个。数据集中的图像样本由500 维 的 尺 度 不 变 特 征

30、 变 换(Scale-Invariant Feature Transform,SIFT)特征表示,文本样本由1 000维的词袋特征表示。在实验前,对数据集的海量样本进行处理,筛选出属于最常见10类的标签中的样本,得到大小为186 577的成对数据集,并随机取出5%作为测试集,剩下部分作为训练集。3.2实验设置及对比方法对于本文提出的方法,根据经验对实验中的参数进行以下的设置:=0.5,=1 000,=5 和 e=500。在对比实验中,所有比较方法均运行了 10次,表中给出的所有数值都是平均性能的结果。此外,实验的二进制代码的长度设置在 32,64,128 的范围内,在配置 3.4 GHz CP

31、U、64 GB 内存的电脑和软件Matlab R2018b上运行。7种先进的跨模态哈希方法包括:4种基于CMF的方法,即协同矩阵分解哈希(CMFH)算法21、有监督矩阵分解哈希(Supervised Matrix Factorization Hashing,SMFH)算法18、广义语义保持哈希(Generalized Semantic Preserving Hashing,GSePH)算 法16和 联 合 与 独 立 矩 阵 分 解 哈 希(Joint and Individual Matrix Factorization Hashing,JIMFH)算法29;以及3 种 非 CMF 的 方

32、法,即 语 义 相 关 性 最 大 化(Semantic Correlation Maximization,SCM)算 法31、判 别 性 二 值 哈 希(Discriminative binary Codes Hashing,DCH)方法20和子空间下 语 义 标 签 哈 希(Subspace Relation in semantic Labels for Cross-modal Hashing,SRLCH)算法32。特别说明,本文方法从 NUS-WIDE 数据集的训练集中随机抽取 15 000 个样本来训练本文提出的模型。3.3实验结果实验部分分别完成了任务“以图搜文”(Image to

33、Text,I2T)和“以文搜图”(Text to Image,T2I)的比较,结果如表 1,加粗表示最优结果,下划线表示次优结果。由表 1可知,本文方法DMFH在两个任务中均取得了最高的mAP。还可以看出,针对I2T任务:1)在 MIRFlickr 数据集的实验中,对比使用简单方法构造相似性矩阵的方法 GSePH,当二进制代码的长度分别为32 b、64 b 和 128 b 时,本文方法的 mAP 分别获得了 6.21、6.22、5.45 个百分点的提升。这说明本文提出的多标签相似矩阵和平衡矩阵有助于学习到更具区分性的哈希码。2)当二进制代码的长度分别为32 b、64 b和128 b时:在MIR

34、Flickr 数据集的实验中,本文方法的 mAP 比次优方法DCH 分别提高了 5.58、5.71、4.21 个百分点;在 NUS-WIDE数据集的实验中,本文方法的 mAP 比次优方法 GSePH 分别提高了4.87、4.92和4.64个百分点。针对T2I任务:1)在 MIRFlickr 和 NUS-WIDE 数据集上,本文方法的mAP均高于I2T任务的mAP,说明本文方法能够更有效地利用文本模态中的多标签语义信息,有助于提高T2I任务的检索性能。2)当二进制代码的长度分别为32 b、64 b和128 b时:在MIRFlickr 数据集上,本文方法的 mAP 比次优方法 JIMFH 分别提高

35、了 6.67、5.36、2.73 个百分点;在 NUS-WIDE 数据集上,本文方法的 mAP 比次优方法 JIMFH 分别提高了 8.05、4.52、3.96个百分点。3.4讨论与分析3.4.1参数敏感性分析为研究参数、和对模型的影响,本节对参数的敏感性作进一步的实验分析。在两个多标签数据集上,均使用长度为 32 b的哈希码进行参数 和 的实验;在模型训练时,依据实践经验设置正则项系数的值,并在所有实验中设定=5。实验中设定参数的取值为 0,0.1,0.3,1,实验结果如图1(a)、(b)所示。显而易见,两个数据集在=0.5前后有较明显的波动。在 I2T 任务中,NUS-WIDE 数据集在=

36、0.5达到峰值;在T2I任务中,MIRFlickr数据集=0.5达到峰值。可以得出,在矩阵分解方法中,图像和文本两个模态的数据对子空间的生成有着近似等同的影响,两个模态的平衡有利于找到更优的子空间。参数 的实验取值范围为10-3,10-2,10-1,103,实验结果如图 1(c)、(d)所示。对于数据集 MIRFlickr 和 NUS-WIDE,当 的取值越大,mAP值趋于直线上升;对于数据集NUS-WIDE,当 取 值 增 大 时,敏 感 性 曲 线 较 数 据 集MIRFlickr 更陡。结果表明,数据集越大对子空间与哈希投影近似程度越敏感;且哈希投影越接近所学习到的子空间,能够保留的相关

37、性信息便越多,模型的效果越好。表1I2T和T2I任务在实验数据集MIRFlickr和NUS-WIDE上的mAP对比单位:%Tab.1mAP results comparison for I2T and T2I tasks on experimental datasets MIRFlickr and NUS-WIDEunit:%方法CMFHSCMSMFHDCHGSePHJIMFHSRLCHDMFHI2T任务MIRFlickr32 b55.8463.4559.9766.8066.1765.4763.1072.3864 b56.3063.8559.5667.4566.9466.0766.5573.1

38、6128 b56.0664.9059.8668.5867.3466.9466.5672.79NUS-WIDE32 b50.7954.2236.1357.2958.6357.5942.0063.5064 b48.9754.8836.2857.3959.3058.2944.4064.22128 b50.9354.8336.3558.6859.7258.4043.7564.36T2I任务MIRFlickr32 b55.3362.3459.0974.6071.1373.3360.8380.0064 b55.7062.8559.1575.9372.4774.8262.8180.18128 b55.656

39、3.6959.5478.4373.1076.4463.4679.17NUS-WIDE32 b52.0250.6735.2468.7065.4667.7751.3475.8264 b50.1851.4135.2969.1367.4270.6351.1675.15128 b53.6751.6135.3970.7370.0371.4752.9775.431352第 5 期谭钰等:基于判别性矩阵分解的多标签跨模态哈希检索3.4.2收敛性分析图2展示了本文方法在最大的数据集NUS-WIDE上的收敛曲线。可以观察到,随着训练时间的增加,本文方法能从初始值收敛到趋于不变,并且可以在 20次迭代时间内快速收敛

40、,验证了本模型的有效收敛性。为此,在进行两个多标签数据集的训练中,均设置训练的迭代次数为20。3.4.3平衡矩阵分析对比方法 DCH 在实验中引入了线性分类器,以使目标哈希码更具辨别性,但该方法的检索性能受到训练后分类器的影响和限制。相比之下,本文方法使用平衡矩阵代替需要训练的分类器,保留哈希向量的平衡条件以最大化哈希码的信息熵。总的来说,与方法DCH相比,本文方法可以保证哈希码的可区分性,同时避免了分类器性能差带来的影响。为进一步验证本文提出的平衡矩阵对实验结果的影响,将式(4)代替式(5),按位更新哈希码以优化求解,并重新进行模型训练。去除平衡矩阵项的前后实验结果由表2给出,可以看到,去掉

41、平衡矩阵后,在MIRFlickr和NUS-WIDE数据集上的检索精度都有较大幅度的下降。这说明平衡矩阵能够在一定程度上保持数据的原始语义关系,在本文提出的模型中能有效提高跨模态哈希检索的效率。3.4.4相似性矩阵分析传统方法利用标签一致性来判断语义相似性,即若两个实例共享至少 1个标签,则它们是相似的。因此,在传统的相似度矩阵中,相似的两个实例的相似度关系将被指定为1,否则为0。为了进一步讨论本文提出的相似性程度矩阵的有效性,表 3展示了传统相似性矩阵S与本文提出的精确相似程度矩阵S在本文方法中的性能比较。对比结果表明,精确数值相较于用0或1来描述相似程度关系更有助检索性能提升。4 结语 为了

42、进行多标签跨模态检索,本文提出了一种新颖的判别性矩阵分解哈希方法。该方法通过协同矩阵分解获得异构数据可共享的隐式子空间,并保持异构数据之间的语义相关性。此外,通过量化隐式子空间中的数据统一表示,直接生成目标二进制码,不仅保持了所学习哈希码的精确相似程度关系,还保持了哈希向量的平衡性。在两个多标签基准数据集上进行了两种任务的对比实验,结果表明本文提出的方法在多标签跨模式检索中是有效的。参考文献(References)1 GONG Y C,LAZEBNIK S,GORDO A,et al.Iterative quantization:a procrustean approach to learni

43、ng binary codes for large-scale image retrievalJ.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(12):2916-2929.2 RASIWASIA N,COSTA PEREIRA J,COVIELLO E,et al.A new approach to cross-modal multimedia retrievalC/Proceedings of the 18th ACM International Conference on Multimedia.

44、New York:ACM,2010:251-260.3 冯霞,胡志毅,刘才华.跨模态检索研究进展综述 J.计算机科学,2021,48(8):13-23.(FENG X,HU Z Y,LIU C H.Survey of research progress on cross-modal retrievalJ.Computer Science,2021,48(8):13-23.)4 WANG Y X,CHEN Z D,LUO X,et al.Fast cross-modal hashing with global and local similarity embeddingJ.IEEE Transa

45、ctions on Cybernetics,2022,52(10):10064-10077.5 梁美玉,王笑笑,杜军平.基于多模态图和对抗哈希注意力网络的跨媒体细粒度表示学习 J.模式识别与人工智能,2022,35(3):195-206.(LIANG M Y,WANG X X,DU J P.Cross-media fine-grained representation learning based on multi-modal graph and adversarial hash attention networkJ.Pattern Recognition and Artificial Int

46、elligence,2022,35(3):195-206.)6 IRIE G,ARAI H,TANIGUCHI Y.Alternating co-quantization for cross-modal hashing C/Proceedings of the 2015 IEEE 图1实验综合分析曲线Fig.1Comprehensive analysis curves of experiments表3传统相似性矩阵S与本文相似性矩阵S的mAP比较单位:%Tab.3Comparison of mAP between traditional similarity matrix S andpropo

47、sed similarity matrix Sunit:%任务I2TT2I矩阵SSSSMIRFlickr32 b72.3871.5680.0078.5664 b73.1671.7180.1878.37128 b72.7972.2779.1778.84NUS-WIDE32 b63.5062.1075.8273.3464 b64.2263.1875.1574.30128 b64.3663.1775.4374.17表2平衡矩阵项C对模型mAP的影响 单位:%Tab.2Influence of balanced matrix term C on mAPunit:%任务I2TT2ICMIRFlickr3

48、2 b72.3863.6880.0064.9264 b73.1662.9780.1864.59128 b72.7962.9179.1764.54NUS-WIDE32 b63.5051.5075.8253.5064 b64.2252.3075.1554.39128 b64.3652.6375.4355.00图2本文方法在NUS-WIDE数据集上的收敛曲线Fig.2Convergence curve of DMFH on dataset NUS-WIDE1353第 43 卷计算机应用International Conference on Computer Vision.Piscataway:IEE

49、E,2015:1886-1894.7 ZHANG D Q,LI W J.Large-scale supervised multimodal hashing with semantic correlation maximization C/Proceedings of the 28th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2014:2177-2183.8 刘芳名,张鸿.基于多级语义的判别式跨模态哈希检索算法J.计算机应用,2021,41(8):2187-2192.(LIU F M,ZHANG H.C

50、ross-modal retrieval algorithm based on multi-level semantic discriminative guided hashing J.Journal of Computer Applications,2021,41(8):2187-2192.)9 YU J,WU X J,KITTLER J.Discriminative supervised hashing for cross-modal similarity searchJ.Image and Vision Computing,2019,89:50-56.10 LIU X,HU Z K,LI

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 品牌综合 > 临存文档

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服