用于图文检索的跨模态信息交互推理网络.pdf

资源描述

1、2023，59（16）图像-文本检索1是指根据给定的图像或文本，检索到与之相匹配的文本或图像。在不同模态信息的理解和匹配的应用场景中发挥着重要的作用，例如医学、军事、教育等领域2。传统的跨模态检索的实值表示技术通常需要学习一个能够度量图像和文本之间距离的公共子空间，使得成对的特征之间的距离最小化，而不匹配的特征之间的距离最大化2-3。文献4对学习到的图像和文本特征进行标签预测、结构保持和模态分类，不仅保证最小化来自不同模态的所有语义相似项表示之间的距离，并且能够区分来自不同模态的特征。为了弥补跨模态异质性鸿沟，将视觉语义嵌入改进为更紧凑的表示5，从而更有效地计算跨模态相似度。但是由于不用于图文

2、检索的跨模态信息交互推理网络魏钰琦，李宁东北大学理学院，沈阳 110819摘要：针对跨模态检索任务中图像与文本模态的语义特征复杂度不一致问题，提出了一种局部细粒度对齐与全局特征推理相结合的图文匹配方法。首先将图像和文本特征输入自适应交叉注意网络，该网络在交叉注意机制内设置门控单元，利用文本（图像）模态中的相关语义特征，自适应地引导图像（文本）模态的交叉注意。突出关键的局部对齐特征的同时及时高效地过滤掉冗余的交互信息，从而实现更精准的细粒度对齐。然后利用自适应交叉注意网络输出的包含文本（图像）引导信息的特征，在全局推理网络中逐步合成图像（文本）全局对齐特征。不仅利用这些特征之间的长短期记忆关系

3、灵活地将细粒度对齐特征融合为全局特征，并且在迭代更新当前全局特征时，能够根据跨模态交互信息加深对整体潜在语义信息的理解。最后采用交叉熵损失函数训练整个模型。提出的模型在公开数据集MS COCO和Flickr 30k上进行一系列实验，利用RecallK指标对比实验结果，证明该模型优于目前的先进模型。关键词：跨模态图文检索；交叉注意力；关系推理；多模态交互文献标志码：A中图分类号：TP391doi：10.3778/j.issn.1002-8331.2205-0056Cross-Modal Information Interaction Reasoning Network for Image and

4、 Text RetrievalWEI Yuqi,LI NingCollege of Science,Northeastern University,Shenyang 110819,ChinaAbstract：An image-text matching strategy combining local fine-grained alignment and global feature inference is pre-sented to tackle the inconsistency of semantic feature complexity between image and text

5、modalities in cross-modalretrieval tasks.Firstly,the image and text features are input into an adaptive cross-attention network,which sets up gatingunits in the cross-attention mechanism and uses the relevant semantic features in the text（image）modalities to adaptivelyguide the cross-attention of th

6、e image（text）modalities.While highlighting key local alignment features,redundant inter-active information is filtered out in a timely and efficient manner,thereby achieving more accurate fine-grained align-ment.Then,the image（text）global alignment features are gradually synthesized in the global in

7、ference network by usingthe features output of the adaptive cross-attention network that contains text（image）guidance information.It not only uti-lizes the long-term and short-term memory relationship between these features to flexibly fuse fine-grained aligned fea-tures into global features,but als

8、o can deepen the understanding of the overall latent semantic information based on cross-modal interaction information when iteratively updating the current global features.Finally,the entire model is trained byusing the cross-entropy loss function.The proposed model conducts a series of experiments

9、 on the public datasets MSCOCO and Flickr 30k,and uses the RecallK indicator to compare the experimental results,proving that the model issuperior to the current state-of-the-art models.Key words：cross-modal image retrieval;cross-attention;relational reasoning;multimodal interaction作者简介：魏钰琦（1997），女，

10、硕士研究生，研究方向为跨模态图文检索，E-mail：；李宁（1980），女，博士，教授，研究方向为运筹学和控制论、大数据分析和人工智能、生物统计学。收稿日期：2022-05-05修回日期：2022-07-12文章编号：1002-8331（2023）16-0115-10Computer Engineering and Applications计算机工程与应用115Computer Engineering and Applications计算机工程与应用2023，59（16）同模态之间存在巨大的异质差异，如何在公共子空间中准确度量特征之间的相似度成为目前研究的热点问题。近几年，深度学习在图像-文本

11、跨模态检索上取得了很大的进展。文献6提出用图像（文本）特征生成近似真实的文本（图像），在排序损失的基础上加入了分类损失和对抗损失。文献7针对车联网中涌现的大量不同模态数据，提出利用注意力机制和对抗网络弥补跨模态语义特征之间的异构差距。文献8设计了一种双向网络结构，实现两种模态之间相互转换，并选择中间层特征，使得相似度最高。然而这些方法没有充分利用上下文信息，在度量两种模态相似程度时较难关注到显著特征之间的对齐。随着注意力机制研究的发展，基于注意力的跨模态检索技术可以根据上下文选择显著特征，进而更有效地实现模态间信息交互9-10。文献11设计两个子网络分别用来提取图像特征和文本特征，利用多头自注

12、意力机制提取每种模态的显著特征，度量显著特征之间的距离，避免具有歧义的潜在语义信息之间的匹配。文献12设计了一种互补注意力机制，包含了关注特征和非关注特征。文献13利用Transformer的编码层（transformerencoder，TE）思想，将图像和文本通过堆叠的TE层独立地进行编码，同时在TE层中加入两个线性投影层，使得图像和文本特征投影至相同纬度的特征空间。虽然这些注意力机制能够有效地捕捉到不同模态中的关键语义信息，但是独立地嵌入不同模态的特征并不能在模态间进行有效的交互。文献14模仿人类交替关注图像区域和文本单词能够选择出最显著的信息，并通过融入来自另一种模态的交互信息实现细粒度

13、匹配。上述方法已经在跨模态检索领域取得了显著成就。然而这些方法通常在两种模态之间执行交叉注意，再对显著特征进行过滤和融合，容易过多地关注次优特征和冗余信息，产生不必要的计算代价。并且融合全局特征时缺乏跨模态深层语义信息之间的交互，对于不同模态之间整体语义概念的理解和对齐仍然存在不足。针对上述问题，提出了一种用于图文检索的跨模态信息交互推理方法。该方法首先在交叉注意机制中加入门控单元，以自适应地筛选有意义的细粒度对齐特征，高效地实现局部特征对齐。然后对这些显著对齐特征进行全局关系推理，相比于在模态内部对局部特征迭代更新，在全局推理时利用包含另一种模态引导信息的特征作为输入，能够弥补两种模态全局表

14、示之间语义鸿沟，加深对整体语义信息的理解，从而更准确地对齐全局特征。本文主要贡献：（1）提出了一种用于图文检索的交互信息推理网络，该网络在局部特征和全局特征层面都利用了来自另一模态的引导特征，并且进行自适应的过滤筛选，实现了更精准的跨模态语义信息的对齐和融合。（2）提出了能够融合不同模态信息的自适应交叉注意模块，在用文本（图像）引导图像（文本）的关注时灵活地选择联合语义中的关键信息，实现更高效的交叉注意，获得融合文本（图像）关键交互信息的图像（文本）增强特征。（3）提出了一种结合跨模态交互信息的全局推理模块。基于更新门控和记忆机制的思想，将融合文本（图像）关键交互信息的图像（文本）增强特征作为

15、全局推理的输入，迭代更新全局语义特征，使其凸显关键语义信息，在细粒度对齐的基础上实现更精准的全局对齐。（4）本文模型的有效性在两个公开数据集MS COCO15、Flickr 30k16上得到了验证。1相关工作1.1图像-文本匹配图文检索任务实质上是探索图像到文本或文本到图像的潜在语义和整体概念的匹配，通常分为基于全局语义的粗粒度匹配和基于局部语义的细粒度匹配17。前者学习度量两种模态相似度的嵌入空间。文献18提出一种具有多层线性投影的双分支神经网络用于嵌入图像和文本特征，并以大边距目标进行训练。这种学习图像和文本联合嵌入的方法在双分支嵌入的基础上保持了深层嵌入结构，并大大减少了计算量。后来研究

16、人员转向用新的损失函数优化模型，如文献19针对跨模态图文匹配提出了投影匹配损失和分类损失，最小化投影的KL散度的同时对特征进行分类。这种针对投影特征的匹配和分类能够学习到两种模态特征更紧凑的表示。后者学习两种模态局部特征的细粒度匹配，在全局匹配的基础上考虑了局部特征的对齐。考虑到视觉特征的复杂性，VSRN（visual semantic reasoning network）模型20提出了一种可以捕捉视觉关键对象和语义概念的推理方法，根据视觉区域关系推理对视觉对象进行语义理解，实现与文本模态的细粒度匹配。证明了深入探索图像中复杂的语义关系能够挖掘更丰富的潜在语义信息。同样的，考虑到从多个视角描述

17、图像并与文本对齐问题，文献21提出了采用一个自适应自我注意机制捕捉上下文信息，增强文本和图像的特征表示，然后根据不同角度聚合图像区域特征，与文本进行多视角匹配。相比于只考虑图像的局部特征，关注图像局部特征之间潜在语义关系能够更精准地将图像与文本进行细粒度对齐。进一步地考虑两种模态语义信息的不同复杂性，IMRAM（iterative matching with recurrent attentionmemory）模型17在图像和文本的局部特征之间执行交叉注意，并设置带门控的融合机制循环记忆和迭代匹配的方法将图像和文本在多个步骤中对齐，以此来捕捉两种模态间的对应关系。与利用图像区域级别特征对齐不同

18、的是，文献22提出了一种将公共语义空间多级实例化的方法。首先利用神经网络多级特征映射提取视1162023，59（16）觉和文本的多个级别特征，分别映射到多个语义空间并计算相似度，然后利用多级注意机制关注视觉区域，并取其最优结果和文本进行比较。与早期的独立嵌入特征相比，这些考虑不同模态的交互作用的方法17，21能够更好地适应图文匹配任务。现有方法尚未高效利用细粒度对齐特征和全局对齐特征之间的关系，在精确度量不同模态语义特征相似度方面仍存在不足。本文提出的方法不仅能够在局部层面自适应地融合跨模态信息，并且能够在全局层面利用融合后的跨模态交互信息加深对整体语义信息的理解。1.2交叉注意力机制在深度学

19、习领域，注意力机制23被证明可以利用上下文信息捕获关键特征，而对于跨模态的各种任务，如跨模态检索14，21、视觉问答24、字幕生成25等，交叉注意机制可以利用不同模态的上下文信息实现关注，从而有效地促进不同模态之间的交互。文献26在自注意力机制的基础上融合了另一种模态的信息，能够有效地捕捉不同模态之间的长期依赖关系，并且整合来自不同模态的被关注信息用于参考图像分割。文献14利用图像和文本特征的亲和矩阵获取来自不同模态的交叉关注特征，并与原始特征自适应融合，证明了交替关注不同模态的显著特征能够提升跨模态检索的准确率。为了交叉关注图像和文本的所有显著局部特征，文献27提出了一种堆叠交叉注意用于图文

20、匹配。首先交叉关注图像和文本模态，得到两种模态各自被另一种模态关注的显著区域，然后确定两种模态对应的局部特征之间的相对重要性。堆叠的交叉注意机制能够学习到可对齐的完全潜在语义信息。文献28在局部交叉注意的基础上，学习了一种相似度的向量化表示，并对其进行推理，进一步推断全局度量和局部度量之间的关系。文献29设计了一种新颖的交叉注意力变体，计算两种模态中每个局部特征之间的跨模态注意分数，得到一对可比较的简化向量。这些方法通常利用来自另一种模态中整体上下文信息对目标模态执行交叉注意，对于全面精确地选择潜在语义特征仍然存在不足。为了提高跨模态交叉注意对显著对齐特征的选择效率，本文提出的方法在交叉注意机

21、制的内部设计了一个自适应门控过滤机制，高效地剔除冗余特征，在局部层面更精准地对齐两种模态的语义特征。1.3全局关系推理对于一系列彼此之间存在依赖关系的局部特征表示，如何利用这些潜在的相关语义信息作为指导推理出全局特征，成为目前计算机视觉和自然语言处理领域研究的热点。文献20在图文匹配任务中，将视觉区域作为节点，区域之间的关系作为边缘进行图卷积推理，再对增强后的节点特征通过全局推理进行整合，得到具有关键信息的全局特征表示。考虑到局部匹配特征之间的关系，文献30在图像描述生成时，利用前一时刻的注意力和全局上下文信息指导生成描述图像语义信息的文本。文献17进一步考虑全局语义信息匹配的重要性，使用具有

22、循环记忆的迭代匹配网络进行跨模态检索，并加入记忆蒸馏单元来动态聚集当前步骤和之前步骤的所有匹配信息，使得全局特征包含了更多潜在语义信息，从而促进相关特征之间的对齐。与之前仅考虑局部细粒度对齐相比，结合全局特征推理能够优化图像和文本特征的匹配效果。目前对局部特征聚合的方法通常利用交叉注意选择的显著特征在模态内进行更新，缺乏跨模态信息之间的交互，从而对全局语义概念的理解仍存在不足。针对此问题，提出利用自适应交叉注意机制输出的跨模态交互信息，进行有记忆的全局关系推理。这不仅能够进一步融合对整体语义起重要作用的细粒度对齐特征，并且在对齐全局特征时进一步弥补两种模态之间特征表示的异质性差距，增强对全局语

23、义概念的理解，在全局层面实现更精准的对齐。2跨模态信息交互推理网络本章详细介绍了跨模态信息交互推理网络（cross-modal information interaction reasoning network，CMIIRN）的细节部分。图像和文本局部特征的细粒度对齐能够有效地弥补不同模态中语义特征之间的异质性鸿沟，并且利用模态内显著特征之间长期依赖关系能够进一步精炼全局语义特征，从而实现两种模态全局特征的对齐。因此提出利用两种模态之间的信息交互，实现图像和文本的细粒度对齐和全局语义概念匹配。图1展示了网络的整体结构，它由特定于图像模态和文本模态的特征提取通道和两个具有相同结构的子网络构成。这

24、两个子网络分别用于提取融合文本信息的视觉特征和融合视觉信息的文本特征，其体系结构包含两个模块：（1）自适应交叉注意模块；（2）关系推理模块。自适应交叉注意模块不仅利用模态间的上下文信息进行交互关注，还在交叉注意的同时加入了门控机制，在来自另一融合视觉信息的文本特征提取子网络融合文本信息的视觉特征提取子网络自适应交叉注意模块关系推理模块全局特征（图像）匹配得分图像特征文本特征DDDNR图1信息交互推理网络整体框架Fig.1Overall framework of information interactionreasoning network魏钰琦，等：用于图文检索的跨模态信息交互推理网络117

25、Computer Engineering and Applications计算机工程与应用2023，59（16）种模态的引导信息进行关注的同时减弱冗余信息和嘈杂信息的影响。在关系推理模块中，迭代地加入融合后的增强信息，逐步推理全局语义信息，用最后一个隐层的输出作为全局特征表示。最后将两种模态全局特征匹配任务看作一个二分类问题，采用二元交叉熵损失训练整个模型。2.1图像和文本特征的提取及符号表示对于图像特征的提取，使用以ResNet-101网络为主干的Faster R-CNN模型，其由Andersonet等人31在VisualGenomes数据集32上进行预训练，可以用来预测实例和属性以学习更为

26、丰富的语义特征。获得模型的最终输出，并使用IoU阈值执行每个目标区域的非极大抑制，将任意类别概率超过设定的置信度阈值的所有图像区域作为需要提取的图像区域特征，提取每个图像的前k个区域提案。通过平均池化层提取出每个区域方案的特征向量fiR2 048，输入至线性投影层，得到了D维的区域特征，公式如下：vi=ffi+i（1）其中，f和i为模型的可学习参数。对于文本特征的提取，利用含有D维隐层状态的单层双向编码的GRU网络来学习含有整个句子信息的词向量编码，具体地，前向传递和后向传递的隐层状态表示如下：hi=GRU(hi-1,i)hi=GRU(hi+1,i)（2）其中，iR300为初始词向量编码，hi

27、为前向传递的隐层状态，hi为后向传递的隐层状态，最终的词级特征表示如下：ti=hi+hi2,i1,N（3）为了方便计算，对文本进行裁剪或特殊字符填补，将文本最大单词数设置为50。分别用I=v1,v2,vkRRD,viRD和T=t1,t2,tNRND,tiRD来表示给定输入图像和文本时提取的R个图像区域特征和N个文本的词级特征。2.2自适应交叉注意模块该模块使用多头交叉注意机制获得由文本（图像）信息引导的视觉（文本）注意，然后与初始特征进行融合获得增强视觉（文本）特征，实现跨模态信息交互。因为两种模态之间可能存在不匹配的特征或者冗余的特征，这些特征在交互时会过多地关注无意义信息，所以在计算模态间

28、的交叉注意权重时加入了门控机制，自适应地过滤掉冗余信息和嘈杂信息。为了方便叙述，下面将介绍“融合文本信息的视觉特征提取”子网络中的自适应交叉注意模块，整体框架如图2所示。“融合视觉信息的文本特征提取”子网络的工作方式与之类似。2.2.1多头交叉注意机制为了捕获特征间各种范围内的依赖关系，引入多头自注意力的思想，提出包含H个头的并行交叉注意，使用QiRRd,KiRNd,ViRNd分别表示交叉注意力机制中第i个头的查询（query）、键（key）和值（value）。如图2所示，与单模态自注意力机制不同，该模块中的Qi来自于视觉输入，Ki和Vi来自于文本输入。对于给定的输入I和T：Qi=IWQiKi

29、=TWKiVi=TWVi,i1,H（4）其中，WQiRDd,WKiRDd和WViRDd是可学习的参数矩阵，用于将视觉特征和文本特征映射到查询、键和值。文中设定d=D/H。单个头的交叉注意力机制表述如下：hi=attention(Qi,Ki,Vi)=softmaxQiKTidVi,i1,H（5）其中，hiRRd表示第i个头的输出。2.2.2门控机制图3详细描述了本文提出的门控机制，其目的是根据文本的整体信息推测出与所有图像区域的相关程度。事实上，交叉注意力机制中查询和键之间的点积可以看作输入图像和文本特征相似度矩阵，可用来传递模DRRNIDDTTNNConcat门控机制交叉注意ddQiKidVi

30、MidRdhiHRRDDI*N图2自适应交叉注意模块（融合文本特征）Fig.2Adaptive cross-attention module（Fused with text features）1182023，59（16）态间的显著相关信息。为了更准确地学习模态之间的成对相关关系，将QiRRd和KiRNd映射到公共空间计算点积，并表示为视觉-文本亲和矩阵AiRRN：Ai=(QiWAQi)(KiWAKi)T（6）其中，WAQi、WAKi是可学习的参数，对于Ai中第n行第m列的元素ain,m表示图像中第n个区域与文本中第m个单词的相似度。对第i个头，首先需要计算所有单词对某一个特定视觉区域的关注度，

31、即用文本引导的对图像的关注，用KRRd表示：Ki=softmax(Ai)Ki（7）其中，softmax(Ai)表示对Ai按单词维度（列）归一化亲和矩阵，用来表示每个单词针对每个图像区域的关注度权重。然后将文本引导的视觉关注Ki与视觉特征Qi映射到联合空间中，用门控机制选择有意义的信息进行融合，并且减少在整体交叉注意时产生的不必要的计算量。相应的门GiRRd计算如下：Gi=(QiWGQi+bGQi)(KiWGKi+bGKi)（8）其中，WGQi,WGKiRdd是可学习的映射矩阵，bGQi,bGKiR1d为可学习的偏置矩阵，表示矩阵之间按元素相乘的运算。最后，将计算出的门Gi送入一个全连接层并经过

32、sigmoid 函数输出，得到关于Qi的门控掩码，表示为MiRRd：Mi=(GiWMQi+bMQi)（9）其中，()表示sigmoid激活函数，WMQi、bMQi分别为全连接层的两个可学习的参数。2.2.3模块输出如图2所示，利用门控机制的输出Mi，按照式（5）计算第i个头用门控机制过滤后的交叉注意结果h*iRRd：h*i=attention(MiQi,K,V)（10）将H个头的输出结果连接起来，再与原始特征z做残差连接得到增强后的视觉特征：I*=Concat(h*1,h*2,h*H)+I（11）其中，I*=v*1,v*2,v*RRRD为最终输出。类似地，经过自适应交叉注意得到的增强后的文本特

33、征为T*=t*1,t*2,t*NRND。2.3关系推理模块在跨模态全局特征匹配时，为了解决图像（文本）全局表示缺乏与之对应的文本（图像）关键语义信息的问题，对自适应交叉注意得到的增强后的图像（文本）特征进行全局推理，利用这些特征中包含的来自另一种模态的引导信息，在全局推理网络中动态更新当前的全局特征，凸显关键对齐信息，以此来优化用于跨模态匹配的全局特征表示。自适应交叉注意模块利用模态间的上下文信息进行了细粒度对齐，关系推理模块再次利用这些细粒度对齐特征之间的关系进行推理，建立特征之间的长期依赖关系，有记忆地筛选需要加入的信息，获得精炼的全局特征。受视觉全局特征关系推理7的启发，分别在两个模态内

34、部对增强特征进行迭代关系推理，逐步加入交互信息整合为细化的全局特征。采用记忆单元和忘记单元逐步建立区域特征的全局依赖关系，其中全局特征将会在每个隐层状态中更新，最后一个隐层状态的输出作为最终的全局特征。如图4所示，整个推理网络由更新门、忘记门和当前状态构成。下面以基于视觉特征的全局语义推理为例进行说明。对第i(i1,R）步推理，更新门和忘记门分析当前输入的区域/文本增强特征和上一个隐层状态的输出，决定要记住和忘记的内容：ci=c(Wcv*i+Ucmi-1+bc)（12）ri=r(Wrv*i+Urmi-1+br)（13）其中，v*iRD,Wc、Uc和Wr、Ur分别为更新门和忘记门的可学习的权重矩

35、阵，bc、br分别为更新门和忘记门可学习的偏置矩阵。c()和r()表示sigmoid激活函数。新加入的全局特征更新内容m i计算如下：m i=m(Wmv*i+Um(rimi-1)+bm)（14）其中，Wm、Um为可学习的权重矩阵，bm为可学习的偏置矩阵。m()表示 tanh激活函数。表示矩阵间按元素相乘的运算。当前隐层状态的更新基于上一个隐层状态和新加入的内容：dRQidNKiRNdddRAiMiGiKiRSoftmaxR图3自适应交叉注意模块中的门控机制Fig.3Gating mechanism in adaptive cross-attention modulev*imi-1mim iri

36、ci图4关系推理模块Fig.4Relational reasoning module魏钰琦，等：用于图文检索的跨模态信息交互推理网络119Computer Engineering and Applications计算机工程与应用2023，59（16）mi=(1-ci)mi-1+cim i（15）由于每一个隐层状态都包含了之前状态的信息和当前输入的信息，因此作为全局特征的表示，最后一个隐层状态的输出mR就是全局特征，用I*RD表示。相对应的，经过推理获得的文本全局特征为T*RD。2.4损失函数首先将最终图像和句子之间的相似度得分用两层MLP（multilayer perceptron）和一个si

37、gmoid激活函数来表示：m(I,C)=(MLP(I*+T*)（16）其中，I和C分别表示图像实例和文本实例。因为该文并不是独立地嵌入来自不同模态的特征，并且最终得到了两个模态各自融合后的全局特征表示，所以不适合用以往的三元组损失进行训练。在此将最终的任务视作一个是否匹配的二分类问题，使用硬负交叉熵损失对整个模型进行训练：Limage-text=ln(m(I,C)+maxC ln(1-m(I,C)（17）Ltext-image=ln(m(I,C)+maxIln(1-m(I,C)（18）其中，C 和I分别表示文本和图像的负实例。总体损失函数L为：L=Limage-text+Ltext-image

38、（19）3实验3.1数据集MS COCO15：包含123 287幅图像，每一幅图像都带有5个文本注释。采用类似文献20，33的分割方法，得到的训练集、测试集和验证集分别含有113 287张图像、5 000张图像和5 000张图像。并且采用了两种评估方法：五折1k测试图像，即取5次1k测试集的平均结果和完整的测试集。Flickr 30k16：包含31 783张图像，每幅图像都带有5条人工标注的文本。按照文献20，33中的设置，使用含有28 000张图像的训练集，含有1 000张图像的验证集和含有1 000张图像的测试集。3.2评价指标采用RecallK(RK)评价指标，即排名前K个查询结果的正确

39、个数与所有正确结果数的比率（召回率），其中K取1，5，10。3.3实验细节本文模型使用 Adam 优化器34，实验配置为 LinuxUbuntu 16.04 系统，NVIDIA 并行处理，batch-size 设置为128，epoch设置为30，初始学习率为0.000 2，并在最后10个epoch上衰减0.1%。在第2.1节介绍的图像编码中，用线性投影层将提取出的K=36个图像区域特征映射为D=1 024维的特征向量；在文本编码中，首先将输入文本中的每个单词编码为 300维的词向量，记为i,i1,2,N，其中N为文本中的单词数量，将通过GRU网络后每个单词的输出维度D设置为1 024。在自适应

40、交叉注意模块中，将头的个数设置为H=16。3.4定量结果下面是本文模型（CMIIRN）与当前最先进的方法进行量化对比的结果，这里直接引用了这些方法的原始论文结果，直观地证明本文模型的有效性。选取的方法主要包括基于注意力机制的方法（例如SGRAF28、CAMERA21等）和基于关系推理的方法（例如VSRN20、IMRAM17等）。表1展示了提出的模型（CMIIRN）在MS COCO 5k和1k测试数据集上和现有先进方法的对比结果。从整体来看，CMIIRN 模型在 MS COCO 1k数据集上在文本检索方面与目前的先进模型效果相当，但在图像检索方面取得了更优异的效果。对于SGRAF模型28，其提出

41、了相似图推理机制，考虑了文本特征中包含的空间信息，显著提高了文本检索效果，尤其是R1达到了79.6%。但是CMIIRN模型重点考虑在两种模态之间获取共同关注的显著对齐信息，相比于SGRAF模型，图像检索的R1结果提升了1个百分点。IMRAM17模型同样具有交叉注意网络和有记忆的信息融合网络，但是由于CMIIRN模型在交叉注意网络中设置了门控机制，在模方法VSE+5SMAN35SAN36VSRN20SGM19IMRAM17CAAN37SGRAF28CAMERA21CMIIRN方法VSE+5M3ANet38AAMEL39VSRN20SGM19IMRAM17CAAN37SGRAF28CAMERA21

42、CMIIRNMS COCO 1k文本检索R164.668.474.974.073.476.775.579.677.578.3MS COCO 5k文本检索R141.348.951.950.350.053.752.557.855.158.4R590.091.394.994.393.895.695.496.296.396.2R571.175.284.279.679.383.283.382.984.3R1095.796.698.297.897.898.598.598.598.898.8R1081.284.491.287.987.991.090.991.691.292.0图像检索R152.058.860

43、.860.857.561.761.363.263.464.2图像检索R130.338.339.937.935.339.741.241.940.542.8R584.387.490.388.487.389.189.790.790.990.7R559.465.771.368.564.969.170.371.772.1R1092.093.595.794.194.395.095.296.195.896.1R1072.476.981.779.476.579.882.981.382.582.7表1在MS COCO数据集上的对比结果Table 1Comparison results on MS COCO da

44、taset单位：%1202023，59（16）态间进行信息交互时能够有效地过滤冗余特征，保证了在全局推理时重点关注显著对齐特征之间的潜在语义关系。并且IMRAM方法在提炼用于对齐的交互信息时，重点关注了局部特征在每一次循环中长期依赖关系。而CMIIRN模型采用了具有长短期记忆的全局推理网络，能够利用每一步加入的局部特征更新全局特征表示。充分利用了所有局部特征之间的依赖关系，进而在局部对齐的基础上有效地指导全局特征匹配。因此，CMIIRN 模型在相同的基线中具有明显优势，在 MSCOCO 5k的测试结果中，与IMRAM相比，文本检索和图像检索的R1结果分别提升了4.7个百分点和3.1个百分点。另

45、外，目前图文匹配中先进的具有细粒度对齐的 CAMERA21模型，尝试从多个不同视角理解图像特征，其利用金字塔膨胀卷积探索图像区域特征之间的相关性，显著提升了文本检索中R1的结果。但本文提出的CMIIRN模型在理解图像潜在语义概念时加入了文本信息作为指导，并且同样的用图像信息指导对文本语义的理解。在MS COCO 5k数据集中的测试结果表明，本文模型效果相比于CAMERA模型，文本检索和图像检索的R1结果分别提升了3.3个百分点和2.3个百分点。表2展示了CMIIRN模型和现有先进方法在Flickr30k数据集上面的实验结果对比，该模型超过了目前的基线模型，达到了最好的性能。与典型的具有全局推理

46、机制的图像文本匹配的VSRN模型20相比，CMIIRN模型强调了对图像和文本模态中交互信息之间的关系推理，并且通过在交叉注意机制中对冗余信息的自适应过滤，进一步细化全局特征表示，使其突出显著的细粒度对齐信息。结果表明，CMIIRN模型在文本检索和图像检索的R1结果中分别提升了9.2个百分点和9.8个百分点。SGRAF模型28同样计算全局和局部特征之间的对应关系，并且对相似性进行图推理和注意过滤。与之相比，提出的 CMIIRN 模型在文本检索和图像检索的R1结果中分别提升了1.8个百分点和4.3个百分点。这是由于CMIIRN模型在进行跨模态交叉注意的同时自适应地筛选显著特征和冗余特征，使获得的交

47、互信息更具实际意义。并且在关系推理时，不仅利用了细粒度对齐特征与其相邻节点之间的关系，还考虑了全局特征的依赖关系，从而能够关注到更丰富的潜在语义信息，更有效地利用局部特征和全局特征相互指导，实现图像文本的准确匹配。以上实验结果表明，本文提出的方法充分并且高效地利用跨模态交互信息以及这些信息之间的关系，更精准地对齐显著细粒度特征与全局特征，进一步拉近查询样本与正确结果之间的距离，在R1上效果提升较为明显。同时，在全局推理中挖掘了更多可对齐的潜在语义信息，在R5和R10结果中达到了较好的效果，并且在大数据集中表现出更强的鲁棒性。3.5定性结果图5和图6可视化地展示了CMIIRN模型在Flickr3

48、0k数据集中用图像检索文本和用文本检索图像的结果。对于图5图像检索，用指定的文本查询与之相关的图片，从左至右依次地展示了排名前5的查询结果，其中排名第一的图片表示查询到的正确结果。对于图6文本检索，用指定的图像查询与之相关的文本，右边从The dog is running along a path that has been made through the uncut grass.One girl rides a horse while a woman appears to lead them across a park while two other horses walk in the

49、near background,with a street and parked cars in the far background.图像检索实例1实例2图5图像检索结果可视化（从左到右为检索结果排名，第一张图为正确的结果）Fig.5Visualization of image retrieval results方法JGCAR40SAN36VSE+5VSRN20SGM19IMRAM17CAAN37SGRAF28CAMERA21CMIIRN文本检索R144.967.052.970.471.874.170.177.878.079.6R575.388.080.589.291.793.091.694

50、.195.195.4R1082.794.687.293.795.596.697.297.497.998.2图像检索R135.251.439.653.053.553.952.858.560.362.8R562.077.270.177.979.679.479.083.085.987.1R1072.485.279.585.786.587.287.988.891.792.0表2在Flickr 30k数据集上的对比结果Table 2Comparison results on Flickr 30k dataset单位：%魏钰琦，等：用于图文检索的跨模态信息交互推理网络121Computer Enginee

展开阅读全文