收藏 分销(赏)

基于图注意力网络的全局图像描述生成方法_隋佳宏.pdf

上传人:自信****多点 文档编号:274736 上传时间:2023-06-26 格式:PDF 页数:7 大小:1.81MB
下载 相关 举报
基于图注意力网络的全局图像描述生成方法_隋佳宏.pdf_第1页
第1页 / 共7页
基于图注意力网络的全局图像描述生成方法_隋佳宏.pdf_第2页
第2页 / 共7页
基于图注意力网络的全局图像描述生成方法_隋佳宏.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1409-1415ISSN 1001-9081CODEN JYIIDUhttp:/基于图注意力网络的全局图像描述生成方法隋佳宏1,毛莺池1,2*,于慧敏1,王子成3,平萍1,2(1.河海大学 计算机与信息学院,南京 210098;2.水利部水利大数据重点实验室(河海大学),南京 210098;3.中国电建集团昆明勘测设计研究院有限公司,昆明 650051)(通信作者电子邮箱)摘要:现有图像描述生成方法仅考虑网格的空间位置特征,网格特征交互不足,并且未充分利用图像的全局特征。为生

2、成更高质量的图像描述,提出一种基于图注意力网络(GAT)的全局图像描述生成方法。首先,利用多层卷积神经网络(CNN)进行视觉编码,提取给定图像的网格特征和整幅图像特征,并构建网格特征交互图;然后,通过GAT将特征提取问题转化成节点分类问题,包括一个全局节点和多个局部节点,更新优化后可以充分利用全局和局部特征;最后,基于Transformer的解码模块利用改进的视觉特征生成图像描述。在Microsoft COCO数据集上的实验结果表明,所提方法能有效捕捉图像的全局和局部特征,在CIDEr(Consensus-based Image Description Evaluation)指标上达到了133

3、.1%。可见基于GAT的全局图像描述生成方法能有效提高文字描述图像的准确度,从而可以使用文字对图像进行分类、检索、分析等处理。关键词:网格特征;图注意力网络;卷积神经网络;图像描述生成;全局特征中图分类号:TP183;TP391.1 文献标志码:AGlobal image captioning method based on graph attention networkSUI Jiahong1,MAO Yingchi1,2*,YU Huimin1,WANG Zicheng3,PING Ping1,2(1.College of Computer and Information,Hohai Un

4、iversity,Nanjing Jiangsu 210098,China;2.Key Laboratory of Water Big Data Technology of Ministry of Water Resources(Hohai University),Nanjing Jiangsu 210098,China;3.Power China Kunming Engineering Corporation Limited,Kunming Yunnan 650051,China)Abstract:The existing image captioning methods only focu

5、s on the grid spatial location features without enough grid feature interaction and full use of image global features.To generate higher-quality image captions,a global image captioning method based on Graph ATtention network(GAT)was proposed.Firstly,a multi-layer Convolutional Neural Network(CNN)wa

6、s utilized for visual encoding,extracting the grid features and entire image features of the given image and building a grid feature interaction graph.Then,by using GAT,the feature extraction problem was transformed into a node classification problem,including a global node and many local nodes,and

7、the global and local features were able to be fully utilized after updating the optimization.Finally,through the Transformer-based decoding module,the improved visual features were adopted to realize image captioning.Experimental results on the Microsoft COCO dataset demonstrated that the proposed m

8、ethod effectively captured the global and local features of the image,achieving 133.1%in CIDEr(Consensus-based Image Description Evaluation)metric.It can be seen that the proposed image captioning method is effective in improving the accuracy of image captioning,thus allowing processing tasks such a

9、s classification,retrieval,and analysis of images by words.Key words:grid feature;Graph ATttention network(GAT);Convolutional Neural Network(CNN);image captioning;global feature0 引言 图像描述生成是一项涉及计算机视觉和自然语言处理的跨领域研究任务,目标是为输入图像自动生成自然语言描述,主要包括视觉理解和描述生成两部分。在深度学习广泛应用之后,图像描述生成的视觉特征表示经历了两个主要阶段:在第一阶段,提出了一系列卷积神

10、经网络(Convolutional Neural Network,CNN)1-4,从中提取固定大小的网格特征表示视觉信息,如图1(a)所示,这些网格特征在图像分类等视觉任务和图像描述生成等多模态任务中取得了优异的性能;在第二阶段,基于 Faster R-CNN(Faster Region-Convolutional Neural Network)5提取的区域级特征显著提高了图像描述生文章编号:1001-9081(2023)05-1409-07DOI:10.11772/j.issn.1001-9081.2022040513收稿日期:2022-04-05;修回日期:2022-07-11;录用日期:

11、2022-07-14。基金项目:国家自然科学基金资助项目(61902110);江苏省重点研发计划项目(BE2020729);华能集团总部科技项目(HNKJ19-H12,HNKJ20-H46)。作者简介:隋佳宏(1998),女,山东烟台人,硕士研究生,CCF会员,主要研究方向:计算机视觉;毛莺池(1976),女,上海人,教授,博士,CCF高级会员,主要研究方向:边缘智能计算;于慧敏(1998),女,山西大同人,硕士研究生,CCF会员,主要研究方向:计算机视觉;王子成(1990),男,湖北荆州人,工程师,硕士,主要研究方向:数字图像处理、三维建模;平萍(1982),女,江苏吴江人,副教授,博士,C

12、CF会员,主要研究方向:数字图像处理。第 43 卷计算机应用成的性能,如图1(b)所示,此后区域特征被广泛研究6-10,并成为大多数视觉-语言任务的标准方法。然而,区域提取非常耗时,目前大多数使用区域特征的方法都直接在缓存的视觉特征上进行训练和评估。此外,区域特征的固有缺点是忽视图像中非目标的区域(如背景信息)以及大目标的小细节。然而,与目标检测器提取的区域特征相比,单个网格不能完全表示一个对象,它的语义层级较低,一旦忽略了图像的全局信息,就丢失了潜在的场景级语义上下文。例如,图 2(a)的正确分类应是图 2(b),而在仅存局部信息的情况下,图2(c)中将大部分图像误分类为鸟;在特征中添加整个

13、图像的上下文信息(可能包含猫的强信号)后结果如图2(d)所示,可以捕捉全局背景,纠正错误,有效提高任务准确度。现有的研究焦点是通过注意力机制(Attention)建模视觉和语言特征之间的相互作用,以获得更加丰富可靠的图像描述。虽然将 Attention 引入基于长短期记忆(Long Short-Term Memory,LSTM)网络的解码器可以使 LSTM 在描述生成过程中关注最相关的图像特征,但是没有充分利用图像特征 之 间 的 交 互 关 系。图 注 意 力 网 络(Graph ATtention network,GAT)常用于处理图结构数据,可以根据相邻节点的特征为图中的每个节点分配不同

14、的权值,更新节点的表示,但仅处理局部网络。本文利用网格特征作为图像描述生成方法的主要视觉表示,针对网格特征丢失空间和语义上下文信息,提出一种基于图注意力网络的全局图像描述生成方法,在提取图像特征时添加了全局上下文,将视觉特征提取转化为节点分类任务,以提高描述准确度。首先,为了充分利用网格之间的特征关系,构建网格特征交互图;其次,为了利用图像的全局特征,构建图注意力网络结合全局信息和局部信息;最后,将优化后的视觉特征输入语言模型,用于图像描述生成。本文的主要工作包括:1)构建网格特征交互图。在特征提取过程中对网格视觉特征进行融合编码,将特征提取任务作为图节点分类任务实现,能在不增加计算开销的同时

15、提高性能。2)利用图注意力网络更新网格特征交互图的节点信息,使模型可以捕捉整幅图像的全局视觉信息,并捕获网格特征的潜在交互,加深模型对图像内容的理解,从而生成优化的描述语句。3)为 探 究 本 文 方 法 的 优 势 以 及 各 模 块 的 贡 献,在Microsoft COCO 图像描述数据集上进行了实验与评估,通过详细的结果分析说明了本文方法的有效性。1 相关工作 在视觉表示方面,基于区域的视觉特征6已成为图像描述生成、视觉问答等视觉-语言任务的主要方法。最近,Jiang等11重新考察了视觉特征,发现区域特征效果更好的原因是使用了 Visual Genome 数据集12,大规模的对象和属性

16、标注给图片提供了更好的先验知识,并证明了通过改造区域特征检测器5提取出来的网格特征,在后续任务中的推理速度和图像描述生成的准确度堪比甚至超过区域特征,而且避免了区域特征的固有缺点。为了更好地使用网格特征作为图像描述生成方法的主要视觉表示,Zhang等13提出了网格增强(Grid-Augmented,GA)模块,该模块将相对位置之间的空间几何关系合并到网格中,解决将网格特征展平输入Transformer模型时造成的空间信息丢失问题,以便更全面地使用网格特征。然而空间关系特征对图像或目标的旋转、反转、尺度变化等比较敏感,实际应用中,仅仅利用空间信息往往不够,不能准确有效地表达场景信息,还需要其他特

17、征配合。Luo等14进一步提出同时使用图像子区域和网格11两种视觉特征生成描述文本,旨在利用两种特征之间的互补性,并提出了局部约束注意力机制解决两种特征源之间的语义噪声问题;然而,两种特征互补的效果不如只使用区域特征的方法,也减弱了网格特征耗时短的优势。为了进一步增强图像特征表示,一些研究通过在图像区域上构建图,将丰富的语义信息和空间信息连接到区域特征。Yao等15首次尝试构建空间和语义图,随后Guo等16提出利用图卷积网络(Graph Convolutional Network,GCN)17整合对象之间的语义和空间关系,语义关系图通过在 Visual Genome上预训练分类器来预测对象对之

18、间的动作或交互,空间关系图通过对象对的边界框之间的几何度量来推断(如交并比、相对距离和角度),然而这些方法针对区域特征,并不适用于附加全局信息的网格特征。Yao等18使用树来表示图像的层次结构,根节点表示图像整体,中间节点表示图像区域及其包含的子区域,叶节点表示区域中被分割的对象,然后将树送入TreeLSTM19中得到图像特征编码,但该方法没有考虑到子区域之间的交互关系。以上方法均无法充分利用网格特征的细节信息,同时忽略网格之间的交互以及全局特征会导致生成的描述受到错误的影响。对于交互特征的获取,现有方法直接将网格特征序列输入Transformer的编码器,利用带残差连接的多头自注意力机制(m

19、ulti-head attention mechanism)自动进行特征交互,通过自注意力的方式计算每个特征与其他特征的相似度,加权求和得到高阶的图1网格特征与区域特征Fig.1Grid features and region features图2图像分类结果比较Fig.2Comparison of image classification results1410第 5 期隋佳宏等:基于图注意力网络的全局图像描述生成方法交互特征。本文采用构建网格特征交互图的方式,将特征作为图的节点,使用注意力网络聚合邻居节点的信息,以此将特征之间的复杂交互转化为特征图的节点之间的交互。对于一幅网格数为NN的图

20、像,Transformer编码器的交互次数为N N,网格特征交互图的交互次数为4 N,在实际操作中N=7,基于图的特征交互并没有增加计算开销,但是在性能方面有了显著提高。综合以上分析讨论,网格特征作为图像描述生成的视觉表示具有一定的优势,引入全局特征指导优化更新网格特征可提高视觉表示的准确性。但传统的注意力机制不能满足网格特征复杂的交互关系,同时在整合全局图像信息方面也存在一些问题,因此,本文提出基于图注意力网络的全局图像描述生成方法借助全局图像特征增强视觉表示能力,利用图注意力网络将相邻的网格特征和全局特征相结合进行信息提取,以有效地捕获全局上下文信息和局部信息,然后解码相应描述。2 本文方

21、法的总体框架 图像描述生成的目标是能够识别并给出描述图像内容的自然语言语句。目前,提取图像的网格特征存在未充分利用空间关系特征和全局特征的情况,致使利用提取的图像特征生成的句子和人类描述存在明显差距,因此,增强网格特征的空间信息和语义信息对提高生成描述的质量具有重要的研究意义。本文提出了一种基于图注意力网络的全局上下文感知图像描述生成方法,由特征提取和特征交互两部分组成,用于增强网格特征。特征提取通过图中的全局节点机制充分利用全局上下文关系,整合图像中各个网格的局部视觉特征,以此优化生成的单词表示;特征交互依据网格特征交互图和图注意力网络,进一步建模图中邻域的空间上下文信息及其关系,更新节点特

22、征,提高节点分类的准确性。图3展示了本文方法的总体框架。在视觉编码阶段,首先,特征提取模块利用多层 CNN 分别提取给定图像的全局特征和网格特征;之后,构建网格特征交互图,将全局和局部视觉特征作为节点输入,图中的边表示视觉特征之间的交互,所有局部节点均与全局节点相连接;最后,利用图注意力网络更新优化网格特征交互图中的节点信息,得到新的全局图像特征和网格特征。描述生成阶段,基于Transformer的解码模块利用更新后的视觉特征序列生成图像描述。本文方法侧重于增强网格特征来优化视觉表示,进而提高生成描述的质量。3 图像描述生成框架描述 3.1视觉网格特征编码相对于整张图像来说,图像的网格特征包含

23、更细粒度的各类目标,对细粒度目标相关的图像内容进行编码无疑会优化图像编码,得到更具体、更精准的图像特征表示。然而网格特征的局部感受野较小,卷积神经网络只能学习到目标的局部特征,缺乏空间和全局信息。基于此,本文在融合各网格特征的基础上加入特征图的全局信息,提出一种具有全局特征的图像编码模块,该模块负责提取图像的全局特征和局部特征,如图3中虚线框所示。本文以与文献 11 中相同的方式提取图像的原始网格特征。具体来说,利用在 Visual Genome 数据集上预训练的Faster R-CNN模型5,它使用步长(Stride)为1的普通卷积层C5和带有两个全连接(Fully Connected,FC

24、)层的 11兴趣区域池化(Region of Interest Pool,RoIPool)作为检测头,其中C5层的输出保留为描述生成模型的视觉网格特征。因此,本文方法给定一组固定大小的图像网格Grids=(p1,p2,pn)和整幅图像p0=full_image,提取的图像嵌入如式(1)所示:IE0:n=CNN(p0:n;CNN)(1)其中:IE0:n=IE0,IE1,IEn Rn dmodel表示输出的图像嵌入,dmodel表示模型的尺寸,IEi表示CNN模型的第i个输出,n表示网格的个数;p0:n表示输入的图像部分,p0表示图像的全局信息,pi RH W 3表示图像的第i个网格,H表示网格的

25、高度,W表示网格宽度;CNN表示CNN模型的参数。每个图像和网格都是独立编码的,可以使用多个 CNN 同步得到全局图像嵌入和局部图像嵌入,不需要额外的训练、推理时间,提高了计算效率,如式(2)、(3)所示:IEGlobal=IE0(2)IELocal=IE1,IE2,IEn(3)3.2网格特征交互图建立在3.1节得到的图像嵌入基础上增加全局图像特征,然后引入网格特征之间的依赖关系和全局图像特征,借助全局节点机制建立网格特征交互图,构建过程如图4所示。图4网格特征交互图构建(与邻近4个网格进行交互)Fig.4Construction of grid feature interaction gra

26、ph(interact with 4 neighboring grids)整个图像被转换成无向图G=(V,E),其中:V是节点集合,代表所有网格特征(圆形表示,深色圆形表示正在进行交图3方法总体框架Fig.3Overall framework of method1411第 43 卷计算机应用互)和一个全局特征(四角星形表示);E是边集合,代表两个视觉特征之间的交互;邻接矩阵A RN N是一个 NN 的二元矩阵,表示图中节点和边的信息。给定图像的全局和网格特征,首先,根据网格的相对中心坐标为两个相邻的网格i和j 建立连接,即将矩阵 A 中(i,j)的值赋为 1,表示直接交互。此外,提出全局节点机

27、制,用于捕获远程依赖关系和全局特征。全局节点用作虚拟中心,与图中的所有节点连接,从局部节点中收集并分发通用信息。因此,每两个非相邻的局部节点间存在两跳路径的间接交互,与全局节点提供的通用信息相结合,可提供更丰富的交互特征。3.3基于网格特征交互图的图注意力网络本文采用网格特征来生成图像描述,和区域特征相比,网格之间的依赖关系更加复杂紧密。图注意力网络已成功应用于图像描述生成任务中,Zheng等20结合图网络和图像描述生成的自注意力机制计算区域级图像特征的权重,此外,还使用了多头注意力机制,保证注意力机制的稳定性,在一定程度上可以减少噪声,获得更好的效果。但是针对网格特征,图注意力网络对所有网格

28、计算自注意力非常耗时,而且由于网格特征的语义层级较低,需要全局特征指导。根据上述问题,结合网格特征交互图和图注意力网络,本文提出了基于网格特征交互图的图注意力网络(Grid-Graph ATtention network,G-GAT),如图 5 所示,G-GAT 中图的节点与图像的网格相对应,节点的特征为局部图像嵌入,图的边对应网格特征交互图的边,并且利用多头自注意力机制对网格特征交互图中相邻节点的视觉信息进行融合更新,全局节点和局部节点采用相同的方式,从而得到具有全局上下文感知的网格特征表示,进一步增强视觉特征提取效果。每 个 G-GAT 的 输 入 是 网 格 的 特 征 表 示h=(h1

29、,h2,hn)(hi RF)及邻接矩阵A,其中:n表示网格个数,F为隐藏层输出的特征维度。然后应用图注意力网络进行视觉信息融合,将网格i和j的特征向量相连接,通过带泄露修正线性单元(LeakyReLU)的非线性层得到eij,对每个网格进行自注意力计算,如式(4)所示:eij=LeakyReLU()VTWhiWhj(4)其中:eij表示网格 j的特征对于网格 i的重要程度;V和 W 均为可学习的参数矩阵;表示连接。然后使用 Softmax函数对网格i的所有邻域网格特征进行归一化操作,得到注意力系数ij,使系数在不同节点之间易于比较,如式(5)所示:ij=softmaxj(eij)=exp(eij

30、)k Niexp(eik)(5)其中:Ni表示网格i在网格特征交互图中所有的一阶邻域节点集合(包括i本身)。之后将网格i的所有相邻网格j的特征与对应的权重系数ij进行加权求和,通过非线性层得到每个对象节点的最终输出特征,如式(6)所示:hi=()j NiijWhi(6)为了提高方法的性能,将上述方法扩展到多头自注意力机制21。3.4解码与损失函数本文与已有图像描述生成方法13-14采用相同的训练方式,基准解码模块和优化解码模块的训练都分为两个阶段:-XE阶段和-RL阶段。其中:-XE优化基于负对数似然估计的损失函数,等价于交叉熵损失函数 XE(Cross Entropy);-RL阶段基于强化学

31、习(Reinforcement Learning,RL)的优化策略,将CIDEr(Consensus-based Image Description Evaluation)得分作为奖励函数。在-XE阶段,给定人工标注w1:t-1和参数为 的解码模块,最小化以下损失函数:LXE()=-t=1Tln(p(|wtw1:t-1)(7)其中:p表示解码模块的预测概率。实际训练中,以批(Batch)为单位进行模型的权重更新,如式(8)所示:loss=-1Nn=1NLXE()(8)其中:N是批的规模。在-RL阶段,基于负对数似然估计损失函数的训练之后,现有方法采用自批判序列训练(Self-critical

32、Sequence Training,SCST)策略22,以 CIDEr评分作为奖励对模型进行继续优化,如式(9)所示:LRL()=-Ew1:Tpr(w1:T)(9)其中:r()为基于CIDEr评分定义的原始奖励。本阶段的优化目标是最小化负期望奖励,使用文献 23 中的梯度表达式,即使用奖励的平均值而不是贪婪采样得到的奖励。奖励的梯度更新如式(10)(11)所示:b=1k()ikr(wi1:T)(10)LRL()-1ki=1k()()r(wi1:T)-b ln p(wi1:T)(11)其中:k为采样序列的个数;wi1:T为解码模块在推理算法下随机采样所得到的描述;b为采样序列获得的奖励的均值。4

33、 实验验证 4.1实验准备4.1.1数据集和评价指标Microsoft COCO图像描述数据集(以下简称MSCOCO)24是当前最大的图像描述生成数据集,包含123 287张图像,每张图像至少包含5句英文标注。在实验中,采取通用的数据集划分方法25,将训练集与验证集合并,由验证集中取出10 000张图像,其中5 000张用于模型验证,5 000张用于模型测试,所有剩余 113 287张图像用于模型训练。数据预处理阶段,将所有描述文本中的词转换成小写形式,并用特殊字符“UNK”标记替换出现次数少于等于5的词。本文采用公开的COCO评测工具包1来计算指标评分,所涉及的评价指标为现有方法统一使用的指

34、标组合,包括:BLEU(BiLingual Evaluation Understudy)26、METEOR(Metric for Evaluation of Translation with Explicit ORdering)27、图5G-GAT示意图Fig.5Schematic diagram of G-GAT1412第 5 期隋佳宏等:基于图注意力网络的全局图像描述生成方法CIDEr28、ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation-Longest common subsequence)29和SPICE(Semanti

35、c Propositional Image Caption Evaluation)30。4.1.2实验设置本文方法采用与文献 11 中相同的特征提取方法,即改造预训练Faster R-CNN模型的检测头来提取图像网格特征,网格尺度为77,每个图像特征维度为2 048。本文实验遵循Transformer模型23的超参数设置,模型维度dmodel=512,多头注意力机制头的个数K=8。实验使用 Dropout 算法防止模型过拟合,丢失率设置为 0.1。实验基于 PyTorch 框架并用Adam梯度优化算法31进行梯度更新。模型训练分为两个阶段:在-XE训练阶段,以初始学习率1 10 4训练18轮,

36、其中每3个周期衰减一次,衰减率为0.8,优化对数似然估计损失函数,批规模设置为 50;在基于强化学习策略的训练阶段-RL,以固定学习率5 10 6训练25轮,批规模设置为100。推理阶段,设置集束大小为 5。注意,消融实验中的所有实验采用相同的超参数设置。4.2实验结果与分析4.2.1性能对比分析为验证本文方法的有效性,与下列方法进行比较,其中:SCST22、Up-Down6和 RFNet(Recurrent Fusion Network)32为基于注意力机制的方法;GCN-LSTM15和SGAE(Scene Graph Auto-Encoder)33在图像描述任务中引入场景图信息实现图像的丰

37、富语义表示;ORT(Object Relation Transformer)7对区域 特 征 之 间 的 空 间 关 系 进 行 建 模;AoA(Attention on Attention)8对自注意力模块进行扩展来设计描述生成模型;M2(Meshed-Memory transformer)23构造用于解码的网状连接网络结构;X-Transformer34在Transformer的注意力模块中引入双线性池;GET(Global Enhanced Transformer)9采用上下文选通机制来调节全局图像表示对每个生成单词的影响;CPTR(CaPtion TransformeR)35为图像描述

38、生成设计了第一个无卷积架构。表 1 展示了本文方法与对比方法在 MSCOCO 分割数据集上的结果,其中:最佳指标以加粗标注;“”表示未报告指标;B1和B4是BLEU-1和BLEU-4的简称。表1不同方法在MSCOCO分割数据集上的性能指标比较 单位:%Tab.1Comparison of performance indicators of different methods on MSCOCO datasetunit:%方法SCST22Up-Down6RFNet32GCN-LSTM15SGAE33ORT7CPTR35AoA8M223GET9X-Transformer34本文方法B179.879

39、.180.580.880.581.780.280.881.580.981.2B434.236.336.538.238.438.640.038.939.138.839.739.3METEOR26.727.727.728.528.428.729.129.229.229.029.529.7CIDEr114.0120.1121.9127.6127.8128.3129.4129.8131.2131.6132.8133.1ROUGE-L55.756.957.758.358.658.459.458.858.658.959.159.2SPICE21.421.222.022.122.622.422.622.82

40、3.422.8从表 1可知,相较于对比方法,本文方法在 METEOR 和CIDEr 指标上均得到最佳评分,表现出性能优势,尤其在CIDEr 上达到了 133.1%,优于次优的 X-Transformer,提升了0.3个百分点。CIDEr指标是专门实际用于图像描述生成任务的语义一致性评测标准,评分越高说明生成的描述与标注文本相比语义一致性更高、生成的描述词更具特异性,本文方法在CIDEr指标上表现突出,表明所提出方法可有效利用全局上下文信息提升描述文本的生成质量。在句子流畅性方面,BLEU 与 ROUGR 分别仅考虑了准确率和召回率,而METEOR 同时关注一元组(Unigram)准确率和召回率

41、,相对于 BLEU 与 ROUGR 评分来说有一定的优势。本文方法在METEOR指标上取得最优表现,表示生成的描述在语义上是最匹配真实文本的。SPICE 是基于场景图而设计的用于图像描述生成任务评测的指标,虽然本文并未使用场景图,但在此指标上仍超过其他方法,仅低于X-Transformer。综合以上分析,本文在METEOR和CIDEr指标上均有显著提升的原因主要是:在网格特征交互图中不仅结合全局特征捕获上下文重要信息,还通过图注意力网络聚合节点信息,捕获网格之间的依赖关系和潜在交互,能增强视觉特征,提高生成描述的准确性。4.2.2消融实验为了验证全局节点的使用、网格特征交互的方式以及使用区域特

42、征对模型表现的影响程度,设置如下 3 组对照实验,以相同的实验设置对模型进行训练,并与原模型进行性能比较。1)全局节点:在本文模型的基础上排除全局节点的使用。2)交互方式:构建网格特征交互图时,采用邻域交互方式,如图6所示。3)区域特征:用 Faster R-CNN 提取的区域特征表示节点,验证图注意力网络对区域特征的有效性。消融实验结果如表2所示,本文模型相较于对比模型性能达到了最佳,说明本文方法是有效的。具体来说,全局节点的影响最大,去掉全局节点后,模型的性能会下降,尤其是CIDEr下降了 3.9个百分点,这表明全局节点在图注意力网络中有优化作用,可以增强网格的特征表示,从而促进高质量描述

43、的生成。交互方式从相邻节点替换成邻域后,在CIDEr和SPICE上分别下降了2.6和0.7个百分点,说明上下文信息会提高识别精度,但是过多的上下文可能会增加噪声和问题维度,从而使学习变得更慢,性能更差。将网格特征替换成区域特征后,全局节点的提升作用有限,可能是因为提取的全局特征质量低于区域特征的质量,经过注意力机制后,区域特征受损,致使特征提取效果不明显。4.2.3可视化结果及分析为了进一步评估与分析本文方法的描述生成效果,图7中4个样例的描述结果对比如表3所示。其中:带下划线标注基准Transformer方法(Base)中的描述细节;加粗斜体标注本文方法相较于基准 Transformer描述

44、有所改进的部分。每图6邻域交互方式(与8个网格交互)Fig.6Neighborhood interaction mode(interact with 8 grids)1413第 43 卷计算机应用个样例均展示对应的人工标注文本(Ground Truth,GT)。由图 7 与表 3 可以看到,在随机挑选的样例中,基准Transformer 无法基于检测到的区域特征信息生成高质量的描述。例如,在图7(a)中,Base准确识别了图中的重要目标(穿蓝色衣服的人),却忽略了地上带红色帽子的人;本文方法 在 Base 预 测 结 果 的 基 础 上,正 确 预 测 了“another is throwin

45、g the ball”。例如,在图7(d)中,Base预测出“at a zoo”(在动物园),由图像内容并不能推断,因此是错误的预测;而本文方法在全局特征的基础上,并未受其中错误预测信息的影响,进而预测到“with a hand”(用手),最终生成更准确的描述:“A young boy feeding a giraffe with a hand”(一个年轻男孩用手喂一只长颈鹿)。相对来说,本文方法可以获取详细的全局上下文信息,具有更强的图像理解和文本表达能力。以上分析说明:1)相较于基准方法,本文方法得益于全局图像特征,加深了对图像的理解,并基于全局语义进行合理推测;2)相较于利用区域特征的基

46、准Transformer方法,利用网格特征的方法可以生成更完整、详细的图像描述,在语义表达上更具优势。5 结语 本文分析了现有图像描述生成研究中的特征提取方法,从全局图像特征的角度出发,提出了基于图注意力网络的全局图像描述生成方法,能够有效捕捉全局上下文信息和局部信息。实验结果表明,添加全局图像上下文信息能够提高局部网格的特征提取效果。未来计划整合文本上下文信息,利用语言特征弥补网格特征在语义表达能力上的不足,进一步增强网格特征的语义信息,提高图像描述生成性能。参考文献(References)1 HOSSAIN M Z,SOHEL F,SHIRATUDDIN M F,et al.A compr

47、ehensive survey of deep learning for image captioningJ.ACM Computing Surveys,2019,51(6):No.118.2 MIKOLOV T,KARAFIT M,BURGET L,et al.Recurrent neural network based language model C/Proceedings of the INTERSPEECH 2010.S.l.:International Speech Communication Association,2010:1045-1048.3 李康康,张静.基于注意力机制的

48、多层次编码和解码的图像描述模型 J.计算机应用,2021,41(9):2504-2509.(LI K K,ZHANG J.Multi-layer encoding and decoding model for image captioning based on attention mechanismJ.Journal of Computer Applications,2021,41(9):2504-2509.)4 HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition C/Proceedings o

49、f the 2016 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2016:770-778.5 REN S Q,HE K M,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networksJ.IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.

50、6 ANDERSON P,HE X D,BUEHLER C,et al.Bottom-up and top-down attention for image captioning and visual question answeringC/Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2018:6077-6086.7 HERDADE S,KAPPELER A,BOAKYE K,et al.Image captioning:transf

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服