收藏 分销(赏)

图神经网络及其在图像处理领域的研究进展_蒋玉英.pdf

上传人:自信****多点 文档编号:456824 上传时间:2023-10-11 格式:PDF 页数:16 大小:1.85MB
下载 相关 举报
图神经网络及其在图像处理领域的研究进展_蒋玉英.pdf_第1页
第1页 / 共16页
图神经网络及其在图像处理领域的研究进展_蒋玉英.pdf_第2页
第2页 / 共16页
图神经网络及其在图像处理领域的研究进展_蒋玉英.pdf_第3页
第3页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023,59(7)基金项目:国家自然科学基金(61975053,61705061);河南省自然科学基金(222300420040,202300410111);河南省重大科技项目(211110110500)。作者简介:蒋玉英(1984),女,博士,副教授,研究方向为智能信息处理与控制、图像处理、THz图像处理;陈心雨(1998),女,硕士研究生,研究方向为THz图像处理;葛宏义(1983),通信作者,男,博士,副教授,CCF会员,研究方向为智能信息处理与控制、THz光谱与成像技术,E-mail:。收稿日期:2022-05-25修回日期:2022-11-14文章编号:1002-8331(2023

2、)07-0015-16图作为一种数据结构,可以对一组对象及其关系进行建模。图结构是机器学习领域中一种独特的非欧几里德数据结构,具有强大的表示能力,可对多个领域系统进行表示,如自然科学1-2和社会科学3-4领域。广义图神经网络及其在图像处理领域的研究进展蒋玉英1,2,3,陈心雨1,3,4,李广明1,3,4,王飞1,3,4,葛宏义1,3,41.河南工业大学 粮食信息处理与控制教育部重点实验室,郑州 4500012.河南工业大学 人工智能与大数据学院,郑州 4500013.河南省粮食光电检测与控制重点实验室,郑州 4500014.河南工业大学 信息科学与工程学院,郑州450001摘要:图神经网络(g

3、raph neural network,GNN)是一种基于深度学习的图结构数据处理模型,因良好的可解释性和对图结构数据强大的非线性拟合能力而受到研究者广泛关注。随着GNN的逐步优化,GNN与图像处理技术实现融合发展,在图像分类、人体解析和视觉问答等方面取得重大突破。对图像处理技术和传统神经网络理论进行介绍,并对五类GNN的原理、特点和不足进行分析与总结;同时从数据集和性能评估指标两个角度对文中所述的常用模型进行对比与总结,并补充介绍了九种常见的图像处理领域公共数据集;最后深入分析了GNN在图像处理领域中有待改进的方面,并对其应用前景进行展望。关键词:图神经网络(GNN);深度学习;图结构;图像

4、处理文献标志码:A中图分类号:TP391.4doi:10.3778/j.issn.1002-8331.2205-0503Graph Neural Network and Its Research Progress in Field of Image ProcessingJIANG Yuying1,2,3,CHEN Xinyu1,3,4,LI Guangming1,3,4,WANG Fei1,3,4,GE Hongyi1,3,41.Key Laboratory of Grain Information Processing and Control,Henan University of Tech

5、nology,Ministry of Education,Zhengzhou 450001,China2.School of Artificial Intelligence and Big Data,Henan University of Technology,Zhengzhou 450001,China3.Henan Provincial Key Laboratory of Grain Photoelectric Detection and Control,Zhengzhou 450001,China4.School of Information Science and Engineerin

6、g,Henan University of Technology,Zhengzhou 450001,ChinaAbstract:Graph neural network(GNN)is a deep learning-based model for processing graph-structured data,which hasreceived much attention from researchers for its good interpretability and powerful nonlinear fitting ability to graph-structured data

7、.With the rise of GNN,GNN has been developed to integrate with image processing techniques and hasmade breakthroughs in image classification,human body analysis and visual quizzing.Firstly,image processing tech-niques and the theory of traditional neural networks are introduced,and the principles,ch

8、aracteristics and shortcomings offive major classes of GNNs are analyzed.Secondly,the applications of GNN in the image processing field from five tech-nical levels are analyzed respectively,and the representative models of each class of methods are listed.Thirdly,the com-mon models described in the

9、paper are compared and summarized from the perspective of both datasets and performanceevaluation metrics,and nine common public datasets in image processing are introduced in addition.Finally,areas forimprovement in GNN in the field of image processingare analyzed in depth,and the prospects of its

10、application in thefield of image processing are presented.Key words:graph neural network(GNN);deep learning;graph structure;image processingComputer Engineering and Applications计算机工程与应用15Computer Engineering and Applications计算机工程与应用2023,59(7)表1三类神经网络模型Table 1Three types of neural network models网络FNN

11、16RNN17SCNN概述由一系列简单的神经元组成,结构中不包含环或回路加入了反馈输入,对序列中元素执行相同的任务,且输出元素依赖于以前的元素或状态单元之间呈对称连接,在两个不同方向上权重相同优点应用较为广泛克服了传统机器学习模型对输入输出数据的限制单元之间在两个方向权重相同,呈对称连接,比RNN更易于分析缺点对于包含大量上下文信息的数据包含复杂的关联性,FNN存在局限性进行多次循环后可能存在梯度消失的问题,难以训练遵守能量函数定律,具有更多限制上,图像指可直接或间接作用于人眼并产生视觉效果的画面,在计算机中图像以数字图像的形式储存在内存块中。图像处理指通过数字计算机去除图像中的噪声和任何类型

12、的不规则信息,主要涉及图像增强、图像分割、特征提取、图像分类等任务,目前已扩展到科学技术的各个领域。GNN是一种通过构建深度神经网络来处理图结构数据的模型,能够对图结构数据进行非线性拟合,目前在药物医学5、交通流量6-7、推荐系统8-9及图像处理10-11等领域均有应用。在图像处理领域,GNN可以融合多种异质内容和结构信息,并构建相应的图结构,通过额外信息来指导任务,相对于卷积神经网络(con-volutional neural network,CNN)等传统神经网络,GNN可以更好地处理更复杂的语义分割、图像分类等任务。GNN的实现主要受两个方面的启发:一是CNN12。CNN能够以滑动窗口的

13、形式提取不同深度及尺度的局部空间特征,并将其进一步组成表示能力更强的特征,每一个特征图共用一个卷积模块,因此这种权值共享网络结构降低了网络参数个数并有助于网络模型深化,CNN算法为深度学习领域的典型算法之一。但是CNN只能处理规则的欧几里得数据,而无法处理非欧几里得空间的图结构数据,因此将CNN泛化到图结构上,图神经网络应运而生。二是图嵌入13。在机器学习领域,传统的图分析方法依赖于手动方式,灵活性低,速度慢。图嵌入是通过捕获代表节点和边缘之间位置关系的拓扑结构、顶点之间的关系等信息来实现的,将图数据映射为低微稠密向量,从而解决图数据输入机器学习算法效率低的问题。随着神经网络的兴起,图嵌入算法

14、以神经网络为基础,把节点自身特征融入到模型当中,不再仅限于节点邻接信息,并从静态直推式学习转化为动态归纳式学习,大大提高了模型的拟合能力与泛化能力。本文首先介绍了图像处理及其传统神经网络模型优缺点,并对GNN五类主要模型进行重点概述;其次从五个技术层面对GNN在图像处理领域的应用模型进行总结,并对应用模型数据集分别从数据集和性能评估指标角度进行归纳;最后从四个方面对GNN有待解决的问题进行分析,并展望了GNN在图像处理领域的发展方向。1模型与方法1.1用于图像处理的传统神经网络图像处理14又称影像处理,是信号处理在图像领域的应用之一,主要包括图像增强、目标检测和图像分割等。随着信息技术的发展,

15、传统的图像处理技术已无法满足需要,神经网络15的引入成为重点研究方向。神经网络具有自组织、自学习能力,在图像处理中的应用思想是:将图像以数字图像矩阵的形式作为网络输入,经过网络中各个神经元的处理在输出端得到目标图像信号。相较于传统深度学习算法,神经网络模型的优越性主要体现在:(1)可以批量处理数据,在数据集较大的情况下有着更高的运行效率。(2)神经元中的激活函数可以进行非线性映射,为图像处理过程中出现的非线性映射问题提供有力的技术支撑。(3)泛化能力好,不仅在训练集上有很好的性能表现,在未知测试集数据上也效果良好。按照网络架构的不同可将神经网络主要概括为三类:前馈神经网络(feedforwar

16、d neural network,FNN)16、循环神经网络(recurrent neural network,RNN)17和对称连接神经网络(symmetrically connected neural network,SCNN)。其中FNN的每个神经元只与前一层的神经元相连接,不存在回路或反馈连接。FNN包括全连接神经网络、BP(back propagation)神经网络、CNN等;RNN将序列数据作为输入,通常采用时间的反向传播算法,是深度学习中的重要模型之一,常见的RNN结构有长短期记忆网络(long short-term memory network,LSTM)18、门控循环单元(g

17、ate recurrent unit,GRU)19;SCNN 与RNN类似,但是其单元之间呈对称连接,在两个不同方向上权重相同,因此更易于分析。SCNN包括Hopfield网络20和波尔兹曼机21。对神经网络的对比与归纳如表1所示。1.2图神经网络GNN最初是由 Gori等22以信息扩散机制为依据,提出的一种监督神经网络模型23,其中每个节点都具有特征Xv,每条边也具有对应的特征。其最终目标是获得节点嵌入表示hv和输出嵌入表示Ov,关键部分为局部转移函数hv和局部输出函数Ov。局部转移函数产生包含节点邻域信息的状态向量,转移函数在所有节点间共享,且根据输入的邻域更新节点的状态hv。目前1620

18、23,59(7)表2GCN模型汇总Table 2Summary of GCN model类型基于谱域基于空间域应用方法Spectral networkGCNChebNetAGCNMPNNDCNNLGCNGraphSAGEFastGCN是否输入边特征否否否否是否否否否学习模式无监督有监督有监督有监督有监督有监督/半监督有监督无监督/有监督有监督/半监督任务图分类节点回归与分类节点回归与分类图分类、图预测图分类、节点回归与分类图分类、节点分类节点回归与分类节点回归与分类节点回归与分类、图预测时间复杂度O(n2)O(m)O(m)O(n2)O(n2)O(n2)O(n2)O(n2)O(n2)已有许多不同

19、功能以及不同结构的GNN模型被提出,满足了处理不同图结构数据的需要,且已应用到多个领域。按照结构与功能,将 GNN 大致分为五类:(1)将CNN应用到图结构的非欧氏数据上,提出图卷积网络(graph convolutional network,GCN)。(2)将 RNN 的门控机制应用到GNN中,提出图循环网络(graph recurrentnetwork,GRN)。(3)将自编码器及其变体模型应用到GNN中,提出图自编码器(graph auto-encoders,GAE)。(4)从时间和空间的角度建立动态模型,提出图时空网络(spatial-temporal graph neural net

20、work,STGNN)。(5)针对图生成任务,提出图生成网络(graph generativenetwork,GGN)。1.2.1图卷积网络在深度学习领域,LeCun等24提出的CNN得到广泛应用,但只能处理规则的欧几里得数据,如文本和二维网格图像,因此研究者们将卷积运算延伸到图结构上产生GCN。根据特征提取方式的不同,将GCN大致分为两类:基于谱分解的图卷积网络(spectral-based GCN)和基于空间域的图卷积网络(spatial-based GCN)25。GCN由Kipf等4首次提出,最初的GCN基于谱域,卷积核依赖于拉普拉斯矩阵的特征基向量。该网络在ChebNet26的基础上将

21、卷积核K设置为1,简化运算的同时避免模型在节点分布范围较大的图上局部结构过拟合的问题,提升模型性能。GCN卷积运算定义为:gx=UgUTx(1)其中,U为归一化拉普拉斯矩阵的特征向量组成的矩阵,x为图片节点输入信息。最早提出的GCN基于谱域,以图信号理论为基础,将CNN应用到图结构上。它只能在无向图27上进行工作,计算成本随着图像分辨率的增大而迅速升高,且通用性差,难以在一个固定的图上添加新的节点。并且基于谱域的GCN难以对大型图数据进行建模。而相比之下,基于空间域的GCN从图节点角度出发,利用消息传播机制28,中心节点特征由邻居节点特征更新而成29,具有较高的灵活性和通用性,权重可在不同位置

22、及结构间共享。Gilmer等30提出的消息传递神经网络(messagepassing neural network,MPNN)是一种基于空间域的GCN 通用框架,在分子分类预测领域取得了良好效果。它将空间域卷积分解为两个过程:信息传递和状态更新,并将节点v的特征作为隐藏状态的初始状态。文中实验结果表明,该框架具有良好的归纳能力,特征提取过程简单,在预测分析特性方面具有良好效果。基于空间域的 GCN模型还有扩散卷积神经网络(diffusion-convolutional neural network,DCNN)31、可学习的图卷积神经网络(learnable graph convolutiona

23、l network,LGCN)32、GraphSAGE3、Spectral network33、FastGCN34等,详见表2。其中,O(n2)表示数据量增大n2倍时,耗时也增大n2倍;O(m)表示数据量增大m倍时,耗时也增大m倍。Velikovi 等35提出的图注意力网络(graph atten-tion network,GAT)是GCN的一个变体,在传播过程中采用掩蔽式自注意力机制,其中每个相邻节点分别学习不同的注意力权重,进而使网络计算资源倾向于注意力权重高的相邻节点。GAT模型可以不均衡对待相邻节点,即为相邻节点分配不同的权重,且可以并行计算一个节点及其相邻节点,实现较高的运算效率。G

24、AT通过学习图结构中节点的邻域特征平均值,来进行稀释加权操作36。近年来,新型的图注意力网络模型被陆续提出,在处理复杂的图结构过程中取得更好的结果,如门控注意力网络37、异构图注意力网络38和动态图注意力网络39等。图残差网络(graph residual network,GRN)是在GCN基础结构的优化过程中产生的。通过堆叠层来增加模型深度无法提高模型性能,甚至可能降低其性能,因此在GCN基础结构上通过堆叠更多的层以取得更好效果是不可行的。通过在深层GCN中加入残差连接40也不能使其效果优于双层GCN4,因此,研究者开始将跳跃连接应用其中以解决上述问题。将CNN中的跳跃连接与GNN结合,通过

25、ResNet40中的残差连接结构和DenseNet41中的密集连接结构来解决GNN网络层梯度消失问题,并通过膨胀卷积来解决过度平滑问题。在该研究中,将原始 GCN模块命名为 PlainGCN,并进一步蒋玉英,等:图神经网络及其在图像处理领域的研究进展17Computer Engineering and Applications计算机工程与应用2023,59(7)提出 ResGCN 和 DenseGCN,这三个模块共同构成了DeepGCN。进一步通过扩张K近邻42的扩张卷积方法利用上下文信息增大节点感受野,从而解决模型的过度平滑问题,并将该模型应用于点云语义分割领域,从而在56层的GCN堆叠网络

26、层中取得良好效果。GCN模型种类多且功能强大,但也存在可搭建网络层数受限的缺陷。GCN可被理解成在每一次聚合操作中,将特征进行全连接转换,并且在聚合之后取其平均值。如果层数太深,会使每一个顶点向周边邻居聚合的数量太多,这会导致所有顶点上的数值最终收敛于同一数值,而不能分辨出各顶点上的特征。1.2.2图循环网络GRN是产生最早的GNN模型之一,它在GNN基本结构的基础上,在前向传播过程中加入 GRU或 LSTM等基于RNN的门控机制,通过在各层之间设置相同的参数,实现参数逐步收敛。Li等43提出的门控图神经网络(gated graph neuralnetwork,GGNN)是GRN的一种,在前向

27、传播过程中加入GRU,通过时序反向传播算法来计算梯度,从而提高模型在信息长期传播过程中的传播性能。Li等43之后将GRU优化技术加入GGNN,提出了一种门控图序列神经网络。该网络隐层状态由节点注释初始化,节点信息传播方向和内容由图结构中边决定,全局状态所代表的聚合输出值由节点状态决定。核心思想是GRU和全局状态表示。GRN在前向传播过程中利用RNN的门控机制,如GRU、LSTM,能够提升长距离信息传播的有效性。但是由于GRN、RNN计算量过大的问题并未得到解决,目前还未得到广泛应用。1.2.3图自编码器GAE是基于无监督学习的模型,它将图的拓扑结构44和节点信息作为输入,将GCN作为编码器,将

28、图结构转化为低维向量,并用图解码代替数据解码,通过编码信息重构出原始图。GAE可以用来生成隐向量,或用于链路预测领域,适用于高度非线性的图结构,并保留图的非线性结构与复杂特征。Kingma等45在变分贝叶斯46和神经网络的基础上提出变分自编码器(variational auto-encoder,VAE)。VAE通过神经网络对变分推导参数进行学习,获得后验推理似然估计值,其每一个样本具有其专属正态分布,通过每一个样本的专属正态分布恢复出真实样本。具体来说,VAE通过构造神经网络分别学习均值和方差,得到样本Xk的专属均值和方差之后,通过专属正态分布对Zk采样。Kipf等47在VAE的基础上提出变分

29、图自编码器(variational graph auto-encoder,VGAE)。VGAE的优化对象和VAE相同,都是使得重构误差以及后验分布和标准正态分布之间的距离最小化。VGAE模型中编码器是两层卷积神经网络,定义为:GCN(X,A)=ARELU(AXW0)W1(2)其中,A=D-1/2AD-1/2,A是对称标准化邻接矩阵。解码器则利用隐变量内积重构邻接矩阵。除了 VGAE,还有 RGVAE48、DVNE49和 ARVGA50等也是通过VAE实现图嵌入。GAE将GNN与自编码器的特点融为一体,不仅继承了自编码器的无监督和半监督的特点,还在编码过程中聚合了不同相邻节点的信息,而且整个解码

30、过程是对图结构数据进行解码。GAE可以融合多种神经网络的优点,对图结构数据进行网络嵌入和图数据的生成。但GAE也存在着不足:可解释性较差;模型训练复杂度高51。1.2.4图时空网络从图结构及图输入来看,在很多应用中图是动态的,因此对这类图结构进行处理时,需要从时间和空间的角度来对动态节点输入建模,并对连接节点之间的相互依赖关系做出假设。STGNN的主要思想是考虑空间和时间问题,捕捉图的动态性。STGNN 主要遵循 RNN 和CNN这两个方向,模型变体主要是DCRNN52、Structural-RNN53、STGCN54和ST-GCN55。DCRNN基于RNN结构,用扩散卷积代替原本的矩阵相乘过

31、程,并通过扩散层传播节点信息进而更新节点的隐状态。Structural-RNN在每一时间步中由循环框架预测节点标签,该循环框架连接相同节点的前、后时间点,为节点和边缘构造节点级RNN以及边缘级RNN。但上述两种基于RNN的模型可能存在迭代传播耗时,梯度消失等问题。而基于CNN的模型采用非递归方式对时空图进行处理,可以实现并行计算及梯度稳定,从而避免基于RNN模型所出现的问题。例如,ST-GCN由一维卷积层和分区图卷积层组成时空模块,模型中的每个节点都有特定的权重矩阵,对时空图分割之后将节点在带有权重的时空图上进行图卷积操作。目前,该网络主要应用于交通流预测56、人类行为识别55等需要对动态图节

32、点进行处理的领域中。1.2.5图生成网络GGN将节点与边按照一定规则重新组合得到图的经验分布,并基于经验分布产生新的图结构数据。但是,一些图数据存在着高维性与不唯一性,以及图中边缘间复杂的非局部依赖性,因此在图上模拟复杂分布,并在这些分布中进行有效采样较为困难。而利用GGN主要就是用来解决上述问题。GGN 的输入类型有节点、边向量、给定的图嵌入表示,在学习采样数据之后再合成适合各类任务的特定的图。GGN较为经典的一个变体是图生成对抗网络(graphical generative adver-sarialnetwork,Graphical-GAN)。该网络将贝叶斯网络182023,59(7)技术

33、分类基于知识图谱的方法基于门控机制的方法基于注意力机制的方法基于特征融合的方法基于GAN的方法GNN模型GCNGSNNGRMGGNNGSNNGraph LTSMStructure-evolvingLSTMReGATHGAT双层GATML-CGMV-GNNFFGNNSGGNNGraphical-GAN核心部分语义嵌入、知识图谱知识图谱结构化知识图谱GRUGRULSTMLSTM自适应注意力机制注意力机制多头注意力机制概念注意力机制基于动态GNN的融合网络自适应融合机制特征融合机制GAN实现功能对于多标签图分类任务相对于当前最先进的技术有所改进有效缓解了GGNN模型对于大型图的计算问题,且具有良好的

34、图像分类性能通过结构化知识图谱来有效建模,从而将结构化知识有效地集成到深层神经网络体系结构中,以促进图像中人与人社会关系的理解使用门控循环单元对节点建模,以首先在相邻节点之间传播特征只选择扩展对最终输出有用的节点,有效解决了GGNN因节点数量过多计算可扩展性的问题在每个Graph LSTM单元,根据语义关系动态合并局部上下文的交互,精确推断图像全局信息在Graph LSTM的基础上改进,逐步利用堆叠的 LSTM 层的层次信息来增强特征学习能力通过自适应注意机制对多类型对象关系进行建模,学习问题的自适应关系表示通过注意力机制,允许节点基于视觉或语义特征相关性来关注其空间和语义邻域的特征通过多个独

35、立的注意力机制来计算隐藏状态向量,提高了模型的图像分类准确率结合了语义注意力机制和标签注意力机制,以更好地提取图像标签的有意义信息采用门单元和动态GNN模块,从不同视角反复利用先验信息,实现自适应融合多视图信息对图结构迭代进行图卷积运算,实现节点间的消息传播和自适应特征融合通过相似性引导的方式确保了特征融合权重更加精确,并进行更合理的特征融合利用对抗学习,实现与真实图像类似的多类别遥感图像的生成在文献中的应用零样本识别图像分类社会关系理解3D图像分割图像分类人体解析人体解析视觉问答视觉关系检测图像分类航空图像分类伪影压缩行人重识别行人重识别遥感图像合成参考文献文献60文献59文献61文献62文

36、献59文献63文献64文献65文献66文献67文献68文献69文献70文献71文献72表3基于GNN的图像处理方法对比Table 3Comparison of GNN-based image processing methods对随机变量间依赖结构的表达能力与GAN对依赖函数的学习表达能力相结合。Graphical-GAN 具有两个重要变体:Gaussian hybrid GAN 和 State-space GAN,分别学习数据集中的离散结构和空间结构。在未来,GGN可以扩展到更复杂的结构以及结构化数据的半监督学习中。目前,图生成方法仍有待优化,且生成图的质量难以直观测验。例如,MolGAN5

37、7和 NetGAN58都是同时生成图结构的节点和边缘的,但这两种方法难以对图的全局属性进行有效控制,并且无法扩展到大型图。2基于GNN的图像处理神经网络在图像处理领域已有广泛应用,其中CNN最为常见。CNN 在图像分类等任务中已实现较高精度,但对于语义分割、图像问答等更为复杂的任务,仍存在精度不够高、提取图像语义特征性能不够好等缺陷。GNN能够将多种结构信息与异质内容相融合,构建相应图结构,有效改善传统神经网络的不足,因此将GNN应用于图像处理具有广阔前景。对本章所述基于GNN的图像处理方法从技术理念角度进行阐述,并将所述方法进行对比与总结,如表3所示59-72。2.1基于知识图谱的方法知识图

38、谱普遍结构较大而不适合直接使用。针对上述问题,Marino 等59基于目标检测结果从知识图谱中选取一些检测到的实体来抽取子图并在子图上进行扩充。他们在 GGNN 的基础上提出图搜索神经网络(graph search neural network,GSNN),通过 GSNN 将知识图谱作为额外信息来进行图像分类,根据输入,只选择对最终输出有用的初始节点进行扩展。它通过学习,能对不同类型的关系和概念进行推理,产生输出,实现图像分类,有效缓解了GGNN模型对于大型图的计算蒋玉英,等:图神经网络及其在图像处理领域的研究进展19Computer Engineering and Applications计

39、算机工程与应用2023,59(7)速度慢的问题,且具有良好的图像分类性能。GSNN能有效地利用知识图谱作为额外信息来改进图像分类的方法,提高模型的性能。下一步可将GSNN应用于其他视觉任务,如目标检测和视觉问答等;或者将GSNN与Neil这样的系统相结合,创建一个新系统,从而构建知识图,然后对其进行修剪,以获得更准确、更有用的任务图来应用于视觉任务当中。在社会关系理解中,人们对一个群体内社会关系的理解不仅仅是基于人本身,这种社会关系与周围人的语境信息之间的相互联系也起着重要作用。然而在先前的模型中,这些额外线索往往被忽视。Wang等61提出一个可端到端训练的模型graph reasoning

40、model(GRM),GRM将这两个因素之间的相互作用用一个新颖的结构化知识图谱来有效地建模,这种结构化的知识可以有效地集成到深层神经网络体系结构中,以促进社会关系的理解。在GRM中,学习一种传播机制来通过图传播节点消息,以探索感兴趣的人和上下文对象之间的交互。同时,引入了图形注意机制,对区分对象进行显式推理,从而促进识别。从整体来看,将GNN与知识图谱相结合已成为计算机视觉领域的热门方向。各种视觉任务可通过知识图谱获得有益的先验知识,而GNN则可以更好的处理图结构数据从而学习先验知识。但是目前基于GNN的知识图谱的模型研究还处于起步阶段,未来还仍需发展,例如基于 GNN 的知识图谱自动构建、

41、基于异质GNN的知识融合、基于GNN的可解释性学习等。2.2基于门控机制的方法GRU是基于RNN改进之后的网络结构,是RNN门控机制之一,通过重置门与更新门极大地减轻RNN梯度消失与梯度爆炸问题17,并通过门控机制来对输入、记忆等信息进行控制,在当前时间步做出预测。Li等43提出的GGNN采用端到端的网络连接模式,应用GRU代替GNN模型的标准化递归,以改善图像信息在图结构中的长期传播,并通过时间的反向传播来计算梯度。Wang等62将GGNN应用于医学图像的3D图像分割,以提取器官和病变区域。在图像信息传播过程中采用GRU对节点建模,在相邻节点之间传播特征,以便状态值hv可以根据自身特征及邻域

42、特征进行演化。相较于传统的基于 CNN 的方法,此方法能够保留图像轮廓的正确部分,并且对于3D图像的切片数据的建模更加灵活。在图像处理过程中,GGNN存在计算可扩展性的问题。当图结构上节点超过一定数量时,在做出大量参数假设的情况下,向前和向后传递的时间依然会大幅变长。Marino等59对GGNN进行改进,提出图搜索神经网络(graph search neural network,GSNN),并将其应用于多标签图像分类。GSNN同样将图结构用于根据相邻节点之间的边类型检索相邻节点的隐藏状态,然后将隐藏状态通过GRU模块进行更新。GSNN并没有改变GGNN的门控机制,而是只选择扩展对最终输出有用的

43、节点,有效解决了GGNN在节点数量过多的情况下计算可扩展性的问题。虽然 CNN 在各种像素级的预测任务取得巨大成功,但单纯的卷积过滤器只能捕捉有限的局部信息,而语义分布布局与交互的精确推断需要有图像的全局视角。由于先前的很多模型是在预定好的拓扑结构下进行计算的,其计算冗余较多导致效率低效,如多维LSTM:它对于2D图像表现良好,但就每个LSTM单元中的信息传播路径而言,只探索了预先定义好的拓扑结构。Liang等63将传统的LSTM从序列或多维数据扩展到图结构数据,构建图长短期记忆网络(Graph LSTM),实现语义对象解析。它通过遵循每个图像内容派生出的自适应图拓扑结构来利用全局上下文信息;

44、并使用一种置信度驱动的策略来选择初始节点和顺序更新所有节点,保留了每个图像的视觉特征,有助于灵活推理;在每个Graph LSTM单元,根据它们的语义关系动态地合并局部上下文交互来学习相邻不同节点的遗忘门。GraphLSTM 可精确推断图像的全局信息,但是不同模型中的复杂模式通常会嵌入层次结构,代表节点之间不同程度的相关性。为了进一步提升LSTM单元学习固有多层次抽象语义特征的能力,促进多尺度推理,在Graph LSTM 的基础上,Liang 等64随后提出 structure-evolving LSTM,逐步利用堆叠的LSTM层的层次信息来增强特征学习能力,并在较深的层中从更高级别的图拓扑结构

45、中输出模型的层次结构。该方法的测试结果优于Graph LSTM,且对基于RNN的图像处理模型提供了改进思路,未来可以对structure-evolving LSTM进行扩展,以实现LSTM网络的优化,实现可逆图的转移等。总体来看,在GNN模型前向传播过程中加入RNN的门控机制,通过 LSTM 单元学习多层次的抽象语义特征,精准推测图像信息,能够有效提升 GNN 模型的性能。2.3基于注意力机制的方法注意力机制73指选择性地关注目标区域信息,弱化其他可见信息,从而充分利用注意力资源获取更多目标的细节信息,高效提取特征的同时降低网络训练难度。在网络中加入注意力机制,可以产生注意力感知到的特征。视觉

46、问答(visual question answering,VQA)的目的是通过图像提取与图像中物体相关的语义信息,所使用的模型需要对视觉场景有充分了解。较为先进的VQA方法74-75大多使用 CNN 或 R-CNN 作为图像特征提取器,通过多模态融合机制学习每个区域与问题之间的联合表示。这类方法可用来解决简单的VQA任务,但生202023,59(7)成的自然语言通常无法描述图像中复杂的语义关系。针对上述问题,Li等65提出一种基于自适应注意力机制的关系感知图注意力网络(relation-aware graph attentionnetwork,ReGAT)并应用于VQA,该网络将图像编码为图结

47、构数据,利用图注意力机制建模多种类型对象之间的关系,从而学习到问题的自适应关系表示。ReGAT的优势在于可以捕获静态对象或区域之外的对象之间的关系特征。这些关系特征可以体现图像中更细节化的视觉概念,进而提供整个图像的场景解释,与基于CNN或R-CNN的传统方法相比,对于复杂的语义问题具有更优效果。视觉关系检测(visual relationship detection,VRD)是图像理解的重要部分,其含义是检测特定关系,并通过三元组结构形式,即“主语-谓语-对象”来描述主体与对象之间的关系。现有的基于图的VRD方法往往忽略三层结构之间的依赖性。基于此,Mi等66提出一种分层图注意力网络(hie

48、rarchical graph attention network,HGAT)来捕获对象层级和三层结构的依赖关系。并引入先验知识和注意力机制修复根据空间相关性构建的图上的冗余或缺失边,因而节点可基于视觉或语义特征相关性来关注其空间和语义邻域的特征。该方法在GNN中引入注意力机制,将图像场景的全局上下文信息都考虑在内,有效缓解了图结构中不合适的边造成的负面影响。对于图像分类任务,基础的GNN模型存在节点更新效率低、网络参数固定、无法对图中部分边的信息特征进行有效建模等问题。基于此,Xu 等67建立双层GAT模型,并利用多头注意力机制作为注意力机制的扩展,即用多个独立的注意力机制来计算隐藏状态向量

49、,提高了模型的图像分类准确率。此外,Lin等68提出一种名为多标签概念图(multi-label concept graph,ML-CG)的端到端航空图像分类模型,来提取标签的相关性特征,将语义注意力机制和标签注意力机制相结合并集成到GNN框架中,以更好地提取图像标签的有意义信息,且该模型在UCMerced数据集76和DFC15数据集77中分类性能良好。从整体来看,在GNN模型中加入注意力机制,可以减少计算量,并增强节点分类的泛化能力。但是,注意力机制在图的所有节点上的计算过程是分布式并行的,可能会产生大量冗余计算,因为相邻的两个节点可能会高度重叠。此外还会使网络的参数量变大,网络结构更复杂,

50、使得网络的训练难度变高。2.4基于特征融合的方法图像的特征融合是指从原始图像中提取目标或感兴趣区域的边缘、轮廓、形状等特征信息,通过对提取到的特征进行分析、处理、整合等操作,增加图中的有用信息,得到信息更为全面的图像。多视点视频78能够提供场景的沉浸式观感体验79,目前已被用作许多三维和面向交互的视觉应用中的基本数据表示。然而多视点视频中通常不可避免地存在压缩伪影,降低视觉体验质量,且许多减少压缩伪影的传统方法80-82存在耗时及参数选择问题。基于此,He等69构建多视点图神经网络(multi-view graph neuralnetwork,MV-GNN)并将其应用于减少多视点压缩图像中的压

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服