1、计算机科学与探索Journal of Frontiers of Computer Science and Technology1673-9418/2023/17(10)-2403-10doi:10.3778/j.issn.1673-9418.2306049基于大规模语言模型的知识图谱可微规则抽取潘雨黛1,2,张玲玲1,2,蔡忠闽3+,赵天哲1,2,魏笔凡1,2,刘均1,21.西安交通大学 计算机科学与技术学院,西安 7100492.陕西省大数据知识工程重点实验室,西安 7100493.西安交通大学 系统工程研究所,西安 710049+通信作者 E-mail:摘要:知识图谱上的推理是预测不完整三
2、元组中缺失的实体或关系,对结构化知识进行补全,并用于不同下游任务的过程。不同于被普遍研究的黑盒方法,如基于表示学习的推理方法,基于规则抽取的推理方法通过从知识图谱中泛化出一阶逻辑规则,实现一种可解释的推理范式。为解决离散的符号空间与连续的嵌入空间之间的鸿沟,提出一种基于大规模预训练语言模型的知识图谱可微规则抽取方法DRaM,将离散的一阶逻辑规则与连续的向量空间进行融合。针对规则中的原子公式顺序对推理过程产生的影响,通过引入大规模预训练语言模型对推理过程进行编码来解决。融合一阶逻辑规则的可微推理方法 DRaM,在三个知识图谱数据集Family、Kinship和UMLS上进行的链接预测任务获得了较
3、好的结果,尤其针对链接预测指标Hits10,DRaM获得了最佳的推理结果。实验结果表明,DRaM能够有效地解决知识图谱上可微推理存在的问题,并且可以从推理过程中抽取带有置信度的一阶逻辑规则。DRaM不仅通过一阶逻辑规则增强了推理效果,同时增强了方法的可解释性。关键词:知识图谱上的推理;一阶逻辑规则;大规模语言模型(LLM);可解释推理文献标志码:A中图分类号:TP391Differentiable Rule Extraction with Large Language Model for Knowledge GraphReasoningPAN Yudai1,2,ZHANG Lingling1,
4、2,CAI Zhongmin3+,ZHAO Tianzhe1,2,WEI Bifan1,2,LIU Jun1,21.College of Computer Science and Technology,Xi an Jiaotong University,Xi an 710049,China2.Shaanxi Provincial Key Laboratory of Big Data Knowledge Engineering,Xi an 710049,China3.Institute of System Engineering,Xi an Jiaotong University,Xi an 7
5、10049,ChinaAbstract:Knowledge graph(KG)reasoning is to predict missing entities or relationships in incomplete triples,基金项目:国家重点研发计划(2022YFC3303600);国家自然科学基金(62137002,62293550,62293553,62293554,61937001,62250066,62176209,62176207,62106190,62192781,62250009);国家自然科学基金创新研究群体项目(61721002);教育部创新团队项目(IRT_1
6、7R86);国家科技重点实验室基金;陕西省自然科学基金(2023-JC-YB-593);陕西省高校青年创新团队项目;中央高校基本科研业务费专项资金(xhj032021013-02)。This work was supported by the National Key Research and Development Program of China(2022YFC3303600),the National NaturalScience Foundation of China(62137002,62293550,62293553,62293554,61937001,62250066,62176
7、209,62176207,62106190,62192781,62250009),the Innovative Research Group Program of the National Natural Science Foundation of China(61721002),theInnovation Research Team Program of Ministry of Education(IRT_17R86),the Foundation of National Key Science and TechnologyLaboratory,the Natural Science Fou
8、ndation of Shaanxi Province(2023-JC-YB-593),the Youth Innovation Team Program of ShaanxiUniversities,and the Fundamental Research Funds for the Central Universities of China(xhj032021013-02).收稿日期:2023-06-15修回日期:2023-09-27Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(10)知识图谱(
9、knowledge graph,KG)通过由实体和关系组成的三元组(头实体,关系,尾实体)来存储大量事实,例如经典的通用知识图谱 YAGO(yet ano-ther great ontology)1、DBpedia2和 Wikidata3等。知识图谱上的推理是预测不完整三元组中缺失的实体或关系,并用于各种下游任务,如信息抽取4、语义检索5、问答任务6和对话系统7等。典型的知识图谱推理方法主要针对于关系和实体的表征与嵌入8,如TransE9和 RESCAL10等方法。然而,这些基于实体与关系表征的推理方法属于黑盒模型,在推理过程中缺乏一定的可解释性。因此在近几年的知识图谱推理中,规则学习已成为被
10、广泛研究的一种可解释范式11。规则学习的方法旨在从结构化的知识图谱中抽取一阶逻辑规则,并将其运用于知识图谱的补全与推理等任务中。从知识图谱中抽取的一阶逻辑(first-order logic,FOL)规则以霍恩子句(Horn clause)12的形式呈现如下:bornInCity(X,Z)cityOf(Z,Y)bornInCountry(X,Y)(1)其中,bornInCity(X,Z)为构成规则的原子公式,知识图谱中的关系bornInCity在规则中为组成原子公式的谓词。X、Y、Z为从知识图谱中的实体泛化而来的变量。蕴含符号从规则体指向规则头,指代从条件到结论的推理过程。但是在从知识图谱中抽
11、取规则的过程中,依然有以下几个问题。第一,一阶逻辑规则的结构信息表示为离散的符号,而知识图谱上的推理大多由连续的嵌入向量来实现。不管是基于翻译模型的方法,还是基于图网络的方法,知识图谱上的推理都需要将实体与关系表示成为连续的低维向量,而后通过最大化得分函数的值来进行推理。如何将离散的符号信息与连续的向量空间进行融合,实现可解释的知识图谱上的推理是一个挑战。第二,在实现可微推理的过程中,使用的一阶逻辑规则不仅需要从三元组中泛化得到,同时需要考虑构成一阶逻辑规则的原子公式的顺序以及变量信息。改变原子公式的顺序会对可微推理的结果产生巨大影响。比如,对于一阶逻辑规则:brother(X,Z)fathe
12、r(Z,Y)uncle(X,Y)(2)该规则表示X是Z的兄弟,且Z是Y的父亲,则X是Y的叔叔(伯伯)。如果将规则体中的原子公式进行顺序的调换:father(X,Z)brother(Z,Y)uncle(X,Y)(3)该规则表示的是X是Z的父亲,且Z是Y的兄弟,则X是Y的叔叔(伯伯)。显然,该规则是不合理的。如何将正确的原子公式信息融入推理过程是一个难点。因此,提出了一种融合大规模预训练语言模型的可微推理方法 DRaM来解决以上问题。为解决连续空间与离散空间的融合问题,使用一种可微的推理范式来将连续的嵌入推理过程与离散的规则符号进行融合;在编码过程中,为解决一阶逻辑规则中原子公式的顺序问题,设计了
13、一种基于大规模语言模型(large language model,LLM)的编码方法。最终通过评估与最大化推理过程的得分来对连续的模型进行优化。DRaM做出了以下三个贡献:(1)提出了一种知识图谱上的可微推理方法DRaM,通过将嵌入向量与一阶逻辑规则进行融合,complete structured knowledge,and apply to different downstream tasks.Different from black-box methods which arewidely studied,such as methods based on representation lea
14、rning,the method based on rule extraction achieves aninterpretable reasoning paradigm by generalizing first-order logic rules from the KG.To address the gap betweendiscrete symbolic space and continuous embedding space,a differentiable rule extracting method based on the largepre-trained language mo
15、del(DRaM)is proposed,which integrates discrete first-order logical rules with continuousvector space.In view of the influence of atom sequences in first-order logic rules for the reasoning process,a largepre-trained language model is introduced to encode the reasoning process.The differentiable meth
16、od DRaM,whichintegrates first-order logical rules,achieves good results in link prediction tasks on three knowledge graph datasets,Family,Kinship and UMLS,especially for the indicator Hits10.Comprehensive experimental results show thatDRaM can effectively solve the problems of differentiable reasoni
17、ng on the KGs,and can extract first-order logicrules with confidences from the reasoning process.DRaM not only enhances the reasoning performance with thehelp of first-order logic rules,but also enhances the interpretability of the method.Key words:knowledge graph reasoning;first-order logic rule;la
18、rge language model(LLM);interpretable reasoning2404潘雨黛 等:基于大规模语言模型的知识图谱可微规则抽取缓解连续空间与离散空间的语义鸿沟。(2)引入大规模预训练语言模型的可微推理,融合了一阶逻辑规则中的顺序信息,使得一阶逻辑规则更准确地提升可微推理的结果。(3)通过在三个知识图谱数据集上进行链接预测,验证了DRaM的可行性与有效性。同时通过抽取出的规则及其置信度,增强可微推理过程的可解释性。1相关工作1.1知识图谱上的表示学习方法知识图谱上的表示学习方法通过对知识图谱中的实体与关系进行嵌入表示,来用于下游推理任务。该方法主要可以分为三类,分别为
19、基于翻译模型的方法、基于语义分解的方法以及基于图网络的方法。基于翻译模型的表示学习将知识图谱中的实体与关系表示为低维向量。在知识图谱表示中广泛 使 用 的 算 法包含 TransE9、RotatE13和 ConvE14。RESCAL10、HolE15和DisMult16是基于语义分解的表示学习方法,将每个实体的语义信息表示为低维向量,且将每个关系表示为一个矩阵。这些方法通过嵌入模型来处理每个三元组,从而获得知识图谱中关系和实体的低维嵌入。此外,考虑到知识图谱中的结构信息和邻居信息,一些模型通过图神经网络表示整个知识图谱。例如,R-GCN17和 CompGCN18使用图卷积网络(graph co
20、nvolutional network,GCN)来捕获邻居信息对关系进行建模。另外,一些融合文本嵌入信息的模型,例如 pTransE19、DKRL20和StAR21同样可以通过得到嵌入向量来解决知识图谱上的推理问题。1.2知识图谱上的规则学习方法知识图谱上的规则学习方法主要可以分为两类,分别为基于统计的方法和基于深度学习的方法。1.2.1基于统计方法的规则学习方法最早的规则学习研究始于利用统计方法抽取一阶逻辑规则。此类方法通过不同度量方式,比如支持度(support)、置信度(confidence)、相对概率估计(relative probability estimate)和其他简单的度量方式
21、筛选高质量的一阶逻辑规则。比如,一阶逻辑学习方法 SHERLOCK22使用逐点互信息(pointwise mutualinformation,PMI)作为评估指标,并使用相对概率估计来评估Horn子句,以此抽取合理的一阶逻辑规则。此外,Galarraga 等人提出的 AMIE23和 AMIE+24算法,通过计算部分完整性假设(partial completenessassumption,PCA)置信度从知识库(knowledge base,KB)和知识图谱中挖掘相关规则。AnyBURL25提取有效时间跨度内的规则,并通过置信度在更短的时间内获取有效的一阶逻辑规则。与AMIE与AMIE+算法相比
22、,AnyBURL 的推理结果在性能上有所提高,但抽取的结果并不稳定。1.2.2基于深度学习的规则学习方法随着深度学习与知识图谱表示学习的发展,一些规则学习方法融合深度学习,进一步从知识图谱的事实中抽取一阶逻辑规则。基于深度学习的规则学习方法例如 RLvLR26,是通过知识图谱中关系与实体的嵌入表示来从大量一阶逻辑规则中进行筛选。RLvLR调用知识图谱表征的RESCAL模型来减少规则的搜索空间。Ho等人27不仅通过知识图谱中已知的事实,并且通过从知识图谱中抽取的规则推理出的事实来扩展规则。在此过程中,模型通过不同的知识图谱表征模型来评估所添加的事实。此外,最近的规则学习方法也提出了针对逻辑规则的
23、可微学习。例如,Yang 等人28提出了 NeuralLP 来学习知识图谱中的一阶逻辑规则,提出了一种神经控制器系统来构成一阶规则中的可微运算。Sadeghian等人29通过改进 NeuralLP 提出 DRUM 算法,利用双向循环神经网络(recurrent neural network,RNN)实现端到端的可微规则抽取。1.2.3基于大规模语言模型的规则抽取随着大规模语言模型在自然语言处理问题上获得的优秀结果,一些规则抽取方法利用大规模语言模型的表征学习能力来提升推理过程的可解释性。在逻辑文本的推理任务中,一些基于大规模语言模型的方法30-31通过挖掘上下文中的逻辑关系来抽取逻辑规则。例如
24、,Logiformer32构建了两种不同的基于 Transformer的图网络,通过挖掘文本中的逻辑规则解决逻辑推理问题。在知识图谱的逻辑规则抽取中,大规模语言模型被用来提升实体与关系的表征,进而增强规则抽取的结果。例如,Lotus33利用已有的语言模型对实体的外部文本进行表征,通过融合知识图谱的结构信息与文本语义信息抽取高质量规则。相较于传统方法,此类方法不仅可以通过大语言模型构成可微的端到端规则抽取模型,并且更专注于利用大规模语言模型中的Transformer模块对一阶逻辑规则的原子公式以及序列进行编码,更有利于一阶逻辑规则的表征与抽取,进而增强逻辑推理的结果。然而,目前的方法没有利用大规
25、模语言模型构2405Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(10)建出一个端到端的可微模型在知识图谱中抽取一阶逻辑规则。2方法本文针对知识图谱上的推理任务,提出了一种端到端的具有可解释性的可微规则学习方法 DRaM。此方法分为两部分:可微推理以及规则学习。2.1问题定义知识图谱上的推理定义如下:给定知识图谱G=R,E,T,其中T E R E为知识图谱中的三元组集合,E为实体集合,R为关系集合。通过规则学习的方法抽取形式为式(1)的一阶逻辑规则集合C。C中提取的规则可用于实现可微的知识图谱上的推
26、理,即预测三元组中缺失的实体,例如r(h,?)或者r(?,t)。图1显示了解决此任务的模型的具体实现方法。2.2可微推理不同于经典的基于黑盒的表示学习方法进行的知识图谱的推理,基于规则的可微推理需要解决推理过程中的实体无关性问题。比如,在利用规则(1)进行推理时,G中的三元组cityOf(Beijing,P.R.C.)和cityOf(LA,U.S.)会泛化为原子公式cityOf(X,Y),以此解决实体无关性问题。DRaM 不同于基于统计计算的规则学习方法,它将包含置信度的离散的逻辑规则与连续的嵌入空间融合,通过梯度来对模型进行优化。在规则学习融合可微推理的过程中,若将作为推理结果的原子公式看作
27、一个问题 query,则利用一个一阶逻辑规则推理的过程如下:r1(X,Z1)r2(Z1,Z2)rn(Zn-1,Y)query(X,Y)(4)其中,r1,r2,rn作为一阶逻辑规则中的谓词,其实质为知识图谱G中的关系。此时,根据TensorLog框架34,基于逻辑规则的推理可以用矩阵与向量的乘法来实现。在推理过程中,对于给定的问题query和已知的实体x,不同结果y的得分为规则集合中能够得到结果y的所有规则的置信度之和。根据 TensorLog 框架,在推理过程中,形如规则(4)的规则体可量化为:Q=mmkmMrk(5)其中,m为第m个可能规则的置信度;m为第m个规则的结构信息,主要由n个有顺序
28、的关系序列(r1,r2,rn)构成;Mrk为rk的谓词矩阵,矩阵元素Mrki,j的初始值为:Mrki,j=1,rk(i,j)G0,rk(i,j)G(6)可微的推理过程旨在将融合规则的推理过程通过梯度下降来进行优化,因此在此过程中,将推理过程的得分函数f(y|x)定义为:f(y|x)=eTxs(7)s=m(mkmMrk)ey(8)其中,ex向量初始值为将实体x映射成为 one-hot编码,其第x个元素值为 1;ey同理。此过程可举例如下,对 于 规 则(1)中 规 则 体 的 推 理 过 程bornIn-City(X,Z)cityOf(Z,Y),可以将实体转化为向量,关系转化为谓词矩阵,并通过矩
29、阵的乘法来模拟实例化的逻辑规则推理过程,表示为MbornInCityMcityOfey。图1基于大规模预训练语言模型的可微推理与规则抽取过程Fig.1Process of differentiable reasoning and rule extraction based on large pre-trained language model2406潘雨黛 等:基于大规模语言模型的知识图谱可微规则抽取进行矩阵与向量的乘法后,向量中非零项位置与ex相同的话,说明通过该规则可以得到从实体y到实体x的推理结果。规则的长度可以根据推理过程中做乘法的矩阵个数来实现。可微推理进行梯度优化的目标是将所有满足
30、query实体对的得分最大化:maxm,mx,yf(x|y)(9)其中,x、y分别为满足query(X,Y)中变量X、Y的头、尾实体。m、m分别代表学习到的规则的置信度与结构信息。通过这两个参数可以确定用于推理的一阶逻辑规则,该参数是在优化推理模型的过程中进行学习优化的。然而,从式(5)来看,该得分函数依旧是离散的形式,不利于进行可微推理。因此,若将式(5)转化为注意力权重的形式,则该权重可以进行可微学习:Q=l=1Lk|R|aklMrk(10)其中,akl为可学习的谓词注意力权重。2.3规则学习根据上述得分函数的形式,考虑到规则的长度L可以进行变化,采用预训练模型来对query的序列进行编码
31、,如图 2所示。在 query的最后加入可学习的token,END。对于长度为L+1(L0)的输入q1,q2,qL,END,将其送入预训练语言模型M,得到隐藏层的输出:o1,o2,oL,oEND=M(q1,q2,qL,END)(11)利用多层感知机(multilayer perceptron,MLP)模型进行维度的调整:h1,h2,hL,hEND=MLP(o1,o2,oL,oEND)(12)通过隐藏层的输出向量,得到推理过程中所用到的规则参数al|1 l L和bl|1 l L+1:al=softmax(Whl+)(13)bl=softmax(h1,h2,hl-1Thl)=exp(h1,h2,h
32、l-1Thl)i=0l-1exp(hiThl)(14)其中,W为可学习的转换矩阵,为偏置向量。由两个注意力al和bl,可以得到求解query时规则体的第l个谓词的向量:vl=k|R|aklMrkl=0l-1bllvl(15)当l为0时,初始推理向量为ey。对于用于推理的规则,每一个在规则体序列中的原子公式代表推理的“一步”l。因此,最终可微的得分函数可表示为:f(y|x)=eTxv(16)其中,v=v1,v2,vL,vL+1为所有推理向量的序列。通过最大化可微推理过程中的得分函数,可以得到增强知识图谱上的推理过程的规则。参考NeuralLP 中的规则还原算法,从两个注意力参数al和bl抽取显式
33、的规则。最终,通过该算法得到每个可能规则的m、m,并将连续的向量al和bl恢复为离散的一阶逻辑规则。3实验结果本文比较了 DRaM与经典的知识图谱上的推理方法,包含基于表示学习以及基于规则学习的方法。另外,通过消融学习证明了DRaM的有效性。最后,通过其他实验,包括参数分析以及案例分析实验,验证了该方法的效果。3.1数据集与基线方法知识图谱上的可微推理实验在三个不同的数据集上进行35。统一医学语言系统(unified medical lan-guage system,UMLS)由生物医学中的概念组成,如药物和疾病名称,以及它们之间的关系,比如如何诊断及治疗。亲属关系(Kinship)中的三元组
34、为澳大利亚中部土著部落成员之间的亲属关系。家族数据集(Family)包含多个家族个体之间的血缘关系。每个数据集的信息如表1所示。图2基于大规模预训练语言模型的query编码过程Fig.2Encoding process of query based onlarge pre-trained language model2407Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(10)在对比过程中,选择了经典且具有代表性的知识图谱上的推理方法作为基线方法。这些方法具体分为两类,分别是可微推理方法与表示学习方法
35、。可微推理方法:NeuralLP 和 DRUM 为知识图谱上的可微推理方法。NeuralLP提出一种神经控制系统,在知识图谱的推理过程中,可微地挖掘一阶逻辑规则。DRUM通过利用双向循环神经网络(BiRNN)对NeuralLP进行拓展。表示学习方法:选择了最普遍的基于表示学习的方法进行推理性能的比较。此种方法包含基于翻译模型的方法、基于语义分解的方法、基于卷积层与全连接层的方法以及基于预训练语言模型的方法。(1)基于翻译模型的方法利用分布式表示来描述知识库中的三元组,如TransE9、TransH36、TransR37、TransD38;(2)基于语义分解的方法将知识库中关系表示为矩阵,如Di
36、sMult16、ComplEx39;(3)基于卷积层的方法解决全连接层在训练时的过拟合问题,如ConvE14;(4)基于预训练语言模型的方法通过对三元组语义信息以及结构信息编码来对知识图谱进行表示,如KG-BERT40与StAR21。3.2实验指标与参数设置正如之前的介绍,实验通过知识图谱上的推理结果来判断模型的有效性。知识图谱上的推理通常为链接预测,用以下几个指标来评估有效性:Hitsk,平均倒数排名(mean reciprocal ranking,MRR),平均排名(mean ranking,MR)。Hitsk表示测试集S中目标三元组的得分在候选三元组中得分排名在前k个的比例:Hitsk=
37、1|S|i=1|S|I(ranki k)(17)MRR计算目标三元组在候选三元组中排名的平均倒数:MRR=1|S|i=1|S|1ranki(18)MR 计算目标三元组在候选三元组中排名的平均倒数:MR=1|S|i=1|S|ranki(19)本节使用 Hits1、Hits10 和 MRR 来全面展示DRaM的有效性。该方法实现的硬件环境是 Tesla V100 GPU。深度学习的平台为 Python 3.6 与 tensorflow1.14。其他参数设置如下:预训练模型含有 12 个 Transformer层、768维隐藏层以及12个多头注意力机制。最大序列长度为 256,学习率为 0.1,训练
38、批次为 64,Dropout为0.1,优化器选择Adam41,迭代次数为10。3.3不同模型的性能对比对于可微的知识图谱上的推理,将DRaM与其他方法进行性能比较,具体结果如表2和表3所示。(1)与可微推理方法结果比较表2中的结果说明了DRaM在链接预测中能取得有竞争力的效果。例如,与经典的可微方法NeuralLP和DRUM比较,对于链接预测的指标Hits1与MRR,虽然没有达到最优结果,但是对于 Hits3 与 Hits10,DRaM几乎已经达到最佳的推理结果。尤其在数据集Kinship上,Hits3与Hits10已经到达了1.00,充分说明了 DRaM的有效性。造成这种结果的原因可能是大语
39、言模型对于计算三元组的得分函数上有表1数据集信息Table 1Dataset statistics数据集FamilyUMLSKinship#三元组28 3565 9609 587#关系124625#实体3 007135104表2可微推理比较结果Table 2Comparison results of differentiable reasoning方法NeuralLPT=2T=3DRUMT=2T=3DRaMFamilyMRR0.910.880.920.950.47Hits10.860.800.860.910.02Hits30.960.950.980.980.99Hits100.990.990.
40、860.991.00KinshipMRR0.620.610.510.570.56Hits10.480.460.340.430.15Hits30.690.680.590.661.00Hits100.910.890.850.881.00表3可微推理与表示学习方法比较结果Table 3Comparison results of differentiablereasoning and representation learning方法TransETransHTransRTransDDisMultUMLSMR1.841.801.811.715.52Hits100.9890.9950.9940.9930.
41、846方法ComplExConvEKG-BERTStARDRaMUMLSMR2.591.511.471.491.87Hits100.9670.9900.9900.9911.0002408潘雨黛 等:基于大规模语言模型的知识图谱可微规则抽取很大的帮助,而链接预测的排名是由模型中的得分函数来进行排序,因此所有三元组的整体得分排名都在前 10。但是对于每个三元组预测时的准确率,也就是Hits1,还有待提高。DRaM 在三个数据集上 MRR 与 Hits1 的推理结果相较其他基线方法结果较低。两个指标相较于Hits3和 Hits10主要反映了三元组得分的准确程度。出现该现象主要原因是大规模语言模型的编
42、码部分会被数据集中谓词的频率影响42。在DRaM中,可微的规则抽取过程会将推理过程用一阶逻辑公式(4)来表示,从而通过谓词向量得到推理向量,并得到推理过程中抽取到的规则与其置信度。而对于Family数据集,有限的关系个数会导致有限的谓词,每个谓词出现频率不同,会对 query 的表征产生偏差。在 Family数据集中,12个谓词不足以涵盖所有的家庭成员关系。例如,以下一阶逻辑对应的推理过程:son(X,Z)husband(Z,Y)query(X,Y)(20)在 12个谓词中没有可以正确匹配father_in_law语义的答案。因此,在对query表征时不同谓词出现频率会使大规模语言模型影响表征
43、结果,进而影响抽取的一阶逻辑规则与三元组的得分,尤其是影响得分的准确程度,如 MRR 与 Hits1 的结果。而对于 Hits3和Hits10,尽管不能准确得到其得分,但query的语义信息也与谓词father_in_law语义有一定的相似性。(2)与表示学习方法结果比较表 3中的结果说明了 DRaM 与基于表示学习的方法相比也能取得较好的结果。例如,对于平均排名指标MR,相比于基于翻译模型和基于语义分解的方法,DRaM可以得到具有竞争力的结果。对比同样引入大语言模型的方法KG-BERT和StAR,虽然指标MR略低于这两种方法,但是对于Hits10,不管是基于翻译模型、基于语义分解模型的方法,
44、还是基于大语言模型的方法,DRaM都可以得到最优的结果。同时,将DRaM与黑盒的表示学习方法比较,可以获得一阶逻辑规则,为知识图谱上的推理过程提供可解释性。3.4消融实验表 4的结果说明了在 DRaM 中运用大规模预训练语言模型LLM与MLP的作用,同时在UMLS数据集上进行了消融实验。分别去掉LLM以及MLP后的两种 方 法 表 示 为“DRaM-w/o-LLM”和“DRaM-w/o-MLP”。通过知识图谱上的推理结果可以看到,当去掉LLM后,链接预测指标Hits10下降了16.0个百分点,MR上升了375.9%。去掉MLP后,链接预测指标Hits10下降了35.7个百分点,MR上升了628
45、.9%。由此结果可以验证DRaM中主要模块的有效性。3.5参数分析本节通过对重要参数的分析来说明参数选值对可微推理的重要性。(1)对规则最大长度的分析在DRaM中,通过抽取一阶逻辑规则来进行可微推理。这一过程中,规则的长度以及数量会影响可微推理的效果。图3(a)记录了当抽取的规则最大长度L=2,3,4时对链接预测结果的影响。从推理结果可以看出,当L=3时,DRaM可以获得最佳的推理效表4消融实验结果Table 4Ablation experiment results方法DRaM-w/o-LLMDRaM-w/o-MLPDRaMUMLSMR8.9013.631.87Hits100.8400.643
46、1.000图3不同参数对DRaM可微推理结果的影响Fig.3Impact of different parameters on differentiable reasoning by DRaM2409Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(10)果。这说明完整且较长的一阶逻辑规则可以得到更好的推理结果,但是过多的规则也会存在噪声,影响模型效果。(2)对预训练语言模型类别的分析考虑到方法实现的效率与复杂度,比较了不同的大规模语言模型对可微推理结果的影响。这里,选择 BERT(bidirectio
47、nal encoder representation from trans-formers)43和轻量级的ALBERT(a lite bidirectional en-coder representation from transformers)44作为预训练语言模型对 DRaM 进行编码。如图 3(b)所示,可以看出,不同的 LLM 会影响可微推理的结果。对于 4个链接预测指标,Hits1在使用 ALBERT 时相比较BERT 结果较低,其他指标如 Hits3、Hits10 和MRR只是略低于BERT。(3)对嵌入向量维度的分析除此之外,比较了不同的嵌入向量维度对可微推理结果的影响。如图 3
48、(c)所示,记录了当嵌入向量维度分别为 128、256 以及 512 时链接预测的结果。从记录的结果可以得到,当维度为 128时,链接预测中的 Hits1 指标较低。而当维度为 512 时,Hits1同样会有较为明显的下降。当嵌入向量维度为256时,DRaM可以得到最好的可微推理结果。这说明嵌入向量的维度会对三元组的得分以及链接预测的准确率有较大影响。3.6可解释性与规则抽取DRaM 在进行可微推理的时候可以抽取出一阶逻辑规则。每个一阶逻辑规则都有置信度来表示其合理性。表 5为在数据集 UMLS和 Family进行可微推理的过程中,DRaM抽取出的一阶逻辑规则。如表中所示,当 query为 I
49、sa时,抽取出的置信度更高的规则更加合理。比如,对于规则Isa(B,A)equal(B,A),置信度值为1,这条规则是一条正确的规则。而对于置 信 度 为 0.5 的 规 则 Isa(C,A)Indicates(C,B)Indicates(B,A),Indicates(C,B)意为“表示”,但不代表完全相同,因此,置信度并不为1。这说明通过DRaM抽取出的置信度和规则结构合理。4结论与未来工作本文在知识图谱的推理任务上,提出了一种可微的推理范式,通过融合一阶逻辑规则对知识图谱上的推理提供了可解释性。在实现过程中,针对连续空间与离散空间的鸿沟,设计得分函数对推理结果进行评估,同时融合离散的逻辑符
50、号公式以及连续的嵌入向量空间;对于一阶逻辑规则中原子公式的顺序问题,通过引入大规模语言模型对逻辑规则进行编码,提升规则融合效果。此过程不仅能够在三个知识图谱数据集上得到较好的推理结果,同时可以为模型提供可解释性。未来,将会在更多的知识图谱上验证方法的有效性,比如通用知识图谱、教育领域的知识图谱。同时也会在更多场景验证可微推理的作用,比如归纳学习领域等。参考文献:1 SUCHANEK F M,KASNECI G,WEIKU G.YAGO:a coreof semantic knowledgeC/Proceedings of the 16th Interna-tional Conference o