1、2023年第49卷第6期无线电通信技术1081doi:10.3969/j.issn.1003-3114.2023.06.013引用格式:吴楠,唐雪明.基于多头自注意力模型的本体匹配方法J.无线电通信技术,2023,49(6):1081-1087.WU Nan,TANG Xueming.Ontology Matching Method Based on Multi-Head Self-Attention Model J.Radio Communications Technology,2023,49(6):1081-1087.基于多头自注意力模型的本体匹配方法吴 楠1,唐雪明2(1.南宁师范大学
2、计算机与信息工程学院,广西 南宁 530199;2.南宁师范大学 物理与电子学院,广西 南宁 530199)摘 要:随着语义网的发展,本体数量不断增加,本体间的语义关系变得越来越复杂。因此,引入 OWL2Vec方法获取本体的语义嵌入表示。通常,匹配的类或属性具有相似的结构,因此利用了字符级和结构级的相似性度量。为高效融合多种相似度值,提出基于多头自注意力模型的本体匹配方法(Ontology Matching Method Based on Multi-Head Self-Attention,OM-MHSA)自主学习各相似度方法对匹配结果的贡献值。在国际本体对齐评测组织(Ontology Ali
3、gnment E-valuation Initiative,OAEI)提供的 Conference 数据集上进行实验,结果表明,相对 LSMatch 和 KGMatcher+方法,提出的模型准确率(Precision)提升了 6%,召回率(Recall)和 F1 值(F1-measure)超过了 ALIOn、TOMATO 和 Matcha 等方法。可见,提出的模型能够提升匹配结果的效率。关键词:语义关系;OWL2Vec;本体匹配;多头自注意力模型中图分类号:TP391.1 文献标志码:A 开放科学(资源服务)标识码(OSID):文章编号:1003-3114(2023)06-1081-07Ont
4、ology Matching Method Based on Multi-Head Self-Attention ModelWU Nan1,TANG Xueming2(1.School of Computer and Information Engineering,Nanning Normal University,Nanning 530199,China;2.School of Physics and Electronics,Nanning Normal University,Nanning 530199,China)Abstract:With the development of the
5、Semantic Web,the number of ontologies continues to increase,which leads to the semantic relationships between ontologies becoming increasingly complicated.Consequently,an OWL2Vec approach is introduced to obtain se-mantic embedding representations of ontologies.Typically,matching classes or properti
6、es have similar structures,thus utilizing character-level and structural-level similarity metrics.In addition,to integrate multiple similarity values efficiently,the Ontology Matching Method Based on the Multi-Head Self-Attention(OM-MHSA)Model is proposed to independently learn the contribution valu
7、e of each similarity approach to the matching results.Experiments on the Conference dataset delivered by the Ontology Alignment Evaluation Initiative indi-cate that the proposed method enhances the Precision by 6%compared with LSMatch and KGMatcher+methods,and the Recall and F1-measure exceeds metho
8、ds such as ALIOn,TOMATO,and Matcha.It can be noted that the proposed model can enhance the efficiency of matching results.Keywords:semantic relationships;OWL2Vec;ontology matching;MHSA model收稿日期:2023-07-25基金项目:广西研究生教育创新计划项目(YCSW2023437)Foundation Item:Innovation Project of Guangxi Graduate Education
9、(YCSW2023437)0 引言本体(Ontology)通常由该领域内的专家、学者定义,由于构建准则的多样性及研究者们对于知识理解的程度不同,导致本体异构(Ontology Heteroge-neity)现象1。为建立具有语义相关概念之间的对应关系,解决不同本体间的知识共享问题,提出了本体匹配(Ontology Matching,OM)方法,本体匹配也称为本体对齐(Ontology Alignment,OA)2。研究表明,两个概念间单一的相似度方法无法准确判断两个概念是否匹配,综合衡量多种相似性1082Radio Communications TechnologyVol.49 No.6 20
10、23策略可以有效提升匹配效率3。近年来,研究者们围绕如何更高效地整合多种相似度计算结果,提出基于机器学习的本体匹配方法4。该方法的基本思想是将匹配问题转化为分类问题,采用分类模型判断两个概念是否匹配。例如,Bulygin 等人5提出一种将基于字符、语言和结构的相似性结果与机器学习技术相结合的方法。该方法未考虑不同相似性结果之间的相关性,导致匹配结果不理想。因此,吴子仪等人6提出一种基于自注意力模型融合多维相似度的方法。实验结果表明,与传统的机器学习方法相比,该方法能够自主学习不同相似度方法之间的权重,从而高效地融合匹配结果,得到了更佳的匹配效果。此外,Rudwan 等人7提出一种将模糊字符匹配
11、算法和双向编码器模型与三个回归分类器相结合的方法。首先,考虑了本体的词汇和语义特征,以解决模糊字符匹配算法的局限性。然后,使用机器学习方法改善匹配的结果。该方法忽略了概念间的结构特征,导致匹配结果的准确率不高。综上所述,本文提出一种基于多头自注意力模型的本体匹配方法(Ontology Matching Method Based on the Multi-Head Self-Attention Model,OM-MHSA)。主要有三个贡献:同时考虑类和属性的多种相似度。采用 OWL2Vec方法8获取本体的语义嵌入表示,高效提取本体中包含的图结构、词汇信息以及逻辑构造函数等语义信息,以挖掘本体间隐
12、藏的语义关系。使用 Multi-Head Self-Attention Model融合三种不同相似性度量结果并判断实体是否匹配。1 相关工作1.1 相关定义因本体的结构较为复杂,通常采用 Web 本体语言(Web Ontology Language,OWL)进行描述。当前,对本体没有标准的定义,将采用最常见的形式化定义。定定义义 1 1 本体9按照分类法由 5 个基本元素构成。通常也将本体写为如下三元组形式:O=,(1)式中:C 代表类集合,P 代表属性集合,H 代表类的层次关系。类和属性统称为概念,而概念的实例也称为实体10。因此,本文将同时考虑本体中类和属性的相似度。定定义义 2 2本体匹
13、配11方法的思想是找到具有相似或相同含义的概念之间的语义关联,其中每一对关联概念被称为一个匹配对(或映射对)。为方便理解,本文的匹配任务仅考虑两个概念等价的情况。对于两个待匹配的本体 O1和 O2,可写成如下形式:R=,(2)式中:R 代表两个本体的匹配结果,e1O1代表本体O1中的实体,e2 O2代 表 本 体 O2中 的 实 体,f(e1,e2)代表实体 e1与 e2关系的置信度,且 f 的取值区间为0,1。f 值越大,说明实体 e1与 e2表示相同事物的概率越高。1.2 相似度度量方法本体匹配方法一般是研究不同本体间实体的相似性,从而实现本体间的互操性。为全面、精确地衡量本体中类和属性的
14、相似性,可以从字符级、语义级和结构级等不同角度出发。1.2.1 基于字符的相似性计算方法该方法的基本思想是:对于待匹配的两个实体,将字符的共现和重复程度作为匹配对的相似值12。常规的计算方法有 N-gram、编辑距离(Edit Dis-tance)、最长公共子串(Longest Common Sub-string)等。基于 N-gram 计算实体的相似度公式如下:sim(e1,e2)=mNmax(length(e1),length(e2),(3)式中:N 代表滑动窗口的大小,通常取值为 1、2、3、4;m 代表实体 e1与 e2同时出现 N 个相同排序的字符个数;max(length(e1),
15、length(e2)代表取实体 e1与 e2长度的最大值。利用式(3)以 N=3 为例,计算 e1=“significant”和 e2=“signature”的相似度值如下:e1与 e2具有两个相同排序的字符“sig”“ign”,故相似度为 sim(e1,e2)=2(3/11)=0.545。“significant”译为显著的,“signature”译为签名,二者在语义上并无关联。因此,不能只考虑该方法,需结合其他相似度计算方法。1.2.2 基于语义的相似性计算方法顾名思义,该方法可挖掘实体间语义层面的相似性13。常用的方法有同义词典 WordNet14、词嵌入 Word2vec15。与典型的
16、知识图相比,OWL 不仅包含图结构、词汇信息,还包括逻辑构造函数(Logi-cal Constructors)。而 OWL2Vec方法可以较好地对2023年第49卷第6期无线电通信技术1083这 些 信 息 进 行 语 义 编 码,所 以 本 文 将 选 择OWL2Vec方法获取匹配本体的语义表示,再使用式(4)计算相似度:sim(v1,v2)=v1v2v1v2=ni=1(v1iv2i)ni=1v21ini=1v22i,(4)式中:v1代表实体 e1的语义嵌入表示,v2代表实体e2的语义嵌入表示,sim(v1,v2)的取值范围为-1,1,-1 表示实体 e1与 e2完全不相似,1 表示完全相似
17、。1.2.3 基于结构的相似性计算方法本体除文本信息外,还可利用 subclassof、is-a 和part-of 等语义关系获取本体的结构信息。匹配的类或属性往往具有相似的结构16。因此,本文将考虑实体的父类及类路径之间的相似度。例如,使用Protg 软件查看 ekaw 本体概念层次的部分结果如图 1 所示,可以看出,对于类“Conference_Trip”,其父类为“Social_Event”,类的完整路径为“Thing/Event/Social_Event/Conference_Trip”。图 1 父类及其路径信息Fig.1 Parent class and its path infor
18、mation2 基于多头自注意力的本体匹配模型图 2 为本文提出的匹配模型,处理过程主要分为 4 步。首先处理输入的 OWL,接着计算相似度值,然后利用 Multi-Head Self-Attention 模型学习特征的权重,最后输出匹配的结果。图 2 本体匹配模型图Fig.2 Ontology matching model diagram2.1 数据预处理(1)提取文本信息本体包含丰富的信息,但有些信息利用描述逻辑(Description Logic,DL)隐式表示。因此,需利用特定工具解析待匹配本体。本文选择 OWLReady2包中可操作 OWL 的函数,抽取待匹配本体的类、属性、类的父类
19、及类的完整路径等信息。(2)获取语义嵌入表示首先,从本体的图结构、逻辑构造函数和词汇中提取信息,构建相应的结构和词法语料库。然后,从结构语料库和实体注释中进一步提取出组合文档,以保留词汇信息中实体和单词间的相关性。最后,将结构、语法和组合语料库融合为一个语料库,利用Skip-gram 模型训练词嵌入,以获得本体的语义嵌入表示。2.2 计算相似度值 从本体 O1和 O2中取出两个待匹配的类和属性,记为实体 e1与 e2,将实体的父类记为 parent1和 parent2,将类的完整路径记为 Path1和 Path2。利用式(3)(4)依次计算实体 e1与 e2的字符、语义和结构相似度,分别记为
20、simstring(e1,e2),simsemantic(e1,e2),simstructure(e1,e2);同理,计算实体父类及类路径的字符、语义以及结构相似度。1084Radio Communications TechnologyVol.49 No.6 20232.3 相似度特征矩阵假设本体 O1和 O2共有 N 个实体对待匹配,其中每个实体对记为 i。对于待匹配的实体对 i 分别使用字符级、语义级和结构级的相似度方法计算其相似度值。其相似度特征向量可写为如下形式:Xi=simstringi,simsemantici,simstructurei,(5)式中:i 代表实体对,取值范围为1,
21、N;Xi表示实体对 的 相 似 度 特 征 向 量;simstringi、simsemantici和simstructurei分别表示实体对的字符、语义和结构相似度特征向量。经过上述步骤,可得本体 O1和 O2间的相似度特征矩阵。2.4 Multi-Head Self-Attention 模型为高效融合实体对的字符、语义和结构相似度特征,引入 Multi-Head Self-Attention 模型17自主学习每种相似度方法的权重,以 Head=3 为例,其模型如图 3 所示。图 3 Multi-Head Self-Attention 模型图Fig.3 Multi-Head Self-Atte
22、ntion model diagram 对每组输入特征 X=x1,x2,xn 都与三个权重矩阵相乘,取得查询向量(Query)、键向量(Key)和值向量(Value)。计算如式(6)(8)所示:Qi=WQiX,(6)Ki=WKiX,(7)Vi=WViX,(8)式中:i 的取值为 1、2、3,WQ、WK、WV分别代表三个权重矩阵,X 代表相似度特征矩阵。使用缩放点积注意力(Scaled Dot-Product Attention)计算注意力得分,并利用 softmax 函数将注意力分数映射到0,1。计算如下:Attention(Q,K,V)=softmaxKTQDk(),(9)式中:Attent
23、ion(Q,K,V)表示多头注意力层的输出向量,KTQ 表示注意力权重的计算过程,Dk表示查询和键的长度。利用式(10)(11)合并三个头的结果:Headi=Attention(Qi,Ki,Vi),i=1,2,3,(10)MultiHead(Q,K,V)=Concat(Head1,Head2,Head3)。(11)最后连接一个全连接层判断本体是否匹配。3 实验结果及分析3.1 实验环境及数据集实验 运 行 环 境 为 Intel(R)Core(TM)i7-6700CPU 3.4 GHz,内存为 8 GB 的计算机,采用Python 语言编写。本次实验采用本体对齐评测组织(Ontology Al
24、ignment Evaluation Initiative,OAEI)竞赛在 2023 年提供的 Conference 数据集,该数据集是描述组织会议领域的本体集合,由 16 个本体组成,提供 7 个具有基本事实的对齐,从而产生 21 个本体对。各本体包含的类和属性数(数据属性和对象属性)及标准等价匹配数如表 1 和表 2 所示。表 1 各本体的具体信息Tab.1 Specific information for each ontology本体名称类数数据属性数对象属性数ekaw74033sigkdd491117iasted140338micro32917confious57552pcs231
25、4242023年第49卷第6期无线电通信技术1085续表本体名称类数数据属性数对象属性数openconf622124confOf382313cmt361049crs14215cocus55035paperdyne472161edas1042030myreview391749linklings371631sofsem601846表 2 匹配本体及对应的匹配数Tab.2 Matching ontology and corresponding number of matches匹配本体等价匹配数匹配本体等价匹配数cmt-conference15confOf-iasted9conference-ias
26、ted14confOf-sigkdd7edas-ekaw23cmt-confOf16conference-edas17conference-ekaw25cmt-sigkdd12cmt-ekaw11edas-sigkdd15confOf-ekaw20ekaw-sigkdd11iasted-sigkdd15cmt-edas13cmt-iasted4conference-sigkdd15edas-iasted19confOf-edas19ekaw-iasted10conference-confOf153.2 评价指标OAEI 为本体匹配结果提供了参考标准,其评价指标使用准确率(Precision),
27、召回率(Recall),F1 值(F1-measure),其计算公式如(12)(14)所示:Precision=|MR|M|,(12)Recall=|MR|R|,(13)F1=2PRP+R,(14)式中:M 代表使用本文匹配方法得到的匹配结果,R 代表由 OAEI 提供的可参考的匹配结果。3.3 实验设计与对比3.3.1 基于机器学习方法的分类结果及分析为研究类和属性相似度及利用 OWL2Vec方法获取本体语义嵌入表示的有效性,本文利用逻辑回归(Logistic Regression,LR)18、随机森林(Random Forest,RF)19和极致梯度提升(EXtreme Gradient
28、Boosting,XGBoost)18这三种机器学习方法对匹配结果进行分类。实验参数的设置:LR:正则化参数(Penalty)采用“l2”,损失函数优化器(Solver)选择“lbfgs”,分类方式(multi_class)选择“auto”,最大迭代次数(max_iter)为 100。RF:设置子树数量(n_estima-tors)为 100,树的最大生长深度(max_depth)为 2,叶子的最小样本数量(min_samples_leaf)为 1。XG-Boost:叶节点分支时所需损失减少的最小值(gam-ma)为 0.8,树的最大深度(max_depth)为 5,孩子节点最小的样本权重和(
29、min_child_weight)为 1。本文选择 conference、edas、cmt、sigkdd、confOf、ekaw、iasted 七个本体作为测试集,其余 14 个本体作为训练集。分类结果的最佳 F1 值如表 3 所示。表 3 各分类模型的 F1 值Tab.3 F1-measure for each classification model匹配本体LR18RF19XGBoost18conference-edas0.570.570.57cmt-sigkdd0.890.890.89confOf-ekaw0.400.400.44cmt-edas0.860.860.86confOf-ia
30、sted0.570.570.57iasted-sigkdd0.890.750.91edas-sigkdd0.500.500.50Average0 0.6 67 70 0.6 65 50 0.6 68 8 与未使用 OWL2Vec方法获取语义表示时,使用 LR、RF 和 XGBoost 方法分类的 F1 值对比结果如图 4 所示。图 4 F1 值前后对比图Fig.4 F1-measure original and present comparison由图 4 可知,同时探求类和属性的相似度,并利用 OWL2Vec方法获取本体语义表示,在 LR 和1086Radio Communications
31、TechnologyVol.49 No.6 2023XGBoost 的分类效果上 F1 值都提升了 2%。主要有两方面的原因:第一,OWL2Vec方法可以充分利用本体 OWL 中所包含的图结构、词汇信息以及逻辑构造函数等信息,高效地进行语义编码,以便挖掘出匹配对之间隐含的语义关系,从而提升匹配结果的效率。第二,Conference 数据集中本体的类和属性的数据量相对来说较小。因此,在使用 LR 和 XG-Boost 方法分类时,计算量不大且速度较快。而在使用 RF 方法分类时,由于特征较少,容易出现分类不平衡问题,导致其 F1 值不高。3.3.2 基于 Multi-Head Self-Atte
32、ntion 模型的匹配结果及分析为充分融合字符级,语义级和结构级的相似度值,本文引入 Multi-Head Self-Attention 模型自主学习三种相似性方法之间的权重。在匹配结果的对比实验中,选择与近几年的 14 种匹配方法20展开比较。结果如表 4 所示。表 4 各方法的匹配结果Tab.4 Matching results of each method匹配方法准确率召回率F1 值LogMap0.760.560 0.6 64 4LogMapLt0.680.470.56LSMatch0.830.410.55Matcha0.370.070.12SEBMatcher0.790.480.60S
33、tringEquiv0.760.410.53TOMATO0.090 0.6 60 00.16KGMatcher+0.830.380.52GraphMatcher0.750.550.63edna0.740.450.56ATMatcher0.690.510.59AMD0.820.410.55ALIOn0.660.190.3ALIN0.820.440.57OM-MHSA(ours)0 0.8 89 90.370.52 由表 4 可得,OM-MHSA 方法在准确率上达到89%,相对于 LSMatch 和 KGMatcher+方法提升了6%,即取得最优的结果。在召回率方面,OM-MHSA方法也高于 Ma
34、tcha 和 ALIOn 方法。在 F1 值方面,OM-MHSA 方法超过了 ALIOn、TOMATO 和 Matcha等方法。主要有以下原因:LSMatch 方法只考虑了字符相似度和同义词匹配,没有考虑本体间的结构关系;KGMatcher+方法主要考虑了基于字符和实例 的 匹 配,没 有 考 虑 本 体 间 的 语 义 关 系;LSMatch、KGMatcher+以及 ALIOn 等方法都未匹配概念间的属性。另外,导致 TOMATO 方法准确率不高的原因是该方法会为同一实体对输出多个匹配结果,并将置信度值指定为 1.0。综上,本文利用OWL2Vec方法可以获取匹配对之间更深层次对应的语义关系
35、,然后充分考虑类和属性的字符、语义和结构等多种相似性度量方法,并引入 Multi-Head Self-Attention 模型自主学习每种相似度方法对匹配结果的贡献值,从而提升了匹配的效果。4 结束语本文同时考虑类和属性的多种相似度,并使用OWL2Vec 方法获取本体的语义表示,并引入Multi-Head Self-Attention 模型融合两个概念间的多种相似 度。实 验 结 果 表 明,相 对 于 LSMatch 和KGMatcher+方法,OM-MHSA 方法准确率提升了6%,证明该方法可以有效地提升匹配结果的效率。该方法也有不足之处,未来的相关研究,将从以下方向探索:加入外部资源是提
36、升匹配质量的一种方式。因此,可以考虑加入外部知识。本文选择的字符相似度方法相对单一,可探究多种不同的字符相似度计算方法。在计算结构相似度时,主要研究概念的父类及其路径之间的相似度,可探讨概念子类间的相似度。参 考 文 献1 XUE X,LIU W.Integrating Heterogeneous Ontologies in Asian Languages Through Compact Genetic Algorithm with Annealing Re-sample Inheritance MechanismJ.ACM Transactions on Asian and Low-Reso
37、urce Language Information Processing,2023,22(3):1-21.2 HE Y,CHEN J,ANTONYRAJAH D,et al.BERTMap:A BERT-based Ontology Alignment System C Pro-ceedings of the AAAI Conference on Artificial Intelli-gence.Washington D.C.:AAAI,2022:5684-5691.3 TROJAHN C,VIEIRA R,SCHMIDT D,et al.Foundational Ontologies Mee
38、t Ontology Matching:A SurveyJ.Semantic Web,2022,13(4):685-704.4 LIU X,TONG Q,LIU X,et al.Ontology Matching:State of the Art,Future Challenges,and Thinking Based on Utilized InformationJ.IEEE Access,2021,9:91235-91243.2023年第49卷第6期无线电通信技术10875 BULYGIN L,STUPNIKOV S A.Applying of Machine Learning Techn
39、iques to Combine String-based,Language-based and Structure-based Similarity Measures for Ontology MatchingCConference on Data Analytics and Man-agement in Data Intensive Domains(DAMDID/RCDL),Moscow:DAMDID,2019:129-147.6 吴子仪,李邵梅,姜梦函,等.基于自注意力模型的本体对齐方法J.计算机科学,2022,49(9):215-220.7 RUDWAN M S M,FONOU-DOM
40、BEU J V.Hybridizing Fuzzy String Matching and Machine Learning for Improved Ontology AlignmentJ.Future Internet,2023,15(7):1-31.8 CHEN J,HU P,JIMENEZ-RUIZ E,et al.OWL2Vec:Embedding of OWL OntologiesJ.Machine Learning,2021,110(7):1813-1845.9 张希然.基于词嵌入和结构相似度的本体匹配研究D.哈尔滨:哈尔滨工业大学,2021.10 ZHANG R,TRISEDY
41、A B D,LI M,et al.A Benchmark and Comprehensive Survey on Knowledge Graph Entity Alignment via representation Learning J.The VLDB Journal,2022,31(5):1143-1168.11 LYU Z,PENG R.A Novel Periodic Learning Ontology Matching Model Based on Interactive Grasshopper Optimi-zation Algorithm J.Knowledge-based S
42、ystems,2021,228:107239.12 PRAKOSO D W,ABDI A,AMRIT C.Short Text Similarity Measurement Methods:A Review J.Soft Computing,2021,25:4699-4723.13 RACHARAK T.On Approximation of Concept Similarity Measure in Description Logic ELH with Pre-trained Word EmbeddingJ.IEEE Access,2021,9:61429-61443.14 HUSSAIN
43、M J,BAI H,WASTI S H,et al.Evaluating Semantic Similarity and Relatedness Between Concepts by Combining Taxonomic and Non-taxonomic Semantic Features of WordNet and Wikipedia J.Information Sciences,2023,625:673-699.15 SHARMA A,KUMAR S.Ontology-based Semantic Retrieval of Documents Using Word2vec Mode
44、lJ.Data&Knowledge Engineering,2023,144:1-18.16 MA Z,YUAN Z,YAN L.Two-level Clustering of UML Class Diagrams Based on Semantics and StructureJ.Information and Software Technology,2021,130:1-14.17 VASWANI A,SHAZEER N,PARMAR N,et al.Attention is All You NeedCProceedings of the 31st International Confer
45、ence on Neural Information Processing Systems.Long Beach:NIPS,2017:5998-6008.18 TAO H,AWADH S M,SALIH S Q,et al.Integration of Extreme Gradient Boosting Feature Selection Approach with Machine Learning Models:Application of Weather Relative Humidity PredictionJ.Neural Computing and Applications,2022
46、,34(1):515-533.19 ABDULKAREEM N M,ABDULAZEEZ A M.Machine Learning Classification Based on Radom Forest Algo-rithm:A ReviewJ.International Journal of Science and Business,2021,5(2):128-142.20 POUR M A N,ALGERGAWY A,BUCHE P,et al.Results of the Ontology Alignment Evaluation Initiative 2022CProceedings of the 17th International Workshop on Ontology Matching.Hangzhou:OAEI,2022:84-128.作者简介:吴 楠女,(1998),硕士研究生。主要研究方向:语义 Web、机器学习。唐雪明女,(1999),硕士研究生。主要研究方向:深度学习、时间序列预测。