基于领域知识图谱和对比学习的汉越跨境民族文本检索方法.pdf

资源描述

1、CNATURASCIENCEJuly,20232023年7 月JOURNALOHNANNGUNIVERSITYVol.59,No.4第5 9 卷第4期南京大学学报（自然科学）DOI:10.13232/ki.jnju.2023.04.008基于领域知识图谱和对比学习的汉越跨境民族文本检索方法刘思源1.2.3,毛存礼1.2.3,张勇丙1,2,3*（1.南亚东南亚语言语音信息处理教育部工程研究中心，昆明，6 5 0 0 0 0；2.昆明理工大学信息与自动化学院，昆明，6 5 0 0 0 0；3.云南省人工智能重点实验室，昆明理工大学，昆明，6 5 0 0 0 0）摘要：汉越跨境民族文本检索是一类面向

2、领域的跨语言检索任务，旨在以一种语言作为问题查询，检索出另一种语言对应的民族、宗教、文化习俗等跨境民族文档.但在汉越跨境民族文本检索任务中存在大量不常见的领域实体，实体表达形式多样，且中文和越南语两种语言领域实体没有直接对应关系，导致跨语言领域词对齐和语义对齐困难，进而影响汉越跨境民族文本检索模型性能。基于此，提出一种基于领域知识图谱和对比学习的汉越跨境民族文本检索方法.首先，利用多头注意力机制将汉越跨境民族领域知识图谱融入查询和文档，丰富查询和文档中不常见的跨境民族领域实体信息；然后，引人对比学习来解决跨语言查询和文档的语义表征对齐困难问题；最后，将融人知识图谱的查询和文档表征之间的相似度计

3、算作为相关性分数实验表明，提出的方法和基线模型相比，性能提高了4.1%.关键词：跨境民族文化，跨境民族知识图谱，跨语言检索，对比学习，信息检索中图分类号：TP301文献标志码：AA Chinese-Vietnamese cross-border ethnic text retrieval methodbased on domain knowledge graph(1.South Asia and Southeast Asia Languages Voice Information Processing Engineering Research Center underthe Ministry

4、of Education,Kunming,650000,China;2.School of Information and Automation,Kunming University ofScience and Technology,Kunming,650000,China;3.Key Laboratory of Artificial Intelligence inYunnan Province,Kunming University of Science and Technology,Kunming,650000,China)Abstract:Chinese-Vietnamese cross-

5、border ethnic text retrieval is a type of domain-oriented cross-language retrieval task,which aims to use one language as a query to retrieve cross-border ethnic documents such as ethnicity,religion,and culturalcustoms corresponding to another language.However,in the Chinese-Vietnamese cross-border

6、ethnic text retrieval task,thereare a large number of uncommon domain entities with various expressions,and there is no direct correspondence betweenChinese and Vietnamese language domain entities,which leads to difficulties in word alignment and semantic alignment incross-language domains,and in tu

7、rn affects the performance of the Chinese-Vietnamese cross-border ethnic text retrievalmodel.Based on this,this paper proposes a Chinese-Vietnamese cross-border ethnic text retrieval method that integratesdomain knowledge graphs.First,the multi-head attention mechanism is used to integrate the Han-V

8、ietnamese cross-borderethnic domain knowledge graph into queries and documents,enriching the uncommon cross-border ethnic domain entity基金项目：国家自然科学基金（6 2 16 6 0 2 3，6 18 6 6 0 19），云南省自然科学基金重点项目（2 0 19FA023）收稿日期：2 0 2 30 5 一2 4*通讯联系人，E-mail:611刘思源等：基于领域知识图谱和对比学习的汉越跨境民族文本检索方法第4期information in queries a

9、nd documents.Then,contrastive learning is introduced to address the difficult problem of aligningsemantic representations of cross-lingual queries and documents.Finally,the similarity between the query and documentrepresentation incorporated into the knowledge graph is calculated as a relevance scor

10、e.Experiments show that the proposedmethod outperforms the baseline model by 4.1%.Key words:cross-border national culture,Cross-border ethnic knowledge map,cross-language search,Contrastive learning,informationretrieval跨境民族指居住地“跨越”了国境线但又保留原来共同的某些民族特色、彼此之间有同一民族认同感的民族。汉越跨境民族文本检索任务是指以一种语言作为问题查询，在大规模跨境民

11、族文档集合中检索出另一语言的文档的工作，对汉越跨境民族热点事件发现、跨语言问答工作的开展具有重要的支撑作用.因此，汉越跨境民族文本检索研究工作具有重要的意义：然而，在汉越跨境民族领域中存在大量不常见的领域实体、实体的表达形式多样以及汉越领域实体缺失等问题，如表1所示，中文查询中有两个关键词“楞贺桑勘”和“傣族（nguoiDai)”（见表中的黑体字）.在中文跨境民族中的“泼水节”“楞贺桑勘”“桑勘比迈”与越南语跨境民族中的LhoitamPhat（浴佛节）、Songkran（宋干节）都是表达泼水节节日活动，而“楞贺桑勘”和“桑勘比迈”是比较特殊的领域实体，在越南语中没有对应的越南语实体.另外，在跨

12、境民族中，“傣族（nguoiDai)与“掸族（NguoiShan）佬族(NguoiLao)”“泰族（NguoiTay）”等都表达相同含义的民族，但民族名称表达形式多样.以上这些问题凸显了汉越跨境民族的领域特性，而且在汉越跨境民族文本检索中,还面临领域词对齐困难和语义对齐困难的问题当前通用的跨语言文本检索模型无法表1汉越跨境民族文本检索数据样例Table 1An example of Chinese-Vietnamese cross-bor-der ethnic text retrieval data编号检索：族的楞贺桑勘Le hoi te nuroc la 1e hoi quoc gia tr

13、ang trong va co tam anh1huong lon nhat cia nguoi dan nguroi Dai.L hoi te nuroc Nguroi Dai pho bien o Yunnan Dehong,Xi-2shuangbanna va nhitng noikhac.L hoi te nuoc th hien nt van hoa truyen thong cia3Nguroi Dainhuvan hoa songnuoc.解决这些问题，导致通用模型无法精准地检索相应的跨境民族文档，针对以上问题，本文改进了Izacard etal1的mContriever方法，提

14、出一种基于领域知识图谱和对比学习的汉越跨境民族文本检索方法.首先，利用汉越跨境民族知识图谱扩充查询和文档中的实体表征并融合在查询和文档中；然后，利用多头注意力机制来实现丰富查询文档相关的汉越跨境民族实体信息；最后，基于对比学习的方法，将融合跨境民族实体后的查询和文档表征对齐在同一空间下并计算相关性得分.本文的主要贡献：（1)通过融入汉越跨境民族领域知识图谱来扩充查询和文档中的实体表征，缓解不常见的领域实体以及实体表达形式多样问题，（2）引人对比学习方法，实现汉越跨境民族查询文档中的领域词表征以及汉越两种语言语义表征对齐，（3)利用查询和文档融合机制自适应地将汉越跨境民族领域知识图谱融合在查询文

15、档中，丰富跨境民族领域相关语义信息：1相关工作跨语言文本检索是在大规模目标语言文本集合中查找相关文档来回答特定查询的任务，其核心在于学习查询和文档之间的潜在语义特征以及度量特征之间的相似性，通用的跨语言检索模型在通用领域中得到了很好的应用，主要分两大类：传统的跨语言文本匹配方法和基于深度学习的跨语言文本检索方法.传统的跨语言文本检索方法借助翻译手段，对查询词或待检索文档进行翻译后再进行单语检索.查询翻译方法，如Gao etal2对查询文本进行翻译，将其转换为待查询文档语种，再通过单一语612第5 9 卷南京大学学报（自然科学）言的信息检索技术实现跨语言信息检索.文档翻译方法对待查询文档进行翻译

16、，将其转换为查询文本语种，再通过单一语言的信息检索技术检索文档.中间语言翻译方法，如黄国斌等 3 在进行跨语言信息检索之前，将所有查询文本和待查询文档翻译为同一种中间语言，通过单一语言的信息检索技术，对中间语言查询文本进行信息检索。然而，基于翻译的方法的性能受到机器翻译质量的限制，需要处理翻译歧义等问题，如XuandWeischedel4提出一种基于双语词典的方法来解决翻译歧义问题.基于翻译的方法主要针对通用语种，而越南语属于低资源语言，和通用语种相比（如英语、中文)存在较大差异，基于翻译的方法在汉越跨境民族领域中不准确，这些检索方法不适用.当前，基于深度学习的跨语言检索方法在跨语言信息检索中

17、得到了广泛的应用，不需要翻译即可直接处理跨语言信息检索任务的语义对齐方法受到了广泛关注，使用基于神经网络的跨语言词嵌人方法将查询和文档对齐到同一空间中，并在对齐的空间中执行查询文档匹配.2 0 13年Huang et al5提出一个深度词袋模型,通过点积查询表示与文档表示来获得相关性分数.Shenetal（2 0 14年）和Palangietal7（2 0 16 年）分别使用卷积神经网络和递归神经网络替换词袋模型来改进该方法.随着语言模型在自然语言中得到广泛应用，越来越多的跨语言文本检索技术使用了多语言模型，如Piresetal8利用多语言版本BERT及Conneau and Lample提出

18、跨语言模型XLM来执行跨语言检索任务，已成为跨语言信息检索领域的主流方法，综上，使用多语言预训练方法可以提高跨语言文本检索的准确性，通用的跨语言信息检索方法也取得了不错的效果.但在汉越跨境民族领域中存在大量不常见的领域实体，且实体表达形式多样，通用的跨语言信息检索模型无法有效检索相关的领域实体，因此不适用于领域类的汉越跨境民族文本检索任务.本文通过融人汉越跨境民族领域知识图谱的方法，可以有效地缓解跨境民族文化领域中存在的问题.2汉越跨境民族知识图谱当前通用领域的知识图谱和跨境民族知识图谱的差异较大，无法直接用于汉越跨境民族文本检索任务，因此，本文对已有的中文跨境民族知识图谱进行扩充，已有的中文

19、跨境民族知识图谱包含傣族、泰族、佬族、掸族、阿萨姆族和彝族六个民族，每个民族都包括宗教、建筑、饮食、习俗、服饰和艺术六个类别.中文跨境民族实体的属性包含名称、别称、描述内容等，如实体“坛坛酒”的实体别称为“咂酒”，实体描述内容为“傣族饮品”。本文对已有的中文跨境民族知识图谱 10 进行扩充，在百科词条、维基百科、各大民族网站收集并筛选大量的中文跨境民族知识三元组，并根据扩充后的中文跨境民族知识图谱中的实体在维基百科中爬取相应越南语实体扩充为越南语知识图谱.扩充后的汉越跨境民族知识图谱类别数量如表2 所示.表2 扩充后的汉越跨境民族知识三元组的数量Table 2The expanded tria

20、d scale of Chinese-Vietna-mesecross-borderethnicknowledge类别中文知识三元组越南语知识三元组宗教文化718568建筑文化491402服饰文化623538饮食文化558444艺术文化488376习俗文化646350共计352426783基于对比学习的汉越查询和文档对齐方法对比学习是一种依赖每个文档在某种程度上都是独一无二的事实的方法，本文采用对比学习 1 的方法来训练跨语言查询文档，使其对齐到同一空间中.通过对比损失来学习区分文档，这种损失比较正（来自同一文档)或负（来自不同文档)文档表示对，通过构建正负样本对可以使模型更好地学习目标类别的

21、特征表示.将正样本与负样本进行比较，使模型能够学习区分目标类别与613刘思源等：基于领域知识图谱和对比学习的汉越跨境民族文本检索方法第4期其他类别的决策边界，这有助于提高模型在未见过的数据上的泛化能力。3.1对比学习中正负样本对构建对比学习的一个关键要素是从单个文本构建正负样本对.在计算机视觉中，Wuetal1和Chenetal12对同一张图像应用两个独立的数据增强，从而产生两个正对的“视图”本文考虑了类似的数据处理，对跨境民族数据进行数据增强.如表3所示，表中黑体字表示中文查询的关键词.表3汉越跨境民族文化正负样本示例Table 3Examples of positive and negat

22、ive samples ofHan-Vietnamese cross-border ethnic culture中文文本越南语文本类型傣族人在泼水节Nguoi Dai xem dua thuyen rong原数据期间看龙舟赛，trong Lhoitnuoc.傣族人看龙舟比NguoiDai co thuyenrong trong L正样本赛.hoiSongkran.傣族人在火把节Nguoi Dai xtr Dai xem dua thuyen负样本期间看龙舟赛，rong trong Lhoiduoc.3.2对比学习正样本构建2019 年 Lee et al13提出逆完形填空任务是一种数据增强，可

23、生成文档的两个互斥视图，第一个视图通过从一段文本中随机采样一个段落范围获得，而该范围的补码形成第二个视图.具体地，给定一个序列文本(w1,w2,wn),截取文本的跨度为(wa，,w)(1abn).把截取跨度为（wa，,w）和(W,Wa-1,W+1,w,)的文本都作为正样本.另外，独立裁剪是一种常见的独立数据增强，该策略从文档中独立采样两个段落以形成正对.两个段落都对应于原始数据的连续子序列.3.3对比学习负样本构建构建负样本和构建正样本逆完形填空任务相似，只不过是把截取文本段落替换为其他文本，比如，对一个序列文本(,Wa,W,w),随机替换段落文本得到一个新的序列文本(,na,nb,),其中，

24、（na，,n)是随机替换文本.另外，将汉越跨境民族中的专有领域实体随机替换、删除或屏蔽.4基于领域知识图谱和对比学习的汉越跨境民族文本检索方法4.1模型框架该模型主要由汉越跨境民族查询和文档表征层、汉越跨境民族查询和文档实体扩展层、汉越跨境民族查询和文档特征融合层、汉越跨境民族对比学习层及相关性分数计算五部分构成,模型结构如图1所示。4.2汉越跨境民族查询文档向量表征该层采用XLM-R语言模型对跨境民族查询和文档进行向量表征，查询和文档实现了动态表征向量，汉越跨境民族查询和文档分别视为序列q=(q1,q2,qn)和序列d=di,d2,d.)组成,其中，q;和d,分别是查询和文档的第i个词.q和

25、d通过XLM-R训练得到的查询和文档的表征向量如式(1)和式(2)所示:V,=XLM-R(q)(1)Va=XLM-R(d)(2)其中，V。和Va分别表示汉越跨境民族文化查询和文档的表征向量，经过XLM-R语言模型可以更好地捕捉汉越跨境民族文本中实体之间的语义信息.4.3基基于知识图谱的汉越查询和文档扩展该层融人知识图谱的过程首先利用Chen et al14提出的MtransE方法训练一个汉越跨境民族知识图谱嵌入模型，如图2 所示；其次，利用杨振平等 15 提出的跨境民族文化实体识别技术抽取查询或文本中的领域实体，抽取的领域实体与汉越跨境民族文化领域知识图谱做实体链接扩展相关实体.扩展的实体可以

26、作为汉越跨境民族查询和文档的背景知识补充，解决无法捕获“领域实体”与“汉越领域实体缺失”问题。扩展出的实体由很多个词集合构成，词之间没有任何关系，使用XLM-R语言模型静态表征.将查询与知识图谱扩展的实体视为一个词序列集合e=ei,e,e)EVe,文本与知识图谱扩展的实体视为一个词序列集合e=ei,e，,e%EVe,其中，Ve是汉越知识图谱中的实体，e和ea分别表示查询和文档与汉越知识图谱扩展的词集合.e和e是查询和文档扩展出的词序列集合中614第5 9 卷南京大学学报（自然科学）查询和文档表征层查询和文档特征融合层对比损失层相关性计算查询:Lhoinuocdan互tocNgurori Dai

27、多头注意力相似查询:Lhoiduoc Yi。点积对比文档：宋干节是泰国泰学习XLM-R族、老挝佬族以及中国d数据傣族的传统节日增强文档：香茅烤鱼、香茅查询-知识图谱融合表征排骨菠萝饭等都是傣族Vq,d)的代表菜肴。：Score实体链接查询和文档实体扩展层Lq,k)汉越跨境民族知识图谱文档-知识图谱融合表征V9傣族泰泼水多头注意力族节泼水节舞族VXLM-R佬族傣NgurdENguroi族iYiNgurori DanTayNguroNguroiDaiiLaoNguroi佬族Nguroi TayDai图1基于领域知识图谱和对比学习的汉越跨境民族文本检索方法Fig.1Chinese-Vietnames

28、e cross-border ethnic text retrieval method based ondomain knowledge graph and comparative learning泰族NguroiLaoNguroNguroiTay族iDaiNguroiYi中文知识三元组越南语知识三元组随机初始化随机初始化MtransE汉越实体对齐图2汉越跨境民族知识图谱嵌入的模型Fig.2Embedding model diagram of Chinese-Vietna-mese cross-border ethnic knowledge map的第i个词，分别通过XLM-R语言模型得到词向

29、量表示，如式（3）和式（4）所示：V=XLM-R(e)(3)Vd=XLM-R(4)其中，V和V分别表示汉越跨境民族查询和文档扩展的实体向量表示4.47汉越跨境民族查询文档特征融合该层将查询和文档中的向量分别与知识图谱扩展的实体集合向量拼接，得到融合后的表征向量.具体地，查询向量V。和查询中的实体与知识图谱实体链接得到的实体向量V。拼接，如式（5）所示.文本向量Va和文档中的实体与知识图谱实体链接得到的实体向量V?拼接，如式（6)所示.V=V,O2v:(5)i=0Vi=VO2vi(6)ei=0其中，表示向量拼接，V和Vi分别是查询和文档与知识图谱中的实体融合后的向量表示。另外，本文引入2 0 1

30、7 年Vaswanietal16提出的多头注意力机制，将融合汉越跨境民族领域实体的查询和文档向量作为输人，通过多头注意力机制进行特征编码，丰富查询和文档之间跨境民族相关的语义信息，为下一步输人对比学习层中更好地对齐表征在同一空间作铺垫如式（7)所示：QKTAttention(Q,K,V)=softmaxV(7)其中,Q,K,V表示查询或文本的输入都是一样的；dk是比例因子，可以避免乘积过大。615刘思源等：基于领域知识图谱和对比学习的汉越跨境民族文本检索方法第4期4.5对比损失层该层将汉越跨境民族查询和文档数据表征对齐到同一空间，利用对比学习的思想将相同类型的查询和文档聚类在一起.给定一个带有

31、相关正文档的查询q以及一个负文档池(k.）对比损失函数的定义如式（8）所示：exp(s(q,k+)/t)C(q,k+)(8)ZK exp(s(g,k.)/t)其中，t是温度参数，这种损失使相关文档的相关性得分较高，而无关文档的相关性得分较低.4.6汉越跨境民族查询和文档相关性分数计算分数s中的左侧表示称为查询，右侧表示称为键另外，本文使用双编码器架构，查询和文档是独立编码的通过获取查询表示和文档表示之间的点积（或余弦相似度）来计算相关性分数，如式(9)所示：s(q,d)=f(q),fo(d)(9)其中，q表示查询，d表示文档；使用相同的参数的模型f。独立地对每一个查询和文档进行编码。s(q,d

32、)是查询和文档点积后得到的相关性分数结果表示。5实验分析5.1汉越跨境民族文本检索数据集参照CCNet的公共数据集格式，人工构建汉越跨境民族数据集.使用爬虫技术，在维基百科和汉越跨境民族相关网站获取跨境民族数据，并进行过滤特殊字符等预处理操作，如去除空格、乱码、表情符号以及公式符号等。处理后的汉越跨境民族傣族、掸族、泰族、佬族、阿萨姆族、彝族等六个民族，有宗教、建筑、节日、饮食、习俗和文艺等六种类型的数据.其中，中文跨境民族文化数据爬取了135 5 7 2 条，越南语跨境民族文化数据爬取了10 90 48 条.数据样本的规模分布如图3所示.此外，汉越跨境民族文本检索查询-文档对训练集分别包含1

33、0 95 7 2 条和85148条句子，汉越跨境民族文本检索查询-文档对测试集包含2 6 0 0 0 条和2 390 0 条句子，5.2实实验参数设置使用AdamW优化器，通过不断地调节实验参数获得最优的跨语言文本检索中文原样本25000中文正样本中文负样本越南语原样本越南语正样本越南语负样本2000015000100005000傣族泰族佬族掸族阿萨姆族舞族图3汉越跨民族文化数据集的分布样例Fig.3 Sample distribution of Chinese-Vietnamese cross-borderethnicculturedataset模型，并确保模型在参数最优的情况下进行训练，具

34、体的参数设置如表4所示.表4实验中本文模型的参数设置Table 4Parameters setting of our model in experimentsObjectNumberqueue of size23768temperature0.05momentum0.999learning rate0.00005ratio_max0.5ratio_min0.15.3实验评价指标采用国际通用的搜索算法平均倒数排名（Mean Reciprocal Rank,MRR)对提出的模型进行评估，MRR的计算如式（10)所示：元1QMRR=(10)rank;其中，Q|是待查询文本的个数，rank,表示第i个

35、查询文本在待查询文档中检索出的第一个正确文档的排名.对检索出的正确文档在评价系统给出结果中的排序取倒数，作为它的准确度,再对所有的问题取平均值，5.4实验结果与分析5.4.1实验1：基线模型对比实验为了验证本文方法的有效性，将提出的模型与最近四年的方法做对比实验，为公平起见，各个方法都使用了汉越跨境民族数据集，结果取10 0 次实验的平均值。基于双编码器的查询文档对相关性计算模型(4)mDPR模型：2021年Asaial20 提出的616第5 9 卷南京大学学报（自然科学）(1)UnsupCLIR模型:2 0 18 年 Litschko et al17)提出的一种基于共享的跨语言词嵌入空间的无

36、监督方法.(2)Wasserstein 模型:2 0 18 年 Balikas et al18)提出的一种基于距离来衡量文本段落之间差异的方法，(3)EncoderCLIR模型：2 0 2 1年Litschko etal191提出的一种基于多语言编码器的文本排序模型.表5 给出了本文模型与其他模型的召回率和平均倒数排名，表中黑体字表示性能最优.由表可见，本文模型与其他四个模型相比，召回率最佳，MRR分别提升2 6.6%，2 0.1%，12.8%和7.9%.UnsupCLIR模型利用共享的跨语言词嵌人空间来直接计算查询和文档中单词的语义相似度，效果较差，因为依赖单词级和文档级对齐而诱导的跨语言嵌

37、人影响了模型检索的效果.Wasser-stein模型提出了一种新的矩阵来测量文本段落之间的差异，但没有考虑跨语言词语与文本特征之间的交互，故检索效果也欠佳.表5本文模型和其他模型的对比实验结果Table 5Experimental results of our algorithm and otheralgorithms模型名称Recall100MRR100UnsupCLIR0.7520.392Wasserstein0.8130.457EncoderCLIRmBERT0.8590.524mDPR0.8840.579本文方法0.9090.658值得注意的是，和其他的基线模型相比，En-coderC

38、LIRmBERT和mDPR模型表现出较好的检索性能，这是因为EncoderCLIRmBERr模型通过多语言模型单独编码每个词汇术语来诱导并引人静态嵌人空间，再为特定的语言对细化双语空间，所以能更好地捕获查询和文档之间的关联关系.mDPR模型分别对查询和文档进行单独编码,基于神经网络的密集检索器很好地替代了基于词频的经典稀疏方法，使模型的检索效果更好.这两个算法的性能弱于本文模型的原因在于本文融人了汉越跨境民族知识图谱来增强查询和文档数据的“跨境”关联关系，也从侧面反映了本文模型融人汉越领域知识图谱能提升检索效果这一观点的正确性.5.4.2实验二：消融实验结果对比使用2 0 2 1年Izacar

39、d et al1提出的跨语言检索模型作为Baseline模型，在Baseline模型上融人汉越跨境民族领域知识图谱模块来对查询和文档进行实体扩展，以此验证本文中不同正负例对比样本构建方法的有效性.实验结果如表6 所示，表中黑体字表示性能最优.表6消融实验的结果Table 6Ablation experiment results模型名称Recall100MRR100mContrievermBERT0.8780.594mContrieverXLM-R0.8870.617mContrieverXLM-独立剪裁0.8890.645(对比学习)mContrieverXLM-span0.8940.651(

40、对比学习)mContrieverXLM-two_view0.8980.656(对比学习）本文模型0.9090.658由表可见，Baseline使用XLM-R语言模型的性能明显高于使用mBERT语言模型，而本文方法与Baseline相比，提高了4.1%.这是因为在汉越跨境民族查询和文档数据中存在大量不常见的领域实体以及实体表达形式多样化的问题，本文通过多头注意力将汉越跨境民族知识图谱自适应地融人查询和文档，增强了汉越跨境民族领域实体语义信息，有利于模型更好地捕获文本数据中“跨境”领域文本的关联关系，提升模型检索的性能，此外，为了验证本文中不同正负例对比样本构建方法的有效性，进行了三类正负样本的消

41、融实验.实验结果显示，分别去除每一类对比学习方法后，模型效果均有下降，进一步验证了对比学习方法对模型效果的影响，同时，去除独立剪裁一类方法后，模型的性能下降最明显，表明独立剪裁方法构建的正负样本质量比其他两种方法更好，对模型性能有更大的影响。617刘思源等：基于领域知识图谱和对比学习的汉越跨境民族文本检索方法第4期5.4.3实验三：不同多语言模型实验结果对比为了验证使用不同多语言模型对本文模型性能的影响，进行了三个实验，使用三种不同的多语言模型为汉越跨境民族查询和文档数据做语义表征，其他层都保持不变.实验结果如表7 所示，表中黑体字表示性能最优.由表可见，使用XLM-R语言模型时，本文模型的性

42、能最佳，主要是因为XLM-R语言模型在低资源语言上的表现特别好，使汉越跨境民族查询文档数据的语义表征更准确，所以本文模型可以更好地捕获汉越跨境民族文本数据特征，表7不同多语言模型的实验结果Table7Experimental results of different languagemodels模型名称Recall100MRR100本文模型(mBERT)0.8840.625本文模型(XLM)0.8950.631本文模型(XLM-R)0.9090.6585.4.4实验四：不同动量值对于模型性能的影响为了验证使用不同的动量参数对本文模型性能的影响，进行第四个实验，实验结果如表8 所示，表中黑体字表

43、示性能最优.由表可见，当动量参数为0.999时，模型的性能最优，小于这个阈值时，模型性能逐渐下降，这是因为动量参数越小，编码器更新越快，导致模型性能下降，所以实验中设置动量参数为0.9 9 9.表8 本文模型使用不同动量值的性能Table 8Experimental results of our algorithm withdifferent momentum values模型名称Recall100MRR100Momentum=0.9950.8870.574Momentum=0.9960.8920.60.3Momentum=0.9970.8990.629Momentum=0.9980.9010

44、.641Momentum=0.9990.9090.6585.5案例分析表9 左边是中文检索越南语的检索效果，检索文本包括“nguoiTay（泰族）”“Songkran(宋干节）“Nguoi Shan(掸族）“LhoitamPhat(浴佛节）等；右边是越南语检索中文的检索效果，检索文本包括“泰族”“宋干节”“掸族”“浴佛节”“桑勘比迈”“楞贺桑勘”等，由表可见，融合领域知识图谱显著提升了汉越跨境民族文化文本检索效果（见表中的黑体字）.证明本文通过融人汉越领域知识图谱的汉越跨境民族文本检索模型，能有效地捕获查询和文档之间“跨境”的关联关系，提高了文本检索的效果.表9实例分析Table9Casean

45、alysisQuery查询文本：傣族泼水节Query查询文本：LhoitenuocDai1.Dayla hinh thurc biudinkhong the thiutrongLhoi1.傣族泼水节，傣语称桑勘比迈或楞贺桑勘，时间在傣历6 月下旬或7 月初Songkran cianguroiTay.（公历4月中旬）.2.Nguoi Shan goiLhoitamPhatlaBimai,co nghia 2.每逢泰族宋干节，人们开始互相泼，你泼我，我泼你，一朵花在空中绽放，la nam moi.象征吉祥、幸福、健康3.Lhoi te nuroc la chtr vitdan toc nhatcu

46、anguroiDai.3.宋干节是泰国泰族、缅甸掸族、老挝佬族以及中国傣族的传统节日，4.Lehoitenuroc chidurocto chtcnhinglangnguroiDai4.掸族最隆重的节日是浴佛节，也称“宋干节”，掸族都会在浴佛节期间举theo dao Phat Nam tong.办一定规模的庆祝活动.6结论汉越跨境民族文本检索是一类面向领域的跨语言检索任务，针对其中的问题，如存在大量罕见的领域实体、实体表达多样以及跨语言实体存在缺失等，本文提出基于领域知识图谱和对比学习的汉越跨境民族文本检索方法，该方法利用多头注意力机制，将汉越跨境民族领域知识图谱融入查询和文档中，丰富查询和文

47、档中不常见的跨境民族领域实体信息同时，本文通过引人对比学习来解决跨语言领域词和语义表征对齐困难问题.618第5 9 卷南京大学学报（自然科学）大量的实验证明，本文提出的跨语言检索方法在跨境民族文化实验数据集上取得了比基线模型更好的检索性能。参考文献1Izacard G,Caron M,Hosseini L,et al.Unsuperviseddense information retrieval with contrastive learning.2022,arXiv:2112.09118.2Gao J F,Nie JY,Xun E D,et al.Improving querytransla

48、tion for cross-language information retrievalusing statistical models/Proceedings of the 24hAnnual International ACM SIGIR Conference onResearch and Development in Information Retrieval.New Orleans,LO,USA:ACM,2001:96-104.3黄国斌,王明文,叶浩。一种新的基于中间语义的跨语言信息检索模型.中文信息学报，2 0 0 9，2 3(2)：77-82.(Huang G B,Wang M

49、W,Ye H.A novelcross language information retrievai model based oninterlingua semantics.Journal of Chinese InformationProcessing,2009,23(2):7782.)4Xu J X,Weischedel R.Cross-lingual information re-trieval using hidden Markov models/Proceedings of2000 Joint SIGDAT Conference on Empirical Meth-ods in Na

50、tural Language Processing and Very LargeCorpora,the 38 Annual Meeting of the Associationfor Computational Linguistics.Hong Kong,China:ACM,2000:95-103.5Huang P S,He X D,Gao J F,et al.Learning deepstructured semantic models for web search usingclickthrough data/Proceedings of the 22nd ACMInternational

展开阅读全文