1、第 49卷 第 11期2023年 11月Computer Engineering 计算机工程结合向量化方法与掩码机制的术语干预翻译模型张金鹏,段湘煜(苏州大学 计算机科学与技术学院,江苏 苏州 215000)摘要:术语干预神经机器翻译模型通常借助人为给定的术语翻译来改变译文,从而改善翻译质量。向量化干预方法为术语干预任务提供了新的范式,但仅考虑将术语与句子信息以向量的形式融合,没有关注术语信息对术语翻译效果的影响。为此,构建一种结合向量化方法与掩码机制的术语干预机器翻译模型,将人为给定的源端术语与目标端术语编码为特征向量,显式地融入机器翻译模型的编码器、解码器以及输出层。在训练阶段,借助掩码机
2、制屏蔽注意力机制中源端术语对应的关键字,增强模型编码器与解码器对术语特征向量的关注。在推理阶段,利用 掩 码 机 制 优 化 术 语 干 预 输 出 层 的 概 率 分 布,进 一 步 提 高 术 语 字 符 的 翻 译 准 确 率。在 WMT2014 德 英 和WMT2021英中数据集上的实验结果表明,相较于基于原始向量化方法的 Code-Switching机器翻译模型,所提模型的术语翻译准确率分别提升了 9.27和 2.95个百分点,并且能大幅度提升长术语的翻译准确率。关键词:机器翻译;术语干预;向量化;注意力机制;掩码机制开放科学(资源服务)标志码(OSID):中文引用格式:张金鹏,段湘
3、煜.结合向量化方法与掩码机制的术语干预翻译模型 J.计算机工程,2023,49(11):70-76,84.英文引用格式:ZHANG J P,DUAN X Y.Terminology intervention translation model combining vectorization method and mask mechanism J.Computer Engineering,2023,49(11):70-76,84.Terminology Intervention Translation Model Combining Vectorization Method and Mask M
4、echanismZHANG Jinpeng,DUAN Xiangyu(School of Computer Science and Technology,Soochow University,Suzhou 215000,Jiangsu,China)【Abstract】The terminology intervention Neural Machine Translation(NMT)model optimizes translations with the help of human-provided translations;this improves the translation qu
5、ality.Recently,vectorization methods have emerged to provide a new paradigm for terminology intervention tasks;however,these methods consider only fusing terminology information with sentence information and neglect the low contribution of terminology vectors to terminology translation.To address th
6、ese issues,a terminology intervention machine translation model combining the vectorization method and mask mechanism is built.This model encodes human-provided source terminology and target terminology into feature vectors and integrates them into the encoder,decoder,and output layers of the machin
7、e translation model.To enhance its attention to term feature vectors,the model uses a mask mechanism to mask the keys corresponding to the source-side terminologies in the attention mechanism during the training phase.In the inference phase,the probability distribution of the output layer is optimiz
8、ed to improve terminology generation.The experimental results on the WMT 2014 German-English and WMT2021 English-Chinese datasets show that,compared with the Code-Switching machine translation model based on the original vectorization method,the proposed model has improved the terminology translatio
9、n accuracy by 9.27 and 2.95 percentage points,respectively,and can significantly improve the translation accuracy of long-terms.【Key words】machine translation;terminology intervention;vectorization;attention mechanism;mask mechanismDOI:10.19678/j.issn.1000-3428.0066031基金项目:国家自然科学基金(61673289)。作者简介:张金
10、鹏(1996),男,硕士研究生,主研方向为自然语言处理;段湘煜,教授。收稿日期:2022-10-19 修回日期:2023-01-12 Email:人工智能与模式识别文章编号:1000-3428(2023)11-0070-07 文献标志码:A 中图分类号:TP391.2第 49卷 第 11期张金鹏,段湘煜:结合向量化方法与掩码机制的术语干预翻译模型0概述 神经机器翻译(Neural Machine Translation,NMT)是自然语言处理领域的一项重要且具有挑战性的任务1。随着信息技术的不断发展,电商、医药、新能源等领域涌现出大量行业术语2-4,错误的术语翻译可能会严重影响用户体验,这便要
11、求机器翻译系统具备更高的准确性与可控性。在统计翻译年代,基于短语的机器翻译系统5可以对系统输出进行良好的控制,实现对指定单词的强制翻译6,然而这种强制干预不适用于神经机器翻译。2022 年,WANG 等7借助向量化方法将词典知识显式地融入模型控制术语翻译。虽然向量化方法为术语干预提供了新的范式,但其只考虑了如何将术语信息与句子信息融合,并没有强调模型对术语信息的关注。在向量化方法中,目标术语的翻译主要依据两部分信息:一是源端句子信息,包含源端术语及其上下文;二是人为给定的术语约束,包含正确的术语翻译。本文建立一种结合向量化方法与掩码机制的术语干预机器翻译模型,在训练阶段借助掩码机制对源端术语加
12、以屏蔽,以增强编码器与解码器对约束信息的关注,同时在推理阶段借助掩码机制优化术语干预输出层的概率分布,最终达到提升术语翻译准确率的目的。1相关工作 目前,主流的术语干预方法可以分为两类:一类是对传统的束搜索加以改进,引入强制解码策略;另一类是使用数据增强方法调整模型输入。1.1基于强制解码的术语干预方法网格束搜索(GBS)8是典型的基于强制解码的术语干预方法,相较于传统束搜索,网格束搜索为术语额外增加一个维度,用于标记已经生成的术语单词数量,从而将束搜索拓展为网格的形式。假设术语单词数为 C,GBS 将维护 C+1 组用于存储满足不同术语单词数的候选译文,最后从第 C+1 组(术语全部生成)的
13、候选译文中选取得分最高的句子作为解码输出。由于网格束搜索增加了额外的维度,解码复杂度随术语单词数量线性增长。为了克 服 上 述 问 题,POST 等9提 出 使 用 动 态 束 分 配(DBA)的策略改进 GBS。不同于 GBS,DBA 控制解码过程中波束的总量不变,并采用动态分配的策略将波束分配给 C+1 组,保证解码复杂度与术语单词数无关。HU 等10进一步提出借助向量数组优化的动态束分配策略(VDBA),使 DBA 能够以批处理方式运行,优化了解码效率。虽然此类方法通过对束搜索加以改进,确保指定术语出现在译文中,但其愈发繁琐的解码过程使其明显慢于传统束搜索解码。1.2基于数据增强的术语干
14、预方法目前,工业界采用的术语干预方法主要基于数据增强技术,原因在于采用数据增强技术无需修改模型结构,只需使用标准的束搜索即可达到一定程度的术语干预效果,且解码速度快。SONG 等11提出使用字符替换的方法(Code-Switching)进行术语干预,具体做法是借助先验的术语词典,将源句中的源端术语替换为目标端术语,用于翻译模型训练。在推理阶段,人们需要提前将源句中的术语替换为指定的翻译再进行解码。DINU 等12提出保留源端术语并在其右侧拼接目标术语的方式进行数 据 增 强。在 WMT2021 英 中 术 语 翻 译 任 务 中,WANG 等13对此类方法做进一步拓展,将源端术语使用特殊标记替
15、换,并在该标记的右侧指明源端术语及其翻译(TermMind)。目前,数据增强方法最主要的缺点在于术语干预的成功率有限,说明只改变训练数据而不调整模型结构难以到达理想的干预效果。2融合向量化方法与掩码机制的术语干预机器翻译模型 采用 Transformer14作为机器翻译模型的基础结构(Vanilla),模型由编码器、解码器以及输出层构成,Transformer 借助编码器与解码器将具体的单词或者子词转化为向量化表示,并借助输出层将解码器的输出向量转化为词表概率。2.1基于向量化方法的术语干预机制基于向量化方法的术语干预机器翻译模型如图 1 所示。对比传统的 Transformer 模型,基于向
16、量化方法的术语干预模型存在以下改动:1)借助词嵌入层以及多头注意力机制将源端术语以及目标端术语向量化(图 1 虚线区域);2)将这些携带术语信息的特征向量融入翻译模型的编码器与解码器(分别对应图 1中编码器融合术语信息以及解码器融合术语信息);3)引入额外的输出概率分布提高术语生成的准确率(对应图 1中术语干预输出层)。712023年 11月 15日Computer Engineering 计算机工程2.1.1术语向量化向量化干预方法首先将源端术语与目标端术语分别转化为额外的键Kterm与值Vterm,以便将术语信息融入编码器的自注意力机制以及解码器的编码器-解码器注意力机制。使用(S,T)表
17、示一组术语对在经过词向量层与位置编码层后得到的向量表示。在通常情况下,源端术语与目标端术语的长度不一致,在形态上不对齐15。在这种情况下,将S与T分别作为键与值是不可行的,需要额外增加一层多头注意力使得T与S形态一致,如式(1)所示:Kterm=SVterm=attn(STT)(1)其中:Kterm与Vterm分别表示一组术语的键与值,且Kterm与Vterm Rd|s|,d与|s|分别表示模型的词嵌入维度以及该组术语中源端术语所包含的单词数量,Vterm可以被看作是向量T在源端长度上的重新分配。事实上,由于一组平行句对中包含不止一组术语,因此Kterm与Vterm由N组术语键值拼接得到,如式
18、(2)所示:Kterm=Kterm1;Kterm2;KtermNVterm=Vterm1;Vterm2;VtermN(2)2.1.2编码器融合术语信息的过程在 Transformer 中,编码器由词嵌入层以及 6 层编码层构成,编码层的自注意力机制由多头注意力网络构成,用于学习文本的上下文表示。每层的自注意力机制如式(3)所示:Hout=attn(HencHencHenc)(3)其中:Hout表示自注意力机制的输出,Hout Rd|x|;Henc表示编码层的输入,Henc Rd|x|,|x|表示编码层输入的序列长度。由于编码器的每一层都包含不同级别的语义信息16,因此应确保术语信息融入编码器的
19、每一层。在编码端,向量化方法借助自注意力机制融合Kterm与Vterm。在每一层执行自注意力过程前,使用两层适应网络将包含术语信息的键值与原始输入Henc拼接,确保编码器在自注意力过程中可以显式地融合术语信息,如式(4)所示,以此达到术语干预的目的。Kunion=adapt()Kterm;HencVunion=adapt()Vterm;Henc(4)其中:adapt表示包含两层线性变换以及 ReLU 激活函数的适应网络,该适应网络对所有编码层是通用的;Kunion与Vunion分别表示引入术语干预的键与值,Kunion和Vunion Rd()|x|+|s|,|s|表示所有源端术语的长度之和。在
20、编码层中,融合术语信息的自注意力机制如式(5)所示:Hout=attn(HencKunionVunion)(5)2.1.3解码器融合术语信息的过程将术语信息融入解码器的方式与编码器类似,区别为选取编码器-解码器注意力机制融合术语信息。在 Transformer 中,解码器由词嵌入层以及 6 层解码层组成,解码层由自注意力组件、编码器-解码器注意力组件以及前向网络构成。每一层的编码图 1基于向量化方法的术语干预机器翻译模型Fig.1Terminology intervention machine translation model based on vectorization method72第
21、 49卷 第 11期张金鹏,段湘煜:结合向量化方法与掩码机制的术语干预翻译模型器-解码器注意力机制如式(6)所示:Hout=attn(HdecHencHenc)(6)其中:Henc表示编码端提供的输入;Hdec表示解码端自注意力组件提供的输入,Hdec Rd|y|,|y|表示解码器输入的长度。对于每一层的编码器-解码器注意力机制,融合术语信息的键值如式(7)所示:Kunion=adapt()Kterm;HencVunion=adapt()Vterm;Henc(7)其中:Kunion和Vunion Rd()|y|+|s|,与编码器融合术语信息类似,解码器借助adapt将术语特征向量与该注意力机制
22、的原始输入Henc进行拼接,得到新的键Kunion与值Vunion。在融合术语信息后,编码器-解码器注意力机制如式(8)所示:Hout=attn(HdecKunionVunion)(8)2.1.4术语干预输出层如图 1 所示,向量化方法借助术语干预输出层进一步提升术语翻译准确率。在 Transformer中,输出层用来将解码器最后一层的输出转化为子词级别的概率。使用hk Rd 1表示解码器在k时刻的输出,使用s与t表示人为给定的术语对,则 Transformer模型的输出如式(9)所示:Pmodel(y|y kxst;)=Softmax(hkW)(9)其 中:W Rd|表 示 输 出 嵌 入
23、矩 阵,|表 示 词 表大小。为了进一步借助术语信息干预文本生成,受控制文本生成17的启发,在输出层引入额外的概率分布对输出分布进行调整,如式(10)所示:Pplug(y|y kxst;)=0y tmax()0cos()wy|wyhk|hky t(10)其中:wy表示子词y的词向量;t表示所有目标术语子词集合。在得到Pplug后,使用门控单元控制Pplug的干预力度,门控单元如式(11)所示:g(yhk)=Sigmoid(tanh(wTyW1;hTkW2)W3)(11)其中:W1和W2 Rd d;W3 R2d 1。模型借助 3 个可训练的线性变换生成干预权重g,最终的输出概率如式(12)所示:
24、P(y|y kxst;)=(1-g(yhk)Pmodel(y|y kxst;)+g(yhk)Pplug(y|y kxst;)(12)2.2掩码机制掩码机制被广泛应用于各项任务中,用于屏蔽无关信息或者对原数据加噪,例如自回归生成模型在解码器中借助掩码操作屏蔽后续文本,在各项任务中对填充符进行处理,以及在掩码语言模型中直接使用掩码符号对一定比例的原文本进行替换。此外,ReLU 激活函数以及丢弃机制(Dropout)都被认为是一种掩码操作。本文在训练阶段借助掩码机制屏蔽源端术语,增强模型编码器与解码器对约束信息的关注;在解码阶段引入掩码机制,改善输出层的概率分布,进一步提升术语翻译准确率。2.2.1
25、结合掩码机制的编码器向量化干预方法将术语信息直接拼接到编码器自注意力机制的键值中,当自注意力机制进行查询操作时,可以显式地看到两部分信息,分别是人为给定的术语信息以及源端句子信息,源端句子又可以分为源端术语和源端术语上下文两部分。如图 2 所示,Qx3可以查询到术语信息Kterm1与Kterm2,以及源端句子信息Kx。由于人为给定的术语信息Kterm1与Kterm2包含对源端术语的正确翻译,因此需要增强模型对这部分信息的关注。假设源端句子x中,x2与x3表示源端术语部分,在训练阶段,使用掩码将Qx3对原句中术语部分Kx2与Kx3的注意力权重置为 0,使得模型在只有Kterm1与Kterm2以及
26、源端术语上下文的条件下生成目标术语,从而加强模型对约束信息的关注。2.2.2结合掩码机制的解码器掩码机制融入解码器的方式与编码器类似。向量化干预方法将术语信息直接拼接到编码器-解码器注意力机制的键值中,然后根据解码端提供的查询信息对编码器的键值进行注意力操作。为了增强模型解码器对人为给定的约束信息的关注,如图 3所示,在编码器-解码器注意力机制中利用掩码机制屏蔽源端术语对应的键值。图 2结合掩码机制与编码器的自注意力机制Fig.2Self-attention mechanism combining mask mechanism and encoder732023年 11月 15日Compute
27、r Engineering 计算机工程2.2.3结合掩码机制的输出层在解码阶段,基于向量化方法的干预机制在输出层中引入额外的概率分布Pplug,然而Pplug是面向所有术语子词计算的,忽视了每个术语的实际翻译情况。例如“传染源”这个术语,经过子词切分后为“传染源”,术语干预输出层会额外增大“传染”以及“源”两个子词的输出概率。这一做法并没有考虑该术语的实际翻译情况,假设模型在推理阶段未解码出“传染”,此时模型无须增大“源”的输出概率,否则可能导致模型提前生成“源”。简而言之,当术语的第i个子词未被译出时,Pplug不应该包括第i+1个子词及其之后的子词。针对该问题,对Pplug进行改进,使用t
28、next替换式(10)中的t,如式(13)所示,tnext表示每个术语下一个待生成子词的集合,并非所有未生成的子词的集合。借助掩码数组进行维护,将每个术语下一个待生成子词的掩码置为 1,其余置为 0,并根据术语的解码情况进行更新。Pplug(y|y3VecConstNMTCSR/%95.8698.7993.0692.93EM/%95.8680.9862.5034.33所提模型CSR/%96.0498.6494.8692.93EM/%96.0484.7169.2942.33752023年 11月 15日Computer Engineering 计算机工程在输出层跟踪每个术语的翻译进度,因此相比于
29、Vec ConstNMT模型,解码速度几乎不受影响。4结束语 目前,基于数据增强与强制解码的术语干预方法存在目标术语翻译准确率低以及解码速度慢的问题,限制了这些方法在实际场景中的应用。受向量化方法的启发,本文构建基于向量化方法与掩码机制的术语干预机器翻译模型,借助掩码机制增强模型对向量化信息的关注及优化输出层的概率分布。实验结果表明,所提模型在保证解码速度的同时显著提升了术语翻译的准确率,并且提高了译文的整体翻译质量。术语翻译任务建立在人为给定的术语翻译完全正确这一基础上,但在实际场景中术语对往往存在一对多的情况,并且对于每句句子中的每个术语,通过人工注释得到最合适的目标翻译显然是费时费力的。
30、后续将针对上述问题做进一步研究,根据特定上下文,使模型从候选术语中自动识别并翻译出正确的目标术语。参考文献 1 冯洋,邵晨泽.神经机器翻译前沿综述 J.中文信息学报,2020,34(7):1-18.FENG Y,SHAO C Z.Frontiers in neural machine translation:a literature review J.Journal of Chinese Information Processing,2020,34(7):1-18.(in Chinese)2 JIA H,GU S,SHI Y,et al.Bilingual terminology extrac
31、tion from non-parallel e-commerce corporaEB/OL.2022-09-16.https:/arxiv.org/abs/2203.05880.3 张知行,张佳影,高大启,等.临床检验指标术语库的构建与病历挖掘应用 J.中文信息学报,2020,34(12):100-110.ZHANG Z X,ZHANG J Y,GAO D Q,et al.Construction of clinic indicator terminology base and its application in medical record mining J.Journal of Chi
32、nese Information Processing,2020,34(12):100-110.(in Chinese)4 游新冬,杨海翔,陈海涛,等.融合术语信息的新能源专利机器翻译研究 J.中文信息学报,2021,35(12):76-83,93.YOU X D,YANG H X,CHEN H T,et al.Research on new energy patent machine translation integrating terminology information J.Journal of Chinese Information Processing,2021,35(12):7
33、6-83,93.(in Chinese)5 KOEHN P,ZENS R,DYER C,et al.Moses:open source toolkit for statistical machine translation C/Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions.Stroudsburg,USA:Association for Computational Linguistics,2007:177-180.6 张泽锋,毛存礼,余正涛,等.
34、融入领域术语词典的司法舆情敏感信息识别 J.中文信息学报,2022,36(9):76-83,92.ZHANG Z F,MAO C L,YU Z T,et al.Identification of sensitive information of judicial public opinion incorporated into domain terminology dictionary J.Journal of Chinese Information Processing,2022,36(9):76-83,92.(in Chinese)7 WANG S,TAN Z X,LIU Y.Integr
35、ating vectorized lexical constraints for neural machine translation C/Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,USA:Association for Computational Linguistics,2022:7063-7073.8 HOKAMP C,LIU Q.Lexically constrained decoding for sequence generati
36、on using grid beam search EB/OL.2022-09-16.https:/arxiv.org/abs/1704.07138.9 POST M,VILAR D.Fast lexically constrained decoding with dynamic beam allocation for neural machine translationEB/OL.2022-09-16.https:/arxiv.org/abs/1804.06609.10 HU J E,KHAYRALLAH H,CULKIN R,et al.Improved lexically constra
37、ined decoding for translation and monolingual rewriting C/Proceedings of 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,USA:Association for Computational Linguistics,2019:839-850.11 SONG K,ZHANG Y,YU H,et al.Code
38、-switching for enhancing NMT with pre-specified translationC/Proceedings of 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,USA:Association for Computational Linguistics,2019:449-459.12 DINU G,MATHUR P,FEDERICO M,
39、et al.Training neural machine translation to apply terminology constraints C/Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,USA:Association for Computational Linguistics,2019:3063-3068.13 WANG K,GU S,CHEN B,et al.TermMind:Alibabas WMT21 machine tr
40、anslation using terminologies task submission C/Proceedings of the 6th Conference on Machine Translation.Stroudsburg,USA:Association for Computational Linguistics,2021:851-856.14 VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need?C/Proceedings of the 31st International Conference on Neural
41、 Information Processing Systems.New York,USA:ACM Press,2017:6000-6010.15 DU C,TU Z,JIANG J.Order-agnostic cross entropy for non-autoregressive machine translation C/Proceedings of International Conference on Machine Learning.New York,USA:ACM Press,2021:2849-2859.16 VOITA E,SENNRICH R,TITOV I.The bot
42、tom-up evolution of representations in the Transformer:a study with machine translation and language modeling objectives C/Proceedings of 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing.Stroudsburg,USA:Asso
43、ciation for Computational Linguistics,2019:4396-4406.(下转第 84页)表 4各模型的解码速度对比 Table 4Comparison of decoding speed of various models单位:(句s1)模型VanillaVDBACode-SwitchingTermMindVecConstNMT所提模型批处理大小为 12.921.262.692.672.632.57批处理大小为 6453.063.8148.4147.2144.6743.53762023年 11月 15日Computer Engineering 计算机工程16
44、 LIU W J,ZHOU P,ZHAO Z,et al.K-BERT:enabling language representation with knowledge graphJ.Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(3):2901-2908.17 BALAZEVIC I,ALLEN C,HOSPEDALES T.TuckER:tensor factorization for knowledge graph completion C/Proceedings of 2019 Conferenc
45、e on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing.S.l.:Association for Computational Linguistics,2019:5184-5193.18 TUCKER L R.The extension of factor analysis to three-dimensional matrices M.New York,USA:Holt,Rinehart and
46、Winston,1964.19 VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need C/Proceedings of the 31st International Conference on Neural Information Processing Systems.New York,USA:ACM Press,2017:6000-6010.20 LI X Y,MENG Y X,SUN X F,et al.Is word segmentation necessary for deep learning of Chinese
47、representations?C/Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.S.l.:Association for Computational Linguistics,2019:3242-3252.21 CHE W X,FENG Y L,QIN L B,et al.N-LTP:an open-source neural language technology platform for Chinese C/Proceedings of 2021 Confere
48、nce on Empirical Methods in Natural Language Processing.S.l.:Association for Computational Linguistics,2021:42-49.22 ZHAO Y Y,JIANG N,SUN W W,et al.Overview of the NLPCC 2018 shared task:grammatical error correctionEB/OL.2022-09-05.http:/ RAO G Q,GONG Q,ZHANG B L,et al.Overview of NLPTEA-2018 share
49、task Chinese grammatical error diagnosis C/Proceedings of the 5th Workshop on Natural Language Processing Techniques for Educational Applications.S.l.:Association for Computational Linguistics,2018:25-35.24 张宝林“HSK动态作文语料库”的标注问题 EB/OL.2022-09-05.https:/ B L.The annotation problem of HSK dynamic compo
50、sition corpus EB/OL.2022-09-05.https:/ Chinese)25 FELICE M,BRISCOE T.Towards a standard evaluation method for grammatical error detection and correction C/Proceedings of 2015 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.S.l.:As
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100