基于掩码矩阵⁃BERT注意力机制的神经机器翻译.pdf-资源下载-咨信网助力知识提升-让知识获取变得高效!

基于掩码矩阵⁃BERT注意力机制的神经机器翻译.pdf

1、现代电子技术Modern Electronics Technique2023年11月1日第46卷第21期Nov.2023Vol.46 No.210 引言ELMO1、BERT2、GPT23、XLM4和MASS5等预训练模型的提出，通过大量未标记的数据来学习知识，然后转移到下游任务中，显著提高了许多自然语言处理（NLP）任务如分类、问答、序列标记任务等的效果。其中，BERT 作为很成功的技术之一，引出了很多变体结构，如 XLM4、RoBERTa6等，这些变体达到了许多 NLP任务的最好结果。神经机器翻译（NMT）的目标是将输入的源语言序列翻译为目标语言序列，通常它都是由编码器与解码器组成，编码器

2、负责将源语言序列映射到隐藏空间，解基于掩码矩阵BERT注意力机制的神经机器翻译陈锡1，2，陈奥博1，2（1.昆明理工大学信息工程与自动化学院，云南昆明 650500；2.云南省人工智能重点实验室，云南昆明 650500）摘要：BERT在各种自然语言处理任务上取得了优异的效果，但是，其在跨语言任务上并没有取得很好的结果，尤其是在机器翻译任务上。文中提出 BERT 增强的神经机器翻译（BENMT）模型，该模型分为三部分来提升神经机器翻译（NMT）模型对 BERT 输出表征的利用。首先，针对 BERT 在 NMT 任务上微调所造成的知识遗忘，使用一种掩码矩阵（MASKING）策略来缓解这种

3、情况；其次，使用注意力机制的方式将 BERT的输出表征融入 NMT模型中，同时更好地权衡了模型中的多个注意力机制；最后，融合 BERT的多层隐藏层输出来补充其最后一层隐藏层输出缺失的语言信息。在多个翻译任务上进行实验，结果表明提出的模型明显优于基线模型，在联合国平行语料库英文中文翻译任务上提高了 1.93个BLEU值。此外，文中的模型在其他翻译任务上也取得了不错的提升。关键词：神经网络；机器翻译；深度学习；自然语言处理；预训练；语言模型；注意力机制；机器学习中图分类号：TN91934；TP391 文献标识码：A 文章编号：1004373X（2023）21011106Neural machine

4、 translation based on maskingBERT attention mechanismCHEN Xi1,2,CHEN Aobo1,2(1.Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China;2.Yunnan Provincial Key Laboratory of Artificial Intelligence,Kunming 650500,China)Abstract：BERT has achi

5、eved excellent results in a variety of natural language processing(NLP)tasks.However,it fails to achieve good results on crosslanguage tasks,especially machine translation tasks.A BERTenhanced neural machine translation(BENMT)model,which is divided into three parts to improve the utilization of BERT

6、 output representation by neural machine translation(NMT)model,is proposed.A masking strategy is used to alleviate the knowledge forgetting caused by finetuning of BERT on NMT tasks.The attention mechanism is used to integrate the output representation of BERT into the NMT model.At the same time,mul

7、tiple attention mechanisms in the model are weighed better.The multilayer hidden layer output of BERT is integrated to supplement the missing language information in the output of its last hidden layer.Experiments was carried out on several translation tasks.The results show that the proposed model

8、is significantly better than the baseline model,and it obviously improves the EnglishChinese translation task of the United Nations parallel corpus by 1.93 BLEU values.In addition,the proposed model has also obtained significant improvement on other translation tasks.Keywords：neural network;machine

9、translation;deep learning;NLP;pretraining;language model;attention mechanism;machine learningDOI：10.16652/j.issn.1004373x.2023.21.021引用格式：陈锡，陈奥博.基于掩码矩阵BERT注意力机制的神经机器翻译J.现代电子技术，2023，46（21）：111116.收稿日期：20230505 修回日期：20230530基金项目：国家自然科学基金项目（61732005）；国家自然科学基金项目（61972186）；国家自然科学基金项目（U21B2027）；云南省重大科技专项计

10、划项目（202002AD080001，202103AA08001）；云南省高新技术产业项目（201606）111111现代电子技术2023年第46卷码器负责将隐藏空间的表示解码为目标语言序列。鉴于 BERT 在 NLP 任务上取得的优异效果，那么一个很自然的问题是，如何使用 BERT 来提升 NMT的性能。在大多数 NLP 任务上，使用BERT 的方法是，针对下游任务进行微调训练。但是直接应用在 NMT 任务上提升效果不佳7，因为 NMT 任务的参数量巨大8，需要在训练过程中大量的更新步骤来适应模型，这就会导致 BERT忘记预训练过程中学到的知识，使得结果变差，被称为灾难性遗忘9。

11、现有的方法有：使用 BERT 来替换 NMT的整个编码端，并且分两阶段对模型进行训练7；把 BERT 的输出作为一个额外的特征集成在 NMT 的编码器和解码器的每一层中。首先，BERTFUSED10中使用的BERT 参数并没有在训练过程中更新，并不能很好地适应当前任务；其次，作者对于两种注意力机制的结果只是简单的做了平均；最后，其仅仅使用了 BERT 的最后一层隐藏层输出，并没有利用 BERT的其他隐藏层输出。本文提出 BENMT 模型来增强 NMT 模型对 BERT信息的利用，该方法分为三个部分：1）针对上面提到的灾难性遗忘，为了让预训练模型适应当前的翻译任务，本文使用了一种 MASKING

12、策略11，以此让 BERT在不发生灾难性遗忘的前提下适应当前任务。2）本文使用了一种新方法来更好地权衡模型中的两种注意力机制。3）本文将BERT的某些层的隐藏层输出进行综合，使得BERT的输出表征得到更充分的利用。本文在多个数据集上进行了实验，包括联合国平行语料库 v1.012的英文中文和 IWSLT 201713的英文德文（en de）、英文意大利语（en it）、英文罗马尼亚文（en ro）和英文中文（en zh）平行语料库，实验结果表明，本文均采用标准尺寸的Transformer9和 BERTbase模型，实验结果表明，本文的方法对比基线模型有显著的提高。1 方法本文模型由三部分组成

13、：MASKING、多注意力融合和多层信息融合。本文 BENMT 模型的整体结构图如图1所示。编码器端各层的注意力机制如公式（1）所示：hli=12(attnS()hl-1i,Hl-1E,Hl-1E+)attnB()attnS()hl-1i,Hl-1E,Hl-1E,vfusionmaskingbert,vfusionmaskingbert（1）式中：attnS与attnB分别为自注意力机制和 MASKINGBERT注意力机制；HlE为编码器端第l层的隐藏层表示；vfusionmaskingbert表示对 MASKINGBERT 的多层信息进行融合；hli表示编码器端第l层的输入中第i个词的表征。

14、解码器端每一层的注意力机制如式（2）和式（3）所示：slt=attnS()sl-1t,Sl-1 t+1,Sl-1 t+1（2）slt=12(attnE()slt,HlE,HlE+)attnB()attnE()slt,HlE,HlE,vfusionmaskingbert,vfusionmaskingbert（3）式中：attnS、attnB和attnE分别表示自注意力机制、MASKINGBERT注意力机制和编码器解码器注意力机制；Sl t表示解码器端第l层前t个时间步的隐藏层状态，且Sl t=()sl1,sl2,slt-1。1.1 掩码矩阵策略模型 BERTFUSED 在训练

15、过程中 BERT 的参数是不进行更新的，这样并不能很好地使得 BERT的预训练知识适应当前领域。最直接的方法就是让 BERT 与Transformer联合训练，也就是微调。在使用预训练模型构建网络时，通常会为特定任务添加额外的网络层，然后使用特定任务的数据优化网图1 BENMT模型的整体结构和多层信息融合部分112第21期络。当附加的网络层参数数量较少时，通过微调训练可以获得很好的结果。但是，当附加网络层参数的数量与预训练模型的参数数量相当时，这就需要大量的更新步骤来适应模型，训练过程会导致预训练模型忘记预训练过程中学到的知识14，这被称为灾难性遗忘9，导致模型性能变差。给定一个预训练模型，在

16、针对下游任务进行训练时不对它的参数进行更新，取而代之的是，选择预训练模型参数中对下游任务重要的一个子集，丢弃其他不重要的参数。将第l个 Transformer 块的每个线性层WlWlK，WlQ，WLV，WlA0，WlI，Wl0与一个以均匀分布随机初始化且与Wl有同样大小的实值矩阵Ml相关联。以BERT为例，第l个Transformer块的前4个线性层用于计算和输出当前输入单词之间的自注意力，后2个线性层将单词表征传递给下一个 Transformer块。训练过程中，反向传播会不断用下游任务的损失值更新矩阵Ml。前向传播过程，首先将Ml通过一个元素级阈值函数1516得到用于当前线

17、性层的二进制掩码Mlbin。(mlbin)i,j=1,mli,j 0,otherwise（4）式中：mli,j Ml，i和j表示二维线性层的坐标；是一个全局阈值超参数。接着使用这个Mlbin与当前线性层wl相乘，得到更新后的线性层w l，相当于让模型自己选择需要预训练模型的那一部分参数，而不对参数进行更新，与 1相乘的是需要的参数，与0相乘的是丢弃的参数。具体公式如下所示：w l:=wlMlbin（5）本文方法在标准Transformer的基础上进行了改动，以便融入使用MASKING策略的 BERT。对于任何输入句子x，首先经过MASKINGBERT 的编码，取最后一层隐藏层输出，作为额外的特

18、征表示，并通过注意力机制融入Transformer的编码器和解码器的每一层中。具体结构如图 2 所示，其中虚线表示矩阵二值化。在编码器端的每一层中加入额外的MASKINGBERT注意力机制，如图 3所示，它计算每层的输入和 MASKINGBERT 的最后一层隐藏层输出之间的注意力信息。最终将本层的自注意力机制的输出和MASKINGBERT 注意力机制的输出相加取平均作为下一层的输入。图2 基于MASKING策略的一层BERT结构编码器端第l层注意力机制的输出被定义为：hli=12()attnS()hl-1i,Hl-1E,Hl-1E+attnB()hl-1i,HB,

19、HB（6）式中HB为MASKINGBERT的最后一层隐藏层输出。在解码器端的每一层加入额外的 MASKINGBERT注意力机制，它计算每层经过自注意力机制后的输入与MASKINGBERT隐藏层输出之间的注意力信息。最终将本层的编码器解码器注意力机制的输出和MASKINGBERT 注意力机制的输出相加取平均值作为下一层的输入。解码器端第l层的注意力机制的输出被定义为如下陈锡，等：基于掩码矩阵BERT注意力机制的神经机器翻译图3 本文BENMT模型的MASKING部分结构113现代电子技术2023年第46卷公式：slt=attnS()sl-1t,Sl-1 t+1,Sl-1 t+1（7）slt=1

20、2()attnB()slt,HB,HB+attnE()slt,HlE,HlE（8）式中HB为MASKINGBERT的最后一层隐藏层输出。1.2 多注意力融合将预训练模型BERT融入NMT中，本文使用注意力机制的方法。考虑两种方法来权衡模型中的两种注意力机制：一种是串行处理多个注意力机制17，将输入按顺序依次输入到多个注意力机制中，将上一个注意力机制的结果作为下一个注意力机制的输入，考虑注意力机制之间的相互作用，但是没有将其他注意力机制的结果考虑进最终结果中，仅将其作为输入；另一种是并行处理多个注意力机制10，将输入分别输入到多个注意力机制中，然后将各自的结果加权平均作为最终结果，虽然对注意力机

21、制的结果做了加权，将它们考虑进了最终结果中，但是没有考虑注意力机制之间的相互作用。针对上述问题，本文提出一种新的处理多注意力机制模型的方法，将串行处理和并行处理进行结合，既考虑了注意力机制之间的相互作用，又对注意力机制的结果做了加权，既结合了串行和并行的优点，又弥补了二者的缺点，实现了对二者的互补。本文模型中的多注意力融合部分的具体结构如图4所示。图4 本文BENMT模型的注意力融合部分结构在编码端的每一层中，使用并行处理多注意力机制的方式，即为公式（1）。使用串行处理多注意力机制的方式，即为公式（9）：hli=()attnB()attnS()hl-1i,Hl-1E,Hl-1E,HB,HB（9

22、）这里将 MASKINGBERT的最后一层隐藏层输出与经过模型自注意力机制计算的当前层输入进行注意力的计算，则公式（1）变为公式（10）：hli=12(attnS()hl-1i,Hl-1E,Hl-1E+)attnB()attnS()hl-1i,Hl-1E,Hl-1E,HB,HB（10）在解码端的每一层中，使用并行处理多注意力机制的方式即为式（2）和式（3）。使用串行处理多注意力机制的方式即为式（11）和式（12）：slt=attnS()sl-1t,Sl-1 t+1,Sl-1 t+1（11）slt=()attnB()attnE()slt,HlE,HlE,HB,HB（12）这里将 MASKINGB

23、ERT的最后一层隐藏层输出与经过模型自注意力机制计算和编码器解码器注意力机制计算的当前层输入进行注意力的计算，则式（3）变为式（13）：slt=12(attnE()slt,HlE,HlE+)attnB()attnE()slt,HlE,HlE,HB,HB（13）1.3 多层信息融合在 BERTFUSED中，使用 BERT的最后一层隐藏层的输出作为额外信息融入 NMT 模型中。但是由于BERT 的每一层均含有不同的语言信息，BERT 最后一层的输出表征较多地包含了句子的语义信息，和其他层的输出表征相比，较少的包含了句子的表层信息和句法信息18，但是这些语言信息对翻译模型也有一定的促114第21期进

24、作用。所以，这里对 MASKINGBERT 隐藏层信息的综合选择通过对第9、10、11、12的隐藏层信息进行综合。给定一个MASKINGBERT模型，定义它为maskingbert（*），对于输入序列T=()t1,t2,tn，MASKINGBERT某一层的隐藏层向量输出定义为如下公式：vlmaskingbert=maskingbert()T,L,L=1,2,12（14）式中L表示隐藏层的层号（1 代表第一层，12 代表最后一层）。为了充分利用 MASKINGBERT 的隐藏层信息，本文对MASKINGBERT后几层的隐藏层向量进行了平均池化操作，然后再将结果输入注意力机制中，计算出所需要的全局

25、依赖关系，公式如下所示：vavgmaskingbert=i=912vimaskingbert4（15）2 实验2.1 对比实验2.1.1 数据集本文使用联合国平行语料库 v1.0以及 IWSLT 2017数据集。对于联合国平行语料库v1.0数据集：本文从其提供的 enzh 和 zhen 训练集中抽取 200 000 作为该任务的训练集。对于 IWSLT 2017数据集，本文使用官方提供的完整数据集：翻译任务 ende 和 deen 的训练集大小为 200 000；翻译任务 enit的训练集大小为230 000；翻译任务 enro 的训练集大小为 220 000；翻译任务enzh和zhen的训

26、练集大小为230 000。2.1.2 训练细节对于 BERT 模型的使用：在 enzh 翻译任务中，BERT 模型分别使用 bertbaseuncased 和 bertbasechinese。此外，使用 bertbaseuncased 的字典（大小为30 522）和bertbasechinese的字典（大小为 21 128）来对训练语料进行处理；在 ende 翻译任务中，BERT 模型分别使用bertbaseuncased和 bert base germandbmdzcased。此外，使用 bertbaseuncased的字典（大小

27、为 30 522）和 basegermandbmdzcased的字典（大小为 31 102）对训练语料进行处理；在 enit和enro 翻译任务中，BERT 模型使用 bertbaseuncased。此外，使用 bertbaseuncased 的字典（大小为 30 522）和bertbasemultilingual的字典（大小为119 547）对训练语料进行处理。在训练阶段，直到模型在验证集上收敛便停止训练。推理阶段使用 beam search 生成测试集句子的翻译。beam_width设置为 5，length_penalty设置为 0.7。在评价阶段，本文使用BLEU作为评价指标。2.1.3

28、实验结果本文复现了 BERTFUSED模型作为基线，表 1显示了联合国平行语料库 v1.0的翻译任务结果。本文提出的 BENMT 模型将 enzh和 zhen翻译任务分别提高了 1.93 和 0.64 个 BLEU 值。表 2 显示了 IWSLT 2017 的翻译任务结果。本文提出的 BENMT 模型将 enit、enro、ende、deen、enzh 和 zhen 翻译任务分别提高了 0.59、0.68、1.13、1.14、1.37 和 0.92 个 BLEU 值。对各种翻译任务的有效改进证明了本文方法的有效性。表1 联合国平行语料库v1.0测试集的BLEU值（一）MethodBERTFU

29、SEDBENMT(ours)enzh40.5042.43zhen30.9631.60表2 IWSLT 2017语料库测试集的BLEU值MethodBERTFUSEDBENMT(ours)enit33.6234.21enro32.5333.21ende27.7928.92deen31.2032.34enzh28.1529.52zhen24.5125.432.2 消融实验这里使用本文的模型在 enzh和 zhen翻译任务进行了消融实验，以进一步评估本文模型各部分的性能影响。Fine tuning 表示使用基于微调的 BERT，而MASKING 表示在训练过程中使用基于 MASKI

30、NG 策略的BERT。此外，NMA表示使用本文提出的新方法来处理多注意力机制，AVG表示使用平均池化对MASKINGBERT的最后 4个隐藏层的输出进行融合。表 3为联合国平行语料库v1.0测试集的BLEU值。表3 联合国平行语料库v1.0测试集的BLEU值（二）MethodBENMT(ours)AVGAVGNMAAVGNMAMASKING+Finetuningenzh42.4343.8243.7140.5037.51zhen31.6032.6031.7030.9629.96从表3可以看出，如前所述，在微调BERT后，BLEU值下降。这意味着BERT发生了灾难性遗忘，因此，它忘记了在预训练中学

31、到的知识。对 BERT使用 MASKING策略减轻了微调所引起的灾难性遗忘问题，从而提高了BLEU 值。NMA 方法结合注意力机制的串行和并行处理，并考虑了多种注意力机制及其相互作用的结果和权重。因此，该方法有效地提高了 BLEU值。值得注意的是，在融合 MASKINGBERT 的最后 4 个隐藏层的信息陈锡，等：基于掩码矩阵BERT注意力机制的神经机器翻译115现代电子技术2023年第46卷后，BLEU值下降。观察模型的翻译，虽然 BLEU值降低了，但翻译的可读性提高了。3 结语本文提出的BENMT模型包括三个关键组成部分：MASKING、多注意力融合和多层信息融合，旨在增强NMT 模型

32、对 BERT 信息的利用。本文模型的性能在enzh、ende、enit 和 enro 翻译任务上得到了验证。然而，BERT的引入影响了模型的整体训练和推理过程的速度，计划在未来的工作中专注于模型的加速，此外，还将进一步研究注意力机制在模型中的应用。注：本文通讯作者为陈锡。参考文献1 PETERS M E,NEUMANN M,IYYER M.Deep contextualized word representations C/Proceedings of the 2018 Conference of the North American Chapter of the Association fo

33、r Computational Linguistics:Human Language Technologies.Stroudsburg,PA:ACL,2018:22272237.2 DEVLIN J,CHANG M W,LEE K.BERT:Pretraining of deep bidirectional transformers for language understanding EB/OL.20190524.https:/arxiv.org/abs/1810.04805v2.3 RADFORD A,NARASIMHAN K,SALIMANS T,et al.Improving lang

34、uage understanding by generative pre training EB/OL.20180611.https:/ LAMPLE G,CONNEAU A.Crosslingual language model pretraining EB/OL.2019 01 22.https:/arxiv.org/abs/1901.07291v1.5 SONG K,TAN X,QIN T,et al.MASS:Masked sequence to sequence pretraining for language generation EB/OL.20190621.https:/arx

35、iv.org/abs/1905.02450v1.6 LIU Y,OTT M,GOYAL N,et al.RoBERTa:A robustly optimized BERT pretraining approach EB/OL.2019 07 26.https:/arxiv.org/abs/1907.11692.7 IMAMURA K,SUMITA E.Recycling a pretrained BERT encoder for neural machine translation C/Proceedings of the 3rd Workshop on Neural Generation a

36、nd Translation.Stroudsburg,PA:ACL,2019:2331.8 VASWANI A,SHAZEER N M,PARMAR N,et al.Attention is all you need C/Advances in Neural Information Processing Systems 30:Annual Conference on Neural Information Processing Systems 2017.S.l.:s.n.,2017:59986008.9 GOODFELLOW I J,MIRZA M,XIA D,et al.An empirica

37、l investigation of catastrophic forgetting in gradient based neural networks J.Computer science,2013,84(12):13871391.10 ZHU J H,XIA Y C,WU L J,et al.Incorporating BERT into neural machine translation EB/OL.2020 02 17.https:/arxiv.org/abs/2002.06823.11 ZHAO M J,LIN T,JAGGI M,et al.Masking as an effic

38、ient alternative to finetuning for pretrained language models C/Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:ACL,2020:22262241.12 ZIEMSKI M,JUNCZYSDOWMUNT M,POULIQUEN B.The United Nations parallel corpus v1.0 C/Proceedings of the Tenth Interna

39、tional Conference on Language Resources and Evaluation 2016.Paris,France:ELRA,2016:35303534.13 CETTOLO M,GIRARDI C,FEDERICO M.WIT3:Web inventory of transcribed and translated talks C/Proceedings of the 16th Annual Conference of the European Association for Machine Translation.S.l.:EAMT,2012:261268.1

40、4 YANG J C,WANG M X,ZHOU H,et al.Towards making the most of BERT in neural machine translation C/The Thirtyfourth AAAI Conference on Artificial Intelligence.S.l.:AAAI,2020:93789385.15 HUBARA I,COURBARIAUX M,SOUDRY D,et al.Binarized neural networks C/Advances in Neural Information Processing Systems

41、29:Annual Conference on Neural Information Processing Systems 2016.S.l.:s.n.,2016:41074115.16 MALLYA A,DAVIS D,LAZEBNIK S.Piggyback:Adapting a single network to multiple tasks by learning to mask weights C/Proceedings of 15th European Conference on Computer Vision.Heidelberg,Germany:Springer,2018:72

42、88.17 JUNCZYS DOWMUNT M,GRUNDKIEWICZ R.MS UEdin submission to the WMT2018 APE shared task:dual source transformer for automatic postediting C/Proceedings of the Third Conference on Machine Translation:Shared Task Papers.Stroudsburg,PA:ACL,2018:822826.18 JAWAHAR G,SAGOT B,SEDDAH D.What does BERT learn about the structure of language?C/Proceedings of the 57th Conference of the Association for Computational Linguistics.Stroudsburg,PA:ACL,2019:36513657.作者简介：陈锡（1998），男，河南洛阳人，硕士研究生，研究方向为自然语言处理。陈奥博（1996），男，河南开封人，硕士研究生，研究方向为自然语言处理。116

邮箱/手机：
验证码：	获取验证码
温馨提示：	支付成功后，系统会自动生成账号（用户名为邮箱或者手机号，密码是验证码），方便下次登录下载和查询订单；
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？