基于词序扰动的神经机器翻译模型鲁棒性研究.pdf

资源描述

1、2023 年 10 月 Chinese Journal of Network and Information Security October 2023 第 9 卷第 5 期网络与信息安全学报 Vol.9 No.5 基于词序扰动的神经机器翻译模型鲁棒性研究赵彧然，薛傥，刘功申（上海交通大学网络空间安全学院，上海 200240）摘要：预训练语言模型是自然语言处理领域一类十分重要的模型，预训练微调成为许多下游任务的标准范式。先前的研究表明，将BERT等预训练语言模型融合至神经机器翻译模型能改善其性能。但目前仍不清楚这部分性能提升的来源是更强的语义建模能力还是句法建模能力。此外，预训练语言模型

2、的知识是否以及如何影响神经机器翻译模型的鲁棒性仍不得而知。为此，使用探针方法对两类神经翻译模型编码器的句法建模能力进行测试，发现融合预训模型的翻译模型能够更好地建模句子的词序。在此基础上，提出了基于词序扰动的攻击方法，检验神经机器翻译模型的鲁棒性。多个语言对上的测试结果表明，即使受到词序扰动攻击，融合BERT的神经机器翻译模型的表现基本上优于传统的神经机器翻译模型，证明预训练模型能够提升翻译模型的鲁棒性。但在英语德语翻译任务中，融合预训练模型的翻译模型生成的译文质量反而更差，表明英语 BERT 将损害翻译模型的鲁棒性。进一步分析显示，融合英语 BERT 的翻译模型难以应对句子受到词序扰动攻击前

3、后的语义差距，导致模型出现更多错误的复制行为以及低频词翻译错误。因此，预训练并不总能为下游任务带来提高，研究者应该根据任务特性考虑是否使用预训练模型。关键词：神经机器翻译；预训练模型；鲁棒性；词序中图分类号：TP393 文献标志码：A DOI:10.11959/j.issn.2096109x.2023078 Research on the robustness of neural machine translation systems in word order perturbation ZHAO Yuran,XUE Tang,LIU Gongshen School of Cyber Sci

4、ence and Engineering,Shanghai Jiao Tong University,Shanghai 200240,China Abstract:Pre-trained language model is one of the most important models in the natural language processing field,as pre-train-finetune has become the paradigm in various NLP downstream tasks.Previous studies have proved integra

5、ting pre-trained language models(e.g.,BERT)into neural machine translation(NMT)models can improve translation performance.However,it is still unclear whether these improvements stem from enhanced semantic or 收稿日期：20220927；修回日期：20230302 通信作者：刘功申，基金项目：国家自然科学基金（U21B2020）；上海市科技计划项目（22511104400）Foundati

6、on Items:The National Natural Science Foundation of China(U21B2020),Shanghai Science and Technology Plan(22511104400)引用格式：赵彧然,薛傥,刘功申.基于词序扰动的神经机器翻译模型鲁棒性研究J.网络与信息安全学报,2023,9(5):138-149.Citation Format:ZHAO Y R,XUE T,LIU G S.Research on the robustness of neural machine translation systems in wordorder

7、perturbationJ.Chinese Journal of Network and Information Security,2023,9(5):138-149.第 5 期赵彧然等：基于词序扰动的神经机器翻译模型鲁棒性研究 139 syntactic modeling capabilities,as well as how pre-trained knowledge impacts the robustness of the models.To address these questions,a systematic study was conducted to examine the

8、 syntactic ability of BERT-enhanced NMT models using probing tasks.The study revealed that the enhanced models showed proficiency in modeling word order,highlighting their syntactic modeling capabilities.In addition,an attacking method was proposed to evaluate the robustness of NMT models in handlin

9、g word order.BERT-enhanced NMT models yielded better translation performance in most of the tasks,indicating that BERT can improve the robustness of NMT models.It was observed that BERT-enhanced NMT model generated poorer translations than vanilla NMT model after attacking in the English-German tran

10、slation task,which meant that English BERT worsened model robustness in such a scenario.Further analyses revealed that English BERT failed to bridge the semantic gap between the original and perturbed sources,leading to more copying errors and errors in translating low-frequency words.These findings

11、 suggest that the benefits of pre-training may not always be consistent in downstream tasks,and careful consideration should be given to its usage.Keywords:neural machine translation,pre-training model,robustness,word order 0 引言将预训练语言模型（PLM，pre-trained lan-guage model），如 BERT1等，融入神经机器翻译模型中是自然语言处理领域

12、十分热门的研究方向2-5。融合之后，机器翻译模型能够利用 PLM学习到丰富语义和句法知识6-15，进而提升翻译模型的鲁棒性和翻译效果16。但之前的研究更关注改进模型的效果，忽略了对这些提升的来源进行解释，并且缺乏预训练语言模型如何影响翻译模型鲁棒性的考量。本文首先检验了 BERT 能否改进机器翻译模型的句法能力。使用一些探针对传统的神经机器翻译模型 Transformer17（记作 NMT 模型）的编码器和融合了 BERT 的 Transformer 模型（记作BERT-NMT 模型）的编码器进行测试10,18，检验它们分别编码了哪些句法相关的信息。实验结果表明，融合BERT 后，机器翻译模型

13、编码器在词序建模以及重建依存句法树相关任务上的表现更好。为了验证这些提升确实是由 BERT 带来的，实验过程中使用掩码操作分别遮掩了自注意力模块和BERT-编码器（BERT-Enc，BERT-encoder）注意力模块。结果证明，BERT 的确能够帮助提高翻译模型对词序进行建模的能力，特别是显著提高模型在双词调换（BShift，bi-gram shift）任务上的表现。直觉上来讲，这种特性能够帮助机器翻译模型更好地处理源语言句子中的词序扰动攻击。为了检验这一猜想，本文提出了一种以概率 p 交换两个相邻词以改变词序的攻击方法，并使用双语替换评测19（BLEU，bilingual evaluati

14、on un-derstudy）和 BERTScore20对攻击后模型的翻译结果进行评价。在机器翻译工坊（WMT，workshop on machine translation）提供的多个语言翻译任务上进行实验表明，虽然词序扰动的概率不同，BERT-NMT 模型生成的译文质量几乎优于 NMT模型生成的译文，但在英德翻译任务中，随着扰动概率的增加，使用英文 BERT 反而会给模型生成的译文质量带来消极影响，说明英文 BERT 将破坏翻译模型的鲁棒性。为了找到使用英文 BERT 训练得到的BERT-NMT 模型翻译质量下降的原因，比较攻击前后源语言端和目标语言端句子的语义变化。使用 WMT14 英德

15、数据集分别训练得到英德翻译模型和德英翻译模型并进行对比。对比发现，英语句子在受到攻击之后语义变化更为明显，这可能是德语具有比英语更为灵活的词序。而源语言端和目标语言端的语义差别则说明：英语 BERT 难以缩小词序扰动攻击前后源语言端的语义变化。为了细致了解翻译质量下降的具体表现，对比 NMT 模型和 BERT-NMT模型分别受到攻击之后输出的译文。随着攻击时扰动概率的增加，BERT-NMT 模型倾向于错误地从源语言端直接复制单词作为译文。此外，对比两个模型在翻译低频词时的正确率。统计结果表明，当扰动概率增加时，BERT-NMT 模型翻译低频词的效果甚至不如普通的 NMT 模140 网络与信息安

16、全学报第 9 卷型。可见预训练并不总能为下游任务带来性能上的提升，在使用过程中应该更为小心。1 研究现状 1.1 NMT 模型中的 PLM 神经机器翻译与预训练的交叉领域主要包含以下两条研究线路：将 PLM 融合至神经机器翻译模型；预训练跨语言的语言模型。1.1.1 将 PLM 融合至神经机器翻译模型在 BERT1被提出之后，出现了许多将 BERT融入机器翻译模型的简单尝试，包括使用 PLM 的输出替代机器翻译模型的嵌入层21，以及使用PLM 的参数对 NMT 模型的编码器进行初始化22。Zhu 等2设计了 BERT-Enc 和 BERT-解码器（BERT-Dec，BERT-decode

17、r）注意力模块，并且混合了不同模块输出的表示。类似地，APT 框架使用基于层的注意力机制对 BERT 的各层输出进行动态混合13。Guo 等23使用两个 BERT 分别作为编码器和解码器，在 BERT 不同层之间添加适配器，以同时利用编码器端和解码器端 BERT 包含的信息。Guo 等24进一步提出冻结 BERT 参数并添加适配器的方法来加速机器翻译模型的训练过程。Shavarani 等15提出更加充分地利用 BERT包含的语言学信息，而非简单地将其作为词嵌入的替代品。Xu 等25使用 145 GB 德语文本训练了一个特制的双语语言模型 BiBERT，来提高模型的翻译效果。1.1.2 跨语言的

18、语言模型预训练由于 BERT 在训练过程中仅使用单语语料，并不适合执行机器翻译任务，Conneau 等26设计了一个新的翻译语言模型（TLM，translation language model）任务，并使用双语平行语料训练得到 XLM 模型。此外，以 BERT 为代表的单语语言模型往往仅包含编码器，与翻译模型常采用的编码器解码器架构并不匹配，为此，Song 等27提出预训练一个序列到序列架构的模型 MASS。此后，Liu 等28设计了更为复杂的预训练任务，并使用 25 种语言训练得到mBART，使得在翻译任务上进行微调成为可能。Lin 等29使用随机对齐替换任务训练了一个普适性更强的多语言

19、翻译模型 mRASP。Pan等30在 mRASP 的基础上引入对比学习和基于对齐的数据增强以提高模型效果。Li 等31的研究表明，对序列到序列模型进行预训练的过程中使用双向解码器能显著提高模型的翻译效果。1.2 NMT 模型的鲁棒性尽管相比先前的统计机器翻译模型，神经机器翻译模型生成的译文质量有了显著提高，但其仍存在一些不足之处。Belinkov 等32发现基于字符的神经机器翻译模型的翻译效果很容易受到文本中噪声的影响。Cheng 等33指出同义词替换同样能够降低神经机器翻译模型的翻译效果。为了检验神经机器翻译模型的鲁棒性，之前的研究还尝试在输入中加入笔误，对输入中的字符或单词执行交换、重复

20、以及删除操作，并对模型的相应输出进行评价3435。为了提高 NMT 模型的鲁棒性，主流的方法为基于对抗学习32，即使用人工添加噪声的数据训练 NMT 模型。Sato 等36提出向输入添加使得损失增大最多的噪声以增强模型的鲁棒性。Cheng 等37设计了一个基于梯度的方法来生成对抗样本。此外，Sennrich 等38以及 Michel 和Neubig39说明使用子词表示句子能够帮助机器翻译模型更好地处理扰动。Cheng 等33提出了一个新的训练目标，最大化原始输入和扰动过的样本之间的相似性。UniDrop40在特征、结构和数据3 个维度使用丢弃法来提高机器翻译模型的效果。此外，Cheng 等41

21、将有监督训练和自监督训练相结合来提高神经机器翻译模型应对代码转换类型干扰的鲁棒性。本文使用融合 BERT 的神经机器翻译模型来探究 BERT 为神经机器翻译模型带来了哪些影响。之前的研究表明，BERT 能够提高文本分类模型的鲁棒性16。但 BERT 是否会影响神经机器翻译模型的鲁棒性还不得而知，这是本文要探究的问题。2 BERT 改善句法能力本节通过实验来分析 BERT 如何影响神经机器翻译模型的建模能力，具体来说，使用 5 种不同的探针任务来检测 NMT 模型的编码器和BERT-NMT 模型的编码器中分别编码了哪些句第 5 期赵彧然等：基于词序扰动的神经机器翻译模型鲁棒性研究 141 法

22、相关的信息。2.1 实验设置 2.1.1 探针任务本文实验共使用以下 5 种探针任务。Distance任务中探针需要依据任意两个单词的向量表示预测它们在依存句法树中之间的距离。Depth 任务则需要探针根据每个单词的向量表示预测其在依存句法树中的深度，即单词和根节点之间的距离。BShift 任务则需要探针根据句子的向量表示判断句中是否存在两个相邻单词的位置被调换了。TreeDepth 任务要求探针预测句子的短语结构树的最大深度。TopConst 任务要求探针对句子的短语结构树最顶层类型进行分类。表 1 提供了每种句法探针任务的示例。表 1 句法探针任务的示例 Table 1 Examples

23、 for each syntactic probing task 任务示例标签 Distance why not just bring up the idea of staying in your current lab with your advisor?word:idea,current 3 Depth Budget negotiations between the mayor and the city council are enter-ing high gear.word:mayo 3 BShift She wondered how time much had passed.Inv

24、erted TreeDepth Who knew who would be there?10 TopConst I wanted to start asking questions now,but forced myself to wait.NP_VP_ 单词iw和jw之间的距离T(,)ijdw w定义为两者在依存句法树之间边的数目。对于句子s 12,nw ww，使用探针根据每对单词(,)ijw w对应的表示(,)ijh h来预测它们之间的距离。T(,)()()ijijijdh hhhhh(1)探针B的训练目标为 2,11min(,)(,)nTijijsi jdw wdh hn(2)单词iw的

25、深度T()idw定义为其在依存句法树中与根节点之间的边数。对于句子12,nsw ww，根据每个单词iw对应的表示ih，使用探针来预测它的深度。T()()()iiidhhh(3)探针的训练目标为 T11minniisidwdhn (4)至于BShift、TreeDepth和TopConst这3个任务，使用包含一层隐藏层的多层感知机（MLP，multi-layer perceptron）分类器作为探针，并使用Sigmoid作为激活函数。给定句子is对应的向量表示ih，预测方法为 softmax MLP()iiyh(5)训练目标为 MLPTminlog()iiiyy(6)其

26、中，MLP表示MLP的全部参数，iy为独热码。对于Distance和Depth任务，仿照Hewitt和Manning10的研究，使用探针的预测值和真实值之间的斯皮尔曼相关系数进行评价，对于其他任务则使用准确率作为评价指标。2.1.2 数据对于Distance和Depth任务，使用STS 12-1642-46的数据，并且使用开源工具Stanza47生成每个句子对应的依存句法树以计算单词之间的距离和每个单词的深度。对全部数据按照7:2:1划分为训练集、验证集和测试集，分别包含36 000、10 000、5 000条句子。对于其他探针任务，使用SentEval48提供的数据集。每个任务的训练集包含

27、100 000条句子，验证集和测试集的大小均为10 000。使用WMT14英德数据集训练神经机器翻译模型。在训练之前，首先使用40 000次合并操作的字节对编码38（BPE，byte-pair encoding）算法对句子进行编码。验证集为newstest2013，测试集为newstest2014。2.1.3 模型本节实验中使用到的模型包括两类：基础模型和探针模型。基础模型用于生成单词及句子的向量表示，而探针模型则根据这些向量表示执行相应的任务。对于Distance和Depth任务，使用矩阵modeldrB作为探针，其中modeld为基础模型142 网络与信息安全学报第 9 卷生成的向量

28、表示对应的维度，r为探针的秩。对于其他任务，使用包含一层隐藏层的MLP分类器作为探针。用于生成单词表示的基础模型包括BERT、NMT编码器以及BERT-NMT编码器。NMT模型的整体架构如图1所示，包含编码器和解码器。其中，编码器主要包含自注意力和前馈网络模块，解码器则包括掩码自注意力、交叉注意力以及前馈网络3个模块。每个模块之后都会进行残差连接和层标准化操作。图 1 NMT 模型的整体结构 Figure 1 The whole structure of the NMT model NMT模型第层编码器的输出为 1111LNAttn(,)EEEEERHHHH(7)LNFFN()EEEHRR(

29、8)其中，LN 表示层标准化操作。注意力模块Attn(,)Q K V 的计算方法为 T()()Attn(,)softmaxQKVkdQWKWQ K VVW (9)其中，modelmodel,kvddddQKVWWW为可训练参数。前馈网络FFN()h的计算方法为 1122FFN()ReLU()hhbbWW(10)其中，modelmodelmodel1212,dddb bW W为可训练参数。类似地，NMT模型第层解码器的输出可以表示为 1111LNAttn(,)DDDDDRHHHH(11)LNAttn(,)DDDEELLTRRHH(12)LNFFN()DDDHTT(13)BERT-NMT模型由B

30、ERT-fused的编码器和Transformer模型的解码器构成。BERT-fused的编码器结构如图2(a)所示，通过BERT-Enc注意力模块将BERT最后一层的输出BERTBLH引入NMT模型，其第层的输出可以写为 BERTBERT11111Attn(,)LN(1)Attn(,)EEEEEEBBLLHHHHRHHH(14)LNFFN()EEEHRR(15)其中，0.5,1,6。对于BERT，使用HuggingFace49提供的bert-base-uncased模型作为基准。NMT模型和BERT-NMT模型的实现与训练均基于Fairseq50，其中BERT-NMT模型在训练

31、时同样采用bert-base-uncased作为BERT模块。对于每个基础模型，使用其最后一层的输出作为单词的表示，并且使用单词表示的均值作为句子的嵌入。此外，为了能够了解自注意力模块和BERT-Enc模块的作用，使用控制变量法，在训练结束后生成单词表示时分别对两者进行掩码操作，这样最终得到的向量表示仅由一部分模块计算得到。对自注意力模块进行掩码操作如图2(b)所示，对BERT-Enc模块进行掩码操作图2(c)所示。2.1.4 训练设置对于Distance和Depth探针，秩r设置为64，当基础模型为翻译模型时，设置model512d；当基础模型为BERT时

32、，则设为768。探针的训练目标为最小化预测值和实际值的L1损失。优化器使用第 5 期赵彧然等：基于词序扰动的神经机器翻译模型鲁棒性研究 143 图 2 BERT-fused 编码器结构和掩码操作示意 Figure 2 Overview of the structure of BERT-fused encoder and masking methods Adam51，其中8120.9,0.999,1 10。学习率设置为0.001。探针被训练直至收敛，最多训练40轮，批大小为20。至于其他探针，其训练目标为最小化预测值和实际值之间的交叉熵损失。学习率同样设置为0.001。优化器依然采用Adam

33、，但是参数设置略有不同：120.9,0.98。类似地，探针最多训练200轮直至收敛，批大小为64。NMT和BERT-NMT模型的隐藏层维度设置为512，注意力头个数为8，前馈层维度为2 048。学习率为0.000 7，训练时先预热4 000步。将丢弃率设置为0.1，标签平滑使用参数0.1。优化器Adam的参数为120.9,0.98。全部实验在两张NVIDIA GTX 1080Ti GPU上完成，分配给每张显卡的训练批次中包含4 096个子词。使用梯度累积来模拟更大的批大小。翻译模型训练到在验证集上收敛为止。2.1.5 翻译模型结果本文使用SacreBLEU52计算模型生成译文的BLEU分数，

34、NMT模型分数为27.1，BERT-NMT模型为29.0，这与之前的文献结果一致2,17，也保证了之后对比分析的有效性。2.2 BERT 的影响句法相关的探针任务实验结果如表2所示，在BERT的帮助下，BERT-NMT编码器在Distance、Depth、BShift、TreeDepth、TopConst任务上都获得了比NMT编码器更高的准确率。此外，对自注意力模块和BERT-Enc注意力模块分别进行掩码操作会导致准确率发生不同变化。虽然对BERT-NMT编码器中的自注意力模块进行掩码操作会导致模型在Distance和Depth任务上的性能出现略微下降，掩盖掉BERT-Enc注意力模块则会导

35、致模型在BShift任务上的准确率大幅下跌18.51%。作为对比，对自注意力模块进行掩盖甚至会导致探针的准确率上涨0.83%。考虑到BERT模型本身在BShift任务上能够取得较高的准确率，BERT提高了神经机器翻译模型根据语义识别有问题的词序的能力。这说明BERT能够从混乱的语序中提取语义信息，因此下文讨论BERT能否提高机器翻译模型的鲁棒性。3 使用语序扰动攻击 NMT 模型即使相邻的两个单词位置调换，BERT也能够识别出句子的语义信息，这种特性可以帮助神经机器翻译模型更好地应对源语言句子中的扰144 网络与信息安全学报第 9 卷动。本节探究BERT是否能够提升机器翻译模型的鲁棒性。

36、3.1 实验设置 3.1.1 攻击方法为了探究BERT能否提高机器翻译模型的鲁棒性，本节仿照BShift任务设计了一种扰乱词序的攻击方法。简单来说，打乱翻译任务测试集中句子的原有词序，并以一定概率p交换两个相邻单词，之后以扰动后的句子作为输入，评估模型翻译出的译文效果。表3展示了使用攻击方法按照不同概率生成的样例。值得注意的是，句首第一个单词和结尾标点的位置在攻击时不会被改变。表 3 使用攻击方法按照不同概率生成的样例 Table 3 Examples generated by attacking method according to different probabilities p 句

37、子 0.0 Two sets of lights so close to one another:inten-tional or just a silly error?0.1 Two sets of lights so close to one another:inten-tional or just silly a error?0.2 Two sets of so lights close to one another:or inten-tional a just silly error?0.3 Two of sets lights so to close another one inten

38、tional or:just a silly error?0.4 Two sets of so lights to one close:another or inten-tional just a silly error?0.5 Two sets lights of close to so one another intention-al:or just silly a error?该攻击方法的形式化定义如下：假设s是一个由n个单词组成的句子，即12,nsw ww。对于每个位置,2,2i in，iw以概率p与自己右边相邻的单词1iw交换位置。这样，s将会变成11,iinwwww。使用ps表示依

39、照概率p对s进行扰动得到的结果，其中(0,0.5p。攻击之后，分别观察NMT和BERT-NMT模型输出的翻译结果。如果BERT能够提高机器翻译模型的鲁棒性，那么BERT-NMT的译文分数（BLEUScore或BERTScore）将会更高。反之，如果BERT-NMT模型的分数更低，则说明BERT可能对机器翻译模型的鲁棒性有负面影响。3.1.2 数据为了囊括尽可能多的语言，本文选择了5种来自不同语系的语言对，包括WMT14德语英语数据集（De-En，包括4 500 000条平行语料）、WMT14英语德语数据集（En-De）、WMT17芬兰语英语数据集（Fi-En，包括2 600 000条平行语料

40、）、WMT17土耳其语英语数据集（Tr-En，包括207 000条平行语料）以及WMT17中文英语数据集（Zh-En，包括20 800 000条平行语料）。对于WMT14 英德数据集，借助Moses提供的脚本进行分词，之后使用40 000次BPE合并操作进行编码，并生成一个共享字典。对于WMT17 Fi-En和Tr-En，使用WMT17官方提供的预处理后的版本，同样使用源语言和目标语言的共享字典。至于WMT17 Zh-En数据集，首先使用jieba对中文文本进行分词处理，之后对中文和英文数据集分别使用32 000次BPE合并操作构建字典。对于WMT14数据集，使用newstest2013作为验

41、证集，newstest2014作为测试集。WMT17的翻译任务在newstest2016上进行验证，在newstest2017上进行评测。3.1.3 模型本节使用的NMT模型和BERT-NMT模型的架构与超参数与2.1节中介绍的相同。表 2 句法相关的探针任务实验结果 Table 2 Results of syntactic probing tasks 模型准确率 Distance Depth BShift TreeDepth TopConst BERT 74.16%78.79%88.77%36.21%72.62%NMT 编码器 80.86%83.53%70.66%39.9

42、4%75.26%BERT-NMT 编码器 81.09%83.97%85.14%40.66%70.27%掩码自注意力模块 77.91%79.96%85.97%38.75%71.74%掩码 BERT-Enc 注意力模块 80.22%82.07%66.63%39.80%74.04%第 5 期赵彧然等：基于词序扰动的神经机器翻译模型鲁棒性研究 145 3.1.4 评价指标使用BLEUScore和BERTScore来评价翻译结果。根据Zhang 等20的研究，相比基于n元语法的评价方法，BERTScore能够惩罚与语义有关的词序变化，比较适合用于评价语义变化。本文采用BERTScore的F1值作为评

43、价指标。表4展示了NMT和BERT-NMT在相应测试集上的BLEUScore和BERTScore。尽管语言对不同，BERT-NMT模型在BLEUScore和BERTScore上都明显高于NMT模型，说明将BERT融合到机器翻译模型中确实能够提高模型生成的译文质量。3.2 攻击结果 3.2.1 BLEUScore和BERTScore的变化图3分别展示了BERT-NMT和NMT在BLEUScore和BERTScore上的差值。尽管语言对之间的亲疏关系不同，但除了En-De任务之外，大多具有相近的趋势。对于其他语言来说，不论攻击概率p如何变化，BERT-NMT模型都能将译文的BLEUScore和B

44、ERTScore提高1.0左右。这归功于BERT模型从看似无序的单词中提取语义信息的能力。值得注意的是，BLEUScore和BERTScore的变化都证实英文BERT会给NMT模型的翻译结果带来负面影响：当攻击概率p大于30%时，BERT-NMT模型产生的译文比NMT 模型生成的译文更差。3.2.2 源语言端和目标语言端语义的变化为了找出融合英文BERT后，BERT-NMT模型翻译质量下降这一现象背后的原因，比较源语言端句子和目标语言端译文的语义变化。src1BS(,)BS(,)ppiiiiis ss sn(16)tgt1BS(,)BS(,)ppiiiiir tr tn(17)其中，tgtN

45、MT,BERT-NMT。pis表示按照概率p对句子is进行扰动的结果。it表示神经机器翻译模型根据输入is生成的译文，而ir则表示is对应的标准翻译。BS(,)ijs s为js相对于is的BERTScore。图 3 BERT-NMT 和 NMT 在 BLEUScore 和 BERTScore 上的差值 Figure 3 Plots of differences between BERT-NMT and NMT in terms of BLEUScore and BERTScore 由于对不同语言计算BERTScore时使用了不同的语言模型，直接对BERTScore进行比较并不合理，因此使用累积

46、分布函数（CDF，cumulative distribution function）将得到的分数转化为0,1上的分布，实现对BERTScore的归一化。之后若没有特别指出，将使用BS(,)ijs s来代表经CDF变换后的BERTScore。源语言和目标语言端语义变化如图4所示，表 4 NMT 和 BERT-NMT 在相应测试集上的 BLEUScore 和 BERTScore Table 4 BLEUScore and BERTScore for NMT and BERT-NMT on corresponding test sets 模型 De-En BLEUScore/BERTScore En

47、-De BLEUScore/BERTScore Fi-En BLEUScore/BERTScore Tr-En BLEUScore/BERTScore Zh-En BLEUScore/BERTScore NMT 31.1/85.8 27.1/85.5 25.9/83.8 16.0/75.5 22.8/82.4 BERT-NMT 32.4/86.8 29.0/86.1 26.9/84.9 18.8/78.6 23.2/82.7 146 网络与信息安全学报第 9 卷 En-De在源语言端的语义变化明显大于De-En中源语言端的语义变化，说明不同语言对于词序扰动具有不同的反应。对于英语文本来说，受

48、到干扰之后句子的语义发生了一定改变，而德语的句子仍保留了原始的意义。一种可能的解释是德语的语法允许较为灵活的词序。图 4 源语言和目标语言端语义变化 Figure 4 Changes of semantics in the source side and target side 但是在En-De任务中，NMT和BERT-NMT模型在目标语言端上的变化趋势和源语言端并不相同。而它们在De-En任务中的变化趋势和源语言端的变化更为类似。这说明在En-De任务中，不论NMT还是BERT-NMT模型，都没能很好地应对攻击带来的变化。3.2.3 源语言端和目标语言端语义的差值为了更好地描绘源语言端和目

49、标语言端的变化，定义两端之间语义的差值Diff。tgtBS(,)BS(,)1DiffBS(,)BS(,)piiiippiiiiis ss snr tr t(18)其中，tgtNMT,BERT-NMT，p为扰动概率。在De-En和En-De任务上一同比较Diff是合理的，因为它们涉及的语言是相同的，而且在计算过程中使用了相同的模型进行打分。图5展示了源语言和目标语言端间的语义差值。当攻击的扰动概率p增加时，BERT-NMT模型在En-De上的Diff明显高于De-En上的Diff值，说明将英语BERT融合至神经机器翻译模型中难以缩小语义差别。因此，英文BERT并没有为机器翻译模型抵御源语言句子中

50、扰动的鲁棒性带来太多提升。图 5 源语言和目标语言端间的语义差值 Figure 5 Semantic difference between the source side and target side 3.3 分析 3.3.1 复制行为为了更加细致地了解翻译质量下降的表现，本文比较了NMT模型和BERT-NMT模型在输入未受扰动和受扰动情况下生成的译文。当输入分别为未受攻击的句子和扰动后的句子时NMT和BERT-NMT生成的翻译样例如表5所示，当源语言句子未被攻击时，BERT-NMT模型能够产生高质量的翻译。但当输入受到扰动后，BERT-NMT模型倾向于简单地直接从源语言句子中复制单词。而

展开阅读全文