藏文虚词知识融合的藏汉机器翻译方法研究.pdf

资源描述

1、Vol.33No.JournalofMUC(NaturalISciencesEdition第3 3 卷第1期Feb.20242024年2 月中央民族大学学报（自然科学版）藏文虚词知识融合的藏汉机器翻译方法研究严松思12,珠杰2,汪超，2,刘亚姗12,许泽洲1,2,徐泽辉，2（1.西藏大学信息科学技术学院，西藏拉萨540 0 0 0；2.省部共建西藏信息化协同创新中心，西藏拉萨540 0 0 0）摘要：针对藏文虚词的文法特点，设计了基于藏文虚词知识融合的方法，该方法能够提高藏汉翻译的效果。首先通过全部藏文虚词知识融合、过滤兼类虚词知识融合、单音节虚词知识融合和多音节虚词知识融合，得到四种对应语料

2、，其次将其在Transformer模型和mBART模型上进行了实验，使用轮数集成和不同网络结构集成来提高最终模型的泛化能力。对比实验证明，藏文虚词知识融合算法与模型集成策略可以提升藏汉机器翻译的翻译效果，最高可以达到38.0 5个BLEU。关键词：藏文虚词知识融合；机器翻译；模型集成中图分类号：TP391文献标识码：A文章编号：10 0 5-8 0 36（2 0 2 4）0 1-0 0 2 0-0 8藏族是中国历史最悠久的民族之一，有着自己的语言和文字。自吐蕃王朝大臣吐弥桑布扎创制藏文以来，距今已有130 0 多年的历史。在漫长的历史长河中，藏族人民创造了灿烂的民族文化，在文学、音乐、舞蹈、绘

3、画、雕塑、建筑艺术等方面，都留下了极为丰富的文化遗产。深人研究藏汉机器翻译有助于母语非藏文的其他学者了解和掌握藏族的历史和文化，能够促进民族间交往交流交融，有助于民族团结，同时还能够促进藏区的经济发展和对外交流，因此藏汉机器翻译研究具有非常重要的现实意义。藏汉机器翻译与其他高资源机器翻译，如英德、英汉一样，经历了基于规则的藏汉机器翻译、基于统计的藏汉机器翻译和基于神经网络的藏汉机器翻译的发展历程。在基于规则的藏汉机器翻译方面，2 0 0 1年德盖才郎等人11设计并实现了实用化汉藏机器翻译系统，该系统共设计了三千多个规则，建立了2 0 余万词条的汉藏词典作为辅助工具，提高了翻译效果，奠定了基于规

4、则的汉藏机器翻译理论基础。在基于统计的藏汉机器翻译方面，2 0 11年才让加等人（2 1开展了面向自然语言处理的大规模汉藏（藏汉）双语语料库构建技术研究，为开发和研究汉藏统计机器翻译奠定了语料基础；2 0 12 年诺明花等人3 提出了CMWEPM模型，该模型提高了汉藏多词单元等价对的召回率，从而能够提高汉藏辅助翻译系统的翻译质量；2 0 13年董晓芳 4 进行了藏汉统计机器翻译短语抽取技术研究，该研究在0 ch短语抽取算法的基础上进行了改进，在一定程度上提高了翻译模型的质量。在基于神经网络的藏汉机器翻译方面，2 0 17 年李亚超等人 5 研究了藏汉神经网络机器翻译，该研究在藏汉语对上进行了基

5、于注意力的神经网络机器翻译的实验，并采用迁移学习方法缓解藏汉平行语收稿日期：2 0 2 3-10-15基金项目：国家自然基金项目（6 2 0 6 6 0 42）；教育部人文社会科学研究项目（2 1YJCZH059）；2 0 2 1年西藏自治区高校人文社会科学研究项目（SK2021-24）；西藏大学提升计划项目（ZDTSJH21-07）；西藏大学培育计划项目（ZDCZJH21-10）；西藏大学珠峰学科建设计划项目（zf22002001）；西藏大学2 0 2 0 级高水平项目（2 0 2 0-GSP-S176）作者简介：严松思（19 9 9-），女（汉族），山东菏泽人，西藏大学信息科学技术学院在读

6、研究生，主要研究方向：自然语言处理、机器翻译。通讯作者：珠杰（19 7 3-），男（藏族），西藏日喀则人，西藏大学信息科学技术学院教授，主要研究方向：自然语言处理、模式识别。21严松思等：藏文虚词知识融合的藏汉机器翻译方法研究第1期料数量不足问题；2 0 2 0 年沙九等人【探究了不同切分粒度的藏汉双向神经机器翻译，该文章提出了藏汉双向机器翻译的具有音节、词语以及音词融合的多粒度训练方法；2 0 2 0 年慈祯嘉措【7 研究了低资源语言条件下的藏汉（汉藏）机器翻译关键技术，作者通过单语语言模型的融合，迭代式回译策略的应用提高了藏汉（汉藏）机器翻译的效果；2 0 2 1年刘赛虎【8 进行了基于注

7、意力机制的藏汉双语机器翻译技术研究，该研究在不同切分粒度的实验中，探讨了以藏字汉字、藏词汉词、藏词汉词+BPE（By t e Pa i r En c o-ding）三种切分粒度形态下的Bi-LSTM和Transformer模型的藏汉机器翻译效果；2 0 2 1年头旦才让等人 9 研究了基于改进字节对编码的汉藏机器翻译，该研究改进了字节对编码算法，提出了带字数阈值的藏文字节对编码算法，优化了基于注意力机制的汉藏神经机器翻译模型综上所述，藏汉机器翻译研究在翻译效果上取得了长足的进步，特别是大规模平行语料的构建，深度学习技术的应用，使得翻译效果接近于人类的水平。机器翻译在语料构建、方法改进上虽然有不

8、少亮点，但少有文献从藏文自身文法特点出发研究藏汉机器翻译方法，比如如何利用藏文虚词的语法知识，提高机器翻译效果等。而在藏文虚词方面，目前存在一些针对藏文虚词切分的分词研究，但未有藏文虚词知识融合的藏汉机器翻译方法研究。因此，本文结合传统的BPE算法，利用藏文虚词丰富、虚词语法结构特殊的特点，研究了藏文虚词知识融合的Transformer及mBART模型集成策略的藏汉机器翻译方法。1藏文虚词知识融合算法在藏文文本中，虚词用途广且出现频率相当高，其用法和意义十分复杂，并且不同传统藏语文法对藏语虚词描述不尽相同。按照传统的藏文文法“三十颂”（）描述，藏文虚词共有8 5个。在传统的“三十颂”之外，很多

9、虚词与其他的字或词组合成新词。该类新词有的具有实词意义，有的仍为虚词含义，例如；55；a。本文将这些仍具有虚词意义的词称作组合性虚词。文献10-11 总结了7 6 个组合性虚词以及助动词、存在动词等，共计17 5个。字节对编码12 1被用来在固定大小的词表中实现可变长度的子词，是一种数据压缩算法。该方法首先将词分成单个字符，然后依次用另一个字符替换频率最高的一对字符，直到循环结束。例如单词birthday,分割为b，i，r ，t，h ，d，a ，y ，查code_file,发现th出现的最多,那么合并为b ，i ，t h ，d ，a ，y ，直到字符序列合并为birth，d a y 为止。然后

10、去除，变为birth，d a y，将这两个词添加到词表，这样一个可变长度的词表可以压缩到一个较小的固定大小的词表。在机器翻译语料预处理中，原始句子的单词“birthday”，经过BPE算法在“birth”和“day”之间添加“”标记，表明这两个子词之间的密切关系。本文利用这种关系，在藏文虚词和后一词语之间添加“”，表示两词之间的密切关系，即藏文虚词知识融合。具体的，先对原始藏文语料进行分词，再对其做BPE处理，在此基础上对句子进行虚词识别并在虚词后增加 ”标记，在虚词后面增加“”表明该虚词与后一个词具有密切的语法关系。本文将上述17 5个虚词作为词库，称为虚词词典。在藏文句子中识别虚词，并在虚

11、词之后增加“”标记的处理过程，称为全部虚词知识融合。在这些藏文虚词中，有部分藏文虚词还具有实词的含义,将其称为兼类虚词。根据文献 13 所述，对2 5个既是虚词又是实词的词语建立兼类虚词词典，如表1所示。在句子中过滤兼类虚词，对剩余虚词保留“”标记的处理过程，称为过滤兼类虚词知识融合。第3 3 卷中央民族大学学报（自然科学版）22此外，藏文音节是藏语中重要的语言单位，音节界限很明显，与汉语类似，词没有明确的界限。按上文所述，藏文虚词包含单音节和多音节，多音节包括前文提到的组合性虚词7 6 个，“三十颂”中提到的3个多音节虚词及助动词、存在动词14个，共计9 3个。将此类虚词合并构建了多音节虚词

12、词典。剩余的82个虚词构成单音节虚词词典。在句子中识别多音节虚词，并做“”标记的处理过程，称为多音节虚词知识融合。在句子中识别单音节虚词，并做“”标记的处理过程，称为单音节虚词知识融合。表1兼类虚词表Tab.1Concurrent function words虚词兼类含义虚词兼类含义虚词兼类含义谁年龄、生病懂5烟、多少夜脸山羊路女队W5再、轻一双、二坡职业、从户体青稞人、不奶牛年牙齿吻田地木&母亲、不虱子藏文虚词知识融合算法的整体流程如图1所示。首先读人待处理的藏文文本对其进行传统BPE操作，得到第1类语料，利用17 5个虚词建立的虚词词典，对句子进行虚词识别，并在虚词之后增加“”作为虚词知识

13、融合标志，即图1中的全部虚词知识融合，得到第类语料。其次根据上文总结的兼类虚词词典，对第类语料删除兼类虚词之后的“”标记，经过“过滤兼类虚词知识融合”做还原操作，得到第类语料。然后，对第类语料虚词判断其是否为单音节虚词，若是单音节，删除多音节虚词之后的“”标记，保留单音节虚词知识融合过程，得到第IV类语料；否则删除单音节虚词之后的“”标记，保留多音节虚词知识融合过程，得到第V类语料。开始读入待处理的文本全部虚词知识融合虚词词典库虚词兼类词典()属于单音节虚词？否是单音节虚词多音节虚词过滤兼类虚词知识融合(IV)知识融合(V)知识融合(II)结束图1藏文文本中虚词知识融合过程Fig.1Knowl

14、edge fusion process of function words in Tibetan text把“51可5可532*2 51 按图1过程进行藏文虚词知识融合后的切分结果如表2 所示。本文会在对做完传统BPE处理后的藏文句子对应位置添加“”符号。如表2 中的全部藏文虚词知识融合处理会在“”“及“之后都添加“”符号对其进行切分。第1期23严松思等：藏文虚词知识融合的藏汉机器翻译方法研究表2 切分结果展示Tab.2Shows of segmentation results汉语原始句子相片上新娘照得很好藏语原始句子传统BPE处理传统BPE+全部藏文虚词知识融合处理q55多5 5！传统BPE

15、+过滤兼类虚词后知识融合处理qq5a25传统BPE+单音节藏文虚词知识融合处理qq55q5传统BPE+多音节藏文虚词知识融合处理qam2H52模型介绍2.1Transformer模型Transformer模型架构由6 个编码器和6 个解码器组成，其总体架构如图2 所示，其中左半部分是编码器，右半部分是解码器自注意力机制的公式如式（1)所示,其输人由维度为d的查询（Q）和键（K)以及维度为d的值（V)组成，所有键计算查询的点积,并应用softmax函数获得值的权重。QKAttention(Q,K,V)=softmax(1)其中：Vd为缩放因子；d为Q、K、V 的维度。多头注意力机制是通过h个不

16、同的线性变换head，=A t t e n t i o n（Q w?,K Wk，V w y）对Q，K，V 进行投影，最后将不同的自注意力机制结果拼接起来得到结果向量。多头注意力的具体计算公式如式（2）、式（3）所示。MultiHead(Q,K,V)=Concat(head,.,head,)W,(2)head,=Attention(Qw?,KWk,Vw),(3)其中，W是不同自注意力机制拼接之后生成最终上下文的线性映射参数，W,WK,W为不同维度的第层权重。解码器结构与编码器类似，但比编码器多一层掩码注意力机制2.2mBART模型BART是由文献 12 提出的一种新的预训练范式，包括两个阶段：原

17、文本使用某种噪声函数进行破坏；使用序列到序列模型还原原始的输人文本。BART模型在BERT模型 13 和GPT模型 14 的基础上经过改进得到的。在BERT模型中，随机令牌被替换为掩码，并且文档被双向编码。由于其缺失的令牌是独立预测的，因此BERT不能轻易地用于生成金牌。在CPT模型中，其令牌是自动回归预测的，这意味着GPT可以用于生成金牌，但由于单词只能适应左向的上下文，所以它不能学习双向交互。如图3所示，BART模型结合了上述两种模型的优点，编码器的输人不需要与解码器的输出对齐，允许任意噪声转换。这里，文档由于用掩码符号替换文本跨度而损坏。将损坏的文档（左）用双向模型进行编码，在得到被破坏

18、文本的编码后，使用一个类似GPT的结构，采用自回归的方式还原出被破坏之前的文本。BART使用标准的Transformer架构，但将ReLU激活函数改为GeLU，并且参数初始化服从正态分布N（0,0.0 2），BA R T 模型的解码器层对编码器的最终隐藏层执行额外的交叉注意。中央民族大学学（自然科学版）第3 3 卷24概率输出SoftMax工线性变换个残差&规范化前馈神经网络残差&规范化残差&规范化前馈神经网络多头注意力NxNx残差&规范化残差&规范化多头注意力掩码多头注意力位置编码序列嵌入编码序列嵌入编码Xa(Xa1,Xa2,.,Xan)Xa(Xa1,Xa2,.,Xan)图2 Transfo

19、rmer模型架构Fig.2The Transformer model architectureBDABCDE个个个双向自回归编码器解码器个个个个个个个个个A_C-EABCD图3BART的训练方式Fig.3Thetrainingmethod of BARTmBARTI15是在BART模型的基础上，遵循BART序列到序列的预训练方案。mBART-base模型使用标准的Transformer架构，包括6 层编码器和6 层解码器。同时在编码器和解码器的基础上包括了一个额外的归一化层。藏汉机器翻译的mBART模型训练过程如图4所示Transformer编码器Transformer解码器个你_ 哪里_ 你

20、_ 谁？你是谁？你来自哪里？Transformer编码器Transformer解码器Transformer编码器Transformer解码器你_ 谁？你_ 哪里你是谁？你来自哪里？不图4藏汉机器翻译的mBART模型训练过程Fig.4Training process of the mBART model for Tibetan-Chinese machine translation该模型同样采用降噪自编码器，旨在采用部分损坏的输人，而后恢复原始的未失真输人。例如使用MASK破坏原始的序列，然后尝试模型恢复原始序列模型的噪声函数在g中使用了两种类型的噪声,删除了文本的跨度，并用masktoken代

21、替。如图4所示，第一，按照泊松分布（入=3.5）随机抽取token，然后对每个实例中35%的词进行mask；第二，对一个原始输人的不同句子进行顺序调换。2.3模型集成模型集成是融合多个训练好的模型，基于某种方式实现测试数据的多模型融合，这样可以使最终的25严松思等：藏文虚词知识融合的藏汉机器翻译方法研究第1期结果能够“取长补短”，融合各个模型的优点，提高最终模型的泛化能力。本文采用同一模型不同训练轮数以及不同网络结构的模型集成方法。同一模型不同训练轮数：若网络超参数设置得当，深度模型随着网络训练的进行会逐步趋于收敛，但不同训练轮数的结果仍有不同，无法确定到底哪一轮训练得到的模型最适用于测试数据

22、。针对上述问题，一种简单的解决方式是将最后几轮训练模型结果做集成，一方面可降低随机误差，另一方面也避免了训练轮数过多带来的过拟合风险。该操作被称为“轮数集成”。不同网络结构：不同网络结构也是一种有效的产生不同网络模型结果的方式。操作时可在不同的网络架构上训练模型，最后将不同架构网络得到的结果加以集成本文使用Transformer和mBART两种不同的网络结构，以及同一模型不同训练轮数来验证模型集成的效果。3实验分析3.1数据集本文实验训练数据集采用了CCMT2021提供的训练集和开发集，并选择CWMT2017的验证集和测试集分别作为测试集1和测试集2。在语料预处理上对双语文本都做了分词+BPE

23、处理，汉文分词选择jieba工具包，藏文分词选择中科院提供的藏语分词软件，藏文虚词知识融合处理过程参见第2 节内容3.2参数设置本文采用标准的Transformer及mBART模型，同时对这两个模型分别进行了轮数集成及两种模型结构集成来验证虚词知识融合对藏汉翻译效果的提升。实验中利用PyTorch框架的Transformer及mBART模型，参数均采用Adam优化器，-adam-betas（0.9,0.9 8），初始学习率均为5e-4（防止过拟合，学习率采用逆开根号下降的方法，即lr,=），采用交叉熵损失函数，设置标签平滑参数为0.1,maxtokens为2 0 48；对于所有的隐藏层，都有0

24、.1的随机失活率（Dropout）。在mBART模型中，在编码器和解码器的基础上额外添加了一个归一化层。3.3评价指标以BLEU16分数作为模型性能的评测指标，使用mosesdecoder工具中的multi-bleu.perl进行计算。3.4实验结果从语料层面分析，实验分为传统BPE算法处理语料（I）、传统BPE+全部藏文虚词知识融合处理语料（I）、传统BPE+过滤兼类虚词知识融合处理语料（）、传统BPE+单音节藏文虚词知识融合处理语料（IV）和传统BPE+多音节藏文虚词知识融合处理语料（V）五个部分表3和表4分别代表在测试集1和测试集2 上的实验结果，两表中提到的模型集成指的是使用Trans

25、former和mBART两种不同的网络结构，加上同一模型不同训练轮数的模型集成过程表3#测试集1实验结果Tab.3Experimental results of test set 1模型1IIIIVVTransformer26.9730.1929.8425.7930.03mBART31.4831.8231.4630.5634.80模型集成36.6535.9136.7335.4038.05第3 3 卷中央民族大学学报（自然科学版）26表4测试集2 实验结果Tab.4Experimental results of test set 2模型IIIIIVVTransformer28.1328.1929

26、.4726.0430.53mBART30.1231.2633.5230.0031.92模型集成32.5133.1833.4332.1033.07从语料层面分析，与传统BPE相比，全部藏文虚词知识融合方法对两种模型而言没有太多提升，甚至在部分实验中出现了BLEU值下降情况，说明对全部虚词进行简单的筛选并不能提升翻译效果。而相比于的翻译效果有了改进，说明兼类虚词问题对藏汉翻译的影响较大。而IV相比于I、来说都出现了BLEU的下降情况，这是由于兼类虚词问题集中于单音节虚词中。V相比于I的提升较为显著，这是由于多音节虚词在藏文中的意义较为重要，将其拆分开来的话反而会破坏句子原有的含义。上述实验证明了藏

27、文虚词知识融合算法在藏汉机器翻译上的可行性。从模型层面分析，实验分为Transformer、m BA R T 和模型集成+轮数集成三个部分。如表3、4所示mBART模型的翻译效果整体上要优于Transformer模型。在进行模型集成后，翻译效果较Transformer模型和mBART模型都有提升，其翻译效果达到最佳。在验证集中,BLEU值均达到35以上；在测试集中,BLEU值均达到32.1以上。这也充分说明了模型集成对藏汉机器翻译的效果有了较大改进，使用不同语料处理方式的模型集成的翻译实例见表5。表5羅翻译实例Tab.5Translational instances例句参考译文坚决抵制拜金主义

28、、享乐主义、极端个人主义思想1坚决抵制拜金主义、享乐主义、极端个人主义。坚决抵制享乐主义、享乐主义、极端个人主义。坚决抵制拜金主义、享乐主义、极端个人主义思想IV坚决抵制拜金主义、享乐主义、个人主义。V坚决抵制拜金主义、享乐主义、极端个人主义的思想4结论本文从藏文自身文法特点出发，针对藏文虚词进行了全部虚词知识融合、过滤兼类虚词知识融合、单音节虚词知识融合和多音节虚词知识融合，得到对应语料。在Transformer模型和mBART模型实验基础上，通过模型集成和轮数集成，探究了藏文虚词知识融合对藏汉机器翻译的改进，同时探究了模型集成策略对翻译效果的影响。对比不同模型及它们的集成实验可知，使用藏文

29、虚词知识融合，可以有效提升藏汉机器翻译的效果，效果最高可以达到38.0 5个BLEU，较传统BPE提升1.4个BLEU。本文对藏文文法特点的挖掘还不够深人，以音节做切分的方式欠妥，未来的工作中，需考虑词频，藏文虚词中紧缩词问题、虚词与前一个词的知识融合等影响因素，深人研究藏文文法特点，并将其应用于下游的翻译任务中参考文献：1德盖才郎，李延福，项青朝加，等实用化汉藏机器翻译系统的设计与实现C/863计划智能计算机全题学术会责任编辑：王向华第1期严松思等：藏文虚词知识融合的藏汉机器翻译方法研究27议论文集.北京：清华大学出版社，2 0 0 1：40 5-411.2才让加。面向自然语言处理的大规模汉

30、藏（藏汉）双语语料库构建技术研究 J中文信息学报，2 0 11，（0 6）：157-161.3诺明花，刘汇丹，吴健，等基于关联度的汉藏多词单元等价对抽取方法J中文信息学报，2 0 12，（0 3）：9 8-103.4董晓芳藏汉统计机器翻译短语抽取技术研究 D兰州：西北民族大学，2 0 13.5李亚超，熊德意，张民，等，藏汉神经网络机器翻译研究 J中文信息学报，2 0 17,31（0 6）：10 3-10 9.6沙九，冯冲，张天夫，等。多策略切分粒度的藏汉双向神经机器翻译研究J厦门大学学报（自然科学版），2020,59(02):213-219.7慈祯嘉措贫语言资源条件下的藏汉（汉藏）机器翻译关键

31、技术研究D西宁：青海师范大学，2 0 2 0.8 刘赛虎基于注意力机制的藏汉双语机器翻译技术研究 D拉萨：西藏大学，2 0 2 1.9头旦才让，仁青东主，尼玛扎西，等基于改进字节对编码的汉藏机器翻译研究 J电子科技大学学报，2 0 2 1，50(02):249-255,293.10珠杰.藏文文本自动处理方法研究M成都：西南交通大学出版社，2 0 18.11高定国，扎西加，赵栋材计算机识别藏语虚词的方法研究 J中文信息学报，2 0 14,2 8（0 1），113-117.12SENNRICH R,HADDOW B,BIRCH A.Neural machine translation of rar

32、e words withsubword units JJ.arXiv preprintarXiv:2015,1508.07909.13DEVLIN J,CHANG M W,LEE K,et al.BERT:pre-training of deep bidirectional transformers for language under-standingJ.2018.D0I:10.48550/arXiv.1810.04805.14LAMPLE G,CONNEAU A.Cross-lingual language model pretrainingJJ.2019.DOI:10.48550/arX

33、iv.1901.07291.15LIU Y,GU J,GOYAL N,et al.Multilingual denoising pre-training for neural machine translationJJ.2020.DOI:10.1162/tacl_a_00343.16PAPINENI K,ROUKOS S,WARD T,et al.BLEU:a method for automatic evaluation of machine translationJJ.2002.D0I:10.3115/1073083.1073135.Study on the Tibetan-Chinese

34、 Machine Translation Method with theFusion of Tibetan Function Words KnowledgeYAN Songsi-2,ZHU Jie2,WANG Chao-2,LIU Yashan2,XU Zezhou-2,XU Zehuil.2(1.School of Information Science and Technology,Tibet University,Lhasa 540000,China;2.Provincial and Ministerial CollaborativeInnovation Centre for Infor

35、matization in Tibet,Lhasa 540000,China)Abstract:This paper designs a method based on the knowledge fusion of Tibetan function words forthe grammatical characteristics of Tibetan function words,which can improve the effectiveness of Ti-betan-Chinese translation.Firstly,four corresponding corpora are

36、obtained by all Tibetan functionword knowledge fusion filtering-cum-class function word knowledge fusion,monosyllabic functionword knowledge fusion and multisyllabic function word knowledge fusion.Secondly,they are experi-mented on Transformer model and mBART model,and the number of rounds integrati

37、on and differ-ent network structure integration are used to improve the generalization ability of the final model.The comparative experiments demonstrate that the Tibetan function word knowledge fusion algorithmand model integration strategy can improve the translation of Tibetan-Chinese machine translation upto 38.05 BLEU.Key words:knowledge fusion of Tibetan function words;machine translation;model integration

展开阅读全文