融合新冠领域知识的汉越神经机器翻译方法.pdf

资源描述

1、年月陕西理工大学学报(自然科学版).第卷第期 ().引用格式:谷雪鹏张乐乐郭军军等.融合新冠领域知识的汉越神经机器翻译方法.陕西理工大学学报(自然科学版)():.融合新冠领域知识的汉越神经机器翻译方法谷雪鹏张乐乐郭军军余正涛.昆明理工大学信息工程与自动化学院云南昆明.云南省人工智能重点实验室云南昆明摘要:目前对于汉语越南语语种特定领域包含大量的领域词在低资源的情况下不能得到很好的翻译效果针对上述问题提出融合新冠领域知识的汉越神经机器翻译方法通过识别源语句中的领域词在编码阶段增加一个领域知识的编码模块学习领域词的向量表示引入领域词编码器的注意力机制利用领域词增强源

2、语言句子的向量表示在解码阶段引入领域词解码器的注意力机制通过领域词和源语言共同指导目标译文的生成根据构建的新冠疫情领域数据实验结果在特定领域下汉越神经机器翻译的性能得到了提升关键词:领域知识汉越神经机器翻译领域词编码器注意力机制领域机器翻译中图分类号:文献标识码:文章编号:()收稿日期:修回日期:基金项目:国家重点研发计划项目()国家自然科学基金项目()云南省科技厅自然科学基金项目()通信作者:郭军军()男山西吕梁人博士副教授主要研究方向为自然语言处理神经机器翻译()是近年来流行的自然语言处理任务之一旨在将给定的源语言翻译为相同语义的目标语言减少各国人们之间的交流困难问题汉语越南语作为我

3、国“一带一路”倡议下与东南亚国家交流的代表语种特定领域语料的大小和可用的领域数量有限提升汉越特定领域神经机器翻译的性能从而提升整体汉越机器翻译的性能有着广泛的市场应用空间和学术研究价值目前基于编码器解码器的框架在翻译质量上取得了突破性的进展注意力机制的提出显著改善了端到端系统的翻译性能等提出模型来学习输入输出的表示在通用领域取得了显著的成功高度并行化的结构也显著减少了模型训练所需时间成为了目前的主流架构在的基础上大量的工作将先验知识应用于机器翻译模型进一步提升了翻译性能等提出扩展约束搜索算法在解码时利用词法约束施加预先指定的翻译确保指定的短语出现在生成的译文中等提出在句子层面上

4、将主题信息嵌入到模型中以提高翻译性能的异构方法加入前编码器主题嵌入、后编码器主题嵌入和解码器主题嵌入使模型获得更广泛的上下文信息达到消除语义歧义增强翻译效果的目的等提出了分层累积的方法对分层结构进行建模通过自底向上的方法对成分句法树结构编码通过句法信息改进翻译结果等通过构建一个语法信息提取器将预训练模型中的语言学信息融入到机器翻译模型中利用语言学知识提升翻译性能以往的工作在通用领域取得了显著的成功然而在垂直领域场景中仍然存在痛点垂直领域相较于通用领域而言拥有很多特定领域中的领域词翻译效果不佳在翻译过程中传递准确的领域词被看作是高质量翻译的重要组成部分现有的机器翻译模型不能完全挖掘

5、领域数据中的领域词信息领域词典作为一种外部知识如何与现有的机器翻译模型相结合在翻译过程中利用领域知识改善特定领域的翻译效果仍然是一个极具挑战性的问题基于此本文提出了一种有效的方法通过识别源语言句中的领域词将领域词知识融入到框架中提升特定领域下的神经机器翻译效果相关工作与技术.相关工作将领域知识整合到神经机器翻译中有助于提升领域词的翻译质量进而优化特定领域的翻译效果近年来大量的研究证明了将先验知识应用于机器翻译模型有助于提升翻译性能可以分为基于短语的方法和基于结构知识的方法基于短语信息增强的机器翻译方法旨在利用额外的短语信息优化或指导翻译结果的生成越来越多的研究工作关注于将短语融合到神经

6、机器翻译模型中等提出在解码端使用两层一层用来预测源语言中单词的位置另一层预测单词在词汇表中的位置在生成目标端翻译时模型自适应地选择复制源语言中的单词或者翻译生成目标词汇表中的单词等使用占位符标记替换源语言和目标语言两侧对应的稀有词模型通过翻译占位符标签学习翻译受约束的单词等将目标端术语和替换对应位置的源词直接附加在原词后边合成平行句训练模型实现预先指定单词的翻译等提出了一种利用双语词典的数据方法通过替换源语言和目标语言对应的短语生成合成语料库合并生成的数据和原始平行数据混合训练模型在不改变模型结构的情况下提升了约束词的翻译等在解码时利用词汇约束解码器强制网络生成特定的单词或短语

7、等提出将短语记忆集成到编码器解码器结构中在解码时通过概率计算决定选择内存中的短语或从目标词汇表中正常生成翻译基于结构知识的方法通过利用句子中包含的语言学特征改善翻译结果等证明了神经机器翻译模型可以很容易地学习语言学特征而不会造成信息冗余通过将形态特征、词性标记和句法依赖标记作为额外的输入特征在注意式编码器解码器体系结构中推广了编码器的嵌入层在多个指标上提升了模型质量等在编码器每一步对输入词进行基于实体标签的编码可以减少输入词的歧义等使用多层粒度编码利用字符级信息增加词级表示解码端利用多重注意的解码器使不同粒度级别的表示协同控制翻译等提出了基于格的编码器在训练过程中自动探索有效的词或子

8、词表示通过点阵位置编码和点阵感知的自我注意协同改进编码方式实验结果表明优于传统的编码器.相关技术本文的模型基于框架实现等提出仅依赖自注意力机制计算输入和输出表示的模型在解决多种任务中取得了优异的成绩成为目前神经机器翻译的主流框架模型由个相同的编码器和解码器组成通过使用自注意力机制递归计算来处理源语言序列和目标语言序列的依赖关系与传统循环神经网络()不同引入相对位置信息编码保存单词在句子中的位置关系模型的编码器端和解码器端本质上是多个相同结构的编码器和解码器的堆叠每个编码器层包含两个子层第一个子层为注意力层()第二个子层为全连接前馈神经网络层()子层之间使用残差连接并执行层

9、归一化()模型首先对输入序列转换为词嵌入向量传递到第一个编码器生成的词嵌入向量通过自注意力层和前馈网络层传递到下一个编码器以此形成迭代网络自注意力层根据输入的词嵌入向量乘以训练过程中创建的个参数矩阵得到个向量分别为查询向量()、键向量()和值向量()通过这个向量计算输入序列中所有单词对于当前单词的注意力权重在形式上每层编码器的计算过程如下:()()()()第期谷雪鹏张乐乐郭军军等融合新冠领域知识的汉越神经机器翻译方法其中:、是由第层编码层隐藏状态转换而来的查询向量、键向量和值向量经编码器第层的自注意力层和层归一化提取源语言的特征表示编码器第层的全连接前馈神经网络层

10、编码器最后一层的输出状态向量传递到解码器中作为上下文编码向量输入编码器和解码器结构差不多但是多了一个编码器解码器的注意力子层用于计算与编码器输出的对齐权重每层解码器的计算过程如下:()()()()()()其中:、分别是查询向量、键向量和值向量由第层隐藏状态在时间步时刻转换而来经过解码器第层的自注意力层和提取目标语言的特征、由编码器的第层转换而来通过编码器解码器注意力子层与输出计算注意力权重经得到最后一层解码器的输出通过一层或多层线性函数预测生成下一个目标词:()()()其中和是参数矩阵为激活函数为了得到翻译模型训练目标是在翻译过程中最大化训练数据集的条件概率即

11、()()()方法描述利用领域知识增强旨在通过领域词知识加强源语言的语义表征和在解码阶段共同指导目标译文的生成本文设计了基于领域知识增强的机器翻译模型模型结构如图所示整体结构由三部分组成:领域知识编码器、源语言编码器和解码器领域知识编码器由多头注意力模块()和前馈神经网络()两个子层经过残差网络()和层归一化()连接编码源语言中的领域词源语言编码器编码输入的源语言与传统模型的编码器不同增加了一个多头注意力模块通过交叉注意力机制更好地融合领域知识编码器的知识与源语言编码器类似解码器通过增加一个多头注意力模块同时利用源语言的语义表示和领域词的语义表示生成目标句每一个长度为的源语言句

12、子序列表示为都由这些模块处理之后生成目标句.领域知识编码器为了利用包含领域知识的领域词信息提升翻译性能在基础结构之上加入额外的一个编码器来完成对领域词的编码学习领域词的语义向量表示首先通过领域词典匹配源句中的领域词领域词序列表示为代表领域词的个数然后经过词嵌入层()转换得到词嵌入向量与传统的序列建模方式不同词嵌入层使用并行化的编码方式生成的向量表征缺乏体现单词之间先后顺序的位置信息因此引入相对位置信息()作为词嵌入层的额外补充得到句子中所有单词的词嵌入表示()即()()()其中表示第个领域词的词向量表示位置嵌入()被传递到第一层编码器依次执行自注意力层()和前馈神经网络层()计算

13、得到隐藏状态子层之间使用残差连接并执行层归一化()操作在多层编码器中重复执行计算前一层的输出作为当前层的输入领域词编码器每层计算过程如下:()()()()其中、是由第层领域知识编码层隐藏状态转换而来的查询向量、键向量和值向量陕西理工大学学报(自然科学版)第卷图融合特定领域知识的神经机器翻译模型.源语言编码器与传统的编码器结构不同之处是在源语言编码器增加一个多头注意力模块用于领域词编码器输出的隐藏状态和源语言语义向量进行注意力计算旨在加强源语言中对语义表征起到重要作用的相关领域词表征源语言编码器首先进行自注意力编码源语言句子然后通过和领域知识编码器的隐藏状态输出进行注意力计算加强领

14、域词在源语言句子中的表征最后通过子层生成最终源语言句子的向量表示计算过程如下:()()()()()()其中、是由层源语言编码器的隐藏状态转换而来的查询向量、键向量和值向量表示编码器交互注意力机制、是由领域知识编码器输出的领域词向量表示源语言经过自注意力的向量表示表示经过领域词增强编码的源语言表示表示源语言编码器第层的隐藏状态表示.解码器在解码器的基础上引入一个多头注意模块该模块进行领域词和解码器的注意力计算在解码时刻执行种注意力除了自注意力以外执行领域词知识编码器和解码器的注意力计算以及源语言编码器和解码器的注意力计算通过领域词和源语言一起指导目标译文的生成计算过程如下:()

15、()()()第期谷雪鹏张乐乐郭军军等融合新冠领域知识的汉越神经机器翻译方法 ()()()()其中源语言的词向量、由源语言编码器的最后一层隐藏状态转换而来领域词的向量表示、由领域知识编码器最后一层隐藏状态转换而来代表源语言和解码器的交互注意力计算代表领域词和解码器的交互注意力计算最终目标端译文由源语言和领域词同时指导生成计算下一个目标词的概率:()()()引入领域知识表给出了新冠疫情领域的翻译示例表新冠疫情领域的翻译示例实验与分析.数据集为了验证本文所提出的基于领域知识增强的汉越神经机器翻译方法本文分别在汉越和越汉两个语言对方向上开展了相关实验验证实验所需的汉越双语语料通过网络爬

16、虫获得新冠疫情领域可比语料通过平行句对抽取方法对可比语料进行过滤筛选同时调用工具对双语平行句对进行相似度计算选择相似度高的平行句对将其分为训练集、验证集和测试集汉语和越南语领域词典通过和人工筛选的方法挖掘原始语料中的领域词数据规模见表表数据集规模 /条数据集训练集验证集测试集领域词典汉越是一种常用的统计方法用来评估术语对文档集合中特定文档的重要程度本文基于识别特定领域中的领域词长度为的输入句子看做文档文档中的每个单词得分计算公式为 :()其中代表单词在句子中出现的次数表示语料库句子总数:表示语料库中包含单词的句子数根据得分进行排序进一步经过人工筛选选择个词添加

17、到领域词典中筛选得到的领域词典样例见表表领域词典样例陕西理工大学学报(自然科学版)第卷.评价指标神经机器翻译任务中通常选用值(双语评估替换)作为评价指标是一种对生成语句进行评估的指标用于比较候选文本翻译与其他一个或多个参考翻译的评价分数根据的不同可以划分成多种评价指标常见的指标有、四种其中指的是连续的单词个数为本节主要介绍在机器翻译任务中使用频率较高的为了防止让模型倾向于翻译短句子及翻译不完整的情况首先引入值()指定当待评价译文同任意一个参考译文长度相等或超过参考译文长度时值为当待评价的译文较短时则用一个算法得出值以来表示待评价译文的长度来表示参考译文的

18、长度则有 /()值计算为 ()()其中为修正的单位精确度为权重在对数情况下计算变得更加简便:()()通常值取/也即经典指标.实验参数设置本文所提模型基于开源的框架实现参考默认的参数设置选取具有层编码器和解码器的模型为机器翻译实验的基础架构具体的参数设置:词嵌入向量维度和隐藏层维度均为前馈神经网络中间层单元数为多头注意力的数量为学习率设置为.学习率更新步数为步可以使模型训练时更快更好地收敛使用作为优化器为防止模型过拟合标签平滑值为.为了防止过拟合和减少噪声对语料的影响值为.解码过程使用约束搜索算法搜索宽度设置为使用作为评价指标.实验结果为了验证所提出的基于领域知

19、识增强的汉越神经机器翻译模型的有效性进行以下组实验首先使用双语数据训练基础和模型作为基线模型对比然后对训练数据分别在非分词状态和分词状态训练本文提出的模型具体实验结果见表表实验结果模型值汉越越汉.根据表的实验结果模型相比模型在汉越和越汉两个翻译方向上分别获得了.和.的值提升说明了模型可以更好地捕获源语言和目标语言的映射关系在汉越和越汉两个翻译方向上本文提出的模型在非分词状态()和分词状态()下都比模型获得了显著的改进效果证明了融入领域知识的有效性本文的模型在非分词状态下汉越和越汉两个方向上相较于基线模型获得了.和.的值提升在分词状态下相较于模型

20、获得了.和.的值提升验证了方法在不同词粒度的通用性可以应用于不同处理方法的语料库在两个翻译方向上的一致提升说明我们的模型可以充分挖掘领域词信息证明了领域知识对提升目标译文的有效性基于交互注意力的方法可以有效地将领域词信息融入翻译过程中利用领域知识可以增强模型的语义表征和学习能力使用领域词指导目标语言的生成可以提升特定领域翻译的译文质量第期谷雪鹏张乐乐郭军军等融合新冠领域知识的汉越神经机器翻译方法 .融合领域知识对编、解码端的有效性分析为了分析模型不同模块对翻译效果的影响更好地理解不同部分在模型中的具体效用验证在编码端和解码端融合领域知识的有效性通过将模型的不同模块移除得到新的模型

21、进行以下消融实验对比定义“”表示移除领域知识编码器的注意力模块“”表示移除领域知识解码器的注意力机制模块再与主模型进行实验结果对比结果见表表消融实验模型值汉越越汉.根据表的实验结果相较于模型将领域知识分别融入到编码端和解码端在翻译性能上均得到了提升说明了领域知识本身对于提升特定领域翻译效果是有效的相比于主模型()移除不同模块得到消融模型性能均出现了明显的下降移除领域知识编码器注意力模块得到的“”模型在汉越和越汉两个翻译方向上值分别下降了.和.移除领域知识解码器注意力模块得到的“”模型在汉越和越汉两个翻译方向上值分别下降了.和.“”模型相较于“”模型值下降的更为明显说明了在

22、源语言利用注意力机制融入领域知识更有助于模型建立领域词之间的映射关系通过增强编码信息的方式更有助于提升编码器解码器结构的学习能力本文的方法()在两个翻译方向上得到了最优结果说明了将领域知识共同作用于编码端和解码端有助于目标译文的生成领域知识与编码端的注意力模块用于增强源语言中领域词的语义表示领域知识与解码端的注意力模块在解码时帮助模型关注于更有意义的源语言部分在各模块的共同作用下模型达到了最好的性能说明了各模块在提升整体模型性能上发挥着重要作用对于最终模型学习和利用领域知识生成更好的目标译文来说必不可少.解码端不同融合方式对模型性能影响与标准的模型不同本文所提模型额外引入了领域知识解码器的

23、注意力模块本小节实验探索两种注意力机制的不同融合方法对模型性能的影响通过不同的方式融合领域知识解码器注意力和编码器解码器注意力分别通过平均池化、高速网络、门控机制和线性变换种不同的方式对不同的注意力表征进行融合实验结果见表表解码端不同融合方式对比实验融合方式值汉越越汉.平均池化.高速网络.门控机制.线性变换.表的实验结果显示与基线模型相比基于高速网络和平均池化的信息融合方式对模型的性能提升起到了反作用基于门控机制和线性变换方式获得了更好的效果有效地利用了不同的信息表征改善了翻译质量原因在于平均池化方式只是简单地对两种注意力进行求平均值操作不能很好地区分有效信息高速网络方式没

24、有识别出需要激活和需要保持不变的信息门控机制和线性变换的融合方式有效地控制了有效信息的传递实现了解码端的信息增强优化了译文质量结束语本文主要研究融合领域知识增强特定领域的汉越神经机器方法针对特定领域包含大量的领域词在低资源的情况下不能得到很好的翻译效果这一问题本文的主要贡献如下:)提出将新冠领域词作为先验知识的信息输入在汉越神经机器翻译中融合领域词知识)提出在编码器和解码器引入额外的注意力机制更有助于神经机器翻译模型利用领域知识)在构建的汉越数据集上进行了实验结果表明本文所提的方法能够有效提升特定领域下神经机器翻译的性能陕西理工大学学报(自然科学版)第卷参考文献黄继豪余正涛于志强等.基于迁移学习的汉越神经机器翻译.厦门大学报(自然科学版)():./.:./.().:/././.().:/./.?./()./:./.().:/././.().:/./.冯洋邵晨泽.神经机器翻译前沿综述.中文信息学报():./.().:/./.:():./.:./:():./.().:/././.().:/././.().:/././.:/././:()./.责任编辑:魏强第期谷雪鹏张乐乐郭军军等融合新冠领域知识的汉越神经机器翻译方法 .:.:(上接第页).:.().().:()陕西理工大学学报(自然科学版)第卷

展开阅读全文