1、收稿日期:修回日期:基金项目:国家社会科学基金资助项目()作者简介:潘航宇()男硕士生主要研究方向为自然语言处理:.:/基于多阶段训练的跨语言摘要技术潘航宇 席耀一 周会娟 陈 刚 郭志刚(信息工程大学河南 郑州)摘要:为解决跨语言摘要()模型语义理解、跨语言对齐和文本生成能力不高的问题提出了一个基于多阶段训练的英中跨语言摘要模型 首先进行多语言去噪预训练同时学习中、英文的通用语言知识其次进行多语言机器翻译微调同时学习对英文的语义理解、从英文到中文的跨语言对齐以及中文的文本生成能力最后进行 微调进一步学习特定于 任务的语义理解、跨语言对齐和文本生成能力最终获得一个性能优异的英中跨语言摘要模型
2、实验结果表明所提模型的 性能有明显提升且多语言去噪预训练和多语言机器翻译均可提高模型性能 与众多基线模型中的最优性能相比所提模型在英中跨语言摘要基准集上将、和 值分别提升了.、.和.关键词:跨语言摘要多阶段训练多语言去噪预训练多语言机器翻译中图分类号:.文献标识码:文章编号:().第 卷第 期 年 月信 息 工 程 大 学 学 报 .引言跨语言摘要()能够将一种语言的文本总结为另一种语言的摘要目的是将陌生语言的文本总结为人们所熟悉语言的摘要便于人们准确、高效地获取陌生语言文本中的主要信息 鉴于英语是当前世界上使用范围最广泛的语言本文重点研究了英中跨语言摘要关键技术语义理解是 的前提决定了模型能
3、够获得多少文本内容 语义理解后模型需要将文本内容的语义从源语言转换到目标语言并进行压缩即跨语言对齐 跨语言对齐是跨语言摘要的关键环节所在极大程度上决定了模型的预测摘要的内容 主流的端到端 方法普遍采用基于文档的对齐学习源语言文本和目标语言摘要整体间的语义对齐信息 然而受数据集规模局限、摘要样本对存在信息损失、模型输入序列长度限制等影响仅进行端到端的 训练难以获得令人满意的跨语言对齐能力 跨语言对齐后模型还需将抽象语义解码为目标语言摘要其文本生成能力决定了预测摘要内容的完整性和流畅性 因此如何提高模型的语义理解、跨语言对齐和文本生成能力是构建性能优异的英中跨语言摘要系统所面临的关键问题为解决上述
4、问题可以通过预训练模型等先进技术和数据资源丰富的相关任务来增强模型的语义理解、跨语言对齐和文本生成能力从而提高 性能 一方面以()模型为代表的预训练模型能够提供强大的通用领域知识显著提高下游任务性能 特别是去噪预训练任务能够让模型学习从带噪文本中重建原始文本这种设计使其非常适合于提高自然语言生成任务的性能因此可以考虑通过多语言去噪预训练()让 模型同时学习到源、目标语言的通用语言知识从而拥有良好的通用语义表示和语义理解能力 另一方面由于机器翻译()任务可被视为压缩率为 的 任务且多语言预训练模型在多语言翻译方向上的学习效果比在单一翻译方向上更好 因此可以考虑对 模型进行机器翻译任务的训练以充分
5、利用其丰富的平行语料和优秀的训练算法为 模型提供良好的语义理解、跨语言对齐和文本生成能力针对原有模型语义理解、跨语言对齐和文本生成能力不高的问题本文提出了一个基于多阶段训练的英中跨语言摘要模型()首先进行多语言去噪预训练同时学习中、英文的通用语言知识以拥有良好的通用语义表示和文本生成能力并获得优质的初始化参数以提高后续任务的学习效果其次进行多语言机器翻译()微调从大量的平行语料中同时学习对英文的语义理解、从英文到中文的跨语言对齐以及中文的文本生成能力最后进行 微调进一步学习特定于 任务的语义理解、跨语言对齐和文本生成能力最终获得一个性能优异的英中跨语言摘要模型实验结果表明提出的模型性能十分出色
6、且多语言去噪预训练和多语言机器翻译均有助于提高模型的 性能 本文的主要贡献如下:本文提出了一个基于多阶段训练的英中跨语言摘要模型 通过一个通用预训练阶段和两个任务微调阶段依次进行训练将 所需的语义理解、跨语言对齐和文本生成等知识逐步注入模型得到一个性能优异的英中跨语言摘要模型 与众多基线模型中的最优性能相比提出的模型在英中跨语言摘要基准集上将、和 值分别提升了.、.和.该模型所采用的多阶段训练方法既能优化以往的基于端到端方法的 工作也可推广至未来的 研究中 研究现状.跨语言摘要 方法主要分为管道方法和端到端方法管道方法可分为“先翻译后摘要”方法和“先摘要后翻译”方法流程如图 所示 端到端方法将
7、翻译和摘要过程统一至序列到序列模型中完成 等提出首个端到端的神经网络 模型在机器翻译、单语摘要()和 任务上进行多任务学习有效提高了 性能 等为机器翻译、单语摘要任务的数据集添加任务标记与 任务联合训练 等先后在机器翻译、数据集上微调多语言预训练模型()来进行 等对 模型进行 种无监 信 息 工 程 大 学 学 报 年督预训练和 种有监督预训练然后在单语摘要和 任务上微调 等首先进行机器翻译、单语摘要和 任务的多任务预训练然后通过优化预测摘要和源语言参考摘要之间的双语语义相似度来提升 性能 等将单语摘要和 的输出结果顺序连接作为新任务对模型进行训练 等引入压缩率统一机器翻译和 数据集进行训练
8、等使用条件变分自编码器()进行机器翻译、单语摘要和 任务的多任务学习针对跨语言对话摘要任务 等提出了 模型在预训练模型 上进行二次预训练()先翻译后摘要()先摘要后翻译图 管道方法的示意图管道方法适用于零样本或少样本环境主要问题是误差传递导致的性能损失 端到端方法适用于样本充足的环境主要问题是高昂的训练成本和数据获取成本.基于预训练的多阶段训练为提高深度学习模型的训练效果等提出了多阶段训练策略将目标任务分解为多个相关子任务使知识逐步注入模型 大量相关工作已经证明预训练模型凭借强大的通用领域知识能够显著提高各类下游任务性能 近年来预训练范式也逐渐开始从两阶段向多阶段发展 等提出了一种基于 的文档
9、级编码器和一种两阶段微调方法在抽取式摘要和生成式摘要中均达到最优性能 等提出了一种多阶段预训练方法在文本和图像中使用从单词、短语到句子的不同粒度的信息分阶段对模型进行预训练 等采用一种四阶段训练方法获得了一个基于()模型的网页检索模型通过两阶段预训练和两阶段微调提升了性能 等提出两阶段的多任务预训练模型()在预训练阶段采用 模型()的预训练方案并额外引入 个辅助任务 在两个多轮对话 公开数据集上的性能优于当时最好的基于语法树的模型在基于预训练的多阶段训练中预训练阶段和微调阶段的数量灵活可变需要研究人员根据实际任务来制定合适的具体方案 多阶段训练的主要优点是利用其他任务的数据、算法资源对目标任务
10、模型进行增强降低了目标任务的数据集、算法模型等方面的缺陷所带来的影响从而提高目标模型性能基于多阶段训练的跨语言摘要模型介绍 针对模型语义理解和跨语言对齐以及文本生成能力不高的问题本文提出了一个基于多阶段训练的英中跨语言摘要模型()如图 所示该模型仍然采用主流的基于深度学习的端到端方法但是在训练时依次通过一个通用预训练阶段和两个任务微调阶段进行训练在每个阶段引入与跨语言摘要任务相关的子任务将跨语言摘要所需的语义理解、跨语言对齐和文本生成等知识逐步注入模型 首先在通用预训练阶段该模型引入了多语言去噪预训练任务通过该任务的训练使得模型能够同时学习到中、英文的通用语言知识并获得优质的初始化参数其次在辅
11、助任务微调阶段该模型引入了多语言机器翻译任务通过该任务的训练使得模型能够同时学习到对英文的语义理解、从英文到中文的跨语言对齐以及中文的文本生成能力最后在目标任务微调阶段该模型针对跨语言摘要数据集进行最终的跨语言摘要训练进一步学习特定于跨语言摘要任务的语义理解、跨语言对齐和文本生成能力图 多阶段训练过程示意图.基本框架本文采用基于注意力机制的序列到序列模型作为基本框架 该模型属于编码器解码器结构编码器负责将输入序列编码为上下文隐含向量解码器负责从上下文隐含向量中解码出输出序列如图 所示 第 期潘航宇等:基于多阶段训练的跨语言摘要技术图 模型框架示意图 其中注意力机制的计算式为()()()式中:为
12、问题向量 为关键词元向量 为值向量为向量 的维度()表示归一化指数函数.多语言去噪预训练为使 模型同时学习到源、目标语言的通用语言知识从而拥有良好的通用语义表示和语义理解能力本文在通用预训练阶段对随机初始化的 模型进行多语言去噪预训练多语言去噪预训练在利用编码器模块对上下文语境信息的双向建模能力的同时保留了自回归特性以更好地适用于生成任务训练框架如图 所示 具体地给定一个包含 种语言的多语言语料库 是第种语言的单语言语料库其中:为的文本数为的第 个文本图 多语言去噪预训练任务的训练框架示意图 进行多语言去噪预训练时首先使用噪声函数(.)破坏文本然后教导模型从被破坏的文本()中恢复原始文本 训练
13、目标是最大化目标函数 其目标函数计算式为 信 息 工 程 大 学 学 报 年()()()式中 表示模型的参数集合.多语言机器翻译微调为充分利用机器翻译任务的丰富语料和优秀算法给 模型提供良好的跨语言对齐和文本生成能力本节在辅助任务微调阶段对上一阶段训练成果进行多语言机器翻译训练多语言机器翻译训练利用了机器翻译任务对语义转换过程的学习以更好地适用于跨语言摘要任务训练框架如图 所示图 多语言机器翻译任务的训练框架示意图 具体地给定一个包含 种翻译方向的机器翻译平行语料库 ()为第 种翻译方向(从源语言()到目标语言()的平行语料 其中:为 的样本数()()为 的第 个样本对 进行多语言机器翻译训练
14、时教导模型将源语言文本()翻译为目标语言文本()训练目标是最大化目标函数 其目标函数计算式为()()()()()()式中 表示模型的参数集合.跨语言摘要微调为有效利用前期训练成果进一步提高性能本节在目标任务微调阶段对上一阶段训练成果进行 训练 训练的训练框架如图 所示 具体地给定一个 数据集 ()其中:表示 的样本对数量()为中的第个样本对 在进行 微调时教导模型将源语言文本总结为目标语言摘要 训练目标是最大化目标函数 其目标函数计算式为()()()式中 表示模型的参数集合 第 期潘航宇等:基于多阶段训练的跨语言摘要技术图 任务的训练框架示意图 实验.数据集为对 的性能进行评估本文使用 语料库
15、、和 数据集分别进行多语言去噪预训练、多语言机器翻译微调和 微调并在 和 数据集上进行英中 实验)语料库该语料库是从 语料库中提取出的包含 种语言的子集通常用于进行多语言预训练具体统计数据见文献 语料库是一个从全球范围内的社交网络中通过网络爬虫得到的语料库包含了新闻媒体、社交网络、博客等文本资源数据量大涵盖范围极广 作为、等人工智能大模型的训练语料之一该语料库集在预训练模型中发挥着重要作用)数据集该数据集是一个包含从英语到其他 种语言之间的平行语料包括 系列、系列等数据集涵盖了高、中、低资源语言具体统计数据见文献)/数据集 数据集是 的基准集()中的英中文本摘要数据集统计数据如表 所示 本节随
16、机采样其训练集的六分之一(个样本对)与完整的验证集和测试集组成子集记为 根据对算力资源、训练时间代价以及实验结果的综合考虑本文将所有在 数据集上涉及预训练模型的实验改为在 数据集上进行表 数据集的统计数据样本数文本词元数平均最大摘要词元数平均最大训练集 验证集 测试集 .基线模型为检验提出模型的性能本文将模型与众多经典的 模型进行对比以下是 等的工作包含了通过管道方法和端到端方法得到的模型():首先使用基于 的机器翻译模型翻译源语言文本然后使用 算法对译文进行摘要():首先使用基于 的单语摘要模型对源语言文本进行摘要然后使用基于 的机器翻译模型将摘要翻译为目标语言()和():分别用 替换 和
17、中的机器翻译模型:在 数据集上直接训练 模型:在 模型上进行 和机器翻译的多任务学习:在 模型上进行 和单语摘要的多任务学习以下是近年来其他的一些代表性工作():在 数据集上微调 模型():在 数据集上训练 模型将模型的输出概率分布与概率双语词典的翻译概率分布加权求和作为最终的摘要生成分布():首先采用掩码语言模型、去噪自编码器、跨语言掩码语言模型等 种无监督预训练和单语摘要、机器翻译等两种有监督预训练然后进行 和单语摘要的多任务学习微调():首先使用 模型进行、机器翻译和单语摘要的多任务学习然后将双语语义相似度作为强化学 信 息 工 程 大 学 学 报 年习奖励函数来优化模型():将单语摘要
18、模型和 模型的输出结果顺序连接作为新任务进行训练本文提出的模型记为:对 模型依次进行多语言去噪预训练、多语言机器翻译微调、微调.实验设置和评价指标.实验设置本文所用 模型的基本设置如表 所示 进行多语言去噪预训练时遵循 等的预训练方案进行多语言机器翻译微调时遵循 等的训练方案在 数据集上进行 微调时将输入输出序列长度分别设置为 和 使用 优化器在两张 上并行训练表 初始 模型的基本参数设置配置类型具体参数编码器层数解码器层数向量维度 注意力头部数量模型参数量.评价指标本文使用()指标来评估模型 性能具体实现采用 库 由于标准的 指标仅能评价英文摘要因此在评价中文或其他语言的摘要时需要根据语言特
19、点对摘要进行特殊处理本文选择按照字符粒度对摘要分词并用空格字符拼接.实验结果与分析为检验 的 性能本文在 训练集上训练基线模型在 数据集上进行 的 微调训练将 得分结果进行对比 实验结果如表 所示表 实验结果单位:数据集模型.从实验结果可知 的性能显著优于所有基线模型 与在完整 训练集上训练的基线模型中的最优性能相比 仅在子训练集 上的训练结果将、和 指标分别提高了.、.和.这充分表明提出的 拥有十分出色的英中跨语言摘要性能且在少样本环境下仍能发挥极好效果.消融实验为分别检验多语言去噪预训练和多语言机器翻译对 性能的促进作用本文在 数据集上对 的 种变体模型进行了消融研究 得分结果如表 所示表
20、 变体模型的消融实验结果单位:模型.以下是对 种变体模型的描述)仅进行第 阶段训练 为探究多语言去噪预训练对跨语言摘要性能的影响移除 多阶段训练过程的后两个阶段仅对随机初始化的 模型进行第 阶段训练(多语言去噪预训练)仅进行第 阶段和第 阶段训练 为了探究多语言机器翻译对跨语言摘要性能的影响移除 多阶段训练过程的最后 个阶段对随机初始化的 模型依次进行第 阶段和第 阶段训练)依次进行第、阶段训练 为探究多语言去噪预训练和多语言机器翻译对跨语言摘要性能的影响移除 的多阶段训练过程的第 阶段对随机初始化的 模型依次进行第 阶段和第 阶段训练从实验结果中可以得到以下 个方面的结论:首先 的 值都比较
21、低这表明即使是训练充分、拥有通用语言知识的预训练模型如果不对 数据集进行具体地学习也无法获得良好的性能 其次基于上一条结论相比于 的性能得到了显著提高这表明多语言去噪预训练能够使模型拥有良好的初始化参数以提高 训练的学习效果从而获得更好的 性能最后 相比于、相比于 性能均得到了提高这表明多语言机器翻译能够增强模型的跨语言对齐和文本生成能力以提高 训练的学习效果从而获得更好的 性能 第 期潘航宇等:基于多阶段训练的跨语言摘要技术 结束语 本文研究了如何提高跨语言摘要模型的语义理解、跨语言对齐和文本生成能力提出了一个基于多阶段训练的英中跨语言摘要模型 首先进行多语言去噪预训练同时学习中、英文的通用
22、语言知识以拥有良好的通用语义表示和文本生成能力其次进行多语言机器翻译微调同时学习语义理解、跨语言对齐和文本生成能力最后进行跨语言摘要微调进一步学习特定于跨语言摘要任务的语义理解、跨语言对齐和文本生成能力最终获得了一个性能优异的英中跨语言摘要模型 实验结果表明提出的模型拥有十分出色的性能且多语言去噪预训练可通过增强语义理解、文本生成能力来提高模型的 性能而多语言机器翻译则通过提升语义理解、跨语言对齐和文本生成能力来提高模型的 性能由于预训练模型和机器翻译研究的快速发展和广泛应用本文方法在工程上易于实现能够真实提高现有 系统的性能 具体而言该方法可以在低资源环境下生成语义更准确、更流畅的摘要提高摘要中重要信息的准确性和完整性 此外该方法还可以推广至所有基于端到端方法的 研究中 未来的工作还将探究如何将 数据集的语义信息融入训练过程中从而为模型学习提供更准确的抽象语义监督信息参考文献:.:.:.:.:.:./.().:././.().:./.:.:.:.():.:.:.:.:.:.:.:./.:信 息 工 程 大 学 学 报 年.:././.:.:.:.:.:.:.():.:.:.:.:.:./.:.:././.:.:/.().:./.:.:.:.:./.:./.:.:.:.():.:.:/.:.:././.:.:.:.(编辑:李志豪)第 期潘航宇等:基于多阶段训练的跨语言摘要技术