1、第 卷第 期重庆邮电大学学报(自然科学版).年 月 ().:./.基于预训练模型和多视角循环神经网络的电力文本匹配模型收稿日期:修订日期:通讯作者:赵 伟 .基金项目:国家自然科学基金()国家重点研发计划资助项目():()()赵 伟王文娟甘玉芳(.重庆邮电大学 国际合作与交流处重庆.国网重庆市电力公司信息通信分公司 调控中心重庆.国网重庆市电力公司信息通信分公司 技术发展部重庆)摘 要:针对传统方法未能考虑词向量的动态性及句子间交互不充分等问题提出基于 预训练模型及多视角循环神经网络的文本匹配模型 通过 方法对 输出的句向量进行线性变换优化并利用多视角循环神经网络将两句子不同位置的 动态词向量
2、进行双向交互计算将句向量与词粒度交互向量进行融合后计算结果 实验结果表明提出的模型相较于对比模型有明显性能提升实用性良好关键词:预训练模型多视角循环神经网络模型文本匹配电力运维系统中图分类号:文献标志码:文章编号:()(.):.:引 言文本匹配的主要目标是正确判断两段自然语言形式的文本的语义是否相关自动问答、信息检索、人机对话、问题复述等各类自然语言处理任务均可抽象为该问题 文本匹配技术在电力领域具有重要应用价值 随着电力业务种类及规模不断增长电力运维系统日益复杂对电力运维业务的效率要求也随之大幅提升 运维人员受理运维问题时可利用文本匹配技术从专业知识库中根据运维请求检索出解决方案快速应对运维
3、问题 运维项目管理者可以利用文本匹配技术来对运维服务项目进行项目匹配计算避免运维项目重复立项等问题从而提升运维服务精益化管理水平神经网络模型目前已成为文本匹配领域的主要模型 其中基于 网络架构的模型使用相同的神经网络(如 或)对两个句子进行编码然后基于编码向量表示来计算语义匹配度 为了更好地关注到体现句子含义的单词有研究还将注意力机制引入到模型结构中取得了较好的效果 上述研究由于在编码过程中两个句子没有进行交互而单个向量往往不能很好地表示句子语义因而某些匹配信息可能被忽略 为解决这类模型存在的问题一些研究采用基于比较聚合架构的模型来进行文本匹配这类模型通过比较词、短语、句子等不同级别的向量表示
4、再聚合比较结果来进行文本匹配 例如文献在词粒度级别上提出 匹配模型文献提出一种词对交互模型该模型首先从两个序列中抽取词语对再使用相似性焦点层和多层 聚合这些单词比较的结果尽管这些研究取得了良好的进展然而还存在以下问题)多数模型采用 或 词向量作为网络模型的输入同一个词在不同上下文语境下的词向量是固定的无法体现词向量表示的动态性 然而单词的含义与其所处的语义环境密不可分例如“这个苹果很好吃”和“苹果 的摄像头不错”这两句话中“苹果”的含义就大相径庭前一句话中“苹果”指的是一种水果后一句话指的是智能手机 因此要准确进行文本匹配就必须考虑单词的上下文)部分模型只关注了单个句子的注意力加权而忽略了两个
5、句子之间的交互还有部分模型虽然考虑了句子间的交互但对句子间的交互建模得不够充分未能融合不同粒度的交互信息从而导致丢失某些重要匹配信息针对以上问题本文提出了基于 预训练模型和多视角循环神经网络的文本匹配模型 该模型利用 获取句子表示向量并应用 方法来对句向量进行线性转换获得优化的句向量表示利用 获取句子中词汇的上下文词向量表示并应用多视角循环神经网络模型来对句子对进行双向交互最后聚合 句向量及词粒度交互向量后得到文本对的语义匹配度 在电力运维领域的两个真实数据集上通过与多种基于神经网络的文本匹配模型进行实验对比实验结果验证了本文模型在文本匹配任务上的有效性 此外本文模型在实际系统的应用中也有效提
6、升了电力运维服务效率 相关工作文本匹配任务在语义检索中具有重要作用早期研究主要基于特征工程来找出两句子的匹配关系 但特征工程方法不仅人工工作量大还存在泛化性差的问题在一个数据集上使用的特征很可能在另一个数据集上表现不好深度学习方法将特征抽取过程作为模型的一部分直接从原始数据中抽取特征不仅免去了手工设计特征的大量人工开销还可以根据训练数据的不同而将模型方便地适配到各种文本匹配任务当中因此深度学习被广泛应用到文本匹配领域 其中以 结构为代表的深度学习模型得到很好的发展如微软提出的 模型该模型通过全连接网络将查询语句和文档进行向量化表达简单匹配计算速度快是最早的深度文本匹配模型但 忽略了文本之间的时
7、序关系和空间关系微软研究院后续提出的 将 中的全连接神经网络层换为卷积池化结构提升了文本匹配效果 文献提出多视角循环神经网络()模型通过 获取句子不同位置的表示向量然后将两句子不同位置的表示向量交互计算得到匹配矩阵最后通过 最大池化和全连接网络得到匹配值除了基于 结构的序列匹配模型外基于比较聚合的匹配模型也受到了关注 这类模型通过捕捉两个序列之间更多的交互特征来进行文本匹配 如 基于问题和答案的向量序列得到 重 庆 邮 电 大 学 学 报(自然科学版)第 卷交互矩阵再将 网络作用于交互矩阵并且采用注意力加权方式来获得匹配模型 文献采用了一种动态剪辑注意力机制这种机制通过过滤权重较小的词来去除噪
8、声通过改变注意力计算方式提升答案选择的语义匹配模型性能在应用领域中有学者针对通信领域及医疗领域研究了文本匹配任务但目前在电力领域真实数据集上进行的文本匹配研究很少本文在这一领域进行了探索并将本文模型投入实际应用取得了良好的应用效果 模型介绍本文提出基于预训练模型及多视角循环神经网络的文本匹配模型模型结构如图 所示 本模型利用 预训练模型获取具有上下文语义的词向量及句向量用 方法对句向量进行线性变换操作用 模型对词向量计算文本对间的交互向量再对句向量及交互向量进行拼接后得到拼接向量将其送入 网络中进行优化然后在输出向量的基础上通过全连接网络和 操作得到结果.是 在 年提出的一个新型网络结构 不像
9、 只能获取局部信息也不像 需要逐步进行信息提取 通过自注意力机制能够直接获取文本序列的全局信息可以并行化操作提高训练效率因此被大量地使用在自然语言处理领域中促进了以 为代表的大规模预训练语言模型的发展图 模型结构图.第 期 赵 伟等:基于预训练模型和多视角循环神经网络的电力文本匹配模型 中对句子的多头自注意力计算过程如()()式所示()()()()()()()()式中:表示 操作 表示 操作、分别表示句子的查询向量、键向量、值向量所组成的矩阵参数矩阵 表示向量拼接 表示最终的多头注意力输出向量 通过使用 结构的编码器模块并应用掩蔽语言模型和下一句预测两个无监督预测任务进行预训练能在大规模无监督
10、语料上训练获得强大的文本表征能力并获得词在不同语境下的含义 为了获得词在不同语境下的含义本文模型先使用 对文本中的词汇进行嵌入表述再得到句子序列的向量表示对某一句子序列而言本文获取词向量过程为 ()()()式中:表示 模型编码操作表示句子中的一个单词表示句子开头字符该标志对应的输出向量将作为整个句子的语义表示表示模型识别句子的边界 根据输入获得输出为 ()()式中表示每个词的上下文相关词向量 由多个 的编码器层组成其结构如图 所示图 模型结构图.图 中 表示 每一层的 由一个多头自注意力子层和一个全连接前馈神经网络子层组成并在这两个子层中加入残差连接和层标准化计算.方法 预训练模型在自然语言处
11、理中取得了巨大的成功 然而直接使用 模型中标记对应向量的句向量难以捕捉到句子的语义在文本相似度任务中表现不好 为了获得更好的句子向量表示本文采用 方法来对 模型输出的进行线性转换获得优化的句子向量表示句子向量间传统的余弦相似度值计算公式为()()方法认为 句向量用余弦相似度值来计算句子相似度时表现不好可能是由于句向量所属的坐标系并非标准正交基因而需要对原始的句子向量进行转换以强制使其具有各向同性 考虑到标准正态分布的各向同性特性而且标准正态分布均值为、协方差矩阵为单位矩阵因此设句向量集合为 方法将句向量矩阵进行线性变换使变换后的句向量矩阵 的均值为、协方差矩阵为单位阵 线性变换公式为 ()()
12、的求解公式为 ()为了求矩阵 将的原始协方差矩阵表示为 ()()()则可以得到转换后的协方差矩阵为 ()新的协方差矩阵是单位矩阵因而有 ()进而有 ()()()协方差矩阵 是一个正定对称矩阵满足 分解为 ()重 庆 邮 电 大 学 学 报(自然科学版)第 卷()式中:是一个正交矩阵 是一个对角矩阵对角线元素均为正 因此令 可得 ()方法的算法流程如算法 所示算法 算法输入:句向量集合.计算的 和.计算().计算().().输出:转换后的句向量集合.双向交互计算对于文本匹配这样的序列匹配问题之前的工作常常将两个待匹配的序列通过同种网络编码为两个向量再依据这两个向量计算匹配度但这种方式在整个编码过
13、程中两个句子没有明确的交互为避免这一问题本文采用 模型来将两个句子在词粒度上对句子对间不同位置的交互进行建模根据 模型在序列匹配任务上的输入格式将某一句子首尾分别加上和后拼接为一个序列再将序列中的每个单词分别编码为词向量、段向量和位置向量输入 进行编码则 输出的序列 对应于句子的 表示序列将单词 对应的向量表示 作为某一时刻的输入 输入到 网络中则 单元得到词汇向量新表示的计算公式为()()()()()()()()()()()()()式中:表示遗忘门 是 函数和 分别是当前时刻输入和上一时刻隐藏状态、和 是学习的权重矩阵、和 为偏置值为输入门将词向量矩阵 ()输入到 网络中则隐藏层的输出为()
14、()()()()()()式中为每一时刻前向 的隐藏层输出和后向 的隐藏层输出的拼接给定两个向量 和 分别表示两个句子在双向 中某一位置的输出向量计算交互张量为():()()式中:是交互计算后得到的张量:是张量参数的一个切片和 是线性计算部分的参数 是一个非线性函数计算式为()()()两个句子之间的匹配通常由一些强交互信号决定使用 最大池化操作来提取张量 中每个切片的前 个值以形成向量 这些向量进一步连接到单个向量 来作为两个序列间的交互向量.层将两条句子 和 通过 输出的句子向量经过 方法转换后得到的句向量 和 再与句子对间通过 获得的交互向量 拼接后形成向量 然后输入到 网络中进行处理 拼接
15、计算式为 :()网络作为一种具有可学习门限机制的结构可以在很大程度上缓解深层次网络训练困难的问题 受 门结构理念的启发 网络设计了转换门和携带门通过这两个门来控制信息流可以基于梯度的方法快速训练深层网络对输入向量进行合适的特征变换从而提升效果对于向量 转换门值()和携带门值()的计算式为()()()()()()()()式中:是非线性函数是权重矩阵是偏移向量 输出向量 计算式为 ()()()()()式中 为非线性函数.输出结果将输出向量 输入到全连接神经网络然后通过 函数输出归一化后的各类别的概率分布得到最终分类结果即 ()()第 期 赵 伟等:基于预训练模型和多视角循环神经网络的电力文本匹配模
16、型()式中:表示参数矩阵为偏置.损失函数本文通过最小化交叉熵损失函数对模型参数进行更新即 ()()()()()式中:表示真实匹配值表示模型预测的匹配值 表示模型训练样本总数 实 验.实验数据集本文实验所用数据集来源于电力系统包括两个数据集 第一个数据集是运维项目数据集该数据集从某省电力运维服务项目管理系统中采集而来通过对系统中 年运维服务项目的项目摘要文本进行整理后得到 条样本其中每条样本包含一对数据 通过人工方式进行标注条相似文本对样本标签设为 条非相似文本对样本标签设为 另一个数据集为相似问句数据集来源于某省电力运维知识库系统通过采集系统中用户 年的检索文本而得并进行了人工标注 该数据集包
17、括 条样本每条样本由一对问句组成如果为相似问句则标注为 否则为 数据集中相似问句对样本有 条 两个数据集的详细信息如表 所示表 数据集概况.运维项目数据集相似问句数据集训练集 验证集测试集.实验设置本文模型采用 提供的中文版预训练 模型(:/./.)获取词向量 该预训练模型有 个 层 个隐藏层 个自注意力头参数 文本长度 超长截断不足补零 采用 算法优化模型学习率为 值设置为.评价指标本文评价指标选取了准确率、召回率、值和准确率 等指标来评价模型计算公式为 ()()()()()()式中表示模型预测标签和真实标签都为 的样本数表示模型预测为 真实标签也为 的样本数表示模型预测为 真实标签为 的样
18、本数表示模型预测为 真实标签为 的样本数.实验结果与分析本文选取了如下模型进行比较)该模型通过卷积神经网络得到待匹配文本的向量表示将这两个向量输入全连接网络中进行计算)该模型将两个文本进行一维卷积对卷积结果构造出一个二维交互矩阵然后将交互矩阵输入卷积神经网络得到表示向量最后将该向量输入到全连接神经网络得到匹配度)该模型使用 获取两个句子序列中的每个位置的向量再得到交互矩阵通过 最大池化和全连接网络计算两个句子的匹配度)该模型将两个文本的词向量输入到 网络后并结合注意力机制来得到双向注意力加权向量表示通过分析文本词向量与注意力加权向量间的差异得到文本匹配度)该模型通过 得到两个句子序列中不同位置
19、的向量再将两句子的向量进行相互比较得到不同粒度的匹配信息并利用 聚合比较结果最后使用全连接神经网络计算文本匹配度)该模型将词向量与字符向量拼接后输入通过 连接的循环神经网络得到能表示上下文的语义向量再将这个向量与注意力加权后的向量进行交互最后通过全连接神经网络完成文本匹配度计算)该模型利用 输出的 向量作为句子向量表示通过 函数得出文本对间的匹配度)该 模 型 利 用 对 重 庆 邮 电 大 学 学 报(自然科学版)第 卷 输出的除 的词向量表示作为输入将 的输出与 模型的 向量拼接后输入全连接层通过 函数计算两句子的文本匹配度)该模型与 类似只是将 换成了 网络)该模型对 输出的 向量用 方
20、法进行转换后作为句子向量表示通过 函数得出文本对间的匹配概率)该模型与 类似 只是将 输出的 向量用 方法进行转换后作为句子向量表示)该模型与 类似只是将 输出的 向量用 方法进行转换后作为句子向量表示)该模型通过提取文本中的多个粒度信息并结合注意力机制来进行文本匹配两个数据集上的实验结果如表 表 所示表 运维项目数据集上的实验结果.模型.本文模型.从表 表 可以得出以下结论)本文模型各个指标均比其他模型更好 表 显示本文模型的 指标相比其他模型中的最好值提升.指标相比其他模型中的最好值提升.表 显示本文模型的 指标相比其他模型中的最好值提升.指标相比其他模型中的最好值提升.上述结果表明了本文
21、模型的有效性 此外本文模型在相似问句数据集上的 和 指标值高于运维项目数据集上的对应指标值原因是运维项目数据集样本的文本长度大约是相似问句数据集中的文本长度的 倍而输入 模型的数据长度有限制数据截断机制造成了信息的损失一定程度上造成了模型在长文本上的性能损失表 相似问句数据集上的实验结果.模型.本文模型.)本文模型与 模型相比获得了性能的大幅提升 这说明了本文模型的句子对双向交互机制的有效性也表明对于文本匹配中考虑两句子之间双向交互的计算有利于提升模型效果 此外其他模型虽然也对两句子进行了交互但本文模型相比于其他模型更有效原因在于本文模型结合了句子级别的向量表示与句子间词粒度的交互向量并充分发
22、掘了大规模预训练语言模型的表示能力)从向量表示的角度依据 与、与、与 的实验结果值来看以 方法为基础第 期 赵 伟等:基于预训练模型和多视角循环神经网络的电力文本匹配模型而获得的句子向量表示方式在两个数据集上的各个指标上均比以 模型输出的 句子向量表示的结果有一定的提升 这说明 方法所得到的句向量相比于 模型得到的句向量更能代表句子语义也说明 方法通过对句子向量进行转换以强制使其具有各向同性特性后能得到更优化的句子表示向量 结束语针对文本匹配方法中存在的问题本文提出了基于 预训练模型和句子对之间双向交互机制的文本匹配模型 该模型基于 模型的输出向量来进行线性转换获得句子的向量表示并结合两个句子
23、在词粒度上细粒度的交互向量通过 网络进行优化后计算文本匹配度 实验验证了本文模型的可行性和有效性 目前本文模型已投入实际应用有效地提升了电力运维服务的效率下一步研究将尝试扩大数据集的规模并采集电力领域其他业务系统中的数据来构建新的数据集提升文本匹配模型性能并通过在实际系统中的应用来进一步增强其实用性参考文献:./.:.“”/.:./.:.:.():./.:./.:./:.:./:.:./.:.:/().:.():.()():./.:./.:./.:.:./.:.重 庆 邮 电 大 学 学 报(自然科学版)第 卷/.:.罗森林杨俊楠潘丽敏等.面向信息与通信技术供应链网络画像构建的文本语义匹配方法
24、北京理工大学学报.():.().():.徐诗瑶向阳雷健波.基于病种联合学习的中文医疗文本匹配集成模型中国卫生信息管理杂志.():.():./.:/./.黄瑞章靳文繁陈艳平等.基于 网络的汉语谓语中心词识别研究.通信学报():.():./.:.:/:.:./.:./.:./.:./.:./.:.吕乐宾刘群彭露等.结合多粒度信息的文本匹配模型.计算机科学():.():.晋儒龙卿粼波文虹茜.基于注意力机制多尺度网络的自然场景情绪识别.四川大学学报(自然科学版)():.()():.作者简介:赵 伟()男新疆乌鲁木齐人讲师硕士主要研究方向为人工智能深度学习应用、自然语言处理:.王文娟()女重庆人工程师硕士主要研究方向计算机应用、云计算等:.甘玉芳()女福建福州人工程师硕士主要研究方向为计算机应用技术、云计算等:.(编辑:张 勇)第 期 赵 伟等:基于预训练模型和多视角循环神经网络的电力文本匹配模型