基于小样本学习的中文文本关系抽取方法.pdf

资源描述

1、第卷第期年月南京邮电大学学报（自然科学版）（）：基于小样本学习的中文文本关系抽取方法季一木，张旺，刘强，刘尚东，洪程，邱晨阳，朱金森，惠岩，肖婉，南京邮电大学计算机学院，江苏南京南京邮电大学高性能计算与大数据处理研究所，江苏南京国家高性能计算中心南京分中心，江苏南京南京邮电大学高性能计算与智能处理工程研究中心，江苏南京南京邮电大学教育科学与技术学院，江苏南京摘要：实体关系抽取作为文本挖掘和信息抽取的核心任务，是知识图谱构建过程中的关键一环。然而人工建立大规模有标签的数据耗时耗力。使用小样本学习来进行关系抽取，仅仅需要少量样本实

2、例就能使模型学会区分不同关系类型的能力，从而缓解大量无标签数据带来的标注压力。本文对中文关系抽取数据集进行了重构使之适用于少样本学习，并引入了语义关系网络对实体进行更为精确的语义划分，并在此基础上使用双重注意力机制提高句子编码质量，从而提高了模型在面对噪声数据时的效能，减轻了长尾关系的影响。使用本文的方法在该中文数据集进行了评估，与原始原型网络相比，基于句子级别与实体级别的注意力机制的原型网络在抽取准确率上提升了的性能。关键词：小样本学习；关系抽取；注意力机制中图分类号：文献标志码：文章编号：（），收稿日期：；修回日期：本刊网址：基金项目：国家重点研发计划（，）、江苏省重点研发计划（）、

3、中电鸿信信息科技有限公司合作项目、江苏省自然科学基金（）、江苏省高校自然科学研究重大项目（，）、江苏省创新创业人才项目、江苏博士后基金（）、江苏省博士后研究实践创新项目（，）、南京邮电大学鼎山人才培养对象项目和南京邮电大学引进人才科研启动基金（）资助项目作者简介：季一木，男，博士，教授，博士生导师，；刘强（通信作者），男，博士，讲师，引用本文：季一木，张旺，刘强，等基于小样本学习的中文文本关系抽取方法南京邮电大学学报（自然科学版），（）：，；，：；随着互联网的快速发展，数据越来越多样化，文本作为信息传播的主要形式之一，不断地更新。实体关系抽取作为文本挖掘和信息抽取的核心任务，是知识图谱构建过程

4、中的关键一环。其主要目的是对句子中实体与实体之间的关系进行识别，抽取句子中的三元组信息，即实体实体关系三元组，得到的三元组信息可以提供给知识图谱的构建、问答、机器阅读等下游自然语言处理（，）任务。由于近年来自然语言处理的发展与应用，关系抽取也吸引了许多研究者。有监督的关系抽取方法如、等在该任务上已取得非常好的效果。但是，有监督的关系抽取的准确率往往过于依赖高质量的数据集，而人工标准数据集往往需要耗费大量精力。为了快速构造有标签的大规模数据集，等提出了远程监督的思想，用来生成带标签的大规模数据集。该思想基于这样一个假设：如果一个句子中含有一个关系涉及的实体对，那这个句

5、子就是描述的这个关系。因此，远程监督的数据里存在大量噪声。为了缓解噪声数据问题，等使用分段卷积神经网络（）提取特征，基于该模型的扩展有、等。虽然这些模型在公共关系上取得了令人满意的结果，但当某些关系的训练实例很少时，它们的分类性能仍然会急剧下降。且现有的远程监督模型忽略了长尾关系的问题，这使得这些模型难以从纯文本中提取全面的信息。在小样本学习（）方法中，仅仅需要几个样本实例就能使模型学会区分不同关系类型的能力，从而缓解大量无标签数据带来的标注压力。小样本学习的概念最早从计算机视觉（）领域兴起，近几年受到广泛关注，在图像分类任务中已有很多性能优异的算法模型，但是在

6、自然语言处理领域发展得较为缓慢，主要原因是与图像相比，文本更加多样化和嘈杂。最近，随着元学习方法（）、图卷积神经网络（，）等概念的提出，使得模型能快速地从少量的样本中进行学习。等构建了一个用于小样本关系抽取的数据集，并基于不同的少样本模型对其进行了评估。在这些模型中，基于原型网络（）和匹配网络（）的方法能快速有效地对小样本进行学习并取得比较好的效果。但是是针对英文文本构建的关系抽取数据集，而相对于英文来说，中文更为复杂，具体表现在：（）在中文里，最小的语义单位是字，而字与字之间又能组成不同语义的词，所以在处理中文分词时容易遇到歧义问题；（）随着互联网的发展，

7、会对一些词赋予新的含义，同时组合不同的字也会产生一些新的词汇，给模型的训练带来了不小的难度；（）中文还有一个特点是重意合而不重形式，句子结构比较松散，不易于提取特征。为了解决上述问题，本文以为基础，重新构建了中文关系抽取数据集，使用语义关系的网络对抽取实体进行语义细分，同时基于改进后的对输入的文本进行编码，使用少样本学习中的原型网络对数据进行关系抽取。同时，为了减少噪声数据对结果准确率的影响，考虑到每一次训练中，不同的实例对结果的影响不同，这里使用了基于实例级别的注意力机制对模型进行优化。综上所述，本文的主要贡献如下：（）基于重新构建了适合少样本学习的中文数据集。（）在对句子级的注意力

8、机制的基础上，使用对实体进行语义拆分，引入了实体级别编码层面的注意力机制，使模型关注质量更高的特征，提高实例编码质量。（）为了评测该方法的有效性，人工地在训练集里加入了一定比例的噪声数据进行训练。结果显示，基于注意力机制的原型网络要优于原始原型网络，关系抽取的准确率提升在之间。相关工作关系抽取是非常重要的一项任务，许多研究者第期季一木，等：基于小样本学习的中文文本关系抽取方法提出了各种不同的解决方法。处理关系抽取任务的第一步就是需要将文本字符编码成计算机可以理解的数值常量，以便于提取特征。等开源了一款用于词向量计算的工具，用于计算非常大数据集中单词的连续矢量表示。但是由于计算出来的词和向

9、量是一对一的关系，所以一次多义的问题无法解决。这种缺点在中文上表现得比较明显，因为中文里单独的字的含义就非常丰富，组合成词的语义就更为繁多复杂。发布的模型在处理输入的中文序列时，将每个字视为最小的语义单位，使用双向进行编码，使得每个词都要和该句子中的所有词进行注意力计算，从而学习句子内部的词依赖关系，捕获句子的内部结构。目前，在的多个研究领域中都取得良好效果。但是，原始的模型参数众多，导致模型训练速度慢，且对中文词向量的表示效果远不如英文。本文使用等提供的基于的预训练模型，该模型使用的原始语料库，包含亿个汉字。与发布的原生模型相比较，在保证准确率不受

10、影响的情况下，训练和预测速度均有提高。在将句子编码为向量后，如何优化关系抽取模型也是研究的热点。最近，元学习的思想被应用到少样本关系抽取中，目的是让模型获得一种学习能力，这种学习能力可以让模型在新的领域自动学习到一些元知识。在常规小样本关系抽取算法中，基于度量和优化的元学习方法最为常见。等提出基于卷积神经网络的多级别匹配聚合网络，等提出的基于图网络的以及提出的标签语义感知预训练等方案提升了少样本关系抽取的准确率。但这些复杂的方法往往对训练时间要求更长以及机器的性能要求更高，同时在小样本关系分类任务上的表现相较于基于简单度量和优化的方法并没有特别大的提升。原型网络的思想和实现

11、方法都十分简单明晰，效果与之前的工作相比得到了一定的提升。等基于简单度量的元学习方法提出了原型网络（），认为每个类别在向量空间中都存在一个原型（），通过将不同类别的样例数据映射成向量并提取它们的“均值”表示一个类别的原型，通过比较向量之间的欧式距离进行相似度的判断。然而简单地提取样例数据映射向量的均值并不能很好地反映类别的特征，因为不同的样例对原型向量的影响不同。由于样本量少，分类边界存在误差，当数据存在噪声时，容易对结果造成干扰。在少样本学习图像任务中，注意力机制已被用于减少噪声的影响。等提出了基于混合注意力的原型网络，针对实例级别和特征级别分别设计了不同的关注方案，以分别突出关键实例和特征

12、，在英文数据集取得了比较好的效果。但是在中文语境里，一个实体往往有更为丰富的含义。因此，如何在中文语境里准确地关注每个实体在上下文中对应的语义，以及如何减少噪声实例对模型准确率的影响是本文的关注点。在本文工作中，使用双重注意力机制给每个类别的不同样例以及每个实体不同的含义赋予不同的权重参数，在一定程度上减少了噪声对结果的影响，提升了模型对抗噪声的能力。同时，在少样本关系抽取中，无需构造数据，数据不会存在长尾关系，仅需要少量的样本就能训练出优质的模型。基于的双重注意力机制小样本关系抽取算法本节详细介绍基于小样本学习的中文文本关系抽取方法。整体框架图如图所示，表示支持集，表示查询集，为总体

13、框架图，部分为原型网络计算出来的原型向量，部分为注意力机制计算结构图。符号和定义在小样本关系抽取问题中，将训练数据集划分为已分类的支持集合和待分类的查询集合，该任务被定义为预测查询集中的实体对（，）在对应的支持集中属于关系。对于给定关系集合，支持集以及查询集，有如下定义，（）（，），（，），（）（，）（）其中，（，）表示一个具体实例，为单个文本，为文本中的头实体，为文本中的尾实体。对于一次预测，每个支持集有种关系，每种关系类型有个不同的实例，判断查询实例属于支持集合中的哪一种，这样一次预测被称为一次分类。通过多次这样的分类训练，让模型具有区分不同关系类别的能力。南京邮电大学学报（

14、自然科学版）年图模型的体系结构基于的实例编码是一个大规模高质量的跨语言（中英）常识知识库，蕴含着丰富的语义信息。其中将词义概念用更小的语义单位描述，这种语义单位被称为“义原”（），是最基本的、不易于再分割的意义的最小单位。在实际关系抽取任务中，一个实体通常在不同的上下文环境中具有不同的含义，如“乔布斯创造了苹果”和“牛顿因为苹果发现了万有引力”中的“苹果”，在前者中是“特定品牌”的意思，而在后者中是“水果”的意思。为了减少歧义对抽取结果的影响，使用可以获取每个实体的最小的义原，例如“苹果”一词经过拆分后可以得到的义原为“树，特定牌子，用具，电脑等”，如图所示。然后经过编码后进行

15、权重分配，计算出最符合上下文语义的向量，这一部分将在后面详细描述。图 “苹果”义原分解图对于给定的实例，假设其中的头实体为，尾实体为，使用获取每个实体的义原，即，。将序列，使用预训练模型，将句子编码为低维度向量以表示该实例的语义信息。例如，对于给定的实例，经过编码后句子中的每一单词将会与一个向量对应。，（，）（）其中，（）表示将输入的单词进行低维度嵌入，得到的向量用来表示该单词的语义信息和语法信息。最后将该实例中的所有词向量经过一个特征提取层，从而生成一个固定大小的句子嵌入向量。（，）（）其中，（）用于提取每个单词特征，并输出一个固定大小的维度向量表示整个实例的语义

16、和语法信息，编码流程如图所示。图基于的实例编码原型网络原型网络（）的主要思想是每个类别的关系类型在高维向量空间中都存在一个原型（），也称作类别中心点。原型网络使用神经网络将不同的句子映射成一个向量，对于同属于一个关系类别的样本，求这一类样本向量的平均值作为该关系类型的原型，计算原型向量的一般方法是对支持集中所有的向量化样例数据取均值得到。，（）第期季一木，等：基于小样本学习的中文文本关系抽取方法其中，为原型网络为每个类别计算出的一个原型，为支持集中的一个关系类型的嵌入式向量表示，表示一次分类中每个关系类型实例的数量。在原型网络的计算中，所有实例都被同等地对待，但是在现实中并不

17、是每个实例对结果都具有一样的相关性。因此，在训练中应该关注那些更能代表该关系类型的实例。在这里使用的方法中，简单的平均机制被实例级注意所取代，以突出支持集中那些更相关的实例，将在下一部分中讨论。在分类时，原形网络使用（）计算查询集与向量的距离，用来表示查询集总实例在关系集合中的概率。（）（），）（），）（）其中，（，）为计算两个向量距离的函数，（）表示对输入的查询集实例进行编码，（）表示查询实例是关系类型的概率。距离函数有多种选择，根据等的研究，欧几里德距离优于其他距离函数，因此在该网络中，选择使用欧几里德距离计算两个向量之间的距离。双重注意力机制每个实例中的实

18、体经过分解得到不同的义原，然而在现实中每个实体根据上下文的不同而具有不同的意义。为了更为准确地表示实体在上下文中的意义，对其所有义原根据其相关性进行权重分配，从而减少噪声对训练结果的影响。义原在经过编码后得到其对应的向量表示形式，即，为得到的义原数量。为每一个义原权重分配一个权重（如图中所示），从而计算实体的向量为（）其中，被定义为（）（）（）（）（）（）将每个实例中的实体进行如上计算，即可得到该实例的向量表示，。对于每个关系类型，原型网络采用实例的平均向量作为关系原型。但是，在现实世界中，每个关系类型的不同实例与该关系类型的相关性并不是一样的。特别是在少样本场景中，由于缺少训练数

19、据，一个实例的表示形式与其他实例的表示形式相差很远，这将导致相应原型的巨大偏差。如果训练集中存在噪声数据，或者一种关系类型存在多种语义，这将会对结果的准确率产生非常大的影响。为了解决上述问题，根据相关性的大小对输入的实例分配不同的权重，从而减少噪声的影响。对于训练时支持集中的每一个实例向量，为其分配一个权重（如图中所示），从而计算原型向量的方法变为，（）其中，被定义为（）（）（）（）（）（）其中，（）为一个线性层，为将两个矩阵的对应元素进行相乘的操作，（）为一个激活函数，这里使用的是（）函数保证计算的结果在，范围内，用来对向量所有元素求和。通过训练实例级的注意力机制，支持集中的实例特征

20、与查询实例特征越相似，将获得更高的权重，最终计算的原型向量更接近这些实例。算法实现对于支持集输入的句子，首先将头实体和尾实体输入网络，解析得到不同的义原，然后将得到的义原和实例输入模块进行编码。此时得到的输出包含实例和实体的编码，先使用算法计算出每个义原的权重，将权重与对应的向量相乘，得到代表该实体的向量表示；同理，使用算法进行权重计算，可以得到类型的向量表示；对查询集输入的句子，进行如上的计算得到一个向量表示；最后将两个向量使用欧几里德距离计算相似度。由于交叉熵损失函数常应用于多分类任务中，因此训练过程中选择其作为目标函数，通过反向传播调整模型的权重，该损失函数表达式如下（，）（）（

21、）（）其中，为计算出的相似度，为类别数。算法算法南京邮电大学学报（自然科学版）年）输入义原向量，和实体向量）（，）（）（），（），（）为激活函数）（，）（）（）输出每个义原对应的权重算法算法）输入实例向量，查询向量（为类别数，为每个类别中实例数）（，）（）（），（），（）为激活函数）（，）（）（）输出每个义原对应的权重实验与结果分析实验数据集以等手动标注的数据集为基础，重新构建了支持少样本学习的中文数据集。该数据集一共有种关系，其中种关系用来训练，种关系用来测试和验证。为保证实验结果的准确性，在测试集中出现的关系类型，不会被划分到训练集中。为了验证基于注意力机制的原型网络

22、的有效性，在数据集中人工地添加、的噪声数据，这些数据在训练时将会被当成正确的数据进行训练。参数设置实验中所有的参数设置如表所示，对于训练文本中的每个实例，单词数量大于的，截取前个，不足的则以“”填充。对于词嵌入，使用预训练好的轻量级模型对输入的文本序列进行编码，该模型包含的中文词汇，输入词向量的维度为，设置原始原型网络的迭代次数为次。所有模型都在训练集上进行训练，然后选择在验证集上表现最佳的模型在测试集上进行测试。表参数设置参数数值实例最大长度词嵌入维度轮次大小每轮类别数量初始学习率权重衰减学习率衰减结果分析为了证明基于实例级注意力机制的小样本关系抽取方法对抗噪声的有效性，

23、通过计算该模型对关系实例抽取的准确率来评测模型的效果，结果如表所示，分别是在、的噪声数据下，使用原始的原型网络（）和基于注意力机制的原型网络（）得到的关系抽取的准确率。可以看出，在少样本关系抽取中，随着关系类别的增加，准确率会随之下降；随着每个关系类别的实例增多，准确率会上升，但并不是无限上升，当达到某一个水平时，上升速率趋近饱和，增加实例的数量对准确率的提升不再有明显优势。与原型网络相比较，当存在噪声数据时，基于双重注意力机制的原型网络会有更好的性能表现。表关系抽取准确度比较噪声网络表是基于的双重注意力机制的小样本关系抽取模型与其他模型，在没有添加噪声数据情况下抽取准确率的对比，实

24、验证明了基于的双重注意力机制的小样本关系抽取模型在抽取准确率方面相较于其他模型有一定的提升，使用的基线模型如下：（）（）是利用卷积神经网络作为编码器，将，非线性地映射到向量空间，最后衡量欧式距离做分类。（）（）是利用发布的原生预训练语言模型，将整个句子编码到统一的语义空间中，利用预训练的优势能极大提升训练的效率。（）（）利用了等在预训练语言模型的基础上，结合知识图谱将知识嵌入到预训练语言模型中，在预训练过程中对整个语言模型进行优化。（）（）利用了等在的基础上对预训练语言模型的改进，使用了第期季一木，等：基于小样本学习的中文文本关系抽取方法大量的中文语料库进行训练，在中文的语言建模

25、、预训练或生成型任务等方面具有优秀的表现。表各模型在数据集上准确率对比模型（）（）（）（）结束语本文重新构建了中文关系抽取数据集，使之适合于少样本关系抽取。使用对中文文本进行编码，并引入了语义网络，使用双重注意力机制的原型网络模型对该数据集进行了评估实验。在数据集中掺杂不同比例的噪声数据，实验结果表明，基于注意力机制的原型网络有更好的效果以及鲁棒性。参考文献：杨玉娟，冯霞，王永利：面向新闻文本主题抽取的改进聚类算法南京邮电大学学报（自然科学版），（）：，：（），（）：（）鄂海红，张文静，肖思琪，等深度学习实体关系抽取研究综述软件学报，（）：，（）：（）李冬梅，张扬，李东远，等

26、实体关系抽取方法研究综述计算机研究与发展，（）：，（）：（），：，：，：杨穗珠，刘艳霞，张凯文，等远程监督关系抽取综述计算机学报，（）：，（）：（），：，（）：赵凯琳，靳小龙，王元卓小样本学习研究综述软件学报，（）：，（）：（），：，：，（）：，：，：，：，南京邮电大学学报（自然科学版）年：朱靖雯，杨玉基，许斌，等基于的语义表示学习中文信息学报，（）：，（）：（），：，：，：，：，：，：，：，（）：王彩玲，魏清晨，仇真，等基于多角度学生子注意力网络的小样本学习南京邮电大学学报（自然科学版），（）：，（），（）：（），（）：，：（）：，：，：（责任编辑：寇笑笑）第期季一木，等：基于小样本学习的中文文本关系抽取方法

展开阅读全文