收藏 分销(赏)

基于BERT和多头注意力的中文命名实体识别方法_孙弋.pdf

上传人:自信****多点 文档编号:237072 上传时间:2023-04-06 格式:PDF 页数:9 大小:1.29MB
下载 相关 举报
基于BERT和多头注意力的中文命名实体识别方法_孙弋.pdf_第1页
第1页 / 共9页
基于BERT和多头注意力的中文命名实体识别方法_孙弋.pdf_第2页
第2页 / 共9页
基于BERT和多头注意力的中文命名实体识别方法_孙弋.pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 卷第 期重庆邮电大学学报(自然科学版)年 月 ():基于 和多头注意力的中文命名实体识别方法收稿日期:修订日期:通讯作者:孙 弋 孙 弋,梁兵涛(西安科技大学 通信与信息工程学院,西安)摘 要:针对双向长短时记忆网络条件随机场(,)模型存在准确率低和向量无法表示上下文的问题,提出一种改进的中文命名实体识别模型。利用裁剪的双向编码器表征模型(,)得到包含上下文信息的语义向量;输入双向门控循环单元(,)网络及多头自注意力层捕获序列的全局和局部特征;通过条件随机场(,)层进行序列解码标注,提取出命名实体。在人民日报和微软亚洲研究院(,)数据集上的实验结果表明,改进模型在识别效果和速度方面都有一定

2、提高;对 模型内在机理的分析表明,模型主要依赖从低层和中层学习到的短语及语法信息完成命名实体识别(,)任务。关键词:命名实体识别;自注意力机制;模型;双向门控循环单元;机理分析中图分类号:文献标志码:文章编号:(),(,):(),()():;引 言随着信息技术及信息产业的快速发展,信息传播的主要方式由电报、信件逐渐转向了网络。为了从互联网海量的文本数据中抽取出有效的信息,发掘其隐藏的应用价值,通常需要用到自然语言处理技术。命 名 实 体 识 别(,)技术能识别出非结构化文本中具有特殊含义的实体,如人名、地名等。命名实体的准确识别可以促进自动问答、知识图谱构建等下游任务的研究。从 的发展历史来看

3、,大致可以将其方法分为以下几种。传统的基于规则和字典的方法。命名实体识别作为信息抽取领域中的一个细分任务被引入到各种测评任务中,大多针对英文文本展开研究。在中文领域,文献提出一种通过将词汇信息进行对齐,完成中文实体识别的方法;文献为进行人物属性信息(如性别、民族、籍贯等)的抽取,提出了一种基于规则的实体识别方法。在早期,命名实体识别实现主要依赖专家构造的规则和字典,通过这些规则和字典对要检测的文本中的实体进行命中。这种方法不仅需要花费大量的时间和精力去构造规则和字典,而且通用性较差,对于规则和字典外的实体,使用这种方法难以准确地将其识别出来。基于统计学习的方法。该方法融合了机器学习、统计学和语

4、言学的相关知识建立模型。常用的模型有 隐 马 尔 可 夫 模 型(,)、条件随机场模型(,)和最大熵马尔可夫模型(,)等。文献 提出一种 与 结合的泰语实体识别模型;文献采用条件随机场模型完成了方志古籍物产别名的抽取;文献将序列标注模型、卷积树模型和元决策树模型进行组合,完成对信息的抽取工作。这些统计学习方法的特征提取还是需要人工完成,模型在训练过程中,需要大量人工标注好的样本,其效果也不是特别出色。基于深度学习的方法。利用该方法进行实体识别时,通常被看作一个对输入序列进行标注的任务。通过建立对应的模型完成实体的标注识别。文献将双向长短时记忆网络、卷积神经网络及条件随机场模型进行有机结合,提出

5、了一种端到端的方式完成对实体的识别;文献融合了双向长短时记忆网络与条件随机场模型,并利用特定领域的数据集进行训练,得到了更丰富的词向量;文献将双向编码器表征(,)模型与双向长短时记忆网络条件随机场(,)模型相结合对中文实体进行识别;文献使用了参数更少的双向门控循环单元(,)网络并引入注意力机制对其进行改进,结果显示该模型提升了中文实体检测的效果。深度学习已经成为 任务中的主流方法,但由于其模型网络较深且参数较多,人们无法透彻理解模型决策的内在机理,因此,对深度学习模型的可解释性研究也是目前一个新的课题。文献分别从自解释模型、特定模型解释、不可知模型解释,因果可解释性及事前、事后可解释性进行了分

6、析研究,通过这些方法对深度学习中网络模型的决策过程或机理做出了一定程度的解释。本文针对中文命名实体识别中经典 模型识别准确率较低、训练时间较长的问题,提出一种改进的 模型。使用具有更强文本特征表示能力的 模型作为特征表示层,将其得到的语义向量序列输入 网络,获取上下文的抽象全局特征,并引入多头注意力(,)机制挖掘局部特征。最终经过 模块进行序列解码标注,提取最优的标注序列。本文模型本文提出的 命名实体识别模型如图 所示。图 模型结构图 整个模型主要由 层、层、多头自注意力层以及 层 个部分组成。接下来将依次对模型各个模块进行详细分析。层 模型是谷歌公司在 年提出的预训第 期 孙 弋,等:基于

7、和多头注意力的中文命名实体识别方法练模型。在 模型中使用了一种双向 编码结构,使得模型能够充分获取输入文本中的语义信息。在本文提出的改进模型中,层对输入文本作第 步处理。输入和输出根据下游任务的不同,模型的输入序列可以单句形式出现,也可以语句对的形式出现。在本文中,输入文本的向量由嵌入向量、分割向量和位置向量叠加得到。其中嵌入向量是输入序列中每个字符本身的向量表示;分割向量用于区分每一个字符属于句子 还是句子,如果输入序列只有一个句子,就只是用 表示;位置向量编码了输入中每个字符出现的位置。这些向量均在训练过程中通过学习得到。对于 模型的输出同样也有 种形式,一种是字符级别的向量表示,对应着输

8、入中的每个字符;另一种是句子级别的语义向量,即整个句子的语义表示。在本文的研究中,模型的输出采用了第 种形式,即输入序列的每个字符都有对应的向量表示,该输出接着作为输入传递给后序模块进行进一步的处理。编码层在 模型中,使用了多层双向 编码器对输入序列进行编码,其预训练语言模型结构见图。其中每一个 对应着一个单元编码器,是模型的输入,为字符向量,为模型的输出向量。图 预训练语言模型 模型中 编码器的核心是自注意力机制。整个模型采用多头自注意力获取多个子空间的特征表示。每个自注意力头将输入序列中任意 个字符之间的联系通过一个步骤直接计算出来,而不是像 系列模型那样需要经过若干步迭代才能得到,所以更

9、容易捕获输入序列中相互依赖的远距离特征,这些字符间的相互关系在某种程度上代表了其关联程度和重要性,再根据相互间的关联性调整每个字的权重,以获得每个字新的向量表示。字符新的表征不仅包含了该字符本身的含义,还包含了与序列中其他字符的联系,所以比单一的字向量表示包含的内容更丰富也更合理。模型中文序列经过 模型进行向量化表示后需要传入编码层进行全局特征提取,虽然 网络能够同时捕获前向和后向信息,但其网络结构较复杂,训练时需要更新的参数较多,训练时间较长,因此,本文对模型中的 网络进行优化,使用参数更少、训练速度更快但效果相近甚至更优的 网络进行全局特征提取。网络在 网络基础上进行了优化,将 个门缩减为

10、重置门和更新门,其中重置门控制前一时刻的隐藏状态有多少信息被遗忘,更新门控制前一时刻信息有多少传递到当前单元的隐藏状态中。单元中各状态计算表示为()()()()?()()()?()()()式中:表示更新门;表示 时刻的输入;表示重置门;?表示候选隐藏状态;表示 时刻单元的输出;表示 乘积;、和、分别为更新门、重置门的候选隐藏状态权重矩阵,在训练过程中不断更新。网络是由 层方向相反的 网络构成,输入序列被分别送入正向和反向 网络中进行计算,层网络分别用来捕获历史信息和后续信息,将输出按位置进行拼接就得到最终双向门控循环单元的输出。自注意力层为了更好地捕获输入序列局部特征,筛选重要信息以提升模型整

11、体的识别效果,本文在模型中加入了自注意力层。自注意力机制计算过程同注意力机制类似。相较于注意力机制,自注意力机制仅关注输入序列内部字符之间的注意力计算,寻找序列 重 庆 邮 电 大 学 学 报(自然科学版)第 卷中字符之间的联系。对于自注意力机制来说,常用 注意力进行计算,计算公式为(,)()()式中:查询矩阵、键矩阵、值矩阵 均通过状态矩阵与对应的权重矩阵进行点积计算得到,其中,状态矩阵为 模型的输出,权重矩阵是随机初始化的;为矩阵 和 的维度。注意力分数的计算过程中,先计算、矩阵乘法,并除以防止相乘结果过大,然后经过 归一化操作,将结果归一化为概率分布,并乘上矩阵 得到最终结果,在命名实体

12、识别任务中,一般取。为了获得多个子空间中文本的上下文特征,本文使用了多头注意力机制。多头注意力机制重复多次对矩阵、进行不同的线性映射并计算注意力分数,将每个注意力头的结果矩阵拼接起来再与一个随机矩阵相乘,得到的矩阵作为最终多头注意力的输出。计算表达式为(,)()(,)(,)()()()式中:表示注意力计算;表示第 个注意力头的计算结果;,分别表示矩阵,的权重矩阵;是对 个注意力头的结果拼接后对应的权重矩阵。层经过全局特征和局部特征提取后,模型已经学习到足够的信息进行词性标注,目前使用最广泛的标注模型是线性链条件随机场模型,下文简称条件随机场或。是一种基于无向图模型的判别式模型,通过训练获得全局

13、条件下的标注序列最优解,避免了标注不合理的情况。条件随机场模型的定义就是,给定了输入随机变量序列,计算随机变量序列 的条件概率分布()。设 为经过自注意力层处理后输出的特征矩阵,输入 层之后可以得到每个位置上标签的分数(,)为(,),()()式中:,为转移矩阵,大小为()(),为标签个数;,表示第 个字被标记为 标签的概率;为序列长度。预测序列 产生的概率为()(,)?(,?)()()式中:?表示真实标记序列;表示所有可能的标注序列。通过极大似然法对模型进行训练,使得正确标签的概率最大,可以表示为()(,)?(,?)()算法验证及机理分析为了验证本文提出的改进方法的有效性并对模型内在机理进行分

14、析,本节使用公开的人民日报和微软亚洲研究院(,)语料作为实验的数据集。实验数据及评价指标本文使用的数据集包括国内公开的 年 月份人民日报新闻标注语料和微软亚洲研究院 数据集。时间、日期、百分比等实体具有较为统一的格式,可以通过规则进行识别,并且能够获得较好的效果;而人名、地名和组织机构名由于无统一格式,识别较为困难。本文主要针对后者的识别效果进行研究。实验中用到的数据集按照 的比例划分为训练集、验证集和测试集,切分后各集合字符数量见表。表 数据集规模统计 数据集字符数量训练集验证集测试集人民日报 本文采用准确率、召回率 和 值作为模型识别效果的评价指标对语料库实体识别结果进行评估,各个指标的计

15、算公式为 ()()()式中,、和 分别表示真正例、假正例和第 期 孙 弋,等:基于 和多头注意力的中文命名实体识别方法假反例的个数。实验环境及参数配置本文实验基于 和 框架,并使用 显卡加速训练。训练过程中,使用 层的 作为预训练模型,设置 为,为,初始学习率 为,同时,为了防止训练过程中过拟合的问题,在 层的两端增加,并取值为。实验结果与分析本文设计了 组实验,分别验证所提出的改进模型的有效性和探究 模型隐藏层数的裁剪对模型的影响。模型有效性实验)为了验证本文提出的 命名实体识别模型在中文领域的优越性,分别对 模 型、模 型、模型、模型以及 模型进行了对比分析,并采用、值对模型识别效果进行评

16、估。以上 种模型在人民日报和 数据集上分别进行了实验,具体实验结果如表 表 所示。表 人民日报数据集测试结果 模型 单轮时间 表 数据集测试结果 模型 单轮时间 从表 表 的实验结果可以得出,本文提出的 模型做到了识别效果与训练时间的综合最优。首先,对比 模型和 模型。后者引入 模型取代了传统的 方式对输入序列进行向量表示,在 个数据集上分别带来了 和 的 值提升,说明 模型能够充分提取字符级,词级的特征并根据上下文语义环境动态地调整字符的向量表示,能够准确表达当前环境下的含义,进而提升模型的泛化能力,增强实体识别的效果。为进一步提升模型的识别效果,本文在 模型的基础上引入了多头注意力层来捕获

17、局部特征。与 模型相比,引入多头注意力机制后,模型的 值分别达到了和,在这组对比实验中,多头注意力机制在多个子空间内对局部特征进行捕获,最终将从不同空间学习到的信息综合考虑来提升模型的识别能力。在识别效果得到提升的同时,由于模型的复杂度提高,模型的训练时间对应也大幅增加,这也是本文对模型优化的方向。对比 模型和 模型。将模型的 网络用结构更简单,参数更少的 网络替换后,模型在 个数据集上的 值分别提高了 和,并且单轮的训练时间也分别减少了 和 ,说明 网络通过对 网络中的门结构进行优化合并,使得整个网络在训练时更新的参数更少,收敛性更好的同时保证了模型的性能。对比 模型和 模型,本文利用同样的

18、思路将 网络替换 网络来缩短模型的训练时间,最终的改进模型在 个数据集上的单轮训练时间缩短了 左右,但模型的 值却分别提升了和。在缩短训练时间的同时并不牺牲模型的识别效果,充分证明本文提出的改进模型的优势。通过对以上多种模型的分析,充分证明了本文提出的 模型在提高整体识别能力的同时,降低了训练的时间,达到了整体最优的效果。层裁剪实验本文使用的 模型的隐藏层(即双向 编码器层数)共 层,而每一层在预训 重 庆 邮 电 大 学 学 报(自然科学版)第 卷练时学习到的内容也是有差异的,本文在改进模型的基础上继续研究 不同隐藏层的输出对整体模型的影响。在人民日报语料上分别选取第、层进行对比实验,实验结

19、果如表。表 层裁剪实验在人民日报数据集的实验结果 层数 单轮时间 由表 可知,在 层以下,模型识别效果随着层数的增加而提高,多于 层时,效果趋于稳定,并且在第 层时达到最优的效果,值较原始 模型提升了,并且单轮训练时间也缩短了 。表 给出了嵌入层为 层时,模型的具体识别效果。表 嵌入层数为 时实体识别结果 实体类型人名地名组织机构名整体由表 可知,模型对于人名和地名类实体识别效果较好,而对于组织机构类实体的识别效果略差,这是因为组织机构类含有大量识别难度较高的嵌套实体导致的。为确保在人民日报语料上进行的 层数裁剪的实验结果具有普适性,本文又在 数据集上进行了验证实验,并根据上述结论在 数据集上

20、选取了 至 层进行验证,具体结果如表。由表 可知,模型同样在第 层时识别效果最好,说明 模型在第 层附近学习到的内容能够更好地表示输入信息,完成实体的识别。相对于原始 模型,模型裁剪为 层时,参数量得到一定程度缩减,模型整体训练速度也得到提升。观察 模型层数裁剪的结果发现,模型层数为 层时,相较于初步优化模型,裁剪模型的训练时间在 个数据集上分别减少了约 和,且 值提升了 和。表 嵌入层裁剪实验在 数据集测试结果 层数 单轮时间 为了进一步证明本文模型的有效性,又将本文模型与文献在 数据集上的识别效果进行对比,结果如表。表 与主流方法的识别效果对比 模型 单轮时间 与 模型和 模型相比,本文模

21、型引入 预训练模型获取包含上下文语义信息的输入向量表示,识别效果更佳;同 和 模型相比,本文对 模型的隐藏层数量进行了裁剪实验,得到针对命名实体识别任务,在隐藏层为 层时模型整体效果最好的基础上,加入了多头注意力机制,在多个子空间中并行筛选重要信息,提升识别效果和训练速度的同时又对 模型的内在机理做了进一步分析。模型相对于循环神经网络模型,采用了可以加速 并行的 网络,使得其训练时间略短于本文模型,但本文模型的性能指标相对更高。模型机理分析上一节的实验已经验证了本文提出的改进模型的有效性,但对于模型中部分结构的机理还不清楚,尤其是 模型,我们仅知道通过预训练能够学习到语言学知识,但具体学到了什

22、么却不清楚。因第 期 孙 弋,等:基于 和多头注意力的中文命名实体识别方法此,本节对 模型的机理进行分析。根据解释的时间可将模型解释性分为事前可解释性和事后可解释性。事后可解释性针对训练好的模型,使用解释性技术对其机理进行解释,本文采用此方法对 模型的内在机理进行分析。使用事后解释对模型进行分析时常用的方法包括如 可视化方法、探测任务法等。算法是一种对高维数据降维以实现可视化的非线性算法,它能够让高维空间中具有相似特征的数据在低维空间中尽可能接近,实现聚类的效果,从而更直观地展示数据及其特征;探测任务法是一种挖掘可能编码在神经模型中的语言学特征的方法,通常通过设置辅助的分类任务进行预测,并根据

23、分类任务的结果来判断模型学到的语言学特征。为研究 模型的内在机理,本文对 每一层中输入序列的跨度表示做 可视化分析,前 层和最后 层计算的跨度嵌入的二维 如图。图 从 前 层和最后 层计算的跨度嵌入的二维 图 对可视化结果的分析发现,模型的低层对序列的表层信息即短语捕获更加准确,来自较低层的跨度表示如“演示”等短语能够被准确映射到如“(动词短语)”,“(名词短语)”等表示不同语法成分的底层类别上,而高层时短语信息逐渐被稀释。通过归一化互信息(,)度量聚类的结果说明,模型的低层主要关注于序列的短语信息捕获,从不同层获得的跨度表示的聚类性能如表。表 从不同层获得的跨度表示的聚类性能 性能指标层数

24、此外,为研究 在每一层捕捉的语言特性,根据探测任务法设计了表层(句 子 长 度 探 测、单词在句子中存在探测)、语法层(词序敏感性、句法树深度、句法树顶级成分序列)和语义层(时态检查、主语数量、宾语数量、动词名词随机替换敏感度、协作分句连词的随机交换)的探测任务,每层探测任务结果见表。通过观察 每层对不同分类任务的表现,发现低层网络主要编码了表层信息,中层网络主要编码了语法信息,而高层网络主要编码了语义信息。结合实验结果,本文提出的改进模型在 个数据集上均当 层数为 层时整体表现最好,说明在本文的 任务中 模型更多依赖低层和中层捕获输入序列的短语和语法信息,对语义信息的需求相对较少,在第 层学

25、到的内容能够更好地表示输入序列信息,并且层数的减少使得计算量降低,模型的训练速度也因此提升。总 结本文针对中文命名实体识别任务中经典模型存在的准确率低、一词多义以及仅引入 原生模型导致的训练时间问题,提出了改进的 模型,并在 个数据集上分别进行了与同类模型的对比实验和 层裁剪实验。本文 重 庆 邮 电 大 学 学 报(自然科学版)第 卷改进模型在 个数据集上分别取得了 和的值,比初步优化模型 缩短训练时间约 和 ,证明了本文改进模型的有效性。实验结果显示,隐藏层为 层时,模型识别效果最优,说明 模型应用于 任务时更多依赖低层和中层学到的短语和语法信息,对于深层的语义信息需求不大。虽然本文的改进

26、模型提升了系统的识别效果,但在研究中发现,模型对于组织机构类实体的识别效果相比于其他 类实体较差,这可能是因为组织机构类实体包含了大量的嵌套实体,后续将研究如何对模型进行改进,从而提升模型对于此类嵌套实体的识别效果。表 每层探测任务结果 层数参考文献:胥小波,王涛,康睿,等多特征中文命名实体识别四川大学学报(自然科学版),():,(),():李丽双,何红磊,刘珊珊,等基于词表示方法的生物医学命名实体识别小型微型计算机系统,():,():王进,李颖,蒋晓翠,等基于层级残差连接 的命名实体识别 江苏大学学报(自然科学版),():,(),():王红斌,郜洪奎,沈强,等泰语人名、地名、机构名实体识别研

27、究系统仿真学报,():,():李娜基于条件随机场的方志古籍别名自动抽取模型构建中文信息学报,():,():邹博伟,钱忠,陈站成,等面向自然语言文本的否定性与不确定性信息抽取软件学报,():,():,():,第 期 孙 弋,等:基于 和多头注意力的中文命名实体识别方法,:王子牛,姜猛,高建瓴,等基于 的中文命名实体识别方法计算机科学,():,():王雪梅,陶宏才基于深度学习的中文命名实体识别研究成都信息工程大学学报,():,():曾春艳,严康,王志锋,等深度学习模型可解释性研究综述计算机工程与应用,():,():纪守领,李进锋,杜天宇,等机器学习模型可解释性方法、应用与安全研究综述 计算机研究与

28、发展,():,():,:():,():曹依依,周应华,申发海,等基于 的中文电子病历命名实体识别研究重庆邮电大学学报(自然科学版),():,(),():,():石春丹,秦岭基于 的中文命名实体识别方法计算机科学,():,():李妮,关焕梅,杨飘,等基于 的中文命名实体识别方法 山东大学学报(理学版),():,(),():杨飘,董文永基于 嵌入的中文命名实体识别方法计算机工程,():,():作者简介:孙 弋(),男,陕西西安人,教授,博士,主要研究领域为自然语言处理、人工智能中的知识图谱在教育垂直领域的应用与开发等。:。梁兵涛(),男,河南洛阳人,硕士研究生,主要研究方向为自然语言处理。:。(编辑:陈文星)重 庆 邮 电 大 学 学 报(自然科学版)第 卷

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 自然科学论文

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服