基于注意力阅读理解式的中文命名实体识别模型.pdf

资源描述

1、信息与电脑计算机工程应用技术Information&Computer基于注意力阅读理解式的中文命名实体识别模型2023年第10 期乐书豪（湖北大学计算机与信息工程学院，湖北武汉430062)摘要：为了改善传统基于阅读理解的命名实体识别方法存在的缺陷，提出一种基于注意力的阅读理解实体识别方法。该方法首先通过来自变换器的双向编码器表征量（Bidirectional EncoderRepresentationsfromTransformers，BER T）模型对实体类型的问题语句和待处理的文本进行编码，其次使用注意力网络关联二者，最后通过Span网络进行序列解码，提取出相应的实体类型。实验结果表明，

2、该方法的F1值大于对照组的F1值，能够更准确地判断实体类型。关键词：阅读理解；注意力网络；命名实体；识别中图分类号：TP391.1Attention-based Reading Comprehension Model for Chinese Named Entity文献标识码：A文章编号：10 0 3-9 7 6 7（2 0 2 3）10-0 16-0 3RecognitionYUE Shuhao(School of Computer and Information Engineering,Hubei University,Wuhan Hubei 430062,China)Abstract:I

3、n order to improve the shortcomings of traditional reading comprehension based named entity recognitionmethods,an attention based reading comprehension entity recognition method is proposed.This method first encodes entity typeproblem statements and pending text using a Bidirectional Encoder Represe

4、ntations from Transformers(BERT)model from thetransformer.Then,attention networks are used to associate the two,and finally,sequence decoding is performed through a Spannetwork to extract the corresponding entity type.The experimental results show that the F1 value of this method is greater thanthe

5、F1 value of the control group,which can more accurately determine the entity type.Keywords:reading comprehension;attention;named entities;recognition0引言命名实体识别是自然语言处理中的一项基础任务，主要用于识别文本中实体的类别和边界1-2 。目前，中文命名实体识别任务仍存在以下难点：第一，中文文本没有类似英文文本中天然的空格分隔符，导致中文实体识别难以确定实体边界；第二，现代汉语文本，尤其是网络文本，经常出现汉语、英语混用的现象；第三，不同的实体

6、具有不同的内部特征，很难用一个统一的模型来刻画所有实体的特征。近年来，深度神经网络已广泛应用于各类自然语言处理任务，并取得了巨大的成功。随着预训练模型的发展，人们开始认识到预训练模型对语义编码的巨大作用，并将其引人实体识别任务。目前，带有预训练模型的BERT-BiLSTM-CRF是基于深度学习的实体识别方法中最常见的架构，并得到广泛应用。但目前的主流模型往往未能利用实体类型，在进行解码时，仅将各个标签作为普通的One-Hot编码进行分类，造成了信息浪费。在此背景下，HUANG等人提出运用机器阅读理解（Machine Reading Comprehension，M R C）的方法完成实体识别任务

7、。收稿日期：2 0 2 3-0 4-0 5作者简介：乐书豪（2 0 0 2 一），男，湖北孝感人，本科在读。研究方向：自然语言处理。16信息与电脑2023年第10 期Information&Computer计算机工程应用技术基于MRC的实体识别虽然在效果上有一定的提升，但其大大减慢了训练速度和推理速度。为了解决这个问题，文章采用注意力机制来完成文本对问题的关联查询，实现并行计算。1相关工作基于深度学习的方法是目前主流的命名实体识别方法，相较于传统的基于规则和基于机器的学习模型，该方法无须人工制定规则或特征，并且能够灵活地迁移到其他领域中。LIN等人认为汉字的偏旁部首蕴含了该汉字的词级特征，将汉

8、字分解为不同的偏旁部首，并将其融人汉字的字级特征中，能够有效帮助模型识别实体的边界 3。为了解决LIN等人提出的方法没有考虑位置关系的缺点，宋威等人提出一种基于多级别的特征感知网络的命名实体识别方法，利用卷积神经网络感知字级别特征和词级别特征，并将二者融合，形成了一个同时蕴含字级别和词级别的特征向量 4。韩晓凯等人提出一种面向中文的字词组合序列实体识别方法，采用自匹配词汇替换其在字符序列中包含的字符，从而构建一种新的字词组合序列 5。该方法不仅能够充分利用词汇边界信息，还可以获取新字词组合的上下文特征。一些难度较高的实体识别任务，其中的实体可能出现重叠、嵌套等复杂情况。例如“武汉市长江大桥”种

9、包含“武汉市”“市长”“长江”“长江大桥”等多个实体，它们可能会共用某些字。为了处理结构复杂的中文嵌套结构，张汝佳等人提出一种边界感知层叠神经网络模型，由小粒度到大粒度逐层识别中文文本中的嵌套命名实体 6 。2基于注意力阅读理解式的中文命名实体识别模型2.1编码层编码层是为了将句子中的字符映射到同一个高维语义空间中，根据上下文语境将字符编码成向量。文章采用来自变换器的双向编码器表征量（BidirectionalEncoder Representations from Transformers，BER T）预训l练模型对模型输人进行编码 7 。不同于其他语言表示模型，BERT旨在通过联合调节所有

10、层中的左右上下文来预训练深度双向表示。因此，只需要一个额外的输出层，就能实现对预训练BERT模型的微调，以适应下游任务，无需对模型结构做出重大调整。BERT预训练主要由掩码语言模型（Masked LanguageModel，M LM）和下句预测（NextSentencePrediction，N SP）两个子任务组成。文章给定待处理文本，将其表示为输人序列X-(x1,2,x)，其中n表示句子长度，x,表示句子的第i个字符。对于任意xi，都有一个标签EY与之对应。Y表示该数据集中包含的所有实体类型集合，如人物、机构、地点等。对于每一个标签y，都对应一个自然语言问题（Query），表示为Q,=q1,

11、q2,qm)，其中m表示问题的长度。对于输入序列X和所有的Query，都会由BERT编码层将其编码为一个特征向量，表示为 X=(xi,x2,x,)(Q,=(q1,q2,qm)式中：d表示隐藏层的维度。2.2位置编码层为了解决实体嵌套问题，文章采用了Span网络解码而非常见的恒定速率因子（Constant RateFactor，CR F）解码。CRF是全局序列解码而Span只能利用局部信息，在抽取实体时仅标注实体的起始位置和结束位置。在实体识别任务中，位置信息非常关键。以“他从北方专程来京拜访我”为例，正确情况下，模型提取出“北方”和“京”两个地点实体，但假如不引入位置信息，模型就容易将“北方专

12、程来京”识别为一个地点实体，因为模型认为“北”和“京”非常像一个实体的头和尾，但不知道这个实体Span是很长的，其中包含很多无用的信息。虽然BERT层中已经有了位置信息，但经过多层神经网络，其中的位置信息量容易被忽略，因此有必要在Span网络之前再加人一层位置信息，来说明每个字符的绝对位置和相对位置。文章构造一个大小为512、维度为d的位置编码层，将其输出与BERT编码层的输出x相加，得到0;=X,+P;式中：p表示位置层的向量；0;表示即将被送入Span层解码的最终字符向量。2.3林机器阅读理解式解码常见的机器阅读理解任务可以分为4种类型，分别为完形填空、多项选择、片段抽取及自由问答。文章主

13、要利用了其中的片段抽取方法，该任务的数学定义如下：给定问题Q和文本段C-ci,C2,c)，模型需从C中抽取出指定的连续子序列=c,Ci+1,Cik)(1计kn),并最大化条件概率P(alC,Q)。由于BERT预训练过程中的NSP任务使模型能够学习句子之间的联系，所以在对下游任务的微调中，BERT对于MRC任务具有良好的效果。其具体做法是将问题Q看作A句子,将文本段C看作B句子,使用 SEP作分隔，将其输入BERT中，然后通过简单的分类器网络，(1)(217一信息与电脑计算机工程应用技术Information&Computer判断文本段C中的每个字是否属于某种实体的起始或结束位置。这种方式虽然引

14、人了实体类型的先验知识，但其缺点也十分明显，即对于任意一句文本，都要重复计算N次。文章利用注意力网络关联Query和待抽取文本，并在一句文本中同时计算多种类型实体的位置，有效提高了模型的训练和推理速度。该方法的具体流程如下。第一步，经过BERT编码层和位置编码层后的文本向量为0-o,l，其中任意一个o,都是其对应字符的向量表示，Oe n；经过BERT编码层后的Query向量为Q-t,J，其中ti,表示第j个Query中的第i个字符的表示向量,Q E nixd。第二步，任取0 i，将其临时表示为qio第三步，令a.F1xkyaEm第四步，令score,Fal,Vuj;score,表示o,表示的字

15、符在第j个Query下的最终得分。第五步，计算得到最终的头尾实体概率logiti,二sigmoid(scorei,Tsar/ena)。其中，Tsar/ena 表示实体开始或结尾分类器，Tarend=nax，最终计算出的logit,表示o,代表的字符在第j个Query下是开始词或结束词的概率。3实验分析3.1数据集和评价指标文章采用MSRANER数据集，它是由微软亚洲研究院标注的中文命名实体识别数据集，是应用最广泛的中文实体识别数据集之一。该数据集包含3种实体，分别为人物、地点、机构。训练集包括46 356 条中文文本，测试集和验证集均包括46 35条文本。为评价模型识别效果，文章采用精确率P、

16、召回率R以及它们的调和平均值F1对模型进行评价。3.2对比实验为了验证模型的有效性，将BERT-BiLSTM-CRF、MGA_CV、混合特征金字塔网络（MixtureFeaturePyramidNetwork，M FPN）作为对照组，与本文方法进行对比分析。从表1可以看出，本文方法的F1值大于对照组的F1值，说明该方法的有效性。2023年第10 期表1实验对比结果方法BERT-BiLSTM-CRFMGA_CVMFPN本文方法4结语为解决传统实体识别模型无法利用实体标签知识的问题，文章提出一种基于注意力机制的MRC模型。该模型不仅能够学习丰富的词向量表示信息，还具有联系上下语境的能力，能够更准确

17、地判断实体类型，具有一定的应用价值。参考文献1王颖洁，张程烨，白凤波，等.中文命名实体识别研究综述 J.计算机科学与探索,2 0 2 3,17(2):32 4-341.2HUANG Z,WEI X,KAI Y.Bidirectional LSTM-CRFmodels for sequence taggingCJ/Proceedings of the32nd Pacific Asia Conference on Language,Informationand Computation,2018:465-476.3JLIN C Y,XUE N,ZHAO D,et al.Character-Based

18、 LSTM-CRF with radical-level features for Chinese namedentity recognitionJj.Lecture Notes in ComputerScience,2016:239-250.4宋威，周俊昊.基于多级别特征感知网络的中文命名实体识别 J.中文信息学报,2 0 2 2,36(9):8 4-92.5韩晓凯，岳颅，褚晶，等.基于注意力增强的点阵Transformer的中文命名实体识别方法 J.厦门大学学报（自然科学版),2 0 2 2,6 1(6):10 6 2-10 7 1.6张汝佳，代璐，郭鹏，等.基于分割注意力与边界感知的中文

19、嵌套命名实体识别算法 .计算机科学,2 0 2 3,50(1):2 13-2 2 0.7DEVLIN J,CHANG M W,LEE K,et al.BERT:pre-training of deep bidirectional transformers for languageunderstandingC/Proceedings of the 2019 Conferenceof the North American Chapter of the Associationfor Computational Linguistics:Human LanguageTechnologies,2019:4171-4186.F193.8792.1594.0694.8918

展开阅读全文