基于词汇增强与跨度编码的中文命名实体识别.pdf

资源描述

1、D O I:1 0.3 9 6 9/j.i s s n.1 0 0 1-5 3 3 7.2 0 2 3.4.0 5 8*收稿日期:2 0 2 3-0 1-3 0基金项目:山东省自然科学基金(Z R 2 0 2 0 MF 1 4 9,Z R 2 0 2 1 MD 1 1 5);上海市科委项目(2 1 5 1 1 1 0 0 3 0 2).第一作者:周戈,男,1 9 9 6-,硕士;研究方向:自然语言处理;E-m a i l:z h o u g 1 7 1 5 5 21 6 3.c o m.通信作者:周子力,男,1 9 7 3-,博士,副教授,硕士生导师;研究方向:知识图谱与自然语言处理;E-m

2、a i l:z l z h o u 9 9 91 6 3.c o m.基于词汇增强与跨度编码的中文命名实体识别*周戈,王艳娜,周子力,董兆安(曲阜师范大学网络空间安全学院,2 7 3 1 6 5,曲阜市;曲阜师范大学计算机学院,2 7 6 8 2 6,山东省日照市)摘要:在词汇增强方法的基础上提取并结合了汉字的字形信息,并且不同于传统基于序列标注任务框架的命名实体识别模型,通过枚举输入序列中所有跨度并编码的方式,将命名实体识别由序列标注任务转换为跨度分类任务实现对嵌套实体的识别.实验结果表明,加入字形信息并结合跨度编码的方法可以同时提升平面与嵌套类型中文命名实体的识别效果.关键词:中文命名实

3、体识别;字形信息;跨度编码;分类任务中图分类号:T P 3 9 1 文献标识码:A 文章编号:1 0 0 1-5 3 3 7(2 0 2 3)0 4-0 0 5 8-0 90 引言所谓命名实体(n a m e de n t i t y,N E)一般指的是文本中具有特定意义或者指代性强的实体.命名实体识别(n a m e de n t i t yr e c o g n i t i o n,N E R)作为信息抽取的重要子任务,目标是从非结构化的输入文本中抽取出指定类别的实体,并按照业务需求识别出更多类别的实体.N E R不仅仅是独立的信息抽取任务,在许多其他后续自然语言理解任务如信息检索、自动

4、文本摘要、问答系统、知识库构建中也扮演了关键的角色.因为汉语句子中没有类似于空格的这种分隔符,N E R在汉语语境中相较于英语语境任务难度更高.中文N E R的一种常见做法是先进行分词,然后对分词后的句子应用词级序列标记模型1-2.然而,分词不可避免地会产生错误,这将导致误差传播到N E R的实体边界检测中.因此,一些中文N E R模型3-4直接在字符层面上进行.为了进一步提升识别效果,许多研究人员不断探究加入词汇信息来进一步增强实体边界的识别能力的方法5-6.Z h a n g等7提出词汇增强的命名实体识别方法,之后的许多中文N E R模型8-1 1在其基础上改进了词汇信息结合策略,显著地提

5、高了训练速度和模型效果.中文作为表意文字,偏旁作为汉字构成的主要成分是包含一定的语义信息的,类似于英文单词的词缀.例如,“江”、“河”、“海”都以“氵”作为偏旁,代表其语义与水有关.之前的一些工作1 2-1 3已经证明了汉字的结构特征可以用来提升自然语言处理(n a t u r a l l a n g u a g ep r o c e s s i n g,N L P)任务的效果.汉字中一字多义现象普遍存在于多音字中,不同读音代表不同的语义.例如,“干(g n)燥”和“干(g n)部”、“市长(z h n g)”和“长(c h n g)江”,仅通过字形难以区分相同汉字可能存在的

6、不同意义.并且现有的大多数工作都将N E R作为序列标记问题,使用基于条件随机场(c o n d i t i o n a l r a n d o mf i e l d,C R F)的模型框架,然而这种框架只关注平面实体,难以处理实体可能存在的重叠和不连续的情况.F L AT1 1(f l a t-l a t t i c e t r a n s f o r m e r)模型通过将输入序列的字符和潜在词汇转换成统一的序列结构,对序列中各t o k e n之间的相对位置进行建模并统一输入T r a n s f o r m e r编码器,通过多头注意力机制进行信息交互实现字符和词汇信息的结合.为了解决

7、上述问题,本文提出了一种基于F L AT的融合汉字结构与语音特征的N E R模型,以F 1值为指标,在W e i b o N E R,R e s u m e N E R简历数据集和第4 9卷第4期2 0 2 3年1 0月曲阜师范大学学报J o u r n a l o f Q u f u N o r m a l U n i v e r s i t y V o l.4 9 N o.4O c t.2 0 2 3 M S R A新闻实体数据集3个平面实体数据集与包含嵌套实体的中文人民日报数据集上测试了本文方法.实验结果表明,本文模型在各数据集的效果与其他基准模型对比都有所提高.本文的主

8、要贡献有:(1)在编码阶段,参考C h a i等人的方法1 4,在F L AT模型的基础上结合自依赖门控网络,将部分输入通过门控单元跳过多头注意力相关性权重计算过程.(2)针对汉字容易出现的多音字和一字多义问题,使用在线拼音转换工具结合上下文获得各汉字的拼音序列,与五笔编码序列分别卷积提取特征后与字符向量融合.(3)将序列标注任务转换为跨度分类任务,在判断跨度类别的基础上,添加判断构成跨度的两个字符是否在实体内相邻的子任务,通过联合训练来实现同时识别平面实体和非平面实体.1 相关工作在N L P领域中,N E R通常被当作是一个序列标记问题.各种模型在基于C R F的基础上被用来提升N E R

9、任务的效果,比如L a m p l e1 5和M a1 6等早期提出的基于端到端双向长短时记忆网络(l o n gs h o r t t e r m m e m o r yn e t w o r k,L S TM)与C R F结合的模型.由于中英文句子结构的差别,现有的中文模型大部分是基于按照按字符划分进行的.为了在字符中加入词汇信息,Z h a n g等7首先提出将字符和其匹配词汇作为L S TM结构化输入来实现将词汇信息与字符嵌入结合的L a t t i c e-L S TM模型,然而L a t t i c e-L S TM由于循环结构的限制无法进行并行操作,并且当句子中的某个字符可能与词

10、典中的多个词有关时模型难以对此做出判断.2 0 1 9年,G u i等8提出了L R-C NN模型,使用一个R e t h i n k i n g机制合并词汇,该方法能够并行地对所有匹配句子的字符和潜在单词进行建模,提高了运算效率.同年,S u i等9提出了C GN模型,用3种不同策略的构图层来学习自匹配特征和词汇边界等信息,以此来改进词汇边界信息丢失的问题.2 0 2 0年,M a等1 0提出S i m p l e-L e x i c o n模型,通过BME S标签来融合词汇信息.对于每一个输入字符,使用词典匹配该字符作为开始(B)、中间(M)、结束(E)、单独字词(S)单个4种位置类型对应

11、的词,利用这些词的词频来计算权重,并通过自注意力机制来对字符按权重分配这些词汇信息.同年,L i等1 1提出了F L AT模型,该模型基于T r a n s f o r m e r编码器结构,模型内部完全抛弃了R NN和C NN,避免了由于R NN只能按顺序处理前后时间步上的信息和C NN网络各层内部节点间无连接且感受野大小有限而导致模型无法并行处理序列输入和难以捕捉序列长距离依赖的问题.并且通过采用相对位置编码来使得T r a n s-f o r m e r适应N E R任务,改进了原生T r a n s f o r m e r结构中绝对位置编码虽然具备距离感知但编码本身缺乏方向性的问题.不

12、同于英语、德语等表音文字,汉字作为一种表意文字,汉字的字形结构同样也包含一定的语义信息,其结构信息已经被证明对N L P任务的效果提升是有帮助的.近年来越来越多的中文N L P模型开始使用中文结构信息辅助提升语义嵌入的质量.2 0 1 6年D o n g等1 2提出使用双向L S TM提取汉字偏旁特征并与字符嵌入拼接用于N E R任务.S u n等1 7提出使用C NN提取多种古体字和繁体字的田字格图像中的局部特征,然后与预训练的B E R T向量拼接作为T r a n s f o r m e r编码器的输入,此外还设置了利用图像特征推导原汉字的图像分类任务作为辅助任务以提高模型的泛化能力.张

13、栋等1 8提出使用简体汉字的五笔码作为无监督语料输入语言模型E LM o训练生成包含上下文信息的字形向量,并将得到的字形向量与字符向量结合作为模型的输入.上述方式都是将N E R作为普通的序列标记任务的基础上进行的,其缺点是无法提取具有重叠部分的实体.2 0 1 8年J u等1 9提出了一个通过动态地堆叠识别平面实体的L S TM-C R F层的方法预测所有可能的实体组合.同年,S o h r a b和M i w a2 0通过连接开始和结束位置的L S TM输出,然后使用该输出来计算每个跨度的分数.2 0 2 0年,Y u2 1在S o-h r a b等人的工作基础上通过加入双链注意力2 2的

14、方式来代替直接将L S TM的输出级联的方式来获得输入句子中所有跨度并进行评分.金彦亮等2 3提出基于分层标注的中文嵌套实体识别模型,根据实体嵌套的层数进行分层标注,将每层的实体识别解析为一个单独的任务.2 0 2 2年,L i等2 4提出将实体识别过程转换为词对关系分类任务,并提出使用NNW关系(n e x tn e i g h b o r i n gw o r d)建模实体词之95第4期周戈,等:基于词汇增强与跨度编码的中文命名实体识别间的相邻关系来实现模型在平面和嵌套实体识别效果上的提升.综合考虑前面多项实体识别工作的优缺点,结合中文实体识别任务现存的问题和解决方案,本文提出了基于词

15、汇增强与跨度编码的中文命名实体识别模型.在加入词汇强化字符内实体边界信息的基础上,进一步将输入编码为跨度表示,通过识别跨度头尾位置并判断实体类别实现模型可以同时识别平面实体和嵌套实体.2 方法2.1 编码器为了更大限度地从输入句子中提取语义信息,本模型编码器部分参考F L AT的方法实现将通过外部词典匹配得到的词汇信息加入到预训练的字符表示中,并通过C NN对汉字拆解后的结构序列和拼音序列进行特征提取,之后与词汇增强的字符表示结合后输入B i-L S TM中提取上下文特性.2.1.1 基于F L AT引入词汇信息参考F L AT模型,通过输入句子与现有词典匹配将句子转换为字符-匹配词序列,为

16、序列中的每个t o k e n分配头索引(h e a d)和尾索引(t a i l)2种位置索引.通过将任意2个t o k e n之间头头、头尾、尾头、尾尾4种相对位置建模为密集向量来编码各t o k e n之间可能存在的相交、包含和分离的关系.假设输入序列中第i个t o k e n的头尾位置分别为lhi和lti,以第i与第j个t o k e n之间的相对位置为例计算它们的关系:d(h h)i j=lhi-lhj,(1)d(h t)i j=lhi-ltj,(2)d(t h)i j=lti-lhj,(3)d(t t)i j=lti-ltj,(4)其中,d(h h)i j,d(h t)i j,

17、d(t h)i j,d(t t)i j代表i和j之间4种相对距离.各t o k e n的相对位置编码R由它们的4种相对距离的简单非线性变换构成,Ri j=R e L U(Wr(pd(h h)i jpd(h t)i jpd(t h)i jpd(t t)i j),(5)其中,Wr为可训练的参数矩阵,表示串联操作.pd的计算方式和普通T r a n s f o r m e r使用的绝对位置编码的计算方式相同,p(2k)d=s i n(d/1 00 0 02k/dm o d e l),(6)p(2k+1)d=c o s(d/1 00 0 02k/dm o d e l),(7)其中,d代表d(h h)i

18、 j、d(h t)i j、d(t h)i j、d(t t)i j,k表示位置编码嵌入维度,dm o d e l为多头注意力头数乘以每个头的维度.原生T r a n s f o r m e r的注意力权重利用绝对位置编码(U),Aa b si j=(Wq(Exi+Ui)T(Wk(Exj+Uj)=WTqETxiExjWk+WTqETxiWkUj+UTiWTqWkExj+UTiWTqWkUj,(8)而F L AT改变注意力的计算方式利用相对位置编码(R),A*i j=WTqETxiExjWk,E+WTqETxiRi jWk,R+uTExjWk,E+vTRi jWk,R,(9)其中,u、v分别为2个可

19、训练的参数矩阵.将Wk拆分为Wk,E和Wk,R以分别产生基于内容的键值矩阵和基于位置的键值矩阵.最终多头注意力计算公式为A t t(A*,V)=s o f t m a x(A*)V.(1 0)为了改善基于自注意力的模型存在的只关注输入的任意两个字符/词汇之间的注意力分布,忽略字符或词汇本身特征的重要性的问题,本文参考C h a i1 4的方法,在F L AT结构中加入门控组件自依赖单元(s e l f-d e p e n d e n c yu n i t s,S DU),使得一部分字符表示可以跳过注意力计算过程,保留本身特征的同时可以提高模型收敛速度.自依赖单元计算公式为T(X)=(XW1+b

20、1),(1 1)S DU(X)=T(X)(XW2+b2),(1 2)其中,T(X)表示变换门;是将线性投影限制在固定范围内的逐元素选通门函数,在本文中选择t a n h函数作为选通门函数;W1、W2、b1、b2是可训练参数.将S DU作为一个新的分支分别加入F L AT的T r a n s f o r m e r编码器结构的多头注意力和前馈网络中组成S DU-F L AT,公式如下:U=L N(X+A t t(A*,V)+S DU(X),(1 3)O=L N(U+F F N(U)+S DU(U),(1 4)其中,U和O分别表示中间层输出和最终输出.该部分结构如下页图1所示.06 曲阜师范大学学

21、报(自然科学版)2 0 2 3年图1 S DU-F L AT结构图2.1.2 融入汉字结构与拼音特征本文根据8 6版五笔码表,按照书写顺序将简体汉字转换为五笔编码序列.8 6版五笔码使用2 5个字母(不包括z)来表示所有简体汉字.对于结构相似的汉字,例如:“船”字的五笔码为t e m k,“舰”字的五笔码为t e m p,根据编码可以看出其存在相似的结构,说明五笔码包含字符的结构信息.虽然五笔码相比四角码重码率更低,但是仍然存在重码的问题.例如,“云,f c u”和“去,f c u”、“太,d y i”和“丈,d y i”、“皿,l h n g”和“四,l h n g”等一些字符存在24字的重

22、码.本文对两个及以上重码字符的五笔码,按照在编码表中的出现顺序在后面加入不同的数字,这样做可以避免使用五笔编码出现的重码问题.为了缓解一字多义和多音字问题,加入拼音并对其进行特征提取.通过汉字-拼音转换工具p y p i n y i n对输入句子结合上下文确定多音字正确的读音,按照声母,韵母,声调3个部分进行拆分.对于没有声母的音节,例如“a n”“a n g”等在声母位置用P A D 代替.阴平、阳平、上声、去声4个声调分别用数字1、2、3、4表示,轻声(不标注声调)用数字0表示.对于五笔码,由于其编码规律是对大于等于4个字根组成的汉字取字的第一、二、三和最后一个字根的编码,对于字根个数小于

23、4个的汉字在编码尾部加入识别码,所以五笔编码长度通常为3到4个,最长为4.为了区分可能存在的重码,在编码末尾加入数字,将编码长度扩充到5位,对于不满足长度为4或者不存在重码的五笔码其第四或第五位用P A D 填充,例如“万,d n v”和“尤,d n v”,按照在五笔编码表中出现的顺序加入数字和填充后变成“d,n,v,P A D,1”和“d,n,v,P A D,2”.填充的目的是方便序列批量输入卷积网络进行特征提取.分配索引之后的五笔编码序列被输入到嵌入层,对汉字的每个编码进行初始矢量化以作为卷积层的输入.利用卷积神经网络的优势,将滑动卷积窗口的大小N范围内的

24、特征自动组合和过滤(N是输入字符的最大编码数,N=5),获得不同抽象层次的语义信息,然后将单个汉字的每个部分嵌入矩阵进行最大池化,最后拼接做为该字符的结构特征向量.对于拼音特征的提取使用和五笔码相同的方式.将五笔特征向量与拼音特征向量拼接,得到包含汉字结构与语音信息的向量,称汉字的形声特征向量,用于与词汇增强部分输出的字符向量结合.卷积层结构图如图2所示.为了更好地加入汉字形声特征,消除向量空间差异,首先对齐汉字形声特征向量与字符向量表示的维度,然后使用线性注意力计算所有字符的形声特征的权重并进行加权,这一步的目的是尽可能将更多权重分配给对识别任务有意义的形声特征.向量的对齐与权值计算公式为x

25、ri=WTc o m pri+bc,(1 5)16第4期周戈,等:基于词汇增强与跨度编码的中文命名实体识别 i=e x p(xri)nk=1e x p(xrk),(1 6)hc o m pi=iri,(1 7)其中,ri表示对齐后的汉字形声特征向量,加权后和词汇增强的字符表示hc h a ri进行整合,最后输入双向L S TM中来提取时序上下文特征,得到每个字符的最终表示hi=B i L S TM(hc h a ri+hc o m pi).(1 8)2.1.3 跨度表示编码为了实现通过跨度预测实体的类别,使用两个独立的多层感知器(m u l t i-l a y e rp e r c e p

26、t r o n,ML P)为跨度的头尾分别获得不同的表示;通过双仿射注意力来让各t o k e n之间进行信息交互得到所有可能的跨度表示并用于分类任务.hsi=ML P1(hi),(1 9)hej=ML P2(hj),(2 0)hs p a ni j=hsiTW3hej+(hsihej)W4+b3,(2 1)其中,hsi、hej分别表示第i、j个字符作为跨度的头和尾时的表示,W3、W4为可训练的参数矩阵.为了进一步强化实体边界的识别效果,参考L i等2 4提出的结合跨度字符对在实体内的相邻关系辅助识别实体词和非实体词的方法,使用条件规范化层(c o n d i t i o n a l l a

27、y e rn r m a l i z a t i o n,C L N),基于前面得到结合形声与词汇信息的字符表示来生成新的跨度表示,用于预测实体内部相邻字符之间的连续关系.he d g ei j=C L N(hi,hj)=i jhj-+i j,(2 2)其中,i j=Whi+b,i j=Whi+b,=1dhdhk=1hj k,=1dhdhk=1(hj k-)2;式中的hj k表示hj的第k个维度.至此就获得了用于预测实体内部连续关系的跨度表示he d g ei j,接下来输入分类器解码.2.2 分类器与损失函数本文模型预测的是跨度的类别和跨度字符对之间的关系,可以将输入句子看做是一个有方向的字

28、符组成的图,实体解码过程可以看做是将图中每两个字之间的有向路径划分给已经定义好的类别.预测跨度属于预定义的实体种类集合中各种类别的概率分数Yi j=a r g m a x(hs p a ni j).(2 3)图2 C NN提取五笔码特征示例图判断跨度字符对是否在实体内里连续的预测概率yi j=a r g m a x(s o f t m a x(he d g ei j).(2 4)在每句生成的两种跨度网格表示中,为了识别每对字符之间在实体内是否为邻接关系,对he d g ei j求其网格上三角区域(本模型不判断字与其本身的实体内相邻关系,所以不包括对角线)对应的字符对属于实体内邻接关系的分数.

29、为了识别实体头尾和类别,对hs p a ni j下三角范围(包括对角线)网格求其对应字符对为实体的头尾位置和类型的分数.对于可能产生冲突(重叠)的两个实体跨度,只取类别得分较高的那个,所以识别跨度为实体头尾和类别的任务可以看作是一个多分类任务;识别跨度字符对是否为连续关系的任务可以看作是一个二分类任务.本文将两个任务联合训练,使用多分类交叉熵作为实体头尾和类别识别任务的损失函数L1=-1NNn=1li=1lj=1Y(n)i jl o g(Y(n)i j),ij.(2 5)其中,Y表示跨度对应实体类别的真实值.对于字符对实体内部相邻关系的判断,假设在实体内存在相邻关系的字符对为正样本,不存在关系

30、的字符对为负样本,令存在关系的标签真实值为1,不存在关系的标签真实值为0.枚举所有跨度条件下,正样本是远少于负样本的.为了缓解正负样本不均衡问题,并且让模型在训练过程中更加关注容易预测错误的样本,为难预测的样本分配更多的26 曲阜师范大学学报(自然科学版)2 0 2 3年损失并且平衡正负样本权重,使用焦点损失函数L2=-1NNn=1li=1lj=1 y(n)i j(1-y(n)i j)l o g(y(n)i j)+(1-)(1-y(n)i j)y(n)i jl o g(1-y(n)i j),ij,(2 6)其中,y代表跨度内部字符对相邻关系标签的真实值;是聚焦参数,用于调整难易样本的损失权重;

31、是平衡参数,用于缓解正负样本比例不均问题.最终的训练目标函数为L=L1+L2,(2 7)其中为手动设置的超参数.模型整体结构如图3所示.图3 模型整体结构图3 实验与分析3.1 数据集为了证明本文模型对于中文命名实体识别任务的有效性,使用3个中文扁平数据集 R e s u m e简历数据集7、M S R A、W e i b o社交媒体数据集2 5和包含嵌套实体标注信息的人民日报数据集,测试效果并与其他模型对比.各数据集统计信息如表1.表1 实验数据集统计信息(单位:万)数据集类型训练集验证集测试集W e i b o句子数0.1 40.0 30.0 3字符数7.3 81.4 51.4 8R e

32、s u m e句子数0.3 80.0 50.0 5字符数1 2.4 11.3 91.5 1M S R A句子数4.6 40.4 4字符数2 1 6.9 91 7.2 6人民日报句子数1.5 40.1 90.2 2字符数1 4 7.2 31 8.4 11 8.3 93.2 基线模型为了对比模型在平面和嵌套数据集上的效果,本文与4个模型做了比较,其中包含2个平面实体数据集上当前先进的模型 S i m p l i f y-L e x i-c o n1 0、F L AT1 1和2个中文嵌套实体识别模型 B I A F F I N E-N E R2 1、NN E R

33、模型2 3.S i m p l i f y-L e x i c o n1 0,该模型引入外部词典与输入进行匹配,并将匹配得到的词汇按照在数据集中出现的频率进行加权来向输入字符中加入词汇信息.F L AT1 1,该模型将输入句子与词汇连接作为T r a n s f o r m e r的输入,并通过引入相对位置实现无损地加入词汇信息.B I A F F I N E-N E R2 1,该模型通过双线性仿射机制编码所有可能的跨度组合,将N E R从序列标记任务转换为识别各跨度作为实体开始和结束位置并为每个跨度分配一个实体类型的任务.由于原文中没有在中文数据集上进行实验,本文使用人民日报数据集测试了该模

34、型在中文嵌套实体识别任务中的36第4期周戈,等:基于词汇增强与跨度编码的中文命名实体识别效果,原模型结构不变,嵌入层的B E R T换成了中文预训练B E R T模型.基于分层标注的NN E R模型2 3,该模型通过引入位置感知的自注意力机制的方式来改进B i-L S TM结构,并通过软词匹配加入词汇信息,采用分层标注的方式将每层实体识别做为一个单独的任务.3.3 实验结果表2为各数据集上的基线模型与本模型的实验结果对比.为了公平地比较实验效果,本文使用与Z h a n g等7相同的中文预训练词嵌入文件生成的外部词表来获得匹配词和对应的词向量、字符向量,

35、二元字符向量与F L AT和S i m p l i f y-L e x i c o n模型使用的一致,表中*表示使用预训练的B E R T向量作为模型的字向量输入.可以看出,本模型的效果在各平面中文数据集上均优于其他两个模型,F 1分数在R e s u m e和M S R A数据集上分别取得了0.9 6%,0.6 8%的提升,在W e i b o数据集上得到2.4 6%的提升.使用中文人民日报数据集测试模型在中文嵌套实体数据集上的效果.需要注意的是,本文模型在人民日报数据集上实现9 2.9 7%的F 1值,对比金等人的分层标注NN E R模型在人民日报数据集上实现1.5 6%的提升,与基于B

36、E R T预训练字符嵌入的B I A F F I N E-N E R模型对比也有0.0 9%的提升.表2 各模型在不同数据集上的F 1值(%)模型W e i b oR e s u m eM S R A人民日报M a,e t a l.6 1.4 29 5.5 39 3.6 6L i,e t a l.6 0.3 29 5.4 59 4.1 2金,等人9 2.7 49 1.4 1Y u,e ta l.*9 2.8 8本文工作6 3.8 89 6.4 99 4.8 09 2.9 73.4 消融实验在R e s u m e、W e i b o、人民日报数据集上进行消融实验,验证模型各部分对整体效果的影响

37、,结果如表3.首先将T r a n s f o r m e r中通过门控单元联通输入和残差归一化层的S DU去掉.可以发现,去掉门控单元之后3个数据集上的性能均出现下降,证明加入门控单元,允许部分字符表示跳过多头注意力计算过程来关注字符本身特征的做法,可以对平面实体与嵌套实体的识别效果带来一定的提升.去掉加入偏旁特征部分,在W e i b o数据集上导致了1.3 1%的效果下降.可以看出,加入部件特征对于非正式语境中文数据集上的识别效果具有重要意义.对比去掉拼音特征的模型在各数据集上的实验结果,也证明了拼音特征可以增强模型的语义表示.去掉判断字符对是否在实体内部相邻的边界增强模块,模型在各数据

38、集上均出现效果下降,证明加入判断字符对在实体内相邻的关系可以通过增强实体边界的方式提升实体识别任务的效果.表3 消融实验的F 1值(%)模型W e i b oR e s u m e人民日报O u rm o d e l6 3.8 89 6.4 99 2.9 7-S D U6 3.7 19 6.2 39 2.7 6-C o m p o n e n t s f e a t u r e6 2.5 79 5.9 29 2.7 3-P i n y i nf e a t u r e6 3.7 49 6.4 09 2.8 6-NNWr e l a t i o n6 3.5 99 6.3 19 1.4 34 总

39、结本文将词汇增强的方式与基于跨度的模型结合进行中文命名实体识别任务,并在此基础上加入中文特有的结构特征与拼音特征进一步增强语义表示;采用多任务联合学习的方式加入字符对关系分类任务加强实体边界的识别,由于判断字符对相邻关系的加入,本模型也可以实现不连续实体的识别.对比各模型在平面与嵌套实体的中文N E R数据集上的实验结果,表明了本模型在加入词汇信息与中文结构信息丰富语义表示的基础上,利用跨度编码的方式来加强实体的边界识别效果,从而实现可以同时识别多种类型的实体.对比之前单纯的基于序列标记的方法,在平面和嵌套实体的识别任务中本模型都可以带来效果的提升.参考文献:1YANGJ,T E NGZ,Z

40、 HAN G M,e ta l.C o m b i n i n gd i s-c r e t ea n dn e u r a lf e a t u r e sf o rs e q u e n c el a b e l i n gC/P r o c e e d i n g so fC o m p u t a t i o n a lL i n g u i s t i c sa n dI n t e l l i-g e n t T e x t P r o c e s s i n g.C h a m,S w i t z e r l a n d:S p r i n g e r,2 0 1 6:1 4 0

41、-1 5 4.2张佳宝.基于条件随机场的中文命名实体识别研究D.长沙:国防科学技术大学,2 0 1 0.3HEJ,WAN G H.C h i n e s en a m e de n t i t yr e c o g n i t i o na n dw o r ds e g m e n t a t i o nb a s e do nc h a r a c t e rC/P r o c e e d i n g s46 曲阜师范大学学报(自然科学版)2 0 2 3年o f t h eS i x t hS I GHAN W o r k s h o po nC h i n e s eL a n g u

42、a g eP r o c e s s i n g.H y d e r a b a d,I n d i a,2 0 0 8:1 2 8-1 3 2.4L I UZ,Z HUC,Z HAOT.C h i n e s en a m e de n t i t yr e c o g-n i t i o nw i t has e q u e n c e l a b e l i n ga p p r o a c h:b a s e do nc h a r-a c t e r s,o rb a s e do nw o r d s?C/I n t e r n a t i o n a lC o n f e r-e

43、 n c e o n I n t e l l i g e n t C o m p u t i n g.B e r l i n,H e i d e l b e r g:S p r i n g e r,2 0 1 0:6 3 4-6 4 0.5黄晓辉,乔立升,余文涛,等.中文分词与命名实体识别的联合学习J.国防科技大学学报,2 0 2 1,4 3(1):8 6-9 4.6贾耀宗.面向中文文本的命名实体识别算法研究D.北京:北京工业大学,2 0 1 9.7Z HANGY,YAN GJ.C h i n e s eN E Ru s i n g l a t t i c eL S TMC/P r o c e

44、 e d i n g so ft h e5 6 t h A n n u a lM e e t i n go ft h eA s s o c i a t i o nf o rC o m p u t a t i o n a lL i n g u i s t i c s.M e l b o u r n e,A u s t r a l i a:A s s o c i a t i o nf o r C o m p u t a t i o n a lL i n g u i s t i c s,2 0 1 8:1 5 5 4-1 5 6 4.8GU IT,Z OU Y,Z HANG Q,e ta l.Al

45、e x i c o n-b a s e dg r a p hn e u r a ln e t w o r kf o rC h i n e s eN E RC/P r o c e e d-i n g so ft h e2 0 1 9C o n f e r e n c eo nE m p i r i c a lM e t h o d si nN a t u r a lL a n g u a g eP r o c e s s i n ga n dt h e9 t hI n t e r n a t i o n a lJ o i n t C o n f e r e n c e o n N a t u r

46、 a l L a n g u a g e P r o c e s s i n g(EMN L P-I J C N L P).H o n g k o n g,C h i n a,2 0 1 9:1 0 4 0-1 0 5 0.9S U ID,CHE NY,L I U K,e ta l.L e v e r a g e l e x i c a lk n o w l-e d g e f o rC h i n e s en a m e de n t i t yr e c o g n i t i o nv i ac o l l a b o r a-t i v eg r a p hn e t w o r k

47、C/P r o c e e d i n g so ft h e2 0 1 9C o n-f e r e n c eo nE m p i r i c a lM e t h o d s i nN a t u r a lL a n g u a g eP r o-c e s s i n ga n dt h e9 t hI n t e r n a t i o n a lJ o i n tC o n f e r e n c eo nN a t u r a l L a n g u a g e P r o c e s s i n g(EMN L P-I J C N L P).H o n g k o n g,C

48、 h i n a,2 0 1 9:3 8 3 0-3 8 4 0.1 0P E N G M L,MA RT,Z HANG Q,e ta l.S i m p l i f yt h eu s a g eo f l e x i c o n i nC h i n e s eN E RC/P r o c e e d i n g so ft h e5 8 t hA n n u a lM e e t i n go f t h eA s s o c i a t i o nf o rC o m-p u t a t i o n a lL i n g u i s t i c s,2 0 2 0:5 9 5 1-5

49、9 6 0.1 1L IXN,YAN H,Q I UXP,e t a l.F L A T:C h i n e s eN E Ru s i n gf l a t-l a t t i c et r a n s f o r m e rC/P r o c e e d i n g so ft h e5 8 t hA n n u a lM e e t i n go f t h eA s s o c i a t i o nf o rC o m p u t a-t i o n a lL i n g u i s t i c s,O n l i n e,2 0 2 0:6 8 3 6-6 8 4 2.1 2D O

50、N GCH,Z HAN GJ J,Z ONGCQ,e t a l.C h a r a c t e r-b a s e dL S TM-C R Fw i t hr a d i c a l-l e v e lf e a t u r e sf o rC h i-n e s en a m e de n t i t yr e c o g n i t i o nC/I n t e r n a t i o n a lC o n-f e r e n c eo nC o m p u t e rP r o c e s s i n go fO r i e n t a lL a n g u a g e sN a t

展开阅读全文