收藏 分销(赏)

基于BERT特征融合与膨胀卷积的汉语副词框架语义角色标注.pdf

上传人:自信****多点 文档编号:2390631 上传时间:2024-05-29 格式:PDF 页数:11 大小:3.19MB
下载 相关 举报
基于BERT特征融合与膨胀卷积的汉语副词框架语义角色标注.pdf_第1页
第1页 / 共11页
基于BERT特征融合与膨胀卷积的汉语副词框架语义角色标注.pdf_第2页
第2页 / 共11页
基于BERT特征融合与膨胀卷积的汉语副词框架语义角色标注.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第3 8卷 第2期2 0 2 4年2月中文信息学报J OUR NA LO FCH I N E S EI N F O RMAT I ONP R O C E S S I NGV o l.3 8,N o.2F e b.,2 0 2 4文章编号:1 0 0 3-0 0 7 7(2 0 2 4)0 2-0 0 2 5-1 1基于B E R T特征融合与膨胀卷积的汉语副词框架语义角色标注王 超1,吕国英1,李 茹1,2,柴清华3,李晋荣1(1.山西大学 计算机与信息技术学院,山西 太原0 3 0 0 0 6;2.山西大学 计算智能与中文信息处理教育部重点实验室,山西 太原0 3 0 0 0 6;3.山西大

2、学 外国语学院,山西 太原0 3 0 0 0 6)摘 要:汉语框架语义角色标注对汉语框架语义分析具有重要作用。目前汉语框架语义角色标注任务主要针对动词框架,但是汉语没有丰富的形态变化,很多语法意义都是通过虚词来表现的,其中副词研究是现代汉语虚词研究的重要部分,因此该文从副词角度出发构建了汉语副词框架及数据集,且对框架下的词元按照语义强弱进行了等级划分。目前的语义角色标注模型大多基于B i L S TM网络模型,该模型虽然可以很好地获取全局信息,但容易忽略句子局部特征,且无法并行训练。针对上述问题,该文提出了基于B E R T特征融合与膨胀卷积的语义角色标注模型,该模型包括四层:B E R T层

3、用于表达句子的丰富语义信息,A t t e n t i o n层对B E R T获取的每一层信息进行动态权重融合,膨胀卷积(I D C NN)层进行特征提取,C R F层修正预测标签。该模型在三个副词框架数据集上表现良好,F1值均达到了8 2%以上。此外,将该模型应用于C F N数据集上,F1值达到8 8.2 9%,较基线模型提升了4%以上。关键词:汉语框架语义角色标注;副词;B E R T;膨胀卷积;C R F中图分类号:T P 3 9 1 文献标识码:AS e m a n t i cR o l eL a b e l i n go fC h i n e s eA d v e r bF r a

4、 m e sB a s e do nB E R TF e a t u r eF u s i o na n dD i l a t e dC o n v o l u t i o nWAN GC h a o1,L YUG u o y i n g1,L IR u1,2,CHA IQ i n g h u a3,L I J i n r o n g1(1.S c h o o l o fC o m p u t e rS c i e n c ea n dT e c h n o l o g y,S h a n x iU n i v e r s i t y,T a i y u a n,S h a n x i 0 3

5、 0 0 0 6,C h i n a;2.K e yL a b o r a t o r yo fC o m p u t a t i o nI n t e l l i g e n c ea n dC h i n e s e I n f o r m a t i o nP r o c e s s i n go fM i n i s t r yo fE d u c a t i o n,S h a n x iU n i v e r s i t y,T a i y u a n,S h a n x i 0 3 0 0 0 6,C h i n a;3.S c h o o l o fF o r e i g nL

6、 a n g u a g e,S h a n x iU n i v e r s i t y,T a i y u a n,S h a n x i 0 3 0 0 0 6,C h i n a)A b s t r a c t:C h i n e s e f r a m es e m a n t i cr o l e l a b e l i n gp l a y sa n i m p o r t a n t r o l e i nC h i n e s e f r a m es e m a n t i ca n a l y s i s.A tp r e s-e n t,t h e t a s ko f

7、 s e m a n t i c r o l e l a b e l i n g i nC h i n e s e f r a m e i sm a i n l ya i m e da t v e r bf r a m e.T h i sp a p e r c o n s t r u c t saC h i-n e s ea d v e r bf r a m e w o r ka n dd a t a s e t,a n dc l a s s i f i e st h ew o r di nt h ef r a m e w o r ka c c o r d i n gt oi t ss e m

8、 a n t i cs t r e n g t h.T h e n,t h i sp a p e rp r o p o s e sas e m a n t i cr o l el a b e l i n gm o d e lb a s e do nB e r t f e a t u r ef u s i o na n de x p a n s i o nc o n v o l u t i o n.T h em o d e l i n c l u d e s f o u r l a y e r s,w i t ht h eb e r t l a y e r t or e p e r e s e

9、n t t h e r i c hs e m a n t i c i n f o r m a t i o no f s e n t e n c e s,t h e a t-t e n t i o nl a y e r t od y n a m i c a lw e i g h s t h e i n f o r m a t i o n f r o me a c hB E R Tl a y e r,t h e e x p a n s i o nc o n v o l u t i o n(I D C NN)l a y e rt oe x t r a c t f e a t u r e s,a n

10、dt h eC R Fl a y e r t op r e d i c t t a g s.T h em o d e lp e r f o r m sw e l l i nt h r e ea d v e r bf r a m ed a t a s e t s,a-c h i e v e i n g8 2%o rm o r eF1v a l u e.I na d d i t i o n,t h em o d e l a c h i e v e s8 8.2 9%F1v a l u e i nC F Nd a t a s e t,w h i c h i s4%a-b o v e t h eb a

11、 s e l i n em o d e l.K e y w o r d s:C h i n e s e f r a m es e m a n t i cr o l e l a b e l i n g;a d v e r b;B E R T;I D C NN;C R F收稿日期:2 0 2 1-0 6-1 6 定稿日期:2 0 2 1-0 8-1 7基金项目:国家社会科学基金(1 8 B Y Y 0 0 9);山西省“四个一批”科技兴医创新计划项目(2 0 2 2 XM 0 1)中 文 信 息 学 报2 0 2 4年0 引言语义分析是自然语言处理领域句子层面的关键性研究,但是由于当前技术手段难以

12、实现深层次语义理解,因此关于语义分析的研究绝大多数都聚焦在浅层语义分析上。语义角色标注是实现浅层语义理解的重要方式,它能够简单且有效地描述一个事件的完整信息,包括参与者、时间、地点、方式和方法等。语义角色标注技术已成功应用在机 器 翻 译1、信 息 抽 取2、问 答 系 统3等 领域,其深入研究对自然语言处理的整体发展都有着十分重要的意义。汉语框架语义角色标注以语言学者F i l l m o r e提出的框架语义学4为基础,是在给定一个句子的目标词及其所属的框架下,识别出句子中目标词所支配的框架元素(语义角色)并标注其类型。目前无论是汉语框架的构建还是汉语框架语义角色标注的研究,都主要针对汉语

13、动词,并没有以汉语副词为核心目标词进行研究,而副词一直是语言学界的一个难点和热点。吕叔湘在 汉语语法分析问题5上曾表示:“副词本来就是一个大杂烩”。根据郭锐62 0 0 2年 的 统 计,副 词 总 数(9 9 9)比 形 容 词 总 数(23 5 5)少一半有余,但出现次数却比形容词多,副词的平均出现频率仅次于动词和名词,说明了副词使用的高频率和高活动能力。因此本文从副词出发,构建了程度、频率和范围副词框架,并将框架下的词元作为句中目标词进行深入研究。在语言学中,副词的语用作用为修饰动词或形容词,但是在实际汉语语言环境中,副词位置灵活多变,不仅仅出现在被修饰词前,并且修饰的主体也不仅仅是单个

14、词语,有时候甚至是修饰整个事件。在创建副词框架的过程中,针对不同类别副词的特征,如何定义和描述框架元素,以及机器如何准确识别这些框架元素,同样也是研究的难点。除此之外,不同强弱的语义信息往往会使命题的真值、观点的立场、情感和态度的极性发生不同程度的削弱或增强,甚至反转,如表1所示。因此,本文还结合众多汉语学家(以张谊生 现代汉语副词研究7为主,结合李晓琪 现代汉语虚词讲义8、王力 中国现代语法9等)的研究成果,将程度、频率和范围副词框架下的词元根据语义强弱进行等级划分。图1为汉语副词框架语义角色标注示例,“总是”为例句中核心目标词,其标签“t g t-f r e q u e n c y-t o

15、 p”中“t g t”表示该词为目标词,“f r e q u e n c y”表示“总是”激起了副词框架“频率”,“t o p”表示“总是”在“频率”框架下的等级,框架下的“时间”“凸显实体”“事件”分别对应了例句中的“5 0年来”“两岸同胞”“怀着向往国家统一、民族团圆的心愿”。表1 不同语义强弱对高考阅读理解答题的影响来源2 0 1 3年北京高考语文卷问题和选项1 5.下列对文章内容理解和分析不恰当的两项是(4分)(以选项D为例)A.昆虫最初驾驭“风帆”在水面上滑行。后来逐步从滑行演变到在空中飞行。B.蜉蝣有翅后即升空飞行。虽然飞行时间不长,但由此实现了生命的延续。C.昆虫的剖面,上端弯曲

16、,下端平直,这可以使空气滤过翼面时产生升力D.昆虫利用碳水化合物和脂肪作为“燃料”,从而大大提高了飞行的“经济性”E.昆虫是地球上规模最为庞大的飞行家族,很多昆虫都具有长途迁徙的能力【参考答案】B D相关原文果蝇使用碳水化合物作为动力来源,这有点不太划算,其他很多昆虫直接利用脂肪作为“燃料”,便让飞行的“经济性”大为改观。分析选项D对应原文为果蝇使用碳水化合物作为动力来源“不太”划算,而选项D中说昆虫利用碳水化合物作为燃料,“大大”提高了飞行的经济性,虽然“不太”和“大大”都表示程度,但两者语义强弱的等级相悖,从而可以判断D为不恰当的一项。图1 副词框架语义角色标注示例 传统的基于特征的统计机

17、器学习方法,存在模型复杂、容易过拟合等问题1 0,而深度学习由于可以自动学习特征,能有效地减少特征工程工作,近年来被广泛应用到自然语言处理领域中。随着预训练语言模型的不断出现,尤其是B E R T语言模型的问世,大大提高了解决自然语言处理问题的能力。因此,本文采用基于B E R T特征融合的方法对汉语副词框架语义角色标注进行研究。本文的贡献之处:创新性地从副词角度出发,进行汉语框架语义角色标注研究,并对词元按照语义强度进行等级划分;提出了一个副词框架语义角色标注数据集;首次将B E R T模型应用于汉语框架语义角色标注任务,且提出了一个新的模型,基于B E R T特征融合与膨胀卷积模型来进行汉

18、语622期王超等:基于B E R T特征融合与膨胀卷积的汉语副词框架语义角色标注框架语义角色标注,有效地提高了框架语义角色标注的准确率。1 相关工作语义角色标注的研究最早是由G i l d e a等1 1开始的,他们利用句法树的特征来识别F r a m e N e t语料中谓词和论元之间的关系。之后的语义角色标注,根据研究方法的不同,可以分为传统机器学习方法和基于神经网络的深度学习方法。早期的一些语义角色标注模型,主要采用传统机器学习算法。C h e n等1 2使用决策树算法进行语义角色标注的实验,但是此算法在处理高维数据上的效果十分有限。P r a d h a n等1 3虽然采用支持向量机取

19、得了不错的效果,但是效率却十分低下。此外,基于传统机器学习的语义角色标注模型大都依赖于句法分析和特征提取。刘挺等1 4通过句法树提取出谓词和词性等特征并将其进行组合,然后使用最 大 熵 分 类 器 进 行 语 义 角 色 标 注,该 方 法 在C o N L L2 0 0 5S h a r e dT a s k测试集上的F1值达到了7 5.6 0%。B o x w e l等1 5将组合范畴、短语结构和依存句法分析三种特征融合,这种方法虽然获取了丰富的信息,但是却带来了很大的噪声。李济洪等1 6选用1 2个词层面特征以及1 5个块层面特征共同组成候选特征集,最后在C F N数据集取得了6 3.6

20、 5%F1值。王智强等1 7利用树条件随机场模型,融合不同类型的依存特征,使得F1值提升了3%。杨凤玲等1 8通过引入短语结构句法,使得语义角色的识别效果有了进一步的提升。随着深度神经网络的快速发展,目前已经有许多研究采用神经网络模型来进行语义角色标注。C o l l o b e r t等1 9首次使用卷积神经网络在语义角色标注任务上进行探索,将语义角色标注任务转化为序列标注任务,在很大程度上解决了特征矩阵维度较高的问题,但是训练过程过于依赖语料,当数据集规模过小时,容易造成过拟合。王臻等2 0提出了基于分层输出的神经网络框架,通过构造角色识别和角色分类两个层次对语义角色标注问题加以描述,集中

21、改进了神经网络输出层。K s h i r s a g a r等2 1对F r a m e N e t现有模型S EMA F O R进行改进,加入部分注释且提高数据质量,最终F1值提高了4%。Z h o u等2 2采用L S TM模型对句子中当前词的上下文建模,然后将特征向量表示拼接起来,最后采用C R F预测标记类别。王瑞波等2 3采用一种多特征融合的神经网络结构并引入D r o p o u t正则化来构建语义角色标注模型,最终在C F N数据集上F1值达到了7 0.5 4%。Y a n g等2 4利用B i L S TM网络和关系网络的优势联合训练框架消歧任务和语义角色标注任务,该模型在F

22、r a m e N e t数据集F1有不错的表现,F1值提升了5.7%。高李政等2 5在B E R T模型的基础上增加了B i L S TM网络,融合B E R T编码、T o k e n类型编码、框架类型编码,进一步提升了在英文数 据 集F r a m e N e t的 标 注 性 能。M a r c h e g g i a n i等2 6利用图卷积网络对句子结构和句法等进行编码并传递到S R L分类器中,在标准英语S R L基准C o N L L-2 0 0 5、C o N L L-2 0 1 2和F r a m e N e t上显示了其有效性。近些年来,注意力机制已经成为深度学习的一个重

23、要概念,它使得神经网络模型的性能得到有效提升,因此许多学者将注意力机制应用在语义角色标注任务中。T a n等2 7利用自注意力机制直接捕捉两个标记之间的关系并提取出文本的长依赖信息,有效地提升了计算效率。S t r u b e l l等2 8将多头自注意 力 与 多 任 务 学 习 相 结 合,在C o n L L-2 0 1 2E n g l i s hS R L上,F1值较之前最优水平提升了2.5%。H e等2 9提出了一种语法增强的自我注意模型,在C o N L L-2 0 0 9数据集上的C h i n e s eS R L任务中实现了最新性能。王晓辉等3 0将自注意力机制加入到词向

24、量 表 示 和B i L S TM编 码 器 之 间,将C h i n e s eF r a m e N e t数据集的F1值提升了1 0%以上。受上述工作启发,该文提出了基于B E R T特征融合与膨胀卷积的语义角色标注模型。实验结果表明,模型在汉语副词框架数据集和C F N数据集上均取得了较好的效果,并且膨胀卷积较传统的序 列 标 注 模 型B i L S TM效 率 也 得 到 了 有 效提高。2 基于B E R T特征融合和膨胀卷积的副词框架语义角色标注模型 本文的整体模型分为B E R T层、AT T E NT I ON层、I D C NN层 和C R F层 四 个 模 块,如 图2

25、所 示。其中B E R T的1 2层分别获取上下文相关的字向量表示,A T T E N T I ON层 对1 2层 字 向 量 进 行 加权,I D C NN层完成特征提取,C R F层得到预测标签序列。72中 文 信 息 学 报2 0 2 4年图2 基于B E R T特征融合和膨胀卷积的副词框架语义角色标注模型 为了提高模型的训练效率,基于B E R T特征融合和膨胀卷积的语义角色模型在训练过程中先冻结B E R T层前1 0次训练,之后解冻参与微调。与其他模型相比,B E R T-AT T E NT I ON-I D C NN-C R F模型在利用B E R T预训练语言模型得到丰富语义的

26、同时,采用自注意力机制对B E R T多层表示进行动态权重融合,然后用I D C NN加强对局部特征的抽取。图3 B E R T模型结构图2.1 B E R TB E R T模型以无监督的方式利用大规模无标注的语料进行训练,以获得丰富的文本语义表示;然后将文本的语义表示放在特定自然语言处理任务中做微调,最终应用于下游任务。B E R T的具体结构如图3所示。B E R T是由多层T r a n s f o r m e rE n c o d e r堆叠而成,与传统的T r a n s f o r m e r模型相比,B E R T使用双向的T r a n s f o r m e r网络并且舍弃了

27、T r a n s-f o r m e r的D e c o d e r模块,这种设计能够使B E R T拥有双向编码能力和强大的特征提取能力。注意力机制是T r a n s f o r m e r中最关键的部分。深度学习中的注意力机制借鉴于人类的注意力机制,根据信息的重要程度给予不同的权重,从众多信息中选择出对当前任务目标更关键的信息。注意力机制结构如图4所示,将目标字作为Q u e r y,将其上下文的各个字作为K e y,并将Q u e r y与各个K e y的相似性作为权重,最后将上下文各个字的V a l u e融入目标字的原始V a l u e中。T r a n s f o r m e

28、 r采取的是自注意力机制,它是注意力机制的变体,如式(1)所示。可以看出,其主要是通过计算单 词间的相互 影响来解决 长距 离依赖问题,其中,Q、K、V为向量矩阵,dk为向量维度。自注意力机制减少了对外部信息的依赖,且更擅长捕捉数据或特征的内部相关性。A t t e n t i o n(Q,K,V)=S o f t m a xQ KTdkV(1)除此之外,T r a n s f o r m e r还引入了多头注意力的概念,如图5所示。多注意力是通过h个不同线性变换,并行应用自注意力机制,捕获不同子空间语义信息,提高向量的表征能力,具体方法如式(2)、式(3)所示。Mu l t i H e a

29、d(Q,K,V)=C o n c a t(h e a d1,h e a dk)W0(2)Wh e r eh e a di=A t t e n t i o n(Q WQi,KWKi,V WVi)(3)T r a n s f o r m e r在多头注意力之上,又进行了残差连接和层归一化处理。残差连接解决梯度消失和权重矩阵退化的问题,层归一化起到加快训练速度、加速收敛的作用,具体如式(4)、式(5)所示。822期王超等:基于B E R T特征融合与膨胀卷积的汉语副词框架语义角色标注图4 注意力机制模型图图5 多头注意力机制模型图92中 文 信 息 学 报2 0 2 4年F F N=m a x(0,

30、x W1+b1)W2+b2(4)L a y e r N o r m(xi)=xi-i2L+(5)其中,b为偏置向量,和为可训练的参数,和为均值和方差。2.2 B E R T多层表示的动态权重融合G a n e s h等3 1证明了B E R T的不同网络层可以学习到文本的不同信息特征,底层网络层更容易学习到文本的表层信息特征,中间层网络层更容易捕获到文本的句法信息特征,高层网络层更容易提取到文本的语义信息特征。因此,本文将不同层的T r a n s f o r m e rD e c o d e r模块生成的表示赋予不同的权重,权重的初始化如式(6)所示,之后权重值通过训练来确定,式(7)将ai

31、映射到0,1 之间,最后将每一层生成的表示加权平均得到最终表示r如式(8)所示。其中,ai为权重B E R T每一层表示的权重值,ri为B E R T每一层输出的表示,as为权重值的和。B E R T多层表示的动态权重融合结构如图6所示。ai=D e n s eu n i t=1(ri)(6)ai:=e x p(ai)e x p(as)(7)r=D e n s eu n i t=7 6 8airi()(8)图6 B E R T多层表示的动态权重融合结构图2.3 I D C N N传统的C NN有明显的计算优势,但是在经过卷积之后,末梢神经元只是得到了原始输入数据中的一小块信息。因此为了覆盖更多

32、信息,就需要不断加入更多的卷积层,导致网络的层数和参数随之不断增加,使得整个模型变得庞大且难以训练。因此,目前在序列标注任务中,B i L S TM被更多地广泛应用,并且也取得了较好的效果,但是循环神经网络有不能充分利用G P U并行性的缺陷,导致该模型的效能较差。基于上述问题,F i s h e r等3 2提出了膨胀卷积(D i l a t e dC o n v o l u t i o n s,I D C NN),它原本是针对图像语义分割问题中下采样会降低图像分辨率、丢失信息而提出的一种卷积思路。相比传统卷积,膨胀卷积多了一个超参数d i l a t i o nr a t e(膨胀步长),该

33、参数定义了卷积核处理数据时各值的间距,即卷积核的间隔数量,正常卷积的膨胀步长为1。膨胀卷积不是作用在输入矩阵连续的位置上,而是跳过膨胀步长中间的输入数据,这样在卷积核大小不变且不引入额外参数的情况下,扩大了感受野,感受野为卷积神经网络的每一层输出的特征图上的像素点在原图像上映射的区域大小。当设置不同膨胀步长时,感受野就会不一样,即获取了多尺度信息。膨胀卷积示意图如图7所示。图7(a)为1-d i-l a t e dc o n v,感 受 野 为33;图7(b)为2-d i l a t e dc o n v,感受野扩大为77;图7(c)为4-d i l a t e dc o n v,感受野扩大为

34、1 51 5。对应在序列标注任务中,输入的是一个一维向量,如图8所示。图中最大膨胀步长为4,卷积核宽度为3。随着层数的增加,参数数量呈线性增加,但感受野却呈指数增加,因此膨胀卷积可以同时兼顾局部特征和长序列特征。图7 膨胀卷积示意图图8 膨胀卷积在序列标注任务中的应用2.4 C R F层I D C N N虽然可以捕获更长的上下文信息,但是032期王超等:基于B E R T特征融合与膨胀卷积的汉语副词框架语义角色标注在标签预测时只考虑字词自身的特征而容易忽略标签与标签之间的约束条件,而条件随机场(C o n d i t i o n a lR a n d o mF i e l d s,C R F)

35、可以很好地学习到标签之间的依赖关系,得到最优的标签序列。其算法为:x=(x1,x2,xn)表示要被标注的观察序列,y=(y1,y2,yn)是与之对应的标签序列,其序列标签的得分函数如式(9)所示。s(x,y)=ni=0Syi,yi+1+ni=1Ii,yi(9)其中,S为标签的转移得分矩阵,n为序列长度,k为标签个数。Si j表示由标签i转移到标签j的转移得分,y0表示句中起始标签,yn+1表示句中终止标签;矩阵I为I D C NN层的输出,Ii j表示第i个词在第j个标签下的输出得分。利用S o f t m a x函数,算出正确的t a g序列概率值,如式(1 0)所示。P(y|x)=es(x

36、,y)yYxes(x,y)(1 0)其中,Yx代表所有的t a g序列,包括可能出现的和不可能出现的,y表示真实的标签序列。之后训练中,利用对数似然最大化正确标签序列的似然概率,如式(1 1)所示。l n(P(x,y)=s(x,y)-l nyYxs(x,y)()(1 1)在解码时,利用维特比算法预测出标签序列,如式(1 2)所示。y*=a r g m a xyYxS(x,y)(1 2)3 实验设计与分析3.1 实验数据 本文使用的副词框架数据集的语料主要来源于高考语文阅读理解语料和 人民日报 语料,结合语料库在线和B B C语料库等语料库工具,经与框架语义学学者讨论与检验后构建了包括s c o

37、 p e、f r e q u e n c y、d e g r e e三个 副 词 框 架 及 对 应 框 架 下 的 数 据 集 共43 1 2条。训练集和测试集中每个框架元素个数如表2表4所示,其中“其他”为在数据集中出现次数小于1 0 0的框架元素之和,如原因、地点等框架元素,副词等级划分如表5所示。表2 s c o p e数据集框架元素个数统计训练集测试集t g t-s c o p e-f u l l4 5 92 0 6t g t-s c o p e-p a r t2 4 11 3 1s b j6 1 32 6 2e v e n t4 4 02 0 4其他1 6 34 8共计19 1 6

38、8 5 1表3 f r e q u e n c y数据集框架元素个数统计训练集测试集t g t-f r e q u e n c y-t o p4 5 82 0 5t g t-f r e q u e n c y-h i g h4 4 11 8 8t g t-f r e q u e n c y-m i d1 0 33 8t g t-f r e q u e n c y-l o w1 0 74 2t g t-f r e q u e n c y-n i l1 8 47 5s a l11 2 34 7 8e v e n t12 5 45 3 7t i m e1 2 45 8其他1 8 26 6共计39 7

39、 616 8 7表4 d e g r e e数据集框架元素个数统计训练集测试集t g t-d e g r e e-t o p6 21 2t g t-d e g r e e-h i g h6 8 82 1 3t g t-d e g r e e-m i d7 82 2t g t-d e g r e e-l o w2 7 48 5m o d8 4 72 5 1g r a10 9 33 2 8其他7 21 9共计30 9 69 3 0表5 副词等级划分框架分类词元标签范围(S c o p e)全量级都、总、全、皆、一 概、一 律、一并、一 齐、一 起、一 同、统统、通通、凡是f u l l偏量级只、单

40、、仅、单单、仅仅p a r t13中 文 信 息 学 报2 0 2 4年续表框架分类词元标签频率(F r e q u e n c y)极量级一直、始 终、一 向、一 连、接 连、连连、连着、总、总是、老是、老、时 刻、从、从 来、素 来、历 来、向来t o p高量级常、常 常、经 常、时 常、每每、时时、往往、一再、再三、屡、屡次、屡屡、频、频频h i g h中量级不时、有时、时而、时m i d低量级间或、偶、偶或、偶而l o w极低量级 从未、未曾、从不、不曾、未尝n i l程度(D e g r e e)极量级最、最为、极、极其、极为、至极、之极、完全、全然t o p高量级过、过于、更、更加

41、、更为、越发、越加、愈发、愈加、格外、很、深、深为、十 分、非 常、特 别、相 当、异常、挺、够、怪、好、颇、颇 为、多么、太、万 分、万 般、太过、太过于、远远、老、尤其h i g h中量级比较、较、较为m i d低量级有点(儿)、有 些、稍、稍 稍、稍许、略、略略、略微、略为、不大、不太l o w3.2 标注策略与评价指标本实验使用B I O标注模式。评价指标有精确率P、召回率R和F1值。具体定义如式(1 3)(1 5)所示,其中,T P为模型识别正确的框架元素个数,F P为模型识别到的不正确框架元素个数,F N为模型没有检测到的框架元素个数。P=T PT P+F P1 0 0%(1 3)

42、R=T PT P+F N1 0 0%(1 4)F1=2PRP+R1 0 0%(1 5)3.3 实验环境本文实验采用的环境如表6所示。表6 实验环境操作系统u b u n t uC P UI n t e l(R)X e o n(R)C P U E 5-2 6 2 0 v 4 2.1 0 GH zG P UT e s l aP 1 0 0-P C I E-1 6 G BP y t h o n3.7.6P y t o r c h1.8.0+c u 1 1 1内存3 2 G B3.4 参数设置本文使 用 的 预 训 练 语 言 模 型 为h f l/c h i n e s e-b e r t-ww,该

43、模型共1 2层,隐层7 6 8维,采用1 2头模式,最大序列长度采用1 2 8,t r a i n_b a t c h_s i z e为1 6,l e a r n i n g_r a t e为1 e-5,d r o u p_o u t_r a t e为0.5,B e r t动态权重融合输入维度是7 6 8维,融合层数是1 2,I D C N N中采用的卷积核为3 3,膨胀步长为1,1,2。3.5 实验结果及分析为了验证本文模型的有效性,本文设置了如下序列标注基线模型进行对比:B i L S TM_C R F模型,I D C NN_C R F模型,B E R T_C R F模型,B E R T_

44、B i L S TM_C R F模 型,B E R T_I D C NN_C R F模型。实验结果如表7所示。表7 在不同数据集上的对比S c o p e数据集F r e q u e n c y数据集D e g r e e数据集M o d e l sP/%R/%F1/%T i m e s/(s/e p o c h)P/%R/%F1/%T i m e s/(s/e p o c h)P/%R/%F1/%T i m e s/(s/e p o c h)C NN_C R F4 1.3 0 4 6.8 0 4 3.2 61 15 4.0 4 5 8.3 9 5 6.1 32 35 2.6 6 5 4.9

45、6 5 3.7 91 6B i L S TM_C R F6 0.4 2 5 5.1 8 5 7.6 81 76 2.4 3 6 2.4 4 6 2.4 32 55 6.1 7 5 6.0 8 5 6.1 22 5I D C NN_C R F4 7.6 9 5 0.3 9 4 9.0 01 25 4.0 3 6 3.6 2 5 8.4 32 35 5.0 4 5 9.1 7 5 7.0 31 9B E R T_C R F6 7.8 9 7 7.0 9 7 2.2 02 67 1.4 2 8 3.4 0 7 6.9 54 87 1.9 7 8 3.2 2 7 7.1 83 2B E R T_B i

46、 L S TM_C R F7 4.1 1 8 0.7 1 7 7.2 73 87 5.8 8 8 3.2 9 7 9.4 15 38 1.4 7 8 2.0 6 8 1.7 63 8B E R T_I D C NN_C R F7 6.4 3 7 8.0 0 7 7.2 13 07 4.3 6 8 2.2 3 7 8.0 94 47 5.5 0 8 3.2 8 7 9.1 93 5B E R T_A T T E N T I ON_I D C NN_C R F8 2.8 8 8 2.1 0 8 2.4 93 38 4.0 0 8 6.2 2 8 5.0 94 68 5.4 7 8 2.7 9 8

47、4.1 03 5232期王超等:基于B E R T特征融合与膨胀卷积的汉语副词框架语义角色标注 实验结果显示,I D C NN_C R F在三个副词框架数据集中的F1值均高于C NN_C R F,且最多提高了5%以上,说明I D C NN相对于普通的C NN更能够有效地提取特征,且训练时间相差无几。B i L S TM_C R F在三个副词框架数据集中平均F1值高于I D-C NN_C R F,说明B i L S TM相对于I D C NN来说更能把握全局信息,但由于B i L S TM无法利用G P U的并行性,所以利用B i L S TM进行特征提取的时间明显多于I D C NN。在使用B

48、 E R T预训练之后,训练时间虽然 有了大幅的 增加,但B E R T_C R F与C NN_C R F、B i L S TM_C R F、I D C NN_C R F相比F1值也有了相当明显的提升,证明了B E R T具有很强的语义信息表达能力。此外,B E R T_I D C NN_C R F在三个副词框架数据集中的平均F1值与B E R T_B i L S TM_C R F相比差别很小,说明B E R T预训练模型很好地弥补了I D C NN抽取全局特征的缺陷,且B E R T_I D C NN_C R F在时间效率上更占优势。在对B E R T的1 2层输出做了特征融合之后,各项指标

49、不仅有了显著提升,并且训练时间与B E R T_B i L S TM_C R F相比也有了缩短。因此综合模型的准确性和高效性,本文提出的B E R T_A T T E N T I O N_I D C N N_C R F表现最好。为了 探 讨 不 同 参 数 对 结 果 的 影 响,本 文 以s c o p e框架数据集为例,探索了不同膨胀卷积层数的影响(图9)、不同卷积核大小的影响(图1 0)、不同d i l a t i o nr a t e的影响(图1 1)。图9 不同膨胀卷积层数的影响一个I D C NN层的构造都由三个33的卷积层堆叠而成,膨胀步长分别为1,1,2。1-l a y e r

50、表示有一个这样的I D C NN层。依据图9可知,针对本文提出的数据集,I D C NN堆叠层数越多,F1值越低,与F i s h e r等3 2文中的实验结论相反。原因可能图1 0 不同卷积核大小的影响图1 1 不同膨胀步长的影响在于膨胀卷积的设计更多的是为了获取长距离或大范围信息,而本文的数据集句子长度可能没有足够长,因此,随着堆叠层数的增加,使得膨胀卷积在进行特征提取的时候获取的远距离信息存在相关性不强的问题。当卷积核大小为33或55时,随着迭代轮数的增加,F1值增加的幅度大体一致,而当卷积核大小为77时,F1值在2 0轮以后明显低于卷积核大小为33或55的时候。原因可能是在于过大的卷积

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服