收藏 分销(赏)

基于差分融合句法特征的英语语法纠错模型.pdf

上传人:自信****多点 文档编号:2187665 上传时间:2024-05-22 格式:PDF 页数:8 大小:1.27MB
下载 相关 举报
基于差分融合句法特征的英语语法纠错模型.pdf_第1页
第1页 / 共8页
基于差分融合句法特征的英语语法纠错模型.pdf_第2页
第2页 / 共8页
基于差分融合句法特征的英语语法纠错模型.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、基于差分融合句法特征的英语语法纠错模型罗松,汪春梅,袁非牛,戴维(上海师范大学信息与机电工程学院,上海201418)通信作者:罗松,E-mail:摘要:当前的英文语法纠错模型往往忽略了有利于语法纠错的文本句法知识,从而使得英语语法纠错模型的纠错能力受到影响.针对上述问题,提出一种基于差分融合句法特征的英语语法纠错模型.首先,本文提出的句法编码器不仅可以直接从文本中无监督地生成依存关系图和成分句法树信息,而且还能将上述两种异构的句法结构进行特征融合,编码成高维的句法表征.其次,为了同时利用文本中的语义和句法信息,差分融合模块先使用差分正则化加强语义编码器捕获句法编码器未能生成的语义特征,然后采用

2、协同注意力将句法表征和语义表征进一步融合,作为 Transformer 编码端的输出特征,最终输入到解码端,从而生成语法正确的文本.在 CoNLL-2014英文纠错任务数据集上进行对比实验,结果表明,该方法的准确率和 F0.5值优于基于 Copy-AugmentedTransformer 的语法纠错模型,其 F0.5值提升了 5.2 个百分点,并且句法知识避免了标注数据过少问题,具有更优的文本纠错效果.关键词:自然语言处理;语法纠错;句法知识;协同注意力;差分融合引用格式:罗松,汪春梅,袁非牛,戴维.基于差分融合句法特征的英语语法纠错模型.计算机系统应用,2023,32(10):293300.

3、http:/www.c-s- Error Correction Model Based on Differential Fusion Syntactic FeatureLUOSong,WANGChun-Mei,YUANFei-Niu,DAIWei(SchoolofInformation,MechanicalandElectricalEngineering,ShanghaiNormalUniversity,Shanghai201418,China)Abstract:CurrentEnglishGECmethodstendtoignorethesyntacticknowledgeintexts,w

4、hichplaysanimportantroleingrammaticalerrorcorrection,andthustheerrorcorrectionabilityofEnglishGECmodelsisaffected.Toaddressthisproblem,thestudyproposesaGECmethodwhichisbasedonthedifferentialfusionsyntacticfeatures.First,theproposedsyntacticencodercangeneratedependencygraphandconstituencysyntactictre

5、einformationfromrawdatainanunsupervisedwayandconductthefeaturefusionofthesetwoheterogeneoussyntacticstructurestoencodehigh-dimensionalsyntacticrepresentation.Second,toutilizebothsemanticandsyntacticinformationinthetext,thedifferentialfusionmodulefirstusesdifferentialregularizationtoenhancethesemanti

6、cencodertocapturethesemanticfeaturesthatthesyntacticencoderfailstogenerate.ThenthesyntacticrepresentationandsemanticrepresentationarefurtherfusedbycrossattentionastheoutputfeaturesoftheTransformerencoder,whicharefinallyinputtothedecodertogenerategrammaticallycorrecttext.ThecomparisonexperimentontheC

7、oNLL-2014taskdatasetshowsthattheprecisionandF0.5valueofthismethodarebetterthanthoseoftheGECmodelbasedontheCopy-AugmentedTransformer,andtheF0.5valueofthismethodisimprovedby5.2percentagepoints.Thesyntacticknowledgeavoidstheproblemoflackinghigh-qualityannotatedtrainingcorporaandhasabetterperformanceint

8、exterrorcorrection.Key words:naturallanguageprocessing(NLP);grammaticalerrorcorrection;syntacticknowledge;crossattention;differentialfusion计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(10):293300doi:10.15888/ki.csa.009259http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基

9、金项目:国家自然科学基金(62272308)收稿时间:2023-03-24;修改时间:2023-04-28;采用时间:2023-05-06;csa 在线出版时间:2023-07-14CNKI 网络首发时间:2023-07-17ResearchandDevelopment研究开发293语法纠错(grammaticalerrorcorrection,GEC)任务旨在利用自然语言处理技术,自动识别并纠正非英语母语学习者书写的文本中所包含的动词时态、拼写、标点符号等语法错误1.如表 1 所示,第 1 行表示系统的输入,第 2 行表示系统的输出,加粗单词“about”属于句子中多余的单词.表 1语法纠错

10、系统的输入输出示例输入/输出示例输入Iappreciateallaboutthis.输出Iappreciateallthis.现阶段的 GEC 常被视为神经机器翻译任务的特例2,将标准的 encoder-decoder 机器翻译模型,运用到语法纠错任务中.除此之外,基于预训练模型的语法纠错模型也渐渐的展露其优势3.尽管上述工作均大幅度地提高了语法纠错的性能,但都只是将输入句子处理成 token 序列,都未能充分挖掘句子的语义(semantic)和句法(syntactic)信息.句法作为语法的一个分支,包含句子中单词的排列次序、短语组成等结构信息.根据句法结构的表现形式,可分为依存关系图(dep

11、endencygraph)和成分句法树(constituentsyntactictree).前者是描述词与词之间的相互依存关系,后者则是关注短语及短语之间的层次关系.多项自然语言处理的下游任务,如机器翻译4、语义角色标注5、情感分析6,表明添加句子的句法信息能够提高模型的性能.因此,在 GEC 任务中,希望模型可以更多地提取句法层面的信息,捕捉源语句与目标语句的句法差异,提高模型的纠错性能.语法纠错目前存在两个问题.首先,语法纠错任务中难以获得大量的标注数据,模型训练往往达不到很好的效果.其次,源语句与目标语句之间可能只存在一个或几个字符有所不同,导致源语句与目标句子之间的文本编辑距离很小,很

12、难定位错误的字符.但在句法结构上存在较大的差异.如图 1 所示,在例句“Iappre-ciateallthis.”中,如果输入时将冗余的“about”写入句子中,可以明显地看出错误句子(ungrammatical)的句法结构发生了很大的变化.不过,语法纠错任务下的输入句子往往存在语法错误,现有的句法解析模型解析出来的句法信息存在错误.针对以上问题,本文在 Transformer 纠错模型基础上,新增了句法编码器和差分融合两个模块.本文提出的模型可以将句法特征融入到 Transformer 纠错模型中.句法编码器不仅能够从原始句子中无监督地生成依存关系图和成分句法树信息,而且更进一步地将两者进行

13、特征融合,形成深层次的句法向量信息.差分融合模块将句法向量信息和 Transformer 捕获的语义向量信息进行差分融合,使模型可以更有效地利用句法特征信息,提高 GEC 模型的性能.实验结果表明所提模型的准确率 P(precision)、召回率 R(recall)和F0.5都有很大的提高.ROOTROOTIappreciatethisaboutUngrammaticalGrammaticalallIappreciatethisall图 1因冗余的字引发的句法结构变化实例1相关工作研究者将语法纠错任务视为机器翻译的特例7,序列到序列的网络结构常被用于语法纠错任务中.其中,Transformer

14、 语法纠错模型成为基线模型8.由于 BERT9、BART10等预训练语言模型的语言性能优异,最近被广泛应用在语法纠错模型的编码端,获取丰富的语义信息,提高了语法纠错性能.语法纠错任务目前存在的挑战依然是缺少大量的数据集.为此,多种数据增强的方法涌现出来11,一方面使用人工预设的语法错误规则对正确的句子进行噪声扰动,从而合成平行句子对;另一方面则是反向翻译的方式,自动生成平行句子对.为了缩短人造数据与标注数据的分布差异,对抗学习(adversariallearning)也常被使用到数据增强模块中12.与此同时,部分研究者将语法纠错任务看作序列到编辑(sequence-to-edit,Seq2Ed

15、it),不再直接预测正确的句子序列,而是预测句子的编辑操作,从而对输入句子的语法错误进行修改13.除此之外,结合句子间的上下文信息14、模型集成和重排序技术也能提高语法纠错模型的性能15.在语法纠错研究中,研究者们也探索了将句法信息融入到语法纠错模型.Li 等人16采用了现有的句法解析模型对输入句子进行解析,获取依存关系图和成计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第10期294研究开发ResearchandDevelopment分句法树的信息,然后通过图注意力机制将依存关系图和成分句法树的信息分别编码到语法纠错模型中.但 Li 等人只利用了单一的句法结构,既没

16、有考虑两者融合的句法结构信息,也没有考虑现有的句法解析模型处理存在语法错误的句子可能会生成错误的依存关系图或成分句法树信息的问题.早期的论文工作证明,依存关系图和成分句法树具有互补性,两者融合能提高下游任务的性能17.本文将依存关系图和成分句法树的融合成互补的依存-成分句法信息,输入到语法纠错模型中,最终生成语法正确的句子.2本文模型为了将句法知识融入语法纠错模型中,本文提出一种新颖的差分融合句法特征的英语语法纠错模型,实现英语文本的语法纠错.在 Transformer 结构外添加了句法融合器(syn-fusion)、句法编码器(syn-encoder)和差分融合模块(diff-fusion)

17、,框架如图 2 所示.其中N、N1、N2、N3分别是句法融合器卷积层的层数、句法编码器、语义编码器和解码器的个数.Embedding layerMulti-headSyn-attentionAdd&NormFeedforwardAdd&NormFeed forwardAdd&NormMasked multi-headattentionMulti-headattentionFeed ForwardLinearSoftmaxSource sentenceTarget sentenceEmbedding layerMulti-headattentionAdd&NormSem-encoderN2Dec

18、oderN3Cross attentionAdd&NormAdd&NormDifferentialregularizationSyn-encoderN1ConvolutionlayersNDistancelayerHeightlayerFusionLayerConstlayerDeplayerDiff-fusionSyn-fusionOutput图 2模型整体框架图首先输入句子经过词嵌入层(embeddinglayer),得到句子向量,作为语义编码器、句法编码器以及句法融合器的输入.其次,语义编码器将句子向量编码为高维隐含语义特征,句法编码器将句法融合器生成的依存-成分句法向量与句子向量编码为

19、高维隐含句法特征,然后通过协同注意力将语义特征和句法特征进行特征融合,最后将其输入到解码器,从而生成正确句子.特别的,在句法编码器和语义编码器之间设计了一个差分正则器(differentialregularization),用于减少句法和语义的重叠信息,鼓励语义编码器生成句法编码器未能捕捉到的语义特征.2.1 Transformer 模型Transformer 模型是一个可获取句子深层语义信息的端到端的序列生成模型,由编码器和解码器两个部分组成,即图 2 中的语义编码器(sem-encoder)和解码器(decoder).语义编码器由 N2个相同的神经模块组成,每一模块由两个子层组成,分别是多

20、头注意力层(multi-headattention)和前馈层(feedforward).其中,多头注意力层是由多个注意力层拼接组成的,每个注意力层计算采用的是放缩点乘(scaleddot-product),如式(1)和式(2)所示.Att(Q,K,V)=Softmax(QKTdk)V(1)MultiHead=Att1;Att2;Atth(2)QKV其中,、和 分别表示注意力层的查询矩阵(query)、2023年第32卷第10期http:/www.c-s-计 算 机 系 统 应 用ResearchandDevelopment研究开发295Att dkMultiHead键值矩阵(key)以及实值矩

21、阵(value),它们是由输入向量经过 3 个不同的线性层得到,用以计算输入向量的注意力.表示输入向量的特征维度大小,为多个注意力的拼接.FFN(x)前馈层()是由两个线性层串行连接而成,其计算如式(3)所示.FFN(x)=ReLU(xW1+b1)W2+b2(3)W1b1W2b2ReLU其中,、和均为可学习参数,为激活函数.解码器也是由 N3个相同的模块构成,它的功能是结合编码器生成的高维向量预测目标句子.解码器在编码器的基础上多了一个掩码多头注意力层(maskedmulti-headattention),目的是保证模型不能看到未预测词的信息.为了防止过拟合和加快模型收敛速度,语义编码器和解码

22、器的每个子层后面都有一个残差结构和归一化层(Add&Norm).实际上,纠错任务的源语句和目标语句的绝大部分单词是相同的.因此本文引入了复制机制,直接从源句子中复制正确的单词,可以很好地解决未登录词(out-of-vocabularywords)的问题.2.2 句法融合器在介绍句法融合器时,先介绍句法距离18和句法高度19的定义以及两者的联系.句法距离是用来记录将句子分割成更小成分的过程.分割点的顺序记录了句子的层次结构,通过预测句法距离序列就可以得到成分句法树.D(w1,w2,wn1)DwiiD=(1,2,n)n(1,2,n)句法高度是用来描述依存关系图中非根节点到根节点的距离.设为句子的依

23、存关系图,中的的高度为.依存关系图的句法高度可以是由任意 个实值元素 组成的序列,但要求与保持同样大小关系顺序.由于不知道单词应该是属于父节点的左边还是右边,所以无法通过句法高度重构原始的依存关系图.针对此问题,将无标签成分句法树的父节点(分割点)与最大句法高度的 token 一一对应,借助句法距离将无标签的成分句法树转换为依存关系图.句法融合模块目的是从输入的句子向量中直接生成融合的依存-成分句法信息.首先,将词嵌入层输出的句子向量输入到 N 层卷积网络中,如式(4)所示.Sl,i=tanh(conv(Sl1,iw,Sl1,i+w)(4)Sl,iliS0,iwi2w+1 tanh其中,代表第

24、 层的第 个位置输出,是单词的词向量,卷积核大小为,为激活函数.SN,iwiwi+1iiwii其次,将 N 层卷积网络的输出向量输入到距离层(distancelayer)和高度层(heightlayer)分别得到单词和第 个分割点的距离 和单词的高度,如式(5)和式(6)所示.i=ReLU(W1sN,i,sN,i+1T)W2(5)i=ReLU(W1sN,i+b1)W2+b2(6)W1W2W1W2b1b2ReLU其中,、和均为可训练参数,为激活函数.T=(1,2,n1)xjxipconsti,j(j|i)再次,将句法距离输入到成分句法层(constlayer),通过式(7)计算单词和单词 的成分

25、句法分布概率.pconsti,j(j|i)=Sigmoid(tanh(ji)+1)(7)xjxipdepi,j(j|i)然后,遵循 Shen 等人20提出的计算方法,依存关系层(deplayer)通过式(8)式(10)计算单词是单词父节点的概率.pC(l,r|i)=p(l1 i)lk i)p(ri)(8)pPr(j|l,r)=Softmax(l,r)(9)pdepi,j(j|i)=l,rpPr(j|l,r)pC(l,r|i)(10)pC(l,r|i)xil,rppPr(j|l,r)xjl,r其中,表示包含单词 最小成分跨度的概率,表示累计分布概率函数,本文使用了 Sigmoid 函数;表示单词

26、是最小成分跨度父节点的概率,对应的句法高度值最大.pdepi,j(j|i)pdepi,j(j|i)pconsti,j(j|i)g最后,与 Shen 等人20不同的是,并没有直接使用,而是新增了门控融合单元将依存关系图概率分布和成分句法树概率分布进行了特征融合,一方面可以捕获依存关系图和成分句法树两种异构的句法互补信息,另一方面可以减少语法错误对单一的句法结构影响.融合层(fusionlayer)通过一个门控参数 平衡两者的概率分布,如式(11)和式(12)所示.g=(W(g1)pconsti,j(j|i)+W(g2)pdepi,j(j|i)+b(g)(11)pfusei,j(j|i)=g pc

27、onsti,j(j|i)+(1g)pdepi,j(j|i)(12)W(g1)W(g2)b(g)其中,、和均为可训练参数,表示 Sigmoid计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第10期296研究开发ResearchandDevelopmentpfusei,j(j|i)xixj激活函数;表示 和的依存-成分句法概率分布.2.3 句法编码器句法编码器同样由 N1个相同的层组成,每一层包含两个子层,分别是多头句法注意力层(multi-headsyn-attention)和前馈层.G=(X,E)XE(xi,xj)G=(X,A)GAi,j=pfusei,j(j|i)x

28、ixjAtt如果将句子视为单词的全连接图,可以将 Transfor-mer 的多头注意力层视为完全图,其中,顶点集合 表示句子中的所有单词,边集合 是这些顶点之间的所有可能的边.句法编码器使用依存-成分句法图代替,其中表示和的依存-成分句法概率分布.这样,传统的 Transformer就可以学习到句子中的句法信息.本文的多头句法注意力计算过程如式(13)式(15)所示.pi,j=wparentpfusei,j(j|i)+wdeppfusej,i(i|j)(13)wparent+wdep=1(14)Att(Qi,Kj,Vj,pi,j)=Softmaxpi,j(QiKjT)dkVj(15)wpar

29、entwdeppi,j(j|i)xjxi其中,和均为可学习参数,表示和之间信息传播概率.pi,jqpi,j然而,语法纠错任务下的输入句子往往是存在语法错误的,句法编码器可能会产生语法错误的句法信息.因此,对进行了正则化,类似于 Dropout 方式,在训练过程中,主动舍弃部分信息.通过概率 随机地将行向量的值设为 0,断开某些节点间的依赖关系.句法编码器通过梯度下降逐渐收敛成一个合理的依存-成分句法关系图.2.4 差分融合本文使用差分正则器限制语义编码器的输出,旨在减少句法编码器和语义编码器输出的信息冗余,捕获新的语义特征.计算公式如式(16)所示.RD=1HsemHsynF(16)F其中,表

30、示 Frobenius 范数.HOut句法和语义作为句子不同视角的表征,本文没有简单地将其线性相加,而是使用协同注意力进一步特征融合,得到协同注意力的输出.协同注意力计算过程如式(17)和式(18)所示.Qc=HsemWTqKc=HsynWTkVc=HsynWTv(17)HOut=Softmax(QcKTcdk)Vc+Hsem(18)WTqWTkWTvHsemHsyn其中,、和是可学习参数,和分别是语义编码器和句法编码器的输出特征.2.5 损失函数RD在训练过程中,采用最小化交叉熵损失函数(cross-entropylossfunction)评估模型,同时引入 L2 正则化和差分正则器损失函数

31、的计算如式(19)所示:lossT=iyilog yi+1RD+22(19)1222其中,为差分正则器的系数,为 L2 正则化,为正则化参数,为模型参数.3数据集与模型参数 3.1 数据集及评价指标Lang-8 语料来自一个在线的英语学习网站 Lang-8,作为 GEC 公开语料库中最大的一组,语料嘈杂且没有明确的标注规则,侧重于动词时态错误.NUCLE 是第一个提供错误标注且免费的语料库,由专业英语教师进行错误标注,用于对 GEC 系统的训练与性能测试.其中,共有 27 种错误类型,比例最高的 5 种是搭配错误、冗余错误、限定词错误、名词单复数错误和结构性错误.FCE 语料库是剑桥学习者语料

32、库的子集,包括了7 种错误类型,9 种母语类型.本文将 GEC 任务的官方的 CoNLL-2013 数据集作为验证集,CoNLL-2014 测试集评测本文的模型.所有公开数据集的统计信息如表 2 所示.表 2实验数据集统计信息类别数据集句子对训练集Lang-81097274NUCLE57119FCE32073验证集CoNLL-2013testset1381测试集CoNLL-2014testset1312本文使用最大匹配分数(maxmatchscore,M2-score)评测模型的性能.此度量方法首先将 GEC 系统输出的纠正句子与人工标注的标准句子进行单词对齐,计算将一个句子转换成另一个句子所

33、需要的单词级别上的编辑数,以准确率 P、召回率 R和 F0.5作为模型的评价指标.2023年第32卷第10期http:/www.c-s-计 算 机 系 统 应 用ResearchandDevelopment研究开发297 3.2 模型参数设置本文的基线模型是 Copy-AugmentedTransformer1:该方法首次利用复制机制直接将输入句子中正确的字复制到输出端,可以有效地解决未登录词问题,提高模型的纠错效率.本文的模型具体参数如表 3 所示,其他参数配置与基于 Copy-AugmentedTransformer1语法纠错模型一致.表 3模型参数参数值参数值Embed_dim512卷积

34、层(N)3FF-dim4096卷积核大小9Heads8Dropout0.2Lr0.001Beamsize1210.220.0004语义编码器层数(N2)6句法编码器层数(N1)6解码器层数(N3)64实验为了证明融合句法特征的语法纠错模型可以有效地提高模型的纠错性能,进行了消融实验和对比实验.4.1 消融实验本文基于 CoNNL-2014 数据集进行 4 组实验,以验证所提各模块的有效性.实验 1:验证句法融合器卷积层层数对本文模型性能的影响,结果如图 3 所示.60.559.558.557.556.555.554.553.552.5F0.5(%)12345678句法融合器卷积层的层数图 3句

35、法融合器卷积层层数的影响从图 3 中可以看出,句法融合器卷积层数为 3 时,模型取得最高的性能.一方面是句子的句法结构信息存在较低层;另一方面,如果层数过多,模型参数会大幅度增多,模型会因梯度的消失变得不稳定.实验 2:验证添加不同句法结构对语法纠错模型的纠错性能影响.第 1 组实验仅使用了基线模型进行纠错;第 2 组实验是在基线模型的编码端添加成分句法树信息;第 3 组实验是在基线模型的编码端添加依存关系图信息;第 4 组是在基线模型的编码端添加依存-成分句法信息,即成分句法树和依存关系图的融合信息.实验结果如表 4 所示.表 4在 CoNLL-2014 测试集上不同句法结构对模型性能的影响

36、(%)模型PRF0.5基线模型165.233.254.7+成分句法树68.036.056.5+依存关系图68.236.357.5+依存-成分信息69.638.059.9从表 4 中可以看出,相较于基线模型,第 2、第3 组较第一组结果都有了明显的提升,在 F0.5指标上分别提高了 1.8%和 2.8%,验证了语法纠错模型中添加不同的句法信息均能提高语法纠错性能.由于依存关系图是在成分句法树的基础上得到的,第 3 组的实验结果相对好一些.通过对比第 24 组实验,本文提出的依存-成分信息能进一步地提高了语法纠错的性能,F0.5值提高了5.2%,表明了两者不同结构的句法融合存在互补的信息,能更好地

37、减少解析语法错误的句子所带来的错误句法信息,增强了模型的鲁棒性.RD实验 3:验证差分正则器对模型的纠错性能的影响.实验结果如表 5 所示.RD表 5在 CoNLL-2014 测试集上对模型的影响(%)模型PRF0.5RD未使用68.736.458.2RD使用69.638.059.7RD由表 5 的实验结果可以得出,可以减少句法与语义之间冗余的信息,进而提高模型的纠错性能.实验 4:验证语义和句法不同融合方式对模型性能的影响.实验结果如表 6 所示.表 6在 CoNLL-2014 测试集上语义和句法不同融合的结果比较(%)模型PRF0.5基准模型165.233.254.7+线性相加68.435

38、.857.7+协同注意力69.638.059.7计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第10期298研究开发ResearchandDevelopment由表 6 可以得出,在基线模型中直接添加句法编码器输出的句法信息,使模型提高了 3.0%,表明句法特征有利于模型的纠错性能.为了将句法编码器优势和基线模型有效地融合在一起,采用了协同注意力模块,使得 Transformer 模型可以更好地融合句法特征,在各方面性能优于直接将两者线性相加的方式,F0.5值又提升了 2.0%.4.2 对比实验为了验证本文提出模型的有效性,与 8 种目前先进的英语语法纠错模型在 Co

39、NLL-2014 测试集上的实验结果进行对比.实验统计数据如表 7 所示.表 7不同模型在 CoNLL-2014 测试集上的结果组别ModelsDatasize(M)P(%)R(%)F0.5(%)w/osyntaxCNN+EO(4ens.withLM)72.265.533.154.8NMTSMThybrid(4ens.)152.066.734.556.2Cross-sentenceGECmodel141.364.335.955.5Copy-augmentedmodel13065.233.254.7Transformer+CNN121.164.622.647.1BERT-fuseGED363.6

40、33.053.6Transformer+BIFI111064.435.655.5w/syntaxSynGEC163066.738.358.1本文的模型1.269.638.059.9本文将近几年未使用预训练模型的语法纠错模型分为两组,第 1 组是未使用句法知识的模型(w/osyntax),第 2 组是使用了句法知识的模型(w/syntax),其中“4ens.”表示 4 个模型集成的结果,“LM”表示利用了语言模型.Datasize 表示模型使用的训练集大小,1.2M 表明模型未使用额外的伪数据集.由表 7 可以看出,在没有使用伪数据集、模型集成和语言模型的情况下,除了 R 指标外,本文提出的模型

41、的 P 指标和 F0.5指标均优于其他模型,F0.5值达到了 59.9%,本文提出的深度网络模型的纠错效果总体优于其他算法.相较于使用现有的句法解析器生成句法知识的 SynGEC 模型,本文模型的 P 和 F0.5指标分别提高 2.9%、1.8%,但在 R 指标上略低于 SynGEC 模型,可能是因为该模型使用了额外 30M 伪数据集.这些实验结果验证了本文提出的方法可以帮助模型更好地提取句法与语义特征,表明了语法纠错模型中添加句法特征能够有效地提升纠错性能.5结束语本文提出一种新颖的基于差分融合句法特征的英语语法纠错模型,能很好地将句法特征融入 Transformer模型.通过句法编码器对输

42、入句子进行句法特征的提取,并对两种异构的句法结构进行融合.采用差分融合模块将句法信息融入到 Transformer 模型中,有效地减少句法和语义信息的冗余信息,捕获新的语义特征.实验结果表明,添加句法特征不仅可以有效地提高语法纠错性能,而且还能减轻语法纠错任务缺乏大量标注数据的影响.参考文献ZhaoW,WangL,ShenKW,et al.Improvinggrammaticalerrorcorrectionviapre-trainingacopy-augmentedarchitecture with unlabeled data.Proceedings of the 2019Conferen

43、ce of the North American Chapter of theAssociationforComputationalLinguistics:HumanLanguageTechnologies,Volume 1(Long and Short Papers).Minneapolis:Association for Computational Linguistics,2019.156165.1Junczys-Dowmunt M,Grundkiewicz R,Guha S,et al.Approachingneuralgrammaticalerrorcorrectionasalow-r

44、esourcemachinetranslationtask.Proceedingsofthe2018Conference of the North American Chapter of theAssociationforComputationalLinguistics:HumanLanguageTechnologies,Volume 1(Long Papers).New Orleans:AssociationforComputationalLinguistics,2018.595606.2Kaneko M,Mita M,Kiyono S,et al.Encoder-decodermodels

45、canbenefitfrompre-trainedmaskedlanguagemodelsin grammatical error correction.Proceedings of the 58thAnnual Meeting of the Association for ComputationalLinguistics.Association for Computational Linguistics,2020.42484254.3Bugliarello E,Okazaki N.Enhancing machine translationwith dependency-aware self-

46、attention.Proceedings of the58thAnnualMeetingoftheAssociationforComputationalLinguistics.Association for Computational Linguistics,2020.16181627.4HeSX,LiZC,ZhaoH.Syntax-awaremultilingualsemanticrole labeling.Proceedings of the 2019 Conference onEmpiricalMethodsinNaturalLanguageProcessingandthe9th In

47、ternational Joint Conference on Natural LanguageProcessing.Hong Kong:Association for ComputationalLinguistics,2019.53505359.5LiRF,ChenH,FengFX,et al.Dualgraphconvolutionalnetworksforaspect-basedsentimentanalysis.Proceedingsofthe59thAnnualMeetingoftheAssociationforComputational Linguistics and the 11

48、th International JointConferenceonNaturalLanguageProcessing.Associationfor62023年第32卷第10期http:/www.c-s-计 算 机 系 统 应 用ResearchandDevelopment研究开发299ComputationalLinguistics,2021.63196329.ChollampattS,NgHT.Amultilayerconvolutionalencoder-decoder neural network for grammatical error correction.Proceedings

49、 of the 32nd AAAI Conference on ArtificialIntelligence and 30th Innovative Applications of ArtificialIntelligence Conference and 8th AAAI Symposium onEducational Advances in Artificial Intelligence.NewOrleans:AAAIPress,2018.706.7RotheS,MallinsonJ,MalmiE,et al.Asimplerecipeformultilingualgrammaticale

50、rrorcorrection.Proceedingsofthe59thAnnualMeetingoftheAssociationforComputationalLinguistics and the 11th International Joint Conference onNaturalLanguageProcessing.AssociationforComputationalLinguistics,2021.702707.8DevlinJ,ChangMW,LeeK,et al.BERT:Pre-trainingofdeepbidirectionaltransformersforlangua

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服