收藏 分销(赏)

基于语法知识增强的中文语法纠错.pdf

上传人:自信****多点 文档编号:2327318 上传时间:2024-05-28 格式:PDF 页数:8 大小:1.59MB
下载 相关 举报
基于语法知识增强的中文语法纠错.pdf_第1页
第1页 / 共8页
基于语法知识增强的中文语法纠错.pdf_第2页
第2页 / 共8页
基于语法知识增强的中文语法纠错.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 49卷 第 11期2023年 11月Computer Engineering 计算机工程基于语法知识增强的中文语法纠错邓倩,陈曙,叶俊民(华中师范大学 计算机学院,武汉 430079)摘要:语法纠错旨在判断自然语言文本中是否包含语法错误并对句子进行纠正。随着预训练语言模型的迅速发展,基于预训练语言模型的方法被广泛应用于中文语法纠错(CGEC)领域,然而现有的预训练语言模型缺乏语法纠错领域的特定语法知识,导致语法纠错效果不佳。针对该问题,提出一种基于语法知识图谱预训练模型的 CGEC模型。首先进行结构化知识编码,将语法知识图谱中的结构化知识映射到词语实体嵌入中,然后通过特定的预训练掩码策略联

2、合学习上下文和词语之间的语法知识以预测字符和词语,最后通过设置检错网络和纠错网络对预训练模型进行微调,以完成 CGEC 任务。通过上述过程充分提取语法知识,以帮助模型更好地捕捉句子中词语之间的语法关系。在 NLPCC 2018测试数据集上的实验结果表明,语法知识增强的方法使得模型的 F0.5值提升 4.83个百分点,所提模型的 F0.5值相比 NLPCC 2018共享任务中排名第一的模型高 8.85个百分点,验证了基于语法知识图谱的预训练模型在 CGEC任务中的有效性。关键词:语法纠错;预训练语言模型;异构知识编码;知识图谱;深度学习开放科学(资源服务)标志码(OSID):中文引用格式:邓倩,

3、陈曙,叶俊民.基于语法知识增强的中文语法纠错 J.计算机工程,2023,49(11):77-84.英文引用格式:DENG Q,CHEN S,YE J M.Chinese grammatical error correction based on grammatical knowledge enhancement J.Computer Engineering,2023,49(11):77-84.Chinese Grammatical Error Correction Based on Grammatical Knowledge EnhancementDENG Qian,CHEN Shu,YE J

4、unmin(School of Computer Science,Central China Normal University,Wuhan 430079,China)【Abstract】The aim of grammatical error correction is to judge whether natural language texts contain grammatical errors,to correct them.In recent years,with the rapid development of pre-trained language models,method

5、s based on such models have been widely used in the field of Chinese Grammatical Error Correction(CGEC).However,the existing pre-trained language models lack specific grammatical knowledge in the grammatical error correction field,resulting in poor grammar correction effect.To solve this problem,thi

6、s paper proposes a CGEC model based on a pre-training model with grammatical knowledge graph.First,the model uses structured knowledge encoding to map the structured knowledge into word entity embedding.Subsequently,the context and grammatical knowledge between words are jointly learned through a sp

7、ecific pre-training mask strategy,to predict characters and words.Finally through error detection and correction networks,the pre-training model is fine-tuned for CGEC.Based on the serial application of these three components,grammatical knowledge can be extracted to a greater extent,thereby helping

8、 the model better capture the grammatical relationship between words in sentences.The experimental results on the NLPCC 2018 test dataset show that the method for enhancing grammatical knowledge improves F0.5 score of the model by 4.83 percentage points,and F0.5 score of the proposed model is 8.85 p

9、ercentage points higher than that of the first model on the NLPCC 2018 shared task,which proves the effectiveness of using the pre-training model based on grammatical knowledge graph for CGEC.【Key words】grammatical error correction;pre-trained language model;heterogeneous knowledge encoding;knowledg

10、e graph;deep learningDOI:10.19678/j.issn.1000-3428.0066089基金项目:国家社会科学基金后期资助项目(20FTQB020)。作者简介:邓 倩(1999),女,硕士研究生,主研方向为自然语言处理;陈 曙,博士;叶俊民,教授、博士。收稿日期:2022-10-24 修回日期:2022-12-24 Email:人工智能与模式识别文章编号:1000-3428(2023)11-0077-08 文献标志码:A 中图分类号:TP182023年 11月 15日Computer Engineering 计算机工程0概述近年来,随着中国国际影响力的提高,汉语的国

11、际地位日益提升,非母语汉语学习者的数量与日俱增。中文相较于英文没有明确的词边界且不存在词语的单复数、时态等明确的语法规则,其语法更加复杂和灵活1。中文语法错误通常涉及语义上的错误,如使用错误、上下文搭配错误等,是汉语句子层次 上 最 常 见 的 错 误。中 文 语 法 纠 错(Chinese Grammatical Error Correction,CGEC)是一项具有挑战性的任务,先后经历了基于语法规则、基于统计机器翻译(Statistical Machine Translation,SMT)和基于神经机器翻译(Neural Machine Translation,NMT)的方法,CGEC

12、任务模型性能有了质的提升。但是,NMT的方法缺少大规模的标注数据,因此,CGEC领域 开 始 使 用 大 语 料 库 预 训 练 的 通 用 语 言 模 型 对CGEC 任务进行微调。然而,在这些方法中语言模型都是独立于 CGEC 任务而进行预训练的,在预训练期间没有学习任何特定于语法任务的先验知识,未能充分利用预训练语言模型的优势。中文语法错误是指句子中词语与词语的组合违反语法结构规律。随着汉语的发展和多种文化元素的碰撞,词语间的搭配规则更多的是语言群体的约定俗成,是一种语言习惯,因此,中文文本中词语之间的关系错综复杂,序列表示方法并不能充分提取其中错综复杂的关系。文献 2 中已证明在预训练

13、期间将知识图谱的领域知识注入预训练模型中并未损害其原有的通用语义知识,且能够有效提高下游知识驱动型任务模型的性能,因此,提取词语之间结构化的语法知识并使用知识图谱来梳理这些错综复杂的关系势在必行。本文采用句子成分间的依存关系来构建语法结构知识图谱,将结构化知识注入预训练模型中,并结合特定的预训练掩码策略,提出一种融入语法知识的预训练掩码语言(PGKG)模型,通过捕获词语之间的依赖关系并探索句子上下文的先验依赖关系以实现中文语法纠错。为避免引入额外的模块,该模型直接将预训练的知识表示向量与语义表示向量相融合进行训练,将句子中涉及对齐的词语视为实体节点以构建大型语法知识图谱,将对应词语节点在知识图

14、谱中检索的子图作为此句子的词语候选集。同时,根据 CGEC任务的特点引入基于词语相关子图的掩码策略来鼓励模型更加了解句子中词语间的语法知识。考虑到基于机器翻译的序列到序列方法推理速度较慢,该模型在微调过程中将中文语法纠错视为序列标注任务并设置检错和纠错网络进行共同学习,使得纠错网络在正确的位置进行中文语法纠错。1相关工作1.1中文语法纠错中文语法早期主要运用纠错规则、纠错词典等基于规则的方法来进行纠错,如文献 3 中手工制作了一组带有句法信息的语言规则以检测中文句子中的错误。但是,由于语言的复杂性,这种方法不能覆盖所有的语言规则。随着机器学习技术的发展,中文语法纠错领域涌现了两大主流方法:一种

15、是采用文献4-6中的 SVM(Support Vector Machines)、最大 熵、一 阶 归 纳 学 习 等 算 法 对 错 误 进 行 分 类,如文献 6 提出惩罚概率一阶归纳学习的方法对错误进行分类,实验结果表明,在错误分类方面该方法优于一些基本分类器算法;另一种是借鉴文献 7 中提到的统计机器翻译的方法将语言纠错视为机器翻译任务,从序列到序列对文本进行纠错,但是,这种错误诊断方法通常存在离散词表示、缺乏全局上下文信息、推理速度慢等问题。在这之后,随着神经机器翻译的飞速发展,基于 NMT技术的方法逐渐替代传统的基于规则和统计的方法,成为 CGEC任务的主流方法,同时一系列主流的 N

16、MT模型(如文献 8-10 中的NMT模型)都被应用于 CGEC领域。近年来,预训练语言模型在各种自然语言处理任务中取得了优异成果,CGEC领域的很多研究人员都使用预训练语言模型来提高模型的性能。文献 11将 残 差 网 络(ResNet)集 成 到 BERT(Bidirectional Encoder Representation from Transformers)语言模型中进行错误检测,使用 RoBERTa和 n-gram 语言模型进行选词错误纠正,利用预训练掩码语言模型 BERT和 统 计 语 言 模 型 的 组 合 进 行 漏 词 错 误 纠 正。文献 12 将 BERT 融合 Tr

17、ansformer模型并引入到纠错领域,以提高纠错性能。文献 13 使用图卷积网络(Graph Convolutional Network,GCN)接 受 由 BERT模型获得的高层字符信息以及依赖树的邻接矩阵,其每层都采用卷积运算。1.2知识增强的预训练语言模型预训练语言模型通常是从大规模文本语料库中学习通用的语言知识并根据下游任务进行自适应微调,然而这类语言模型通常缺乏特定领域的知识。为了解决该问题,大量研究人员使用不同的知识增强方法,利用知识丰富的知识图谱来增强预训练语言模型的特定领域知识,以弥补传统预训练语言模型的缺陷2。文献 14-15 中知识增强的预训练语言模型分别通过增加专门的知

18、识编码模块和直接修改原有编码模块的内部结构,以利用特定的结构化知识来改进模型的编码模块。文献 16 提出的K-BERT(Knowledge-enabled Bidirectional Encoder Representation from Transformers)知识增强的预训练语言模型通过扩展输入文本序列结构为文本知识树,以利用知识扩充输入特征。以上使用不同知识增强方法的预训练语言模型在实验中充分显示出预训练的潜力,且在许多特定领域的任务上都明显优于 BERT。78第 49卷 第 11期邓倩,陈曙,叶俊民:基于语法知识增强的中文语法纠错2模型结构本文将中文语法纠错视为序列标注任务,给定可

19、能 含 有 语 法 错 误 的 输 入 序 列X=x1x2xn,n 为输入文本序列中的总字数,则语法纠错模型预测的标签序列为L=l1l2ln,其中,对第 i 个字xi进 行 修 正 的 纠 错 标 签li为 纠 错 标 签 集 合KEEPDELETEAPPENDt_wREPLACEt_w中 的 一 个标签,标签集合中KEEP表示当前字符保持不变,DELETE是对冗余错误的修改(即删除冗余字),APPENDt_w是对词缺失错误的修改(即增加缺失的目标字或词t_w),REPLACEt_w是对词不当错误的修改(即将错误的字词替换为正确的目标字或词t_w)。对于其他的语法错误,可通过标签集合中的多个标

20、签 组 合 进 行 修 改,如 字 词 顺 序 颠 倒 错 误 可 通 过DELETE和APPENDt_w标签组合进行修改。模型预测后预测标签还需根据输入文本进行后处理,即在X上按照L中每个字对应的标签进行语法错误修正,以获得目标文本T=t1t2tn。基于语法知识增强的语法纠错模型总体框架如图 1 所示。首先对错误句子X进行实体识别得到实体序列E=e1e2ek,其中,ei E,1 i k(k为句子中所包含知识图谱中的节点个数,E表示所有词语实体的集合),根据实体在语法知识向量字典D中查找对应的知识表示向量E*=e*1e*2e*k;然后将错误 句 子 字 符 序 列 及 其 对 应 的 知 识

21、表 示 向 量 放 入PGKG 预训练模型中进行微调,得到最终的纠错结果。模型中的实体识别并非自然语言处理中的实体识别任务,而是对句子进行分词后保留知识向量字典中存在的词语实体。微调过程详见第 2.4节。2.1语法知识图谱语法知识图谱是由在大型中文语料库中提取句子依存关系并筛选出关系频数大于 100 的关系三元组组成。知识图谱中有 13个依存关系,包括主谓关系、动宾关系、间宾关系、前置宾语、兼语、定中关系、状中结构、动补结构、并列关系、介宾关系、左附加关系、右附加关系和标点依附关系。令E表示所有词语实体的集合,R表示知识图谱中存在的所有关系集合,三元组表示为(efret),其中,efet E分

22、别表示组成关系的 2 个词语实体,r R表示它们之间的关系。本文所构建的语法知识图谱结构可视化部分截取图如图 2所示。图 1基于语法知识增强的语法纠错模型结构Fig.1Grammatical error correction model structure based on grammatical knowledge enhancement图 2语法知识图谱结构可视化示意图Fig.2Visual diagram of grammatical knowledge graph structure792023年 11月 15日Computer Engineering 计算机工程2.2语法知识表示向量

23、 语法知识表示向量是采用 TuckER 模型17训练关系三元组而得到的。根据 Tucker分解18的计算方式,TuckER 模 型 中 三 元 组 的 得 分 函 数 可 表 示 为(efret)=W 1Ef2wr3Et,其中,Ef和Et分别表示实体ef和et的向量,wr表示关系向量,W是通过Tucker 分 解 得 到 的 核 心 张 量。TuckER 模 型 将Sigmoid 函数应用于每个分数(efret)中,以获得三元组为真的预测概率,经过训练以最小化伯努利负对数似然损失函数。经 TuckER 训练结束后得到的实体表示向量所组成的集合即为语法知识向量字典D。从句子中提取的词语实体通过查

24、找语法知识向量字典所得到的向量为语法知识表示向量。2.3预训练模型PGKG 预训练模型架构如图 3所示,它由 2个组件构成,即字符编码器和知识融合编码器。字符编码器由 M 个堆叠的双向 Transformer编码器组成,知识融合编码器由 N 个堆叠的知识融合编码层组成。输入的句子首先经过 M 层字符编码器进行编码后输出语义表示向量,然后在第 M+1 层将语义表示向量和预训练好的语法知识表示向量进行融合,在其后的 N1 个堆叠的知识融合编码层中,分别将上一层输出的向量放入多头注意力层19中得到对应的注意力向量输出后再进行融合,将字符和词语的异构信息表示到一个统一的特征空间中。假设输入预训练模型的

25、句子的字符序列为S=s1s2sn(n 为句子的长度),与之对齐的词语序列为E=e1e2ek(ej E,1 j k)。该模型首先将字符序列X生成的字符嵌入和位置嵌入求和以计算其输入嵌入,然后根据输入嵌入通过字符编码器计算得到最终的语义表示特征C=c1c2cn。字符编码器是一个多层双向 Transformer编码器,除了层数外其结构与 BERTbase 相同,隐藏单元大小为768,注意力头数为 12。2.3.1 知识融合编码器在字符编码器之上,知识融合编码器将知识表示向量和语义表示向量 2个异构信息进行融合并计算最终的输出嵌入,其中,知识表示向量是语法知识图谱在知识嵌入模型中进行预训练后得到的词语

26、知识嵌入E*=e*1e*2e*k。知识融合编码器如图 3 所示,由多个堆叠的知识融合层组成,用于编码字符和词语以及融合它们的异构特征。知识融合编码器的第 1层将字符编码器输出的语义表示向量放到多头注意力层 MHA(Multi-Head Attention)中得到注意力输出,将其和预训练后得到的词语知识嵌入进行融合。知识融合编码器第 l层的字符向量c()1i及其对齐词语向量e()1j的知识融合过程如下:c()11c()12c()1i=MHA()Ce()11e()12e()1j=MHA()E*(1)第 l层内部隐藏状态h()li对语义和词语知识的融合过程如下:h()li=(w()lcc()li+w

27、()lee()lj+b()l)(2)在知识融合编码器的后面 N1 层中,每一层首图 3预训练模型架构Fig.3Pre-training model architecture80第 49卷 第 11期邓倩,陈曙,叶俊民:基于语法知识增强的中文语法纠错先将前一层的字符嵌入和词语知识嵌入输出分别放到 2 个多头注意力层中,获得对应的注意力输出。对于没有对应对齐词语的字符,其输出为没有进行知识融合的输出嵌入,即知识融合式(2)中的e()lj,且其对应的权重都为 0;对于有对齐词语的字符,在知识编码器第 l层中第 i个字符向量c()li及其对齐词语向量e()lj的知识融合过程按照式(2)进行相互集成,并

28、按照式(3)分别更新当前层字符和词语实体的注意力输出以作为下一层的输入,最顶层计算的字符和词语知识的输出嵌入将作为知识编码器的最终输出表示。c()l+1i=MHA()()w()lch()li+b()lce()l+1j=MHA()()w()leh()li+b()le(3)式(2)和式(3)中的是非线性激活函数 GELU,权重w()lc、w()lc、w()le、w()le和偏置因子b()l、b()lc、b()le分别为模型对应层的参数。2.3.2 预训练掩码策略由于目前中文语法纠错主要是基于短文本,和BERT预训练模型不同,PGKG 在预训练过程中只采用掩码语言模型作为预训练任务,分别通过掩盖对齐

29、字词和词语实体来预测选定的字词和词语实体,使模型能够从文本中充分学习句子间的语法结构。下面详细介绍模型中使用的掩码训练策略。PGKG 模型在预训练过程中使用了 2 种掩码策略,即字掩码策略和基于词语实体相关子图的掩码策略。由于中文词语基数较大,若只使用词掩码作为掩码策略,需要使用词语作为基本输入单元,会出现 大 量 未 登 录 词(Out-of-Vocabulary,OOV)问 题。使用汉字作为基本输入单元20可以缓解这一问题,因此,在字符序列上采用随机屏蔽字符的方法来掩盖字符。由于中文中的大量词语都由同一字符组成,如果将字符及其对齐的词语实体都进行掩盖容易造成预测失误问题。为了鼓励模型更好地

30、从词语实体中学习到词语间的语法信息,对于有对齐词的字符只随机选取一部分对齐字词进行掩盖。另外,后面的实体掩码策略也不会对这些有掩盖字对齐的词进行掩盖。为了将词语间的语法知识更好地注入语言表示中,PGKG 使用动态掩蔽策略,即基于词语实体相关子图的掩码策略,每次将序列输入模型时都会生成新的词语相关子图。首先,随机挑选 15%的与没有掩盖字符对齐的词语节点,对于被选中的词语节点,设置 75%的概率替换为当前句子词语候选集中的另一个随机词语,10%的概率随机掩盖,15%的概率保持不变。词语相关子图为当前训练批次每个句子中所有与字对齐的词语节点在知识图谱中选取与其关联概率大于 0.5的词语节点所构成的

31、子图集合。2.3.3 预训练模型输出在预测过程中模型对每个句子进行 2 次预测,分别为掩盖位置字符预测和词语实体预测。1)字符预测。PGKG 根据知识融合编码器最后一层生成的表示向量来预测每个掩码标记的原始字符。对于给定句子中第 i 个字符si对应知识融合编码器输出的表示向量hi,模型需要通过一个全连接层来预测一个目标字符,权重wc和偏置因子bc为字符预测的参数。si的真实字符被预测为词表中第 j个字符yj的条件概率为:P(si=yj|S)=Softmax(wchi+bc)j(4)2)词语实体预测。如果使用知识图谱中所有词语作为候选集进行目标词语预测,解空间将过大,因此,只需要根据每个批次句子

32、中的词语及其对应的词语相关子图中的所有词语节点构成的候选集来预测字符对应的词语。给定字符序列S及对应的词语候选集e1e2em,Er为词语er对应的实体嵌入,si对 齐 的 词 语ej的 真 实 词 语 被 预 测 为 候 选 集 中 的第 r个词语er的条件概率为:P(ej=er|S)=exp()hiErk=1mexp()hiEk(5)PGKG的学习目标LP是最大化目标字符和目标词语的对数似然之和,即:LP=jlogaP(si=yj|S)+rlogaP(ej=er|S)(6)2.4语法纠错模型输出在 PGKG 模型通过上述学习目标进行预训练后,语法纠错模型将对预训练后的 PGKG 模型在中文语

33、法纠错任务上进行微调训练。在预训练模型微调过程中,语法纠错模型设置了语法检错网络和纠错网络,2 个网络都是基于预训练 PGKG 模型句子token 级别的分类问题而设计的,2 个网络之间共享权重,共同训练,区别在于纠错网络最后使用的是多分类层而检错网络是二分类层。2 个网络联合训练使得模型在检错和纠错任务上进行权衡,以校正纠错网络在正确的位置进行纠错。此外,通过检错网络可过滤掉错误概率低于设定阈值的错误,以避免进行无意义的纠错。检错网络通过 0/1 标签标定对应字符是否存在语法错误。给定源句子X及其对应的检错标签序列D=d1d2dn,xi对应的检错标签di被预测为 0/1标签中第 j个标签rj

34、的条件概率为:P(di=rj|X)=Softmax(Wdhi+bd)j(7)其中:hi为知识融合编码器输出的表示向量;Wd和bd812023年 11月 15日Computer Engineering 计算机工程分别为全连接层的参数和偏置。纠 错 网 络 通 过 标 签 集 合L=l1l2ln标 定每个字符的错误类别。给定最终状态hi,从标签候选集中选择第 j 个标签tj作为当前字符的输出标签的条件概率为:P(li=tj|X)=Softmax(Wlhi+bl)j(8)微调训练过程中的训练优化目标包含错误检测和错误纠错 2 个学习目标,由此得到总的训练优化目标Lf如下:Lf=-(jlogaP(di

35、=rj|X)+jlogaP(li=tj|X)(9)3实验结果与分析3.1数据集将 2022 年 3 月 更 新 的 中 文 维 基 百 科 数 据 和1979 年2010 年的人民日报数据进行清洗转换为预训练的格式化数据后,得到 3 663 516 条样本数据作为预训练数据集,用于构造语法知识图谱,并对预训练模型进行训练。使用 LTP依存分析工具21提取数据集中每个句子的依存关系,选取频数大于 100的 关 系 集 合 搭 建 依 存 关 系 知 识 图 谱,其 中 包 括40 665个词语节点、13种关系和 410 991个关系三元组,采用 TuckER算法在知识图谱的关系三元组上训练词语语

36、法知识嵌入作为知识融合编码器的词语输入嵌入。实 验 中 的 微 调 数 据 集 是 文 献22的 NLPCC 2018 GEC 数 据 集、文 献23中 NLPTEA 发 布 的CGED 数据集和文献 24 的汉语水平考试(HSK)平行语料,经过预处理后最终获得 1 387 637 条样本数据,以 98 2 的比例将数据集划分为训练集和验证集。由于APPENDt_w和REPLACEt_w这 2个标签中的目标字词t_w为变量,目标标签词汇表的数量可变,因此为固定目标标签词汇表,实验通过对训练集中的标签频数进行统计并排序,选取前 5 000个标签作为目标纠错标签词汇表。3.2评价指标将语法纠错领域

37、广泛使用的 MaxMatch(M2)Scorer25作 为 评 估 指 标,该 指 标 包 含 精 确 率(Precision)、召回率(Recall)和F0.5值。实验中使用NLPCC 2018 GEC 共享评测任务发布的测试数据集对模型进行评估,该基准测试集是从大学生论文中所抽取的包含语法错误的 2 000个句子样本,包含源句、分词版本和由语言专家根据最小编辑距离原则校对的官方参考编辑版本。3.3参数设置1)预训练参数。设定 TuckER 模型的参数随机初始化,经过 TuckER训练后得到的词语语法知识嵌入在预训练过程中是固定的。设定 PGKG 预训练模型中字符嵌入和词语嵌入的维度分别为

38、768和 200,自注意力头的数量均为 6,字符编码器为 5 层,知识编码器为 7层。其他参数配置与 BERTbase26基本一致。使用 Google发布的中文 BERT 参数来初始化编码 字 符 的 Transformer 模 块,预 训 练 过 程 中 采 用Adam 优化器对模型进行 3 个 epoch 的预训练,批量大小为 16,最大序列长度为 256,学习率设为 2105。2)微调参数。使用 Adam 优化器对模型进行10个 epoch的微调,批量大小为 32,学习率为 1105,最大序列长度为 128。训练过程中采用提前终止技术,当验证集的 loss在 3 个 epoch 没有降低

39、时就结束训练。3.4对比模型实验使用异构循环生成(HRG)模型27、基于BERT 的非自回归序列标注模型 BERT-GECToR28和 YouDao模型8作为对比模型。1)YouDao模型是 NLPCC 2018共享任务中排名第一的模型,其使用相似字音表和 n-gram 模型解决简 单 错 误,使 用 字 级、词 级 不 同 的 配 置 构 建 多 个Transformer 模型来解决复杂语法错误,不同阶段训练不同的模型,最后使用 n-gram 语言模型对这些模型结果进行困惑度排序以产生最终输出。2)HRG模型是由基于 NMT的模型、序列编辑模型和拼写检查器组成的循环纠错模型。3)BERT-G

40、ECToR 模型是目前英文语法纠错中排名第一的非自回归序列标注模型,本实验中该模型使用 GECToR 在 BERT 预训练模型上进行微调的方法进行改进并应用于中文语法纠错中,该模型的训练数据和 PGKG模型相同。3.5结果分析表 1 中展示了本文中文语法纠错模型和其他基准模型在 NLPCC 2018 共享任务评测数据集上的实验 结 果,最 优 数 据 加 粗 标 注。从 表 1 可 以 看 出:BERT-GECToR模型精确率优于 YouDao和异构循环生成模型,在 NLPCC 2018 评测数据集上达到了较好的性能,但是召回率相对于异构循环生成模型较低;本文的 PGKG模型在 BERT-GE

41、CToR模型的基础上将领域通用的预训练模型替换为中文语法纠错领域特定的预训练模型,召回率相较于 BERT-GECToR模型提高了 3.24 个百分点,F0.5值提高了 4.83 个百分点。表 1测试数据集上的实验结果比较 Table 1Comparison of experimental results on test dataset%模型YouDaoHRGBERT-GECToRPGKGPrecision35.2436.7541.6147.02Recall18.6427.8219.5222.76F0.5值29.9134.5633.9338.7682第 49卷 第 11期邓倩,陈曙,叶俊民:基于

42、语法知识增强的中文语法纠错此外,为了验证本文所提预训练掩码策略的有效性,分析预训练过程中使用不同掩码策略对实验结果的影响。第 1 组实验中使用 BERT 模型中的字掩码策略;第 2 组实验(WordMask)中仅使用本文提出的对齐字词的字掩码策略;第 3 组实验(ALL)在第 2组实验的基础上增加本文提出的基于词语实体相关子图的掩码策略。实验结果如表 2所示。从表 2可以看出,仅使用本文提出的字掩码策略能够有效提高模型的召回率,但会降低模型的精确率,推测是因为仅使用本文中的字掩码策略,预训练模型不能充分学习知识图谱中的语法知识,而且可能会干扰 BERTbase模型中原有的语义信息,导致其准确率

43、降低。然而,本文提出的字掩码策略和基于词语实体相关子图的掩码策略的混合策略能够有效提高模型的召回率并保持模型的精确率,推测是因为使用基于词语实体相关子图的掩码策略能够更好地学习知识图谱中的语法知识,同时平衡知识图谱中的语法知识和BERTbase模型中原有的语义信息。4结束语本文提出一种用于中文语法纠错的具有语法知识的预训练掩码语言模型,通过异构知识编码和基于词语候选集的掩码策略共同学习句子中的语义知识和词语间的语法知识。实验结果验证了该模型的有效性,其对有限数据进行微调后具有比 BERT 更优的性能。但是,由于通过知识表示学习得到的知识嵌入在训练模型时被固定住,模型不能充分学习相应的知识,导致

44、模型不能覆盖所有的语法错误,即模型召回率相对较低,下一步将在这一方面对模型进行改进。参考文献 1 赵国红.中文语法纠错方法的研究综述 J.现代计算机,2021,27(28):65-69.ZHAO G H.A survey of researches on Chinese grammar error correction methods J.Modern Computer,2021,27(28):65-69.(in Chinese)2 韩毅,乔林波,李东升,等.知识增强型预训练语言模型综述 J.计算机科学与探索,2022,16(7):1439-1461.HAN Y,QIAO L B,LI D S

45、,et al.Review of knowledge-enhanced pre-trained language modelsJ.Journal of Frontiers of Computer Science&Technology,2022,16(7):1439-1461.(in Chinese)3 LEE L H,CHANG L P,LEE K C,et al.Linguistic rules based Chinese error detection for second language learningEB/OL.2022-09-05.https:/ YU C H,CHEN H H.

46、Detecting word ordering errors in Chinese sentences for learning Chinese as a foreign language EB/OL.2022-09-05.https:/aclanthology.org/C12-1184.pdf.5 HAN D,CHANG B.A maximum entropy approach to Chinese spelling check EB/OL.2022-09-05.https:/aclanthology.org/W13-4413.pdf.6 CHANG R Y,WU C H,PRASETYO

47、P K.Error diagnosis of Chinese sentences using inductive learning algorithm and decomposition-based testing mechanism J.ACM Transactions on Asian Language Information Processing,2012,11(1):1-24.7 ZHAO Y C,KOMACHI M,ISHIKAWA H.Improving Chinese grammatical error correction with corpus augmentation an

48、d hierarchical phrase-based statistical machine translation C/Proceedings of the 2nd Workshop on Natural Language Processing Techniques for Educational Applications.S.l.:Association for Computational Linguistics,2015:111-116.8 FU K,HUANG J,DUAN Y T.YouDaos winning solution to the NLPCC-2018 task 2 c

49、hallenge:a neural machine translation approach to Chinese grammatical error correctionEB/OL.2022-09-05.http:/ REN H K,YANG L E,XUN E D.A sequence to sequence learning for Chinese grammatical error correction EB/OL.2022-09-05.http:/ ZHOU J P,LI C,LIU H Y,et al.Chinese grammatical error correction usi

50、ng statistical and neural models EB/OL.2022-09-05.https:/ WANG S,WANG B,GONG J,et al.Combining ResNet and Transformer for Chinese grammatical error diagnosis C/Proceedings of the 6th Workshop on Natural Language Processing Techniques for Educational Applications.S.l.:Association for Computational Li

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服