基于文本序列错误概率和中文拼写错误概率融合的汉语纠错算法.pdf

资源描述

1、收稿日期：；修回日期：作者简介：孙哲（），男，河南周口人，硕士研究生，主要研究方向为自然语言处理中文拼写纠错（）；禹可（），女，四川成都人，副教授，博导，博士，主要研究方向为通信网理论基础和自然语言处理；吴晓非（），男，吉林蛟河人，副教授，硕导，博士，主要研究方向为计算机原理与应用和移动通信基于文本序列错误概率和中文拼写错误概率融合的汉语纠错算法孙哲，禹可，吴晓非（北京邮电大学人工智能学院，北京）摘要：中文拼写纠错是一项检测和纠正文本中拼写错误的任务。大多数中文拼写错误是在语义、读音或字形上相似的字符被误用，因此常见的做法是对不同模态提取特征进行建模。但将不同特征直接融合或是利用固定权重进

2、行求和，使得不同模态信息之间的重要性关系被忽略以及模型在识别错误时会出现偏差，阻止了模型以有效的方式学习。为此，提出了一种新的模型以改善这个问题，称为基于文本序列错误概率和中文拼写错误概率融合的汉语纠错算法。该方法使用文本序列错误概率作为动态权重、中文常见拼写错误概率作为固定权重，对语义、读音和字形信息进行了高效融合。模型能够合理控制不同模态信息流入混合模态表示，更加针对错误发生处进行学习。在基准上进行的实验表明，所提模型的各项评估分数在不同数据集上均有提升，验证了该算法的可行性。关键词：中文拼写纠错；错误概率；预训练；信息融合；序列到序列模型中图分类号：文献标志码：文章编号：（）：，（，）

3、：，：；引言中文拼写纠错旨在检测和纠正文本中的拼写错误，这是自然语言处理中一个具有挑战性且重要的任务。在搜索引擎、光学字符识别、自动语音识别和机器翻译等各种自然语言处理应用中发挥着重要作用。在汉语中，许多汉字在读音和视觉上相似，但在语义上却有很大的不同，所以拼写错误主要分为读音错误和字形错误两种，分别是由读音相近的汉字和字形相近的汉字的误用造成的。根据等人的研究，在中文常见错别字中，约的错误与读音相似有关，约的错误与字形相似有关。汉语是一种由许多象形文字组成的语言，没有分词符。当上下文发生变化时，每个字符的含义也会发生巨大的变化。因此想要纠正中文中的错别字，结合上下文语义十分重要。在表

4、中举例说明了中文拼写因读音相似和字形相似而产生错误的例子，拼写错误的字符用下画线标出。如表所示，“器”和“气”具有相同的读音，“踩”和“菜”具有相似的读音，这是两组因为读音相似而产生的拼写错误；“人”和“入”具有相似的字形，这是一组因为字形相似而产生的错误。所以考虑到汉语的内在性质，利用汉字的读音和字形知识以及文本语义来完成汉字纠错任务是非常必要的。因此，当一句话中由读音导致拼写错误时，模型应当更关注读音信息；由字形产生错误时，模型应当更关注字形信息。表中文拼写错误的例子输入句子纠正错误类型今天天器（）真好气相同读音混淆餐厅饭踩（）好便宜请运动员人（）场菜入相似读音混淆相似字形混淆目前

5、的中文拼写纠错研究使用深度神经网络来解决该问第卷第期年月计算机应用研究题。当前的模型对于融合不同模态信息时容易忽略它们之间的重要性关系或是不使用任何读音信息和字形信息。等人使用预训练的语言模型生成候选词，并训练具有读音特征的分类器来选择最终更正，这为中文拼写纠错研究后续奠定了基础。等人通过修改的掩码机制提出了一种端到端模型，但在融合过程中仅利用语义信息，忽略了其他模态的信息，在探索单词相似度时产生了不利影响。等人直接将句子中所有的语义信息、读音信息、字形信息相加作为融合信息输入到模型中，将不同模态之间划分为同等作用，这就忽略了汉字之间的差异以及信息之间的重要性

6、，减少了模型对错误发生处的关注。所以当输入句子存在错误时，如何能有效控制每个模态信息最终流入混合模态表示是研究的重点。针对以上问题，本文提出了一种基于文本序列错误概率和中文拼写错误概率融合的汉语纠错算法（，）。模型采用了基于混淆集的掩码策略，其中每个选择的令牌根据混淆集随机替换为类似的字符，而不是像中那样固定的令牌“”。采用了一种自适应加权策略，用文本序列错误概率和中文常见拼写错误概率融合文本嵌入、读音嵌入、字型嵌入训练错误检测和纠正，让模型产生清晰的检测结果。具体地，在中文常见错别字中大约的错误与读音相似有关，约的错误与字形相似有关，读音错误大概是字形错误的两倍，且语义特征是最为重要的

7、特征，为了在加权过程中对不同模态特征选择的重要性有所区分，将语义特征的固定权重设为，防止模型忽略上下文语义；拼音特征的固定权重设为，字形特征的固定权重设为，使得不同模态特征在融合过程中有差异，能够合理控制不同模态信息流入混合模态表示。但不同输入语句有不同的错误，针对不同的错误采用了文本序列错误概率作为动态权重进行错误区分，将错误概率对读音特征和字形信息进行加权，可以让错误位置更加凸显，在融合时让模型更注重错误位置进行学习；将正确概率对语义特征进行融合，可以让错误发生处更少的信息流入融合特征，保留更多正确语义信息。联合两种不同权重进行融合，让模型能够更合理地融合不同模态信息，并针对错误发生

8、处进行高效学习。此外，在预测时对每个位置上的汉字和读音都进行预测，让模型从两个层面学习拼写错误的知识。本文提出了基于混淆集的屏蔽策略，使模型能够在预训练过程中联合学习语义和拼写错误知识；结合了读音信息和字形信息，可以对任意字符之间的相似度进行建模；提出了一种联合自适应加权和固定加权的特征融合算法，针对易错位置进行学习，让模型产生清晰的检测结果。相关工作中文拼写纠错是自然语言处理中一个具有挑战性的任务，它在许多应用中扮演着重要的角色，如等人提出的搜索查询更正，等人提出的论文自动评分和等人提出的光学字符识别。随着端到端网络的发展，等人提出了将纠错性能直接优化为具有条件随机场（）；等人

9、和等人提出循环神经网络（）的序列标记任务；等人使用带有复制机制的序列对序列框架，直接从准备好的错误单词混淆集复制校正结果；等人在等人提出的的基础上构建了一个图卷积网络（），图是从一个混淆集构建的；等人提出了一种模型，该模型首先预测每个单词的拼写错误概率，然后利用错误概率进行软掩码单词嵌入以进行校正，但他们没有使用其他信息；等人将语义、读音、字形信息在嵌入层进行融合，同时预测了汉字和拼音输出，在预测时融合两者的输出；等人采用了多模态的方式融合了语义、读音和字形表示，以提升模型检错纠错性能。方法本章将介绍的具体实现。图说明了的框架。与类似，本文模型也遵循预训练与微调原

10、则。图模型的总体框架掩码策略在预训练过程中，本文使用了等人提供的公开混淆集，其中包含了两种类型的相似字符，即读音相似和字形相似。由于读音错误概率是字形错误概率的两倍，所以这两类的相似字符在掩码过程中的选择概率也是不同的。不同于使用固定的替换的掩码策略，采用选取混淆集中的读音或字形相似字符去替换的掩码策略，这让模型可以更有效地学习到错误知识。随机选取语料库中的汉字，使用混淆集中的相似字符进行替换。其中的概率替换为相同读音字符，的概率替换为相似读音字符，的概率替换为字形相似字符，的概率替换为一个随机字符，的概率保持原字符不变。表展示了不同的掩码策略的例子。最后还使用了动态掩码，让

11、模型逐渐适应不同的掩码策略，学习不同表征。表不同掩码策略的例子不同策略输入句子我准备去（）看许嵩的演唱会我准备看许嵩的演唱会读音相同掩码我准备趣（）看许嵩的演唱会读音相似掩码我准备取（）看许嵩的演唱会字形相似掩码我准备丢（）看许嵩的演唱会随机掩码我准备很（）看许嵩的演唱会不变掩码我准备去（）看许嵩的演唱会模型嵌入每个字符的嵌入是由语义嵌入、读音嵌入、字形嵌入三部分组成。其中语义嵌入通过查找嵌入表获得。在汉语中，每个字符的读音由它的汉语拼音组成，即一个小写的英文序列，所以本文采用了来获得汉字到拼音的映射，得到关于读音的字母序列，同时忽略字符的声调。将每个字符的字母序列结果通过一层

12、编码器，以生成读音嵌入。产生的读音嵌入维度与语义嵌入维度相同。每个汉字的字形本文使用笔画顺序来表示，笔画顺序指本文书写汉字的顺序。本文通过（：）来获得这些笔画顺序。得到一个关于笔画顺序的编码结果后，同样将编码结果通过一层编码器，以生第期孙哲，等：基于文本序列错误概率和中文拼写错误概率融合的汉语纠错算法成字形嵌入。产生的字形嵌入维度与语义嵌入和读音嵌入维度相同。模块由于在中文输入中，每个字出现错误的可能性由读音相似产生，同样也可能由字形相似产生。在中文常见错别字中，大约的错误与读音相似有关，的错误与字形相似有关，读音错误大概是字形错误的两倍，所以直接将不同模态特征相加或者是仅采用固定的权

13、重进行融合会忽略这个差异性，同样也会让上下文语义产生变化。因此本文提出了一个基于文本序列错误概率和中文拼写错误概率的融合模块（）进行融合模型的不同嵌入表示，平衡语义特征、读音特征和字形特征的重要性。如图所示，首先将语义嵌入通过堆叠的编码器后再通过和函数后获得文本序列错误概率。使用而不使用的原因是让错误概率在（，）取值。将文本序列正确概率作为语义嵌入的权重；将文本序列错误概率以及作为读音嵌入的权重；文本序列错误概率以及作为字形嵌入的权重，最后将语义嵌入、读音嵌入和字型嵌入相加得到最终的融合嵌入，公式如下：（）（）（）（）其中：、?分别为语义嵌入、读音嵌入、字形嵌入；为汉字

14、总数；是嵌入维度；?为最终的融合嵌入矩阵。使用文本序列正确概率对语义嵌入进行加权让模型在错误发生处有更少的信息流入融合嵌入，同时在正确位置可以保留更多信息；使用文本序列错误概率和（中文常见错误中约的错误与读音有关）对读音嵌入进行加权，这让模型更加关注错误位置的信息进行学习，同时也使得模型在对读音嵌入与字形嵌入的重要性上有所平衡；使用文本序列错误概率和（中文常见错误中约的错误与字形有关）对字形嵌入与上述同理。图模块模型输出本文模型的与中的结构相同，注意力头数为，隐藏层维度为，编码器总层数为层。如图所示，模型对每个选择的字符进行两次预测，分别为字符预测和读音预测，最后联合两种

15、预测结果。）字符预测与类似，模型根据最后一个隐藏层输出的嵌入来预测每个被掩码的原始字符。其预测公式如下：（）（）（）其中：（）是第个字符的真实字符被预测为字表中第个字符的条件概率；?，?，其中是汉字词表的长度。）读音预测在汉语中约有种不同的读音，但是有超过个常见汉字，这导致许多汉字有着相同读音。此外在中文常见拼写错误中，的错误与读音有关，使读音错误在错误类型中占主导地位。为了能够充分学习到读音知识，模型还预测每个掩码字符的真实读音。读音预测公式为（）（）（）其中：（）是掩码字符的正确读音被预测为读音词表中第个读音的条件概率；?，?，是拼音词表的长度。学习在训练学习过程中，由

16、两个损失函数进行驱动，分别对应于字符预测损失函数和读音预测损失函数，公式如下：（）（）（）（）其中：是的真实字符；是的真实读音。模型的最终学习目的是需要准确预测每个掩码输入位置上的汉字和拼音，所以在学习过程中需要联合损失函数和，使其最小。其联合目标公式如下：（）微调过程上述内容介绍了训练前的细节。在本节中将介绍微调过程。作为中文拼写纠错模型，旨在对输入语句进行拼写错误纠正。给定一个输入语句，由个汉字组成，模型期望输出一个不包含任何错误汉字的语句，。其总体学习目的与上述预训练相同。整体训练过程与预训练过程相类似，但有两点不同：）删除节中的掩码操作；）在预测时，对整体输入语句全都进行

17、预测，而不是仅仅预测掩码字符。在最终预测时，模型将拼音和汉字预测结果的联合分布进行预测，得到。对于每个输入，选择联合概率最高的字符作为最终输出。联合分布同时考虑了字符预测和读音预测，因此更加准确。其公式如下：（）（）（）（）其中：?是拼音和汉字的映射矩阵；表示矩阵对应位置上两两元素相乘。如果在第个字符上的读音为第个拼音，那么，为，否则为。和在式（）（）中被定义。实验本章将介绍在实验中使用到的所有数据集以及实验结果，最后进行对比分析，以此证明模型的有效性。预训练）数据集预训练时使用（：）作为训练语料，由万中文维基百科页组成，是预训练常用语料库。在使用时，将连续的句子连接起来

18、，按照最大句子长度进行切分。最后从切分结果中随机选取万条数据作为训练样本。）参数设置将语义嵌入维度设置为，读音嵌入和字形嵌入维度均设置为，在读音和字形网络中的隐藏层维度设置为，学习率设置为，批样本大小设置为。计算机应用研究第卷在训练过程中，使用了一块显卡，同时使用哈工大讯飞联合实验室发布的中文参数（：）来初始化，而不是从头开始进行训练。微调）数据集微调时使用、和的训练集以及由等人自动生成的样本作为训练集。在测试时，则使用、和的测试集，测试集是等人在年所提出的测试集。由于测试集中注释质量相对较差，在测试时会获得较低分值，所

19、以对中所涉及的“的”“得”“地”字符进行了处理，即将模型输出中检测并纠正的“的”“得”“地”字符移除，然后计算分数。）评估指标在评估时，模型在句子级别上使用了精度（）、召回率（）和值进行了性能评估。在检测时，当且仅当输入句子中所有错误被检测到，才认为该检测是正确的。在纠正时，当且仅当句子中所有错误被纠正时，才认为该纠正是正确的。）参数设置将最大句子长度设置为，批样本大小设置为，学习率设置为，其余模型设置与预训练时保持一致。在训练过程中，使用了一块显卡，并加载预训练后所保存的权重，深度学习框架使用版本。在与其他基线模型作对比时，均保持在此环境下进行微调。微调已使用的数据集统计

20、信息如表所示。表微调已使用的数据集统计信息数据集训练集测试集句子总数平均句子长度错误个数句子总数平均句子长度错误个数总数基线模型本文选取近年来在中文拼写纠错任务上取得杰出进展的方法与进行比较，具体方法如下：）：直接用训练数据对模型进行微调。）：提取了读音信息和字形信息，采用直接相加融合语义信息、读音信息和字形信息的方法进行预测和纠正汉字和拼音输出。）（）：在中引入了软掩码策略，利用检测模块提取概率后结合，帮助校正模块学习正确上下文。）：对输入句子中的每个字符通过训练后产生一系列候选词，然后通过读音和字形相似特征的过滤模块从候选词中筛选最佳字符。）：将图卷积网络与相结合，通

21、过字形和读音混淆集对字符之间进行建模，之后合并到基于的校正模块中进行纠正。实验结果表展现了在、和测试集上和其他基线模型在检测和校正水平上的评估分数。在所有的测试集上，仅在测试集的校正召回率上低于，其余指标的性能明显优于其他基线模型。与相比，在三个测试集上性能得到了很大的提高，在上检测分数和校正分数均提高了；仅使用错误概率作为语义信息权重，没有结合任何其他外部信息，在测试集上分数超过的分数，这说明了结合读音嵌入和字形嵌入的有效性；在融合语义信息、读音信息和字形信息时采用直接相加融合，取得了不错的性能，但并未考虑三者的重要性，与相比，在三个测试集上性能

22、分数略低于，这表明了不同模态信息之间存在重要性差别；建立了一个通过字形和读音混淆集对字符之间建模来学习其中包含的知识。在测试集上，相比于，在纠错分数上提高了，在校正分数上提高了，这表明改变学习混淆读音和字形信息的方法以及融合不同特征信息方式是有效的。由于测试集与测试集句子总数相同，但错误个数少了个，所以所有基线模型在总体性能上得到了提升，不过在所有结果上仍优于其他对比模型。表与其他基线模型在测试集上的实验结果数据集模型消融实验为了进一步验证分析几个组成模块的效果，本文设置并进行了消融实验，探究每个模块的贡献：）移除读音嵌入，仅使用语义和字形嵌入；）移除字形嵌入，仅

23、使用语义和读音嵌入；）移除基于混淆集的掩码策略，变更为的掩码策略；）移除文本序列错误概率权重；）移除中文拼写错误概率权重。表展现了在测试集上进行的关于句子级别的消融实验结果，仅展示了检测和校正的分数。本文的主要目的是融合读音信息和字形信息来发现字符之间的关系。当移除读音嵌入或字形嵌入时，在检测和校正分数上分别下降了、和、，这表明了读音信息和字形信息在模型性能方面起着积极作用，同时读音信息相对比字形信息更为重要；在移除基于混淆集的掩码策略变更为固定后，能够发现在纠错和校正分数上下降了和，这表明基于混淆集的掩码策略能让模型逐渐适应不同第期孙哲，等：基于文本序列错误概率和中文

24、拼写错误概率融合的汉语纠错算法的掩码策略，更好地结合读音和字形信息，提高模型泛化能力；移除文本序列错误概率权重后，分数分别下降了和，这表明了使用文本序列错误概率权重可以让模型在不改变上下文语义的同时更加注重错误出现的位置，更有针对性地进行学习；移除中文拼写错误概率权重后，分数分别降低了和。将模型中任意模块移除后，的性能都将降低，这充分说明了本文所涉及的任意模块的重要性。表实验结果模型模型错误分析为了更准确地分析模型产生错误时错误类型和原因，本文将模型产生错误进行了收集，并将它们分为了两种类型：）检测错误。模型对输入文本进行检测时，产生了错误的预测，没有将错误出现位置正确检测出来

25、，即。）校正错误。模型正确检测了错误位置，在纠错校正时没有生成正确字符，即，。在测试集上本文对这两类错误原因进行了收集总结，检测错误大约为，校正错误大约为，这表明了大多数错误原因是由检测错误而产生的。为了更进一步分析模型产生错误，从而导致模型效果不佳的原因，本文对上述收集到的错误样本进行了展示和分析。由表可以看到，在检测错误发生时，当正确字符与错误字符都可以构成合理的句子时，即在多个句子中使用任意一个字符在语义或是读音上都存在意义时，这导致了模型在检测时出现了检测错误。同样在校正时，模型校正使用了不正确字符，但此字符与句子本身可以构成合理的上下文语义，因此产生了校正错误。在这种情况

26、下，让模型的性能受到了影响。对于这个问题，本文认为需要做进一步的微调来减少这种错误，减弱这种不可区分性。未来针对这个问题，本文将会进行更有挑战的研究，来削弱其对模型性能的影响。表对错误样本进行举例错误类型原始样本校正后样本检测错误吃了碗（晚）饭后就去上课吃了碗饭后就去上课他（她）认为这个没有问题他认为这个没有问题他觉（学）的很好，受人尊重他觉的很好，受人尊重我在这家餐厅定（订）位了我在这家餐厅定位了校正错误我要去台南借（接）我的奶奶我要去台南见我的奶奶注：（）中的字符为正确字符。案例研究在表中展现了不同模型对输入语句的修正结果，来证明的性能。在第一个例子中，“旅”是输入语句中的错误字符

27、，会根据“旅”和“游”的字形相似性进行纠正，因为它们包含相似的结构“方”；而在模型中，这个错误字符不会被更正，这是因为在中被人工制作的混淆集中并不包含“旅”和“游”的混淆字符，这也是模型的缺陷。在第二个例子中，“坊”字是输入语句中的错误字符，不考虑字符之间的相似性，即不考虑读音和字形信息，模型会用其他候选词来更正错误字符，比如“木”；而模型根据“坊”和“烦”的读音相似性进行了纠正，因为它们有相似的读音“”。第三个例子中，“根”是输入语句中的错误字符，从语义信息和读音信息对其进行纠正，因为“根”和“赶”具有相似的读音；则会从字形信息上对其进行纠正，“根”和“跟”具有相同的结构“艮”，因为

28、两者读音相同，但是字形上类似，所以在融合过程中错误认为字形信息最为重要。表案例研究输入输出我国各地群众纷纷举行了声势浩大的旅行：我国各地群众纷纷举行了声势浩大的游行：我国各地群众纷纷举行了声势浩大的旅行走路去取快递太麻坊了：走路去取快递太麻烦了：走路去取快递太麻木了发现起晚了，他匆忙地根到公交车站：发现起晚了，他匆忙地赶到公交车站：发现起晚了，他匆忙地跟到公交车站结束语本文提出了一种基于文本序列错误概率和中文拼写错误概率融合的汉语纠错算法，将文本序列错误概率以及中文拼写错误概率作为权重融合语义信息、读音信息和字形信息，并采用基于混淆集的掩码策略进行预训练。以往的研究中表明

29、了上下文语义、读音信息和字形信息的重要性，因此本文用对不同模态特征进行建模，同时使用两种不同概率进行加权让模型可以更加注重错误发生位置以及区分模态信息之间的重要性。在公开数据集上进行的实验结果表明，的性能优于其他所对比模型，有着更好的检错和校正能力。日后对于如何更加有效地对不同模态信息进行融合是提升模型性能的关键，同时如何减少模型出现检测错误和校正错误同样也是研究重点。参考文献：，：，：，：，：，：，：，：，：，：（：），：，：，：，：，：，：，：，：计算机应用研究第卷，：，：，：，：，：，：，：，：，：，：，：，：，（），：，：，：，：，：，：，：，：，：，：，：，：，：，

30、：，：，：，：（：），：，：王辰成，杨麟儿，王莹莹，等基于增强架构的中文语法纠错方法中文信息学报，（）：（，（）：），：，：，：黄改娟，王匆匆，张仰森基于动态文本窗口和权重动态分配的中文文本纠错方法郑州大学学报：理学版，（）：（，：，（）：）仲美玉，吴培良，窦燕，等基于中文语义音韵信息的语音识别文本校对模型通信学报，（）：（，（）：）（上接第页），（）：，：，：，：，（）：，（）：，（）：，（）：，（）：，（）：周志杰，唐帅文，胡昌华，等证据推理理论及其应用自动化学报，（）：（，（）：）汤凯，李康乐，贺维，等一种新的基于多样性赋权证据推理的集成学习方法计算机应用研究，（）：（，（）：）第期孙哲，等：基于文本序列错误概率和中文拼写错误概率融合的汉语纠错算法

展开阅读全文