探索中文预训练模型的混合粒度编码和IDF遮蔽.pdf

资源描述

1、第3 8卷第1期2 0 2 4年1月中文信息学报J OUR NA LO FCH I N E S EI N F O RMAT I ONP R O C E S S I NGV o l.3 8,N o.1J a n.,2 0 2 4文章编号:1 0 0 3-0 0 7 7(2 0 2 4)0 1-0 0 5 7-0 8探索中文预训练模型的混合粒度编码和I D F遮蔽邵云帆,孙天祥,邱锡鹏(复旦大学计算机科学技术学院,上海2 0 0 4 3 3)摘要:目前大多数中文预训练语言模型采用字级别编码,因为字符级编码序列长而产生大量计算开销。词级别编码尽管能够缓解这一问题,但也会带来其他问题,如词典外词

2、、数据稀疏等。针对中文不同粒度的编码,该文提出使用混合粒度编码的中文预训练模型。这一编码所用的词表在大规模预训练语料上得到,因此缓解了词典外词和数据稀疏问题。为了更进一步增强模型性能,该文提出了一种选择性的遮蔽语言建模训练策略 I D F遮蔽。这一策略基于词在大规模预训练语料上统计的逆文档频率。实验表明,与之前的中文预训练语言模型相比,该文所提出方法预训练的模型在多个中文自然语言数据集上取得了更好或相当的性能,并且能更高效地编码文本。关键词:中文预训练;混合粒度编码;I D F遮蔽中图分类号:T P 3 9 1 文献标识码:AE x p l o r i n gC h i n e s eP r

3、e-T r a i n i n gw i t hM i x e d-G r a i n e dE n c o d i n ga n dI D F-M a s k i n gS HAOY u n f a n,S UNT i a n x i a n g,Q I UX i p e n g(S c h o o l o fC o m p u t e rS c i e n c e,F u d a nU n i v e r s i t y,S h a n g h a i 2 0 0 4 3 3,C h i n a)A b s t r a c t:C u r r e n t l y,m o s tC h i

4、n e s ep r e-t r a i n e dl a n g u a g em o d e l sa d o p tc h a r a c t e r-l e v e le n c o d i n g,w h i c hh a sal a r g ec o m p u t a t i o n a l o v e r h e a df o rl o n gs e q u e n c e s.A l t h o u g h w o r d-l e v e le n c o d i n gc a na l l e v i a t et h i si s s u e,i ta l s ob r

5、i n g ss o m eo t h e r i s s u e ss u c ha so u t-o f-v o c a b u l a r yw o r d sa n dd a t as p a r s i t y.I nt h i sp a p e r,w e i m p r o v eC h i n e s ep r e-t r a i n e dl a n g u a g em o d e l sw i t hm i x e d-g r a i n e d t o k e n i z a t i o n.T h e v o c a b u l a r yo f o u r e n

6、c o d i n g i s o b t a i n e d f r o ml a r g e-s c a l e c o r p o-r aa n dt h e r e b yc a na l l e v i a t e t h e i s s u e so f o u t-o f-v o c a b u l a r ya n dd a t a s p a r s i t y.T o f u r t h e r i m p r o v e t h ep r e-t r a i n i n ge f-f i c i e n c y,w ei n t r o d u c eas e l e c

7、 t i v e l y m a s k e dl a n g u a g e m o d e l i n g m e t h o d:I D F-m a s k i n g,b a s e d o nt h ei n v e r s ed o c u m e n t f r e q u e n c y(I D F)c o l l e c t e do nt h ep r e-t r a i n i n gc o r p o r a.T h ee x t e n s i v ee x p e r i m e n t ss h o wt h a t,c o m p a r e dw i t hp

8、 r e v i o u sC h i n e s ep r e-t r a i n e dl a n g u a g em o d e l s,t h ep r o p o s e dm o d e l c a na c h i e v eb e t t e ro rc o m p a r a b l ep e r f o r m-a n c eo nv a r i o u sC h i n e s en a t u r a l l a n g u a g ep r o c e s s i n gt a s k s,a n de n c o d e t e x tm o r ee f f i

9、 c i e n t l y.K e y w o r d s:C h i n e s ep r e-t r a i n i n g;m i x e d-g r a i n e de n c o d i n g;I D F-m a s k i n g收稿日期:2 0 2 2-0 1-2 5 定稿日期:2 0 2 2-0 4-1 4基金项目:国家自然科学基金(6 2 0 2 2 0 2 7)0 引言不同于英语或其他能轻易区分字词的语言,中文句子中不包含显式的分词信息。在自然语言处理任务中,通常用两种粒度来编码和处理中文文本,词级别和字级别1-3。然而,如今大部分的中文预训练语言模型都采用字级别的细

10、粒度编码方式。这会让句子被编码为很长的序列,增加模型的计算开销。而计算开销的增加,在预训练语言模型中更加明显。原因是预训练语言模型大都以T r a n s f o r m e r作为主要模型架构。而T r a n s f o r m e r的时间和空间复杂度都是O(L2),其中L是编码句子的长度。另一方面,词级别的粗粒度编码方式一般需要结合性能良好的中文分词器。当采用词级别编码的预训练语言模型被用于不同的数据集时,需要考虑所结合的中文分词器的领域迁移问题。当数据分布在模型应用领域和分词器的训练领域中的差异过大时,分词器的性能会有所下降,影响预训练语言模型的编码效果。更重要的是,词级别的粗粒度编

11、码存在词典外词、数据稀疏以及错误传播等问题4-6。这些问题进一步阻碍了粗粒度编码方式在预训练语言模型中的中文信息学报2 0 2 4年直接使用。尽管词级别编码方式有着众多不足,近年来,有许多工作显示词级别的粗粒度信息能够增强采用字级别编码的中文预训练语言模型。一种融合粗粒度信息的方式是将词级别的编码作为额外的特征输入模型7-9。这一方式往往需要引入额外的参数并增加模型的计算和存储开销。另一种融合方式是利用词级别的信息改进预训练任务。一些工作尝试改进预训练中的遮蔽掩码策略,将随机遮蔽改为遮蔽句子中的粗粒度信息,如遮蔽词、短语或者实体1,1 0-1 1。改进后的预训练任务能增强模

12、型的性能,但是训练后的模型依旧用细粒度的字来编码文本。此外,在预训练时,粗粒度遮蔽的方法需要识别句子中的词、短语或实体,这通常需要一个高质量词典。在大规模预训练语料中,通常难以得到这样的词典,而用现有的词典可能会产生领域不匹配问题。为了结合字级别和词级别编码的优点,探索高效的中文预训练模型编码粒度和编码方式。本文做出了以下改进:首先,探索了基于混合粒度编码的中文预训练模型的有效性。在这一编码中,单字、词语和短语可以同时出现,共同编码文本。混合粒度编码的词表通过数据驱动的算法直接在预训练数据中得到1 2。相比之前的中文预训练语言模型,我们的模型编码效率更高,同时也避免了词表外词(OOV)问题,缓

13、解了预定义词表与训练数据的领域不匹配问题。另外,由于混合粒度的编码扩大了模型词表,可能需要用更有效率的方式预训练语言模型。为了加速预训练过程,我们提出了I D F遮蔽,一种基于词语逆向文档频率(I D F)信息1 3的遮蔽策略。词语的I D F信息直接从预训练语料中统计得到,以缓解数据分布不一致问题。在预训练时优先遮蔽高I D F的词语并让模型预测。高I D F的词语相比随机挑选的词出现概率更低,更加难以被预测。因此,这一预训练任务能鼓励模型捕捉更充分的上下文信息,从而加速模型的收敛。我们在多个中文自然语言处理任务中进行了实验,证明了本文方法的有效性。在C L U E基准数据集上超越了B E

14、R T、R o B E R T a等预训练模型。1 方法1.1 混合粒度编码相比直接使用一个训练好的中文分词器,我们采用一元语言模型(U n i g r a m L a n g u a g eM o d e l)来获取混合粒度编码词表。更具体地,我们采用一个基于一元语言模型的无监督词表构建算法S e n t e n-c e P i e c e1 4,在中文预训练语料上得到混合粒度的词表和每个词的出现概率。这一算法的使用让我们不用对语料进行分词处理,因此避免了因引入分词器而带来的数据分布不一致。具体而言,我们基于句子中每个元素的出现概率都相互独立这一假设,使用一元语言模型建模语料中的句子。对于

15、任意句子x,可以看成是词表中元素词元的(t o k e n)的序列x=(x1,x2,xN),因此,句子的出现概率可以表示为:P(x)=Ni=1p(xi)(1)其中,N是句子中词元个数,p(xi)是词表中词元xi的出现概率,服从条件:xiVp(xi)=1(2)其中,V是预先给定的固定大小的词表。词表的构建对于词信息的利用至关重要。多粒度中文预训练模型一般通过在语料上统计词频得到高频词以构建词表7-9,1 5。这些词表中的词一般质量较高,有清晰的词边界。然而,这些词表并未针对编码效率进行优化,若直接用于混合粒度编码,可能会出现编码后序列过长、词表过大、词表利用率低等问题。与词频统计方法不同的是,我

16、们采用K u d o等1 2提出的算法,在大规模语料上迭代式地优化词表在整个数据集上的似然L,从而使得到的词表更适用于混合粒度编码。具体而言,基于一元语言模型,计算整个数据集的似然L,并进行优化,如式(3)所示。L=Dk=1l o gxS(Xk)P(x)()(3)其中,|D|为整个语料的句子数,S(X)是句子X的分词候选集合,P(x)的定义如式(1)。直接优化似然L计算量过大,因此这里使用EM算法并进行迭代优化。首先,算法根据语料统计得到一个大的初始词表,然后循环迭代式地逐步删除词表中的词,针对数据集似然L进行优化,直到词表大小符合预定义的阈值。具体的循环删词步骤为:(1)使用EM算法计算词表

17、中每个词的概率p(xi),使数据集似然L最大。(2)针对每个词xi计算l o s si,表示将词xi移除后似然L的减小量。(3)保留l o s si较高的前%(一般取8 0%)的词。851期邵云帆等:探索中文预训练模型的混合粒度编码和I D F遮蔽通过在大规模中文语料上使用该算法,我们得到的词表V包含了字、词语和短语。将该词表和中文B E R T的词表进行对比,并重点比较了词表大小、中文字符所占比例以及编码效率。其中,编码效率我们使用编码后文本与原文的长度比作参考,所用文本来自于预训练语料中随机抽取的50 0 0条句子。结果如表1所示,其中,|V|表示词表大小,Nc表示词表内中文词

18、元的数量,Le n cLr a w表示编码后文本与原文本的长度比。相比B E R T,我们的模型可以将句子编码长度大幅缩短,并且包含了更丰富的多粒度中文信息。表1 不同词表的对比词表VNcLe n cLr a wB E R T2 0 k7 k0.9 6 9O u r s6 0 k5 8 k0.5 6 5 有了混合粒度的编码词表,就可以将任意句子编码为混合粒度的词元序列。具体而言,对于一段输入文本X,我们找到一串词元序列x,使得总概率最大,如式(4)所示。x*=a r g m a xxS(X)P(x)=a r g m a xxS(X)xxip(xi)(4)其中,S(X)是句子X的分词候选集合。集

19、合中的每一段分词序列都由词表中的词元组成,并且词表中包含了大量细粒度的词元,即汉字和字母。因此,在词表中不存在的词,会被拆分成字序列加以表示。这样我们的分词算法就可以避免词表外词(OOV)的问题。我们采用维特比算法1 6来得到概率最高的词元序列,避免遍历S(X)中的所有情况,减少了分词时所需的开销。1.2 基于I D F的遮蔽策略我们观察到,混合粒度编码增加了词表大小,这可能使得预训练语言模型需要训练更多的步数才能达到原有的效果。一方面,这会引入更多参数来表示词表中的词元向量。另一方面,基于齐夫定律,词表中的词元在数据集中呈现长尾分布,存在极少的高频词元和大量的低频词元1 7。这样高度偏斜的词

20、频分布会导致数据稀疏的问题,即大量的词向量很少出现,也很难被训练。为了更加系统地了解这一问题,我们在预训练语料上进行分词,并计算了每个词的词频和逆文档频率(I D F)1 3。对于一个词w,它的逆文档频率可以表示为:I D F(w)=-l o gPD(w)=l o gNNw(5)其中,PD(w)是词w在文档中的出现概率,Nw是包含词w的文档数,N是语料中的总文档数。正如图1中的结果所示,词频分布有着很大的方差,分布范围从1 01到1 08,并且大部分的词都只有很低的词频(小于1 03),显然这会导致数据稀疏问题。图1 预训练语料中词的词频和逆文档频率(I D F)的分布图为了缓解这一问题,一个

21、简单直接的思路是在预训练时增加低频词的被遮蔽和被预测概率。然而,根据图1,拥有相似词频的词语可能有着差异很大的数据分布,而这一分布可以利用I D F来描述。如在图1中,我们展示了词频约为20 0 0时,不同词语的I D F值。其中高I D F的词可能是实体或名词,而带有低I D F值的词含有的语义信息较少。这说明I D F值相比词频而言,在筛选低频词时更加可靠。因此,我们提出I D F遮蔽策略来加速预训练过程,并增强模型的表达能力。具体的处理流程如图2所示,我们首先在预训练语料中统计得到大规模词表以及对应的I D F值。在预训练时,我们首先利用现有分词器将句子分为由n个词组成的序列,然后从词表

22、中得到每个出现词的I D F值,进一步从中取I D F值最大的k个词作为候选集;最后,在候选集中随机采样m个词作为遮蔽词。由于I D F词表一般远大于混合粒度的编码词表,遮蔽词可能横跨多个混合粒度词元序列。为了减少分词器的错误传播,我们选择能覆盖遮蔽词的连续混合粒度词元序列进行遮蔽,即以词粒度选择遮蔽范围,以模型编码粒度进行遮蔽。因为I D F词表的数据从预训练95中文信息学报2 0 2 4年语料中得到,缓解了数据分布不一致的问题。另外,I D F遮蔽还增加了预训练任务的难度。相比随机遮蔽策略和简单的词级别遮蔽策略,I D F遮蔽策略让模型更加难以利用局部信息预测遮蔽位置的词,进而使

23、得模型建模更丰富的、跨度更大的上下文信息,从而增强了模型的表达能力1 1。图2 混合粒度编码的模型使用I D F遮蔽训练时的数据处理流程2 实验设置2.1 预训练设置为了公平对比,我们使用大规模开源数据进行预训练,处理后数据集大小为1 3G B,包含九百万个文档。对于混合粒度编码的词表,设置词表大小为6万,用S e n t e n c e P i e c e在预训练语料中随机采样的20 0 0万个句子进行一元语言模型的训练。对于I D F遮蔽需要的低频词表和I D F值信息,我们首先用现有的中文分词器,将预训练语料分词,然后统计词频和I D F值,略去词频小于1 0的词。最后得到的I D F

24、词表包含了大约1 0 0万个词。我们采用B E R T-b a s e架构,即1 2层的双向T r a n s f o r m e r编码器,7 6 8维隐向量,前馈网络中间层维度为30 7 2,1 2个注意力头,每个注意力向量的维度为6 4。我们从头开始预训练,以公平对比,并使用A d a m优化器训练模型1 0 0万步,最大句子长度为5 1 2,一个批次有3 8 4个句子。我们利用学习率先热身(W a r m u p)再衰减策略,学习率从零开始线性增加1万步,达到峰值1 0-4,然后线性衰减到零。遵循R o B E R T a的超参数设置,我们将A d a m的b e t a设为

25、(0.9,0.9 8),参数衰减(W e i g h tD e c a y)设为0.0 1。在预训练时,我们将遮蔽比例设为1 5%,并采用I D F遮蔽策略。其中,k为句子总词数的3 0%,m为句子总词数的1 5%。如当句子中包含5 1 2个词时,候选集大小k=1 5 4,遮蔽词数量m=7 7。整个预训练在8块英伟达R T X 3 0 9 0显卡(显存为2 4G B)上完成,需要7天左右的时间。2.2 下游任务设置2.2.1 数据集为了测试不同领域以及不同句长分布下模型的性能,我们选用以下数据集进行实验:C L U E中文语言理解基准分类数据集1 8:包含了6个数据集,语义相似度匹配数据集A

26、 F QMC,文本分类数据集I F L Y T E K和T N EWS,自然语言推理数据集CMN L I,代词消歧数据集WS C,以及论文关键词匹配数据集C S L。与Z h a n g等相同,我们在T N EWS和C S L上使用了数据增强8。此外,我们还在情感分析数据集C h n S e n t i C o r p1 9,篇章级文本分类THU C N EWS2 0句对语义匹配数据集L C QMC2 1上测试了我们的模型。对于已有分词标注的任务(如词性标注,命名实体识别,基于S p a n的阅读理解等),在使用混合粒度编码时,直接使用传统方式微调会由于分词不一致问题产生性能

27、损失。针对这些任务,可以采用以下方法:改进解码方式,让模型预测词边界;直接使用字粒度编码微调;配合其他字粒度编码器同时使用;这些改进能缓解分词不一致问题,我们将混合粒度编码在这些任务中的扩展作为未来工作。2.2.2 微调实验设置对于基准模型,我们选择几个有代表性的主流中文预训练语言模型进行比较,以证明本文所提出的方法的有效性。为了与其他不同的编码方式进行比较,选取的模型有字级别、词级别以及多粒度融合字词的中文预训练语言模型:B E R T:为了充分比较,我们选取几种不同的B E R T实现:由谷歌发布的中文版B E R T模型2 2,在中文w i k i上使用随机遮蔽训练,在

28、本文中用B E R T(G o o g l e)表示;由C u i等发布的基于整词遮蔽训练的B E R T-wwm2,在本文中简写为B E R T;由Z h a n g和L i得到的词级别B E R T8,简称B E R T(w o r d)。R o B E R T a:我们使用C u i等发布的R o B E R T a-wwm-e x t进行实验2。这一模型使用谷歌B E R T初始化,在大规模语料上训练1 0 0万步得到。AMB E R T:由Z h a n g等提出的多粒度编码模061期邵云帆等:探索中文预训练模型的混合粒度编码和I D F遮蔽型8,分别使用两个参数共

29、享的编码器处理细粒度和粗粒度分词的文本。L I C H E E:通过改进词嵌入层融合文本的多粒度信息的预训练方法1 5。作者将这一方法在不同结构的预训练模型上进行了应用。我们选用L I CHE E-B E R T进行对比。L a t t i c e-B E R T:通过改进注意力机制以编码L a t t i c e结构的多粒度中文预训练模型9。我们对所有模型都使用统一的微调流程,针对每个数据集,仅使用该数据集的训练集进行微调。在每个数据集上,都进行有限的网格搜索。其中,设置批量大小为1 6,3 2,学习率为1,2,3,51 0-5,训练周期在

30、除了WS C的数据集上取5,8,在WS C上固定为8 0个周期。对于C L U E分类数据集,本文取开发集正确率最高的模型在测试集上进行预测,并汇报测试集的正确率。对于其他数据集,我们运行5次相同设置的实验,并同时汇报最佳和平均正确率。3 实验结果与分析3.1 主实验结果我们汇报了基准模型以及我们的模型分别在C L U E分类数据测试集上的性能,结果列在表2中。对于其他数据集,我们的结果列在表3中,其中,“”表示本文根据原论文复现后的结果,括号中的数字为平均值,括号前的数字为最高值。表2 不同模型在C L U E基准测试中测试集上的正确率(单位:%)模型参数量TN EWSI F L

31、 Y T E KA F QMCCMN L IWS CC S LA v g.B E R T(G o o g l e)1 0 8 M6 6.9 96 0.2 97 3.7 07 9.6 97 1.0 38 3.5 07 2.5 3B E R T1 0 8 M6 7.1 45 9.4 37 4.0 78 0.4 27 4.4 88 4.2 07 3.2 9R o B E R T a1 0 8 M6 7.6 36 0.3 17 4.0 48 0.5 17 6.9 08 4.7 07 4.0 2AMB E R T1 7 6 M6 8.5 85 9.7 37 3.8 78 1.8 77 8.2 88 5.

32、7 07 4.6 7L I CHE E-B E R T2 7 0 M6 7.9 46 0.9 47 3.6 58 1.0 38 4.5 1L a t t i c e-B E R T1 0 0 M6 8.3 86 2.8 57 4.7 78 1.1 38 2.4 18 4.0 37 5.6 0B E R T(w o r d)1 6 5 M6 8.2 05 9.9 67 3.4 87 9.9 77 5.5 28 5.1 77 3.7 2O u r s1 3 2 M6 9.0 16 1.5 87 3.5 07 9.9 77 8.2 88 4.9 77 4.8 2表3 不同模型在三个数据集上的正确率对

33、比(单位:%)模型C h n S e n t i C o r pTHU C N e w sL C QMCB E R T9 5.4(9 5.0)9 7.8(9 7.6)8 7.0(8 6.8)R o B E R T a9 5.6(9 4.9)9 7.8(9 7.5)8 6.4(8 6.1)L a t t i c e-B E R T9 5.6(9 5.3)9 7.8(9 7.6)8 7.0(8 6.5)O u r s9 6.2(9 6.0)9 8.0(9 7.9)8 7.7(8 7.5)如表2和表3所示,混合粒度编码相比单一粒度的中文预训练模型,如B E R T和R o B E R T a等,有着

34、明显的性能优势。如表2所示,而对比其他多粒度编码的预训练模型,如AM B E R T、L I C H E E-B E R T和L a t t i c e-B E R T等,也有很强的竞争力。同时,混合粒度编码减短了输入长度,提高了模型推理效率。3.2 混合粒度编码的有效性混合粒度编码的一大优势是相比细粒度的编码,在保持模型的表达能力不变的同时,能够缩短编码序列的长度,并能减少模型的计算量。我们随机从数据集中抽取不同句子长度的文本,并计算这些文本用不同编码方式所需要的模型计算量,即F L O P s。结果如图3所示,混合粒度编码有效减少了计算开销,在长文本上效果

35、尤为明显。图3 字级别编码方式(B E R T)和混合粒度编码(O u r s)在不同长度下的相对计算开销比较我们进一步在不同数据集上对比不同编码方式的平均编码长度,并分别记录推理时间,结果如表4所示,相比字粒度编码,混合粒度编码缩小了文本的16中文信息学报2 0 2 4年平均编码长度,并加快了推理速度。表4 不同编码方式在不同数据集上的平均编码长度和推理时间比较数据集平均编码长度推理时间/sB E R TO u r sB E R TO u r sT N EWS3 9.32 4.41 9.81 5.2I F L Y T E K2 7 6.51 6 4.01 6.21 5.5A F Q

36、MC2 8.61 6.59.05.7 为了进一步比较不同的编码方式,我们去除了I D F遮蔽,使用和B E R T相同的整词遮蔽进行训练和比较。如表5所示,我们的模型“O u rB E R T(m i x e d)”就编码效率而言优于同等数据量训练的B E R T模型。为了公平比较,用同样的数据集和超参复现了B E R T,结果见“O u rB E R T(c h a r)”。可以看到I D F遮蔽相比整词遮蔽能同时为字级别和混合粒度编码的预训练模型带来性能提升。当I D F遮蔽配合混合粒度编码时,所带来的提升更加明显。表5 不同编码方式和遮蔽方式在C L U E基准测试中验证集

37、上的正确率(除特殊标明模型使用整词遮蔽训练)(单位:%)模型参数量/MTN EWSI F L Y T E KA F QMCCMN L IWS CC S LA v g.B E R T1 0 86 7.1 45 9.4 57 3.7 78 0.9 28 0.9 58 4.0 37 4.3 8R o B E R T a1 0 86 7.4 26 0.8 07 4.3 08 0.7 08 5.5 08 5.7 07 5.7 4O u r B E R T(c h a r)1 0 86 7.1 05 9.4 07 3.8 28 0.8 27 6.9 78 1.6 37 3.8 1+I D F遮蔽1 0 8

38、6 8.1 16 0.9 57 3.7 38 0.9 38 0.8 28 4.3 17 4.9 4O u rB E R T(m i x e d)1 3 26 8.0 86 0.6 07 3.6 68 0.5 88 1.9 18 4.9 77 4.9 7+I D F遮蔽1 3 26 8.5 76 2.8 37 4.1 48 0.6 18 5.8 58 4.7 77 6.1 33.3 I D F遮蔽的有效性为了更进一步地证明I D F遮蔽策略的有效性,我们分别使用I D F遮蔽策略以及整词遮蔽策略预训练了语言模型,最终结果见表5。配合混合粒度编码,我们的模型最终能在C L U E验证集上取得7 6

39、.1 3%的平均性能。而单独在字级别预训练模型上使用I D F遮蔽,增强了预训练任务的难度,从而也增强了模型的性能(表5)。我们选取出优化了不同步数的模型在T N EWS数据集上进行微调。结果如图4所示,当训练步数相同时,使用了I D F遮蔽策略的模型的下游任务性能比整词遮蔽策略优化的模型要好,并且随着训练步数的增加I D F遮蔽策略将持续地提升模型的性能,在训练1 M步后依然保持了性能增长趋势,并且大幅超过了整词遮蔽策略训练的模型。为了更细致地比较I D F遮蔽策略和整词遮蔽策略的不同,我们随机采样了约20 0 0万个词的预训练语料(约2 0 0 MB),分别使用整词遮蔽和I D F遮蔽选择

40、遮蔽词,并将被遮蔽的词数按词频进行统计,结果如图5所示。相比整词遮蔽,I D F遮蔽倾向于选择词频在1 021 06的中低频词进行掩码,而显著减少高频词(词频高于1 08)的掩码次数。如图5图4 使用不同遮蔽方式训练的模型在TN EWS验证集上的性能随预训练步数的变化情况所示,I D F遮蔽改变了不同词频的词被遮蔽的概率,而非完全忽略高频词。因为I D F遮蔽仅在句内进行I D F排序和选择,而语料中存在很多仅由高频词组成的句子,这时I D F遮蔽从句中选择的遮蔽词(其在句内排序I D F很高)在整个语料上I D F很低,属于高频词。4 相关工作4.1 多种粒度编码的中文预训练模型现存的中文

41、预训练语言模型通常将句子以字序列的方式编码。然而,这会使得长句子难以被表示,261期邵云帆等:探索中文预训练模型的混合粒度编码和I D F遮蔽图5 不同遮蔽方式中被遮掩词在语料中的词频分布会产生很大的计算开销。同时,这也忽略了中文丰富的粗粒度信息。为了融合粗粒度信息到中文预训练语言模型中,Z h a n g等提出了使用两个参数共享的编码器分别建模粗粒度和细粒度的信息8。而D i a o等提出使用一个额外的编码器单独建模N元(N-G r a m)信息,并逐层融合到细粒度编码的预训练语言模型中7。然而,这些额外引入的编码器会引入大量的参数,额外增加了计算和存储开销。L i等将文本进行细粒度编码的同

42、时,加入了L a t t i c e信息作为模型的输入,并提出了表示L a t t i c e结构的相对位置编码,使得模型能同时建模多种粒度的文本9。然而,L i等的模型结构使得输入序列变长,相对位置编码也存在较大的计算开销,大大增加了模型的计算量。相比之前的工作,我们提出的混合粒度编码能将句子表示为较短的序列,增加了模型的编码效率。4.2 词信息增强的遮蔽语言建模相比仅使用随机遮蔽的预训练任务,有一系列工作显示,遮蔽文本中的词、短语和实体进行训练,将会增强预训练模型的性能1,9-1 1。例如,谷歌在B E R T的基础上,使用整词遮蔽训练了B E R T-wwm。J o

43、 s h i等人提出S p a n B E R T,随机遮蔽连续的词元序列,从而进一步增加任务难度1 0-1 2。E R N I E为了融合知识到模型中,提出遮蔽句子中的实体。针对融合了L a t t i c e信息的模型,L i等提出先将文本分成几个互相没有L a t t i c e信息连边的几个分割,然后以分割为单元遮蔽9。这样的模型无法直接利用相连的L a t t i c e信息进行预测,增加了预测难度。E R N I E-G r a m提出在训练细粒度编码的语言模型时,可以同时让模型预测文本中的粗粒度信息,从而增强模型的性能2 2。这样模型仍然建模细粒度分词

44、的文本,在预训练时使用整词遮蔽后,模型需同时预测被遮蔽词以及词的细粒度信息(词元序列)。然而,这些方法在遮蔽前往往需要得到文本中的词语或实体等粗粒度信息。这时一般需要一个预先给定的大规模词库或实体库。因此,预训练语料和词库之间可能会出现数据分布不一致的问题。并且,这些方法在遮蔽时没有考虑到数据稀疏的问题,低频词的出现相对较少且比较稀疏。相比之前的方法,I D F遮蔽策略使用了在预训练语料上得到的统计信息,并且让模型重点学习文本中的稀有词,从而缓解了数据不一致和数据稀疏的问题,更进一步地增强了模型。5 总结与展望本文探索了中文预训练中应用混合粒度编码的可能性。相比之前中文预训练模型广泛采用的细粒

45、度编码,我们提出的混合粒度编码有效提升了编码效率。而相比词级别等粗粒度的编码方式,本文的方法有效缓解了词表外词(OOV)以及数据稀疏等问题。搭配上所提出的I D F遮蔽策略,我们预训练的混合粒度编码语言模型在多个数据集上取得了有竞争力的性能,并且减少了大量模型计算量。未来工作包括混合粒度编码应用范围的拓展以及预训练遮蔽策略的进一步改进。混合粒度编码能够明显提升编码器的编码效率,但对于需要细粒度分词的下游任务不够友好。未来可以将混合粒度编码器与细粒度的解码器相结合,进一步扩展模型的应用深度和广度。另一方面,I D F遮蔽策略根据词频信息调节了不同词汇的遮蔽频率,未来可以基于更丰富的数据集和其他先

46、验信息更系统地选择遮蔽词和遮蔽方式,以加快模型的预训练过程并提升训练效果。参考文献1 S UNY,WANGS,L IYK,e t a l.E R N I E:E n h a n c e dr e p r e s e n t a t i o nt h r o u g hk n o w l e d g e i n t e g r a t i o nJ.a r X-i vp r e p r i n t a r X i v:1 9 0 4.0 9 2 2 3,2 0 1 9.2 C U IY,CHE W,L I U T,e ta l.P r e-t r a i n i n g w i t hw h o

47、 l ew o r dm a s k i n gf o rC h i n e s eB E R TJ.a r X i vp r e-p r i n t a r X i v:1 9 0 6.0 8 1 0 1,2 0 1 9.3 C U IY,CHE W,L I U T,e ta l.R e v i s i t i n g o r e-t r a i n e dm o d e l sf o rC h i n e s en a t u r a l l a n g u a g ep r o c e s s i n gC/P r o c e e d i n g so fEMN L P,2 0 2 0:

48、6 5 7-6 6 8.4 Z HAN G Y,YANG J.C h i n e s e N E R u s i n g l a t t i c eL S TMC/P r o c e e d i n g so fA C L,2 0 1 8:1 5 5 4-1 5 6 4.36中文信息学报2 0 2 4年5 L IX,YAN H,Q I UX,e t a l.F L A T:C h i n e s eN E Ru-s i n gf l a t-l a t t i c e t r a n s f o r m e rC/P r o c e e d i n g so fA C L,2 0 2

49、 0:6 8 3 6-6 8 4 2.6 L IX,ME NGY,S UNX,e t a l.I sw o r ds e g m e n t a t i o nn e c e s s a r yf o rd e e p l e a r n i n go fC h i n e s e r e p r e s e n t a t i o n s?C/P r o c e e d i n g so fA C L,2 0 1 9:3 2 4 2-3 2 5 2.7 D I AOS,B A IJ,S ON G Y,e ta l.Z E N:P r e-t r a i n i n gC h i n e s

50、et e x te n c o d e re n h a n c e db yn-g r a mr e p r e s e n t a-t i o n sC/P r o c e e d i n g so f t h eC o n f e r e n c eo nE m p i r i c a lM e t h o d si n N a t u r a lL a n g u a g eP r o c e s s i n g:F i n d i n g s,2 0 2 0:4 7 2 9-4 7 4 0.8 Z HAN G X,L IH.AMB E R T:A p r e-t r a i n e

展开阅读全文