自然语言场景下增量知识构造与遮蔽回放策略.pdf-资源下载-咨信网让知识获取变得高效

自然语言场景下增量知识构造与遮蔽回放策略.pdf

1、自然语言场景下增量知识构造与遮蔽回放策略周航,黄震华(华南师范大学计算机学院,广州510631)通信作者:周航,E-mail:摘要:在增量学习中,随着增量任务的数量增多,模型在新增任务上训练后,由于数据分步偏移等一系列问题,模型对旧任务上所学到的知识发生灾难性遗忘,致使模型在旧任务上性能下降.对此,本文提出了基于知识解耦的类增量学习方法,分层次的学习不同任务共有知识与特有知识,并对这两种知识进行动态的结合,应用于下游的分类任务中.并在回放学习中运用自然语言模型的遮蔽策略,促进模型快速回忆起先前任务的知识.在自然语言处理数据集 AGNews、Yelp、Amazon、DBPedia 和 Yahoo

2、的类增量实验中,本文所提出的方法能有效降低模型的遗忘,提高在各个任务上的准确率等一系列指标.关键词:增量学习;特征学习;自然语言处理引用格式:周航,黄震华.自然语言场景下增量知识构造与遮蔽回放策略.计算机系统应用,2023,32(8):269277.http:/www.c-s- Knowledge Construction and Mask Replay Strategy in NLP ScenarioZHOUHang,HUANGZhen-Hua(SchoolofComputerScience,SouthChinaNormalUniversity,Guangzhou510631,China)

3、Abstract:Inincrementlearning,asthenumberoftasksincreases,theknowledgelearnedbythemodelontheoldtaskiscatastrophicallyforgottenafterthemodelistrainedonthenewtaskduetoaseriesofproblemssuchasstep-by-stepdatamigration,resultinginthedegradationofthemodelperformanceontheoldtask.Giventhisproblem,aclass-incr

4、ementallearningmethodbasedonknowledgedecouplingisproposedinthisstudy.Thismethodcanlearnthecommonanduniqueknowledgeofdifferenttaskshierarchically,combinethetwokindsofknowledgedynamically,andapplythemtothedownstreamclassificationtasks.Besides,themaskstrategyofthenaturallanguagemodelisusedinreplaylearn

5、ing,whichpromptsthemodeltoquicklyrecalltheknowledgeoftheprevioustasks.Inclass-incrementalexperimentsonNLPdatasetsAGNews,Yelp,Amazon,DBPediaandYahoo,theproposedmethodcaneffectivelyreducetheforgettingofthemodelandimprovetheaccuracyandotherindicatorsonvarioustasks.Key words:incrementlearning;representa

6、tionlearning;naturallanguageprocessing(NLP)随着数据量的骤增,时刻都涌现着新的任务数据,而在旧的任务数据上训练所得到的深度学习模型,其性能随着不断新增的数据持续下降,急需在新的数据上重新学习;与此同时,由于数据的隐私或存储问题,以往的数据可能无法再次获得,由此诞生了增量学习场景.增量学习最先兴起于图像分类场景,是对人工神经网络模拟人类在不同任务间对已学习的任务“记忆”“推导”能力的一种模仿.关于增量学习动机,即避免模型的灾难性遗忘问题的研究最早在文献 1 提出,指出模型在新的任务数据上训练学习,会影响先前任务的计算机系统应用ISSN1003-3254,

7、CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(8):269277doi:10.15888/ki.csa.009174http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:国家自然科学基金(62172166)收稿时间:2023-01-12;修改时间:2023-02-09;采用时间:2023-02-23;csa 在线出版时间:2023-06-09CNKI 网络首发时间:2023-06-09ResearchandDevelopment研究开发269性能.基于此,学者提出了灾难性遗忘这个

8、概念.尔后,Li 等人2提出了用蒸馏学习的方法3减缓灾难性遗忘问题.随着增量学习问题研究的深入,深度学习模型灾难性遗忘的原因被归因于几方面:首先,是学习新任务时的权重漂移现象.这是在模型规模固定的情况下,由于更新参数所用的数据发生了改变,使得相关的网络权重以及相关激活变化,进而导致网络输出发生较大的改变,从而影响先前任务的性能;其次,是任务间混淆4问题.这种问题是由于在类增量学习的场景中,目标是将类与所有任务区分开来.本文将现有的解决方式分为两大类别:第 1 类方法为静态的模型结构;第2 类为模型结构动态分配的方法.在静态结构增量场景中,模型的神经元资源静态固定,模型的大小或资源是在初次训练前

9、就完成分配的.这一类方法通过各种手段,使得模型表征重叠部分相对固定或较小变化.由于模型参数是以一定程度更新,而非完全更新或者不加限制的更新,所以模型理论上是能够既具有先前任务所学习到的知识,又使得模型能够在新的任务上拟合的.主要是通过一些正则化方法,使得模型的参数受其约束,理论上能够让模型在学习心得数据时巩固先前的知识,这一系列方法大致可以进一步分为基于数据的正则化方法以及基于先验知识的正则化方法.Li等人2最先将蒸馏学习方法用以解决增量学习问题.Huang 等人5通过模式迁移学习的方法,将表征解耦方法运用在任务增量方法上,解耦后的类别相关信息输入到任务判别器作任务分类,以辅佐最终重构的表征作

10、增量分类任务.Ke 等人6针对增量任务中不同任务间的相似性程度不同,提出了针对任务相似性的算法.Zhou 等人7利用了这种新、旧中类别语义关系之间的关联性,提出了协同运输的增量学习方法.Lee 等人8提出了一组注意力独立机制,彼此独立的注意力模块相互竞争的学习用于解耦提取到的高维特征,从而学习任务之间通用的独立机制,从而避免模型的遗忘问题.结构扩展的增量学习方法,通过在新的任务上动态分配并适应新分配的神经元资源,从而改变新数据在神经元上的表征分步,使得相较于前任务时的网络有了不同的结构属性,常见的方法为直接增加神经元个数或者直接以并联或串联增加网络层的方式进行重新训练.Shen 等人9设计了一

11、个面向自然语言处理槽填充的基于扩张结构的增量学习方法.Monaikul 等人10提出了 AddNER 框架以及 ExtendNER 框架,以解决增量场景在命名实体识别中,新任务的数据无需重新对旧任务标签进行标记的问题.Yan 等人11设计了一个两阶段动态扩张表征的增量模型框架.Singh 等人12利用一部分的网络参数学习修正参数信息,使得主网络能够利用这些信息来修正网络参数,最终能够在新任务数据上拟合.除了上述常规意义上的对网络模型结构的某些部分(一般是表征部分)进行扩张,本文将基于记忆网络的回放方法2也归纳入模型扩张部分.Castro 等人13对基于回放的增量学习方法进行细化,完善了旧任务训

12、练案例构建、更新的策略,提出了一整完整的端到端的基于回放的增量学习框架.针对分类器的偏置项参数倾向于新任务的问题,Wu 等人14提出利用少量新、旧样本对分类器再次进行纠正训练,避免因为回放数据过少的类不平衡问题.Lopez-Paz 等人15提出梯度片段记忆算法,通过约束先前任务损失不增加,避免模型对先前任务的遗忘.deMasson 等人16提出了稀疏性经验回放策略,并创新性的将回放数据局部适应步骤增加在模型推断阶段.但是,上述方法存在以下几点问题.首先,针对任务增量的增量学习场景在测试时经常会由于缺少了任务标签导致性能下降,且并不具有普遍性,而没有任务标签的类增量场景更为普遍;其次,当模型在第

13、 t 个任务时,相较于第前 t1 个任务,当前任务的数据是足以让模型在当前任务中充分得到训练的,这一点从深度学习本身以及我们做的消融实验本身都是足以说明的.而前 t1 个任务的样本的回放训练才是影响模型性能的关键,有效利用存储的回放样本使模型快速恢复在先前任务上的性能是回放任务的重点.对此,本文提出了基于表征解耦的增量知识构造与遮蔽回放策略方法(incrementalknowledgecons-tructionandmaskreplay,IKCMR).相较于利用类标签的解耦方法,本文认为通过类标签解耦的知识并不能很好的指导最终分类,因为模型所学到的知识其实是针对任务的而不是针对类别的,而本文的

14、最终目的是利用模型所学习到的知识去进行分类.受启发于文献 4所述的互补学习系统理论,模型在有效提取感知时间的统计结构、泛化知识的同时,还保留了特定任务的记忆或经验.根据这一理念,模型解耦后的公共特征与类别特征在学习和记忆方面的互补作用,公共特征解计算机系统应用http:/www.c-s-2023年第32卷第8期270研究开发ResearchandDevelopment耦器通过新的任务数据,补充学习不同数据中语言、语义信息的共有特征,类别特征解耦器专注于学习类别相关知识.而后,通过特征相似性方法,本文将学习到的泛化知识与特定知识动态的结合,以此作为最终分类器的输入.本文的方法动态地协

15、调了模型可塑性与稳定性平衡的问题.同时,为了进一步避免模型遗忘问题,在回放训练中本文利用缓冲区存储的数据进行学习,使得模型的类别相关的解耦器能够通过这些少量的回放数据快速回忆起先前任务的知识.归纳起来,本文的主要贡献如下.(1)针对自然语言处理中更普遍的类别增量问题,本文基于此提出了类增量特征解耦方法,在避免了任务标签的同时,以类的粒度对特征进行解耦,并依照互补学习理论动态地进行特征重构.(2)本文探索了在样例回放学习过程中,普通的回放方法对比遮蔽回放学习方法对模型快速回忆先前任务知识的效果.本文的解耦模型配合遮蔽回放学习方法,能够在保持当前任务良好的情况下,减少先前任务上知识遗忘造成的性能上

16、的损失.(3)本文通过自然语言处理的分类任务上的 5 个公认的数据集验证了 IKCMR 模型的有效性.实验结果说明,IKCMR 模型比现有的 SOTA 模型在类增量问题上的性能要更加出色.除此之外,也通过实验验证了融合了遮蔽回放的 IKCMR 能进一步提高模型的表现.本文第 1 节将对本文的工作进行具体的描述.第2 节会呈现本文的实验结果以及结论部分.最后,第 3节是本文的总结以及未来工作部分.1自然语言场景下的类增量问题方法Tnt=T1,TntTt(xti,yti)nti=1xti Xyti Yxj Ttb yj=f(xj)YTt1TtMt1首先,本文对增量学习进行定义.增量学习的任务通常来

17、说是将模型在一系列非独立同分布的任务上进行训练.将这一系列的非独立同分布的任务定义为,其中,第 n 个 task 的包含了输入语言序列以及其对应的分类标签.而增量学习的目标为训练一个模型,使其能对给定的任意已训练的任务的测试语言序列,都能预测其对应的标签.模型在训练第 t 个任务的时候,先前的任务都不可见,只有和少量存储在 memorybuffer 中的样例可见.本文的总体框架如图 1 所示,模型的主体由 3 个部分构成.首先是低层特征提取部分,该部分将输入的自然语言序列转化为特征向量;模型的第 2 个部分是高层特征的解耦以及重构部分,最后一部分则为模型的分类器部分.近年,各种大规模预训练模型

18、在各项自然语言处理任务中效果突出,例如 BERT17和 GPT-218等大规模的编码器-解码器19结构的模型.为了更加高效的搭建模型以及资源限制问题,本文将预训练语言模型 BERT 作为表征嵌入部分.在此基础上,模型的第2 部分从高层特征表示出发.首先,将句子的特征输入公共编码器和类别编码器中,得到编码后的关于当前任务的类别特征以及公共特征,例如更好的文本表征、句子间的关系等;接着,通过对公共表征与类别表征的表征相似度分析,并以此为依据将两种特征进行融合,得到模型结构的相似性,这种相似性是区别于模型表征的相似性的,模型表征的相似度其实是较为底层的,生成其最终的语义特征.1.1 公共特征网络Ti

19、 Tnt=T0,Tntxi=token1,tokenmask,tokenn TiNetG():Rn768 RnDb xi公共特征解耦器如何学习到自然语言的共性,即类别无关的特征是本文要解决的一大难点,而大规模语言模型的训练给了本文以启发.大规模预训练模型通过例如下一句预测、遮蔽语言模型等任务,使模型通过大量不同的语料学习到其共性特征.类似的,从理论上来说,公共特征网络接触过的任务越多,其能学习到的自然语言特征的共性也就越多.模型在学习任务时,令公共特征网络采用遮蔽语言的任务进行语言特征共性的学习.具体的,本文与Devlin 等人17的实验设置相同,对样本,n 为句子长度,将其中所有token

20、以 15%的概率进行遮蔽处理.其中,遮蔽处理的token 之中,用 MASK 替代的占 80%,随机用其他token 替代的占 10%,还有 10%的不做改变.本文将公共特征处理器定义为,其中 D是特征的维度.遮蔽后的样本,经过预训练语言模型处理后,输入到公共特征网络,再通过一个激活层,得到公共特征:EG=e1G,enG,ejG RDeijG=tanh(NetG(tokenj)(1)x公共特征网络需要学习和理解样本的内容,然后通过上下文含义对遮蔽部位进行预测.通过对遮蔽词向量的预测,可以监督公共特征网络对不同领域自然语言知识的学习情况,判断公共特征解耦网络对自然2023年第32卷第8期htt

21、p:/www.c-s-计算机系统应用ResearchandDevelopment研究开发271b xemaskGNetD()ti语言共性特征空间的构建情况.具体的,公共特征解耦网络预测样本的遮蔽表征,通过一个辅助解码网络映射到词典中,检验公共特征网络是否理解了输入文本的含义,从而使公共特征网络学习到的基于任务的语言本身的知识.tokenmask=NetD(ei,maskG)(2)其中,对于公共特征网络的训练,本文采用交叉熵作为预测的监督损失:LG=E(x,y)Ti(tokeni,mask,tokeni,mask)(3)此外,为了进一步缓解模型遗忘问题,本文对模型参数加上了额外的

22、限制,即对训练数据的解耦表征采取回归损失:LGreg=(x,y)Ti|Neti1G(x)NetG(x)|2(4)Neti1G()Ti1其中,为在任务学习后的解耦网络.增量知识构建特征解耦增量知识解码器辅助解码器遮蔽词Increment taskiCLSMASKSEPtoken1tokenn模型输出模型输入类别特征编码器公共特征编码器预训练 BERT 编码器RegularizationRegularizationExemplar 池Mask 池图 1增量知识构造与遮蔽回放策略方法 1.2 类别特征网络tiNetS()tixiNetS()eiS传统的深度学习模型中,只要低层特征训练足够充分,通过训

23、练数据即可直接训练出一个性能优异的网络.类似的,通过大规模预料训练的底层特征处理器,再加上足够的训练数据,即可在训练任务时,使得类别特征网络记为直接地关注当前的分类任务涉及的类别本身,而无需再加上类别标签或者其他额外的训练技巧与方式.具体的,在训练任务时,在获得输入样本的底层表征向量后,将其输入到类别特征处理器,得到类别相关特征:eijS=tanh(NetS(tokenj)(5)EmixCls()然后,通过第 3.4 节中的特征融合方法得到融合后的特征表示,并将其用作训练分类器的特征:Eimix=Mix(Eis,EiG)(6)b y=Cls(Eimix)|i=0n(7)最后,再通过分类器

24、到的标签进行分类损失学习,同时对类别特征网络和分类器进行训练更新:Lc=(x,y)Ti(b y,y)(8)此外,对于类别特征网络,本文对网络同样采用了一个回归损失以缓解灾难性以往问题:Lsreg=(x,y)Ti?Neti1S(x)NetS(x)?2(9)Neti1S()Ti1其中,为在任务学习后的解耦网络.1.3 增量知识构造EG RndES Rnd通过公共特征、类别特征解耦网络得到的特征和,本文设计通过衡量特征解耦网络得到的特征,并以其作为类别特征网络蕴含公共特征信息的置信度参数,将两个特征进行融合.具体的,本文采用 CKA(centeredkernelalignment)方法20,衡量来自

25、两个不同网络结构对同一数据源数据的特征相计算机系统应用http:/www.c-s-2023年第32卷第8期272研究开发ResearchandDevelopment似度:HSIC(K,L)=1(n1)2tr(K(EG,ES)L(EG,ES)(10)Sim(EG,ES)=CKA(EG,ES)=HSIC(K,L)HSIC(K,K)HSIC(L,L)(11)Kij(Ei,Ej),Lij(Ei,Ej)其中,是两个核函数,HSIC 是 Hil-bert-Schmidt 独立性准则.然后,通过得到的特征相似度为置信度参数,动态地结合类别特征和公共特征:E=Sim(EG,ES)ES(1Sim(E

26、G,ES)EG(12)1.4 遮蔽回放策略t(t 1)xi Tnttiwj在第个增量任务的学习过程中,本文在一定的训练间隔间采取回放的策略,并辅佐以额外的语言学习任务,促进模型通过少量回放案例能快速地回忆先前的知识.回放的样本是通过 K-means 的方法筛取样本,在筛选完样本后,本文根据样本在当前模型中的表征,随机选取词语作为遮蔽对象.具体的,在任务的训练回合结束后,通过 K-means 方法选取一部分样本作为样例(exemplar),然后通过 token 级别的随机遮蔽操作对词进行处理:tokeni=mask,p(tokenj)ktokeni=tokeni,p(tokenj)k(13)p

27、(tokenj)examplariwjkexamplari其中,为取得对样本的 token进行遮蔽操作的概率,若概率大于,则将原样例样本中该词进行遮蔽处理,随机替换成 mask 标签,并将遮蔽后的样本进行临时保存,以在之后的回放中进行预测学习.与传统的随机选取的样本回放的任务不同,基于预测遮蔽语言任务的遮蔽回放学习方法使模型通过预测遮蔽对象,从而在少量样本的回放学习过程中,快速“回忆”起先模型在先前任务上学习到的该领域的知识.模型对遮蔽词的预测通过交叉熵损失训练监督:Lm=E(x,y)Tnt(tokeni,mask,tokeni,mask)(14)模型总体训练优化目标是上述所有的损失的总和:L

28、=cLc+GLG+regLSreg+regLGreg+mLm(15)算法 1 展示了本文关于增量知识构造和基于遮蔽回放策略的类增量学习方法的完整过程.算法 1.增量知识构造和基于遮蔽回放策略算法(xj,yj)Ti输入:.NetG、NetSCls()输出:增量训练后的和模型.BeginseedG、seedS、seedClsseedDNetG、NetSCls()、NetD1.分别用随机种子和初始化、;TiTnt2.For增量任务doTi3.For增量任务的 epoch doti(xj,yj)4.从增量任务中选取一批数据;xjb xj5.随机对中的词进行遮蔽操作,得到;step=06初始化;st

29、ep!=0step%replayfrequency=07.Ifand(xj,yj)Ti18.从记忆池筛选一批exemplars9.将选取的 exemplars 与输入数据拼接;10.ElseEG11.通过式(1)得到公共特征;ES12.通过式(5)得到任务特征;EG、ES13.通过式(10)式(12),根据公共和任务特征得到增量特征 E;Cls()b y14.通过式(7)预测;NetDtokenmask15.通过式(2)预测;L16.通过式(15)计算损失;Lm17.根据损失与学习率更新模型的参数;step+=018.;19.End For20.选择 1%已训练过的数据作为 exempla

30、rs;21.通过式(13)得到遮蔽后的样本;22.End Form23.Return.End2实验分析本节中进行了完整的实验和分析.首先,讨论了本文的实施细节和训练细节.接下来,本文的实验结果与SOTA 方法进行了比较.最后,本文进行消融研究并对结果进行分析.2.1 模型实现在类增量学习的实验设置中,由于实际场景中任务的规模和数量是未知的.基于所有任务的验证集数据的最优超参数方法,例如网格搜索,是过于乐观的.在一定程度上,模型的规模与模型的性能是成正比的.所以通过上述的方法调整得到的模型并不具有代表性和说服力.结合以上原因,本文采用预训练的 BERT(https:/huggingface.co

31、/bert-base-uncased)为底层的特征提取器,并采用传统的线性层作为知识解耦网络,这样更具有说服力和通用性.分类器是由线性层与 Softmax激活函数组成.由于计算资源的限制,本文遵循 Huang 等人5的数据集设置.具体来说,本文对每个类别随机抽取 20002023年第32卷第8期http:/www.c-s-计算机系统应用ResearchandDevelopment研究开发273G、CPreg个训练实例.本文对表 1 所示的任务序列进行了实验.前 3 个是长度为 3 的任务序列,遵循 Huang 等人5的实验设置;其他是长度为 5 的任务序列,遵循 deMasson等

32、人16的实验设置.本文的实验环境为 11GB 内存的NVIDIA3080Ti 上进行.对于以前的任务的回放训练频率设置为每 10 个训练 step 一次.增量训练和回放训练中,batchsize 和最大序列长度分别为 8 和 256.超参数和都设置为 1.回放训练中,超参数设置为 2.0,当前任务训练中,则设置为 0.25.本文采用AdamW21作为模型的优化器.学习率和权重衰减分别被设置为 3E5 和 0.01.所有实验结果是 3 轮实验的平均.表 1增量实验的增量任务序列序列编号任务序列1AGNews Yelp Yahoo2Yelp Yahoo AGNews3Yahoo AGNews Ye

33、lp4AGNews Yelp Amazon Yahoo DBpedia5Yelp Yahoo Amazon DBpedia AGNews6DBpedia Yahoo AGNews Amazon Yelp7Yelp AGNews DBpedia Amazon Yahoo 2.2 实验分析Replay5,22:在 Finetune 方法的基础上,该方法在对新任务进行增量学习时,对以前的任务数据存储并对模型回放训练.MBPA5,23:该方法用情节性记忆模块来增强 BERT.其利用 K-近邻来选择在测试时用于局部适应的例子.LAMOL5,24:该方法提出同时学习任务并产生训练样本.模型学习生成用于样本

34、数据作为回放的伪样本.本文和 Sun 等人24一样用 Q&A 格式的数据来喂养 LAMOL.IDBR5:该方法用两个网络模块增强了 BERT,并用作持续学习文本分类问题.IDBR 也利用了数据重放的方法.L2P25:该方法使模型在不同的任务中动态地通过提示进行学习.该方法通过对提示词的优化,使得模型再数据回放时提升对模型预测的准确性.可以观察到,直接对不同任务的序列进行微调会遭受大量的遗忘,而在增量学习步骤中简单地存储和重放百分之一的示例,有助于防止灾难性的遗忘.另一种传统的增量学习方法,正则化,也在一定程度上缓解了灾难性遗忘.但是他们的整体性能下降了大约 10%.本文也将我们的方法与 SOT

35、A 方法进行了比较.本文为它们提供了一些额外的设置,如局部适应策略23等.为 IDBR 和 LAMOL 提供了额外的任务标识符,使其预测任务更加容易,IFCPR 仍然有一定的优势高过其他方法.可以观察到,即使没有任务标识符或测试时的额外局部适应方法,本文的方法也比所有基线方法高出 1 个百分点左右.此外,本文对类别特征网络以及增量知识构造环节的回归损失也进行了实验,从试验结果说明,对上述两个网络结构参数进行一定的约束也能有效地避免模型在增量任务序列中对先前任务的遗忘.本文在所有的增量任务序列中对方法进行测试与评估,表 2 和表 3 分别展示了模型在长度为 3 与 5 的类增量任务中的性能.本文

36、方法在准确率、遗忘率26方面一直优于所有比较的方法.平均遗忘率(averageforgettingrate,AFR)的定义如式(16)、式(17)所示:AFR=1i1i1j=1Fi,j(16)Fi.j=AccbestAcci,j,j i(17)Fi,jijAccbestijAcci,jij其中,表示在模型在结束任务的训练后,对之前学习的任务遗忘的程度.表示模型在学习任务之前,其在增量任务上取得的最佳测试精度.是学习任务后在任务上的测试精度.从实验结果可以看出:1)模型直接地在增量任务序列上进行微调会遭受较为严重的遗忘从而导致性能的下降,而在增量任务的训练过程中穿插少量地样本回放,即

37、便是百分之一的示例也有助于防止模型灾难性的遗忘.另一种传统的增量学习方法,即正则化方法,也能够在一定程度上缓解了灾难性遗忘.但是他们的总体表现下降了 10%左右.2)本文将 IKCMR 的方法与 SOTA 方法进行了比较,如表 4 所示.即便为 SOTA 提供了一些额外的设置,如为 IDBR方法和 LAMOL 方法提供了额外的任务标识符、为 MBPA 方法提供测试时的局部适应等使其预测任务更加容易,IKCMR 仍然以明显的优势胜过它们.可以观察到,即使没有任务标识符或测试的额外便利,本文的方法也比所有基线方法高出 1 个百分点.3)除了准确性之外,IKCMR 在新任务的遗忘方面也有更好的表现.

38、计算了 IKCMR 在新的增量步骤(任务)上训练后的遗忘率,如表 5 所示.IKCMR 的遗忘率在一些任务序列中对第一个所学任务的遗忘甚至接近零.即便增量任务序列的影响客观存在,IKCMR 在防计算机系统应用http:/www.c-s-2023年第32卷第8期274研究开发ResearchandDevelopment止遗忘的策略中也起到了很大作用.不难发现,即使某些任务的遗忘率大大增加(约 2%),模型的遗忘率仍能在一定范围内保持稳定.这充分证明了 IKCMR 能够在其他增量任务和数据回放期间进行学习和复习.表 2长度为 3 的增量任务序列实验(%)方法准确率平均准确率序列1序列2

39、序列3Finetune125.7936.5641.0134.45Regularization171.570.8872.9371.77Replay169.3270.2571.3170.29MBPA271.0971.2271.2071.17LAMOL271.2471.6271.3271.39IDBR171.8072.7273.0872.53L2P272.1173.0273.2072.78IKCMR73.4473.1373.2273.26Upper-bound174.1674.1674.1674.16表 3长度为 5 的增量任务序列实验(%)方法准确率平均准确率序列4序列5序列6序列7Finetun

40、e132.3732.2226.4430.1230.29Regularization172.2873.0372.9272.8972.78Replay168.2570.5270.2470.3369.84MBPA272.1972.5572.3472.1772.31LAMOL273.3873.4573.3573.3773.39IDBR172.6373.7273.2373.3473.23L2P273.6773.6173.6273.5373.60IKCMR73.7673.6573.6974.2473.84Upper-bound175.0975.0975.0975.0975.09表 4IKCMR 回归损失实

41、验(%)设置序列1序列2序列3LSregIKCMRw/o73.1272.3272.47LGregIKCMRw/o73.1172.7472.38LregIKCMRw/o72.8472.2072.29表 5IKCMR 对第 1 个任务的平均遗忘率(%)增量任务序列序列1 序列2 序列3 序列4 序列5 序列6 序列7平均遗忘率1.331.742.971.972.360.192.35 2.3 消融实验特征融合策略的影响:本文首先分析了方法的特征构建和遮蔽重放策略的组成部分,并展示了它们对最终性能的影响.所有这些消融研究都是在固定内存设置下进行的.本文评估了 7 种特征融合策略.IKCMRConcat

42、:该方法是直接地将类别特征和一般特征连接起来,重建最终的特征.其他模块保持不变.IKCMRcos:该方法中,本文利用余弦相似度来衡量类别特征和一般特征的差距,并将其作为重构特征的权重.其他模块保持不变.IKCMRdot:该方法中,本文使用类别特征与一般特征的点积得到的投影作为权重来重建特征.其他模块保持不变.IKCMRbilinear:该方法中,本文使用双线性插值的特征作为权重来重建特征.IKCMRpearson:该方法中,本文使用特征的皮尔逊相关系数作为权重来重建特征,而其他模块保持不变.IKCMReuc:该方法中,本文使用特征的欧氏距离作为权重来重建特征,而其他模块则保持不变.IKCMRC

43、KA:该方法中,本文使用特征的 CKA 距离作为向量的相关指数,并将其作为权重来重建特征,其他模块保持不变.实验结果如表 6 所示,特征融合策略使模型对不同的任务不敏感,导致了不同的性能,双线性插值的融合策略的融合效果最差.余弦的融合策略在短序列的任务上取得了较好的平均性能,我们认为基于角度的特征融合方法在任务序列较短时能取得较好的效果,但是在高相似度的较长的增量任务中,角相似度方法会造成严重的 CF 问题.欧氏距离判别法和皮尔逊系数法的性能较为稳定.本文采取的中心核对齐方法具有一定的不变性,是通过计算数据点之间的相似性得到的,其综合性能表现最好.表 6特征融合策略的消融实验(%)消融方法序列

44、1 序列2 序列3 序列4 序列5 序列6 序列7IKCMRConcat71.8072.7273.0872.6373.7073.2373.34IKCMRcos72.4572.8973.3874.0173.3673.4073.43IKCMRdot72.7572.8272.9673.7673.0873.1073.39IKCMRbilinear72.1972.4272.2872.4573.1073.1873.25IKCMRpearson72.4472.7972.9573.9174.1173.2973.79IKCMReuc72.1472.6172.8673.4774.1973.8173.28IKCMR

45、CKA73.4473.1373.2273.7673.6573.6974.24基于角度的特征融合方法在任务序列较短时能取得较好的效果,但是在高相似度的较长的增量任务中,角相似度方法会造成严重的 CF 问题.欧氏距离判别法和皮尔逊系数法的性能较为稳定.本文采取的中心核对齐方法具有一定的不变性,是通过计算数据点之间的相似性得到的,其综合性能表现最好.回放策略的影响:为了探究遮蔽重放策略对模型性能的影响,本文对传统的回放策略与遮蔽回放策略2023年第32卷第8期http:/www.c-s-计算机系统应用ResearchandDevelopment研究开发275进行消融实验.具体如下:传统的

46、回放策略、带有遮蔽语言模型任务的回放策略.关于回放策略的消融研究结果如表 7 所示.结果显示,采用遮蔽回放策略的 IKCMR有助于减轻遗忘的程度,这也验证了遮蔽回放策略对性能提升的有效性与必要性.在数据回放的采样效果是有限的前提下,在数据回放训练期间增加训练任务可以有效地提高样本的利用率.由此可以证明,本文的遮蔽回放策略能够使模型在有限的回放样本中恢复更多的记忆.表 7回放策略的消融实验(%)模型序列1 序列2 序列3 序列4 序列5 序列6 序列7IKCMRw/oMLM72.78 72.56 72.66 72.33 72.74 73.22 73.12IKCMR73.44 73.13 73.2

47、2 73.76 73.54 73.62 74.243结论与展望本文提出了一种面向自然语言处理的新型类增量学习方法.IKCMR 将特征以类为粒度进行解耦,并根据互补学习理论动态地重构特征,有效地缓解灾难性遗忘问题.同时,IKCMR 利用遮蔽回放的方法,快速调用以前任务的知识.在 5 个数据集上的实验表明,IKCMR在类增量学习任务上优于现有的最先进方法.进一步的分析表明,CKA 的融合策略可以在跨特征重建过程中提取并结合更多有用的信息,而遮蔽重放策略可以大幅提高增量学习的性能.我们相信,本文的方法可以扩展到 NLP 的其他增量学习任务,如关系提取和命名实体识别.本文计划对这些任务也进行进一步的研

48、究.参考文献McCloskey M,Cohen NJ.Catastrophic interference inconnectionist networks:The sequential learning problem.PsychologyofLearningandMotivation,1989,24:109165.1Li ZZ,Hoiem D.Learning without forgetting.IEEETransactionsonPatternAnalysisandMachineIntelligence,2018,40(12):29352947.doi:10.1109/TPAMI.201

49、7.27730812HintonG,VinyalsO,DeanJ.Distillingtheknowledgeinaneuralnetwork.arXiv:1503.02531,2015.3MasanaM,LiuXL,TwardowskiB,et al.Class-incrementallearning:Survey and performance evaluation on imageclassification.arXiv:2010.15277,2020.4HuangYF,ZhangYZ,ChenJA,et al.Continuallearningfortext classificatio

50、n with information disentanglement based5regularization.Proceedings of the 2021 Conference of theNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies.ACL,2021.27362746.KeZX,LiuB,HuangXC.Continuallearningofamixedsequenceofsimilaranddissimilartasks.Proceedingsofthe

邮箱/手机：
验证码：	获取验证码
温馨提示：	支付成功后，系统会自动生成账号（用户名为邮箱或者手机号，密码是验证码），方便下次登录下载和查询订单；
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？