1、第41卷第1期2024年1月新疆大学学报(自然科学版)(中英文)Journal of Xinjiang University(Natural Science Edition in Chinese and English)Vol.41,No.1Jan.,2024PCP-tuning:面向小样本学习的个性化连续提示调优刘 汀,蔡少填,陈小军,章 秦(深圳大学 计算机科学与技术系,广东 深圳 518071)摘要:随着“提示学习”的兴起,预训练语言模型在少样本学习中取得了显著的表现,其中的关键问题是如何为每个训练样本构建合适的提示 近年来研究人员提出了一系列提示构造方法,有的构造离散型的提示,有的构造
2、连续型的提示,但通常都是将一个提示应用到整个数据集上 然而,实验结果表明,很难找到一个能够适用于任务中所有样本的提示 为此,提出了一种用于小样本学习的个性化连续型提示调优方法(PCP-tuning),其目的是根据数据集中每个样本的语义来生成个性化的连续型提示 同时,还提出了两种校准技术来控制生成的连续型提示的分布,以获得更好的下游任务表现 最后在10个基准任务上进行大量实验,证明了新方法的优越性能关键词:自然语言处理;大型预训练模型;提示学习;文本分类DOI:10.13568/ki.651094.651316.2023.09.17.0001中图分类号:TP391.1;TP18文献标识码:A文章
3、编号:2096-7675(2024)01-0059-010引文格式:刘汀,蔡少填,陈小军,章秦 PCP-tuning:面向小样本学习的个性化连续提示调优J 新疆大学学报(自然科学版)(中英文),2024,41(1):59-68英文引文格式:LIU Ting,CAI Shaotian,CHEN Xiaojun,ZHANG QinPCP-tuning:personalized continuousprompt tuning for few-shot learningJJournal of Xinjiang University(Natural Science Edition in Chinese
4、andEnglish),2024,41(1):59-68PCP-tuning:Personalized Continuous Prompt Tuningfor Few-Shot LearningLIU Ting,CAI Shaotian,CHEN Xiaojun,ZHANG Qin(School of Computer Science and Technology,Shenzhen University,Shenzhen Guangdong 518071,China)Abstract:Pre-trained language models have achieved remarkable pe
5、rformance in few-shot learning with the riseof“prompt learning”,where the key problem is how to construct a suitable prompt for each example.Sample andprompt will be combined as a new input to language model(LM).A series of prompt construction methods havebeen proposed recently,some of these methods
6、 are for discrete prompt construction,and some focus on continuousprompt construction,both of them normally apply a unified prompt to all examples.However,the results showthat it is hard to find a perfect unified prompt that works for all examples in a task,one prompt can only helpLM assign the corr
7、ect class to some samples in the downstream classification task and give the wrong result toothers.To this end,we propose a novel personalized continuous prompt tuning(PCP-tuning)method to learnpersonalized prompts that are tailored to each samples semantic for few-shot learning.Two calibration tech
8、niquesare proposed to control the distribution of generated prompts for better prompts.Extensive experimental resultson ten benchmark tasks demonstrate the superior performance of our method.Key words:natural language processing;large scale pre-trained models;prompt learning;text classification0引 言大
9、量研究表明,基于循环网络和注意力模块的模型对序列型数据可以学习到很好的表达,且在基准测试中收稿日期:2023-09-17基金项目:国家自然科学基金“数据知识双驱动的小样本学习理论、方法及应用研究”(92270122);广东省自然科学基金面上项目“自监督聚类方法及理论研究”(2023A1515012584);深圳市基础研究面上项目“深度聚类算法及应用研究”(JCYJ20210324093000002)作者简介:刘汀(1998),男,硕士生,从事自然语言处理的研究,E-mail:通讯作者:陈小军(1981),男,博士,副教授,主要从事机器学习、数据挖掘的研究,E-mail:60新疆大学学报(自然科
10、学版)(中英文)2024年能取得优异的结果:艾山和曾蓉等使用LSTM进行专有领域的情感分类任务1和交通流预测2;谭勋和亚力青等在模型语义表达层面进行下游语义相似度分析3和文本过滤4;Raffel等提出超大数据量进行预训练的T5模型5 然而,现有的基于预训练语言模型的学习方法大多遵循先预训练再微调的范式,其中预训练和微调都需要使用大规模的标注训练数据集,会消耗大量的人力和计算资源 因此,使用有限的训练数据进行学习的少样本学习已经引起了越来越多的关注,如无监督学习、少样本学习和知识图谱6在少样本学习设置下,提示学习将下游任务视为缺失词语重组语言建模问题,通过预训练语言模型(PLMs)完成完形填空任
11、务达到语言模型获得语义知识的目的7,引起了研究者的强烈兴趣 例如,GPT-3就表现出令人印象深刻的少样本学习能力,仅使用16个标记样本就实现了80%的SOTA结果8“提示学习”的关键问题是如何构建合适的提示语(prompt)早期的工作使用人工设定的提示来提取语言模型中的相关知识9,然而想要写出一个有效的提示是十分困难的 随后,研究人员提出自动搜索提示的方法以提高提示设计的效率,并获得了广泛关注 一些研究通过将提示搜索问题重新定义为预测任务来搜索离散空间(词汇表中的单词)10,主要分为梯度信息引导11和外部大模型知识融入12,除此之外,还能进一步将逻辑规则13或知识图谱14纳入学习过程 最近的研
12、究也有转向学习连续提示嵌入的趋势15,这是因为与在离散的词库中寻找提示相比,在连续的词表达空间中学习提示更适合神经网络处理现有的提示学习方法通常对所有样本应用统一的提示,其中存在一个潜在的粗略一致性假设,即所有样本都偏向使用相同的提示 然而,这种假设是有风险的 如图1所示的例子中,很难找到适用于任务中的所有样本的单一提示 虽然有研究人员提出集成来自多个提示的结果以获得更好的预测结果16,但在实际任务中如何选取基准提示及如何集成都是需要考虑的复杂问题图 15个离散型提示在SST-2中随机抽样的10个样本上的预测结果基于上述发现,本文提出了一种用于小样本学习的个性化连续型提示调优方法(PCP-tu
13、ning),其目的是根据数据集中每个样本的语义来生成个性化的连续型提示 该方法通过考虑每个样本的语义特征来训练一个叫提示生成器的网络以生成个性化提示,采用分布校准和多样性校准对生成的提示做进一步调整本文的主要贡献包括3个方面:1)针对任务中每个特定样本的提示,提出了弱一致性假设,减少了以往统一任务级提示的粗略一致性假设;2)提出了两种校准技术来控制生成的样本提示的分布,多样性校准迫使提示在单个样本上是多样化的,分布校准迫使提示表达近似于高斯分布,以更好地模拟提示的弱一致性,这两种技术都为快速校准提供了一个有趣的研究方向;3)在10个公共benchmark上进行的详细实验表明,新方法几乎在所有任
14、务上都优于现有方法1相关工作1.1语言模型提示最近,GPT-38等大规模PLMs的出现证明了通过任务级提示进行少样本学习的巨大潜力LM-BFF12进一步将GPT-3中的提示学习方法应用于中等大小的语言模型,并在广泛的NLP任务中实现了与大型GPT-3模型相当的性能早期的提示学习工作通常使用人工设计提示来提取语言模型中的相关知识10 为了提高提示设计的效率,自动搜索提示方法得到了广泛的探索Schick等将提示学习问题重新表述为解决完形填空式问题9,进一步将第1期刘 汀,等:PCP-tuning:面向小样本学习的个性化连续提示调优61潜在的NLP任务重新表述为蕴涵任务10Shin等建议将下游任务重
15、新表述为预测任务,这可以通过基于梯度搜索来获得最优解11Han等将逻辑规则纳入提示学习13,而Hu等将知识图谱纳入提示学习14Gao等利用T5模型自动生成提示12 然而,上述方法都是在离散空间(词汇表中的单词)中搜索提示,由于提示表达空间的连续性,这样只能搜索到次优的提示为了克服上述限制,最近的研究开始学习连续型提示表达,这更适合神经网络Liu等使用LSTM学习连续提示嵌入16Zhong等将提示调优结合进事实探测任务中15Liu等提出P-Tuning来自动搜索连续的提示嵌入,以弥补GPT在NLU任务中的缺陷16Li等提出了Prefix-tuning17,可以应用于NLG任务Lester等简化了
16、Prefix-tuning方法18,且证明了微调的性能随着模型大小的增长而下降Gu等在正式进行提示微调前先对提示表达进行预训练以获得更好的初始提示19Zhong等提出将下游自然语言处理任务融合进语言模型的预训练任务中,发现集成多个提示的预测结果可以获得更好的性能15 但是上述方法通常对所有样本应用同一个提示,这样会忽略不同样本之间存在的语义特征差别 虽然可以为一个数据集生成多个提示最终集成来自多个提示的结果以获得更好的性能,但提示挑选和集成方法的选择是一项复杂的工作 本文提出了一种资源节约又简单高效的方法,根据样本的语义特征生成特定于样本的提示1.2少样本学习少样本学习的主要目标是使用少量的训
17、练样本来达到语言模型到下游任务的迁移 常用的少样本学习方法包括:1)半监督学习,它利用了标记7和未标记的示例20;2)元学习,这是一种通用的学习范式,在训练中不断为模型提供新的任务场景21、新的类别22或者新的数据分布23进行训练 这些方法可以与提示学习结合使用,以获得更好的性能2问题定义2.1少样本训练定义给定一个已经过预训练的语言模型LM,一个有标签且标签空间为Y的数据集Dtrain=(xi,yi)Ktotali=1,其中Ktotal=K|Y|(K通常很小),即Dtrain中每个类包含K个训练样本小样本学习目的是在数量少的训练集Dtrain上学习到能够很好地推广到测试集的模型参数同时需要一
18、个与训练集大小相同的开发集Ddev来实现模型和超参数的选择,即|Ddev|=|Dtrain|.2.2任务级连续型提示学习定义任务级样本连续型提示学习是目前常用的学习范式 给定一个输入xin=x1,x2,xL,其中:xi是输入文本样本的第i个词元(token),L是词元的总数 首先,将xin转换为词元id序列 x,再使用语言模型LM将 x映射到词元表达hiRdLi=1 在任务级连续型提示学习中,会有一个统一应用于所有样本的提示T 用于将输入xin转化为xprompt,xprompt是带有MASK标记的输入 然后将xprompt输入到语言模型中对MASK进行填空xprompt通常定义为xpromp
19、t=CLSxinSEPT SEP(1)在输入为句子对的任务中,假设xin=(xi,xj)是输入句子对,那么xprompt通常定义为xprompt=CLSxiSEPT SEPxjSEP(2)提示T可以表示为T=v1:j,MASK,vj+1:k,其中:vi是提示的第i个词元,k是提示的长度 因为LM是采用遮蔽词语重组进行语言建模的语言模型(masked language modeling),所以提示中会包含一个MASK词元 用V来表示LM的词列表,并以M:Y V成为从任务标签空间Y到语言模型单词表空间V的映射 然后原任务可以看作语言模型对于输入xprompt在y Y标签空间的分类问题,即p(y|x
20、in)=p(MASK=M(y)|xprompt)=exp(wM(y)hMASK)PyYexp(wM(y)hMASK)(3)其中:wv表示词表v V对应的pre-softmax向量,hMASK对应的是xprompt输入MASK标记处的隐藏向量 最后通过最小化交叉熵损失来对LM进行微调62新疆大学学报(自然科学版)(中英文)2024年2.3特性化连续型提示学习定义本文提出了一种新的学习范式,即个性化连续型提示学习,它为每个样本学习个性化的提示 如在单句类型任务中,将原输入样本xin通过加入提示重构为新的输入xpromptxprompt=CLSxinSEPT(xin)SEP(4)其中T(xin)是给
21、定输入xin得到的个性化提示相应的,在句子对类型任务中,将xin=(xi,xj)用以下格式重构为xpromptxprompt=CLSxiSEPT(xin)SEPxjSEP(5)接着通过最小化公式(3)中的预测概率p(y|xin)与真实样本之间的交叉熵损失来微调语言模型3个性化连续型提示调优现有的提示学习方法通常对任务内所有样本应用统一的提示,其中存在潜在的粗略一致性假设:所有样本可以共享相同的提示 然而,由图1可知,这种假设是有风险的 因此,本文尝试根据每个样本的语义信息来学习一个个性化的提示,提出了如图2所示的个性化连续型提示学习框架来训练一个个性化连续型提示生成器 同时,本文进一步提出了两
22、种校准技术来调整提示生成器的输出:1)多样性校准迫使提示在样本之间多样化;2)分布校准强制提示的分布近似于特定分布,以便更好地模拟提示的一致性 接下来,将详细介绍提示生成器和两个校准模块 最后,将给出训练目标的公式定义图 2本文提出的PCP-tuning框架3.1提示生成器个性化连续型提示学习的基本步骤在2.3节中已定义本文设计了一个用参数化的个性化提示生成器网络PG(.;),其将为每个输入xin生成它对应的个性化提示PG(xin;)则xprompt可表示为xprompt=CLSxinSEPPG(xin;)SEP(6)对应句子对类型的输入xin=(xi,xj)则为xprompt=CLSxiSE
23、PPG(xin;)SEPxjSEP(7)基于Liu等的研究16,提示内每个向量不应该相互独立,所以本文选择双向长短期记忆网络(LSTM),结合使用了ReLU激活的两层多层感知器(MLP)来作为提示生成器的架构3.2多样性校准受到对比学习的启发2425,本文将对比学习应用于多样性校准模块中 与以往方法仅对模型输出进行对比损失计算不同26,本文引入对比损失,旨在使不同样本所对应的提示之间呈现多样性 具体而言,给定一个第1期刘 汀,等:PCP-tuning:面向小样本学习的个性化连续提示调优63输入xin,多样性校准的损失Ld(xin)定义为Ld(xin)=logexp(s(PG(xin;),PG(
24、x+in;)/)PxinBexp(s(PG(xin;),PG(xin;)/)(8)其中:s()是余弦相似度函数,用于计算两个提示表达之间的相似度,是对比学习的温度控制系数x+in是通过往返翻译(英文-中文-英文)xin得到的增强样本BS=BSB+,B是训练中每批的训练样本集合,B+则是B对应的所有增强样本3.3分布校准为了防止提示分布过于无序,提出了分布校准模块,以强制提示分布近似于特定的分布,从而更好地对提示的一致性进行建模 使用高斯分布作为目标分布,也可以考虑其它分布,如长尾分布 分布校准策略分为两种:1)预校准使用精心选择的离散提示对提示生成器进行预训练;2)后校准对提示发生器输出的提示
25、进行校准 两种策略的详细步骤如下预校准 此策略在开始正式训练前,先使用一个优秀的离散提示Tt预训练提示生成器PG(.;)给定输入样本xinDtrain,预训练通过最小化以下损失进行的优化Lpdc(xin)=XxinDtrainMSE(PG(xin;),h(Tt)(9)其中h(Tt)是离散提示Tt相应的表达张量预训练后的提示生成器将生成近似服从于高斯分布(h(Tt),2)的提示,方差2反映了生成提示的多样性预校准在整个少样本学习过程正式开始之前进行 因此,也可以将其视为提示生成器的热身步骤 在此策略中,选择合适的目标提示Tt非常重要 本文使用的Tt来自于LM-BFF17中生成的提示后校准 该策略
26、的做法是引入额外的离散提示来对提示生成器的输出进行后处理,让输出近似于高斯分布假设有一个优秀的离散提示Tt,便可以通过以下公式获得校准后的提示Tc=h(Tt)+PG(x;),其中是控制离散提示表达张量和提示生成器输出的提示之间的混合程度Tc近似服从于高斯分布N(h(Tt),2),高斯分布的方差项2由提示生成器的输出来控制与预校准类似,选择合适的离散提示Tt在此策略中也很重要本文提出了两种简单有效的方法来解决这个问题:1)精心设计好的离散提示;2)由简单词汇随机组合成的离散提示 虽然选择设计好的离散提示是合理的,并且还有性能保证,但对于全新的任务,设计好的离散提示就没那么容易获得 所以本文提出了
27、另一种简单有效的方法,只需在多个常用单词或符号(如“the”“a”“.”等)随机排列组合成的序列中随机位置插入MASK词元便可作为离散提示使用,且可以在句子分类任务中获得与精心设计好的离散提示相当的性能3.4训练目标给定一个输入xin,提示生成器的损失函数为LS(xin,yin)=CE(p(yin|xin)(10)其中CE为交叉熵损失结合了多样性损失函数后,整个xin的损失函数为L(xin,yin)=LS(xin,yin)+Ld(xin)(11)其中是超参数最后,对语言模型LM(.;W)和PG(.;)进行微调,W=arg m,W(1/Ktotal)XxinDtrainL(xin,yin)(12
28、)64新疆大学学报(自然科学版)(中英文)2024年4实 验4.1实验设置场景任务 本文对GLUE27的10个公共基准任务进行了全面评估,包括单句分类任务:SST-2,MR,CR28,Subj,TREC29,MPQA30;句子对类型分类任务:MNLI,SNLI,QNLI,MRPC 这些任务都与对比算法P-TuningV116保持一致,以便可以对结果进行公平合理的比较基线(baselines)分为三种类型:1)无提示,在少样本或者全样本的环境设置下,直接微调更新整个语言模型的所有参数;2)人工提示,使用一个固定的人工提示来协助语言模型微调,与GPT-3中的零样本学习、上下文情景学习一致;3)可学
29、习提示,LM-BFF12是一种经典的离散提示学习方法P-Tuning V116和DART则是连续型提示学习的代表评估指标(metrics)本文根据准确性(Acc)和F1指数来评估模型的性能实现环境细节 基于Intel(R)Xeon(R)Platinum 8255C CPU和Nvidia V100 GPU 代码在PyTorch31上实现实验的基本设置与LM-BFF12和DART相同 模型性能表现评估方面,对于每个任务,使用了5个固定的随机种子Sseed=13,21,42,87,100分别进行实验,最终表现取5个精度的平均值 并使用RoBERTa-large作为基座语言模型4.2主要结果表1展示了
30、PCP-tuning的下游任务分类结果以及同任务下相关对比算法的实验结果PCP-tuning在除MPQA之外的所有任务上都优于其它方法 与排名第二的结果相比,新方法在Subj和TREC任务上获得了2.1%的性能提升,在QNLI任务上提升了6.1%,在MRPC任务上提升了3.1%这证明了个性化提示学习针对少样本学习问题的有效性 实验发现新方法在MPQA任务上表现不佳,通过分析发现该任务中样本输入的句子非常短(每条输入长度小于5个词汇),这极大程度阻碍了需要从输入中提取语义信息的提示生成器训练 然而,与使用T5模型作为提示生成器的LM-BFF相比,新方法引入的提示生成器是非常轻量级的,极大程度节省
31、了计算成本表 1PCP-tuning在10个基准任务上的结果方法SST-2(准确率)MR(准确率)CR(准确率)Subj(准确率)TREC(准确率)多数分类法a50.950.050.050.018.8零样本提示学习b83.680.879.551.432.0“GPT-3”情景学习84.8(1.3)80.5(1.7)87.4(0.8)54.6(1.0)26.2(2.4)少样本微调81.4(3.8)76.9(5.9)75.8(3.2)90.8(1.8)88.8(2.1)全样本微调a95.090.889.497.097.4LM-BFF方法92.3(1.0)85.5(2.8)89.0(1.4)91.2(
32、1.1)88.2(2.0)P-Tuning方法92.2(0.4)86.7(1.2)91.8(1.1)90.3(2.2)86.3(4.5)DART方法93.5(0.5)88.2(1.0)91.8(0.5)90.7(1.4)87.1(3.8)PCP-tuning(预校准)94.0(0.5)89.8(0.7)92.2(0.5)93.3(0.7)90.0(2.2)PCP-tuning(后校准)94.2(0.5)89.8(0.6)92.0(0.8)92.8(0.7)89.8(3.3)方法MPQA(准确率)MNLI(准确率)SNLI(准确率)QNLI(准确率)MRPC(准确率)多数分类法a50.032.7
33、33.849.581.2零样本提示学习b67.650.849.550.861.9“GPT-3”情景学习63.8(2.1)52.0(0.7)47.1(0.6)53.8(0.4)45.7(6.0)少样本微调72.0(3.8)45.8(6.4)48.4(4.8)60.2(6.5)76.6(2.5)全样本微调a87.889.892.693.391.4LM-BFF方法85.8(1.9)68.3(2.5)77.2(2.1)68.3(7.4)76.2(2.3)P-Tuning方法74.1(5.3)61.5(2.1)72.3(3.0)64.3(2.8)74.5(7.6)DART方法80.7(4.4)67.5(
34、2.6)75.8(1.6)66.7(3.7)78.3(4.5)PCP-tuning(预校准)80.5(4.3)67.2(2.9)78.1(1.2)74.4(3.9)81.4(1.1)PCP-tuning(后校准)81.5(4.0)68.6(3.0)78.4(2.3)73.5(4.2)79.9(1.4)注:a为全样本设置,b为零样本设置 本文为所有任务设置K=16(每个类样本个数)第1期刘 汀,等:PCP-tuning:面向小样本学习的个性化连续提示调优654.3消融实验表2展示本方法的消融实验结果 表中方法缩写对照如下:D为多样性校准(Diversity calibration),WR为预校准
35、(Well-designed prompt for pRe-calibration,高质量离散提示),WO为后校准(Well-designed prompt forpOst-calibration,高质量离散提示),SO为后校准(Simple-words prompt for pOst-calibration,简单词汇随机排列离散提示)可以看到,引入校准模块确实可以提高性能 在CR、QNLI和MRPC任务上使用D+WR的组合为最优解,在SST-2和MR任务上D+WO表现最佳 由此推测,D+WR可能更适合单句类型任务,而D+WO可能更适合句子对类型任务 虽然D+SO没有优于其它策略,但它在大多数
36、任务上都能产生相当的结果 考虑到其简单又节省计算成本的特性,它将是成本敏感型任务的不错选择表 2在SST-2、MR、CR、QNLI和MRPC任务上的消融实验结果方法SST-2MRCRQNLIMRPC无92.3(0.5)87.7(1.1)89.8(1.2)64.5(4.4)78.3(2.0)D93.5(0.8)89.0(0.3)91.6(2.2)72.4(5.3)80.3(1.3)D+WR94.0(0.5)89.8(0.7)92.2(0.5)74.4(3.9)81.4(1.1)WO93.6(0.7)88.3(0.6)91.1(2.1)72.8(3.6)79.7(2.2)D+WO94.2(0.5)
37、89.8(0.6)92.0(0.8)73.5(4.2)79.9(1.4)D+SO93.8(0.3)89.3(0.4)91.6(1.9)66.6(2.1)78.7(3.1)4.4超参数分析与可视化本文进行了一系列实验来进行超参数的选择和生成提示分布的可视化提示长度 设置为pl=1,3,5,10,并在表3中展示不同长度的提示在两个任务上的结果 由表3可知,提示太长会导致性能下降SST-2任务使用长度为3的提示最佳,MR任务最佳则为1,这表明不同的任务提示长度设置需要额外考虑表 3不同提示长度的实验结果pl提示结构SST-2MR1v1,MASK90.8088.603v1,v2,MASK,v392.3
38、087.705v1,v4,MASK,v591.3286.5310v1,v9,MASK,v1090.9886.86超参数和灵敏度分析 新方法引入了超参数控制预校准中离散提示和生成连续提示的混合程度,而超参数则权衡下游任务的有监督损失和多样性校准模块损失 如图3所示,过大或过小的和都会导致模型性能的下降,最优的超参数设置是=1、=10图 3超参数和不同取值时在QNLI任务上对应的精度曲线类样本个数K.表4展示了使用不同类样本个数K的小样本数据集对模型性能的影响 可知在所有方法上随着K的增大,模型性能会提高,并且新方法在所有K设置下都优于其它方法66新疆大学学报(自然科学版)(中英文)2024年表
39、4K取值为8、16、32时在Subj、QNLI、MRPC任务上的结果任务方法K=8K=16K=32Subj微调87.7(2.5)90.8(1.8)92.3(2.1)DART方法87.5(2.3)90.7(1.4)91.4(1.5)本文方法88.6(1.0)92.8(0.7)93.5(1.1)QNLI微调63.0(4.4)60.2(6.5)74.4(2.3)DART方法62.1(2.0)66.7(3.7)71.4(4.6)本文方法64.9(3.2)73.5(4.2)75.9(3.6)MRPC微调74.1(5.3)76.6(2.5)77.0(5.8)DART方法76.7(3.8)78.3(4.5)
40、80.4(2.5)本文方法78.3(2.3)79.9(1.4)83.2(1.2)提示分布可视化 为了展示训练优化不同阶段PCP-tuning方法生成的连续提示分布的演变,本文使用提示生成器结合后校准与多样性校准,在QNLI数据集上进行了提示微调 图4为训练步推进生成的提示降维可视化分布 优化前的提示分布呈U形,通过分析这是由BiLSTM网络的特定结构引起的 随着训练的进行,分布趋近于高斯分布 此外还形成了许多局部密集的簇,这也证明提示分布具有局部相似性图 4生成的提示分布随着训练推进的变化4.5示例和提示之间的一致性分析为了研究提示表达和输入表达之间的一致性,本文设计了一致性指标CC=1(1/
41、K2total)xiin,xjinDtrainkSI(xiin,xjin)SP(xiin,xjin)k(13)其中:SI(xiin,xjin)是两个输入xiin和xjin之间的余弦相似度(xiin是第i个输入标记),而SP(xiin,xjin)是提示生成器为样本xiin和xjin生成的两个提示表达之间的余弦相似度,如图5所示,随着下游任务的有监督训练推进,一致性指标C增加,且损失函数值相应减小,这表明相似的样本使用相似的提示将会获得更好的性能 这将为未来提示学习工作提供重要的参考图 5C和损失值变化曲线5总 结本文提出了一种新颖的个性化连续型提示学习方法(PCP-tuning),用于少样本学习
42、任务PCP-tuning通过优化一个轻量级提示生成器来学习生成适应各个样本的提示 为了更好地控制生成的提示分布,提出了两种提第1期刘 汀,等:PCP-tuning:面向小样本学习的个性化连续提示调优67示校准策略:多样性校准使针对不同样本的提示表达具有多样化,分布校准则让提示表达近似服从于高斯分布以更好地模拟生成的提示之间的一致性 大量的实验结果验证了新方法的有效性本文提出的PCP-tuning方法在分布校准模块需要使用额外的离散提示来协助提示生成器的训练,未来将研究新的提示生成器,在不依赖离散提示的前提下直接生成个性化提示参考文献:1艾山吾买尔,魏文琳,早克热卡德尔 基于BiLSTM+Att
43、ention的体育领域情感分析研究J 新疆大学学报(自然科学版)(中英文),2020,37(2):142-149AISHAN W,WEI W L,ZAOKERE KSentiment analysis based on BiLSTM+Attention in sports fieldJJournal of XinjiangUniversity(Natural Science Edition in Chinese and English),2020,37(2):142-149(in Chinese)2曾蓉,黄德启,魏霞,等 改进WOA优化LSTM神经网络的短时交通流预测J 新疆大学学报(自然科学
44、版)(中英文),2022,39(2):242-248ZENG R,HUANG D Q,WEI X,et alShort-term traffic flow forecast based on modified WOA optimized LSTM neuralnetworkJJournal of Xinjiang University(Natural Science Edition in Chinese and English),2022,39(2):242-248(in Chinese)3谭勋,吐尔根依布拉音,艾山吾买尔,等 基于相似度计算的维吾尔语词聚类J 新疆大学学报(自然科学版),20
45、12,29(1):104-107TAN X,TUERGEN Y,AISHAN W,et alUygur words clustering based on the similarity calculationJJournal of XinjiangUniversity(Natural Science Edition),2012,29(1):104-107(in Chinese)4亚力青阿里玛斯,哈力旦阿布都热依木,陈洋基于向量空间模型的维吾尔文文本过滤方法J新疆大学学报(自然科学版),2015,32(2):221-226YALIQING A,HALIDAN A,CHEN YUygur text
46、 filtering based on vector space modelJJournal of Xinjiang Univer-sity(Natural Science Edition),2015,32(2):221-226(in Chinese)5RAFFEL C,SHAZEER N,ROBERTS A,et alExploring the limits of transfer learning with a unified text-to-text trans-formerEB/OL2019:arXiv:1910.10683http:/arxiv.org/abs/1910.10683.
47、pdf6SUI D B,CHEN Y B,MAO B J,et alKnowledge guided metric learning for few-shot text classificationC/Proceedingsof the 2021 Conference of the North American Chapter of the Association for Computational Linguistics:Human LanguageTechnologiesOnlineStroudsburg,PA,USA:Association for Computational Lingu
48、istics,2021:3266-32717LIU P F,YUAN W Z,FU J L,et alPre-train,prompt,and predict:A systematic survey of prompting methods in naturallanguage processingJACM Computing Surveys,2023,55(9):1958BROWN T B,MANN B,RYDER N,et alLanguage models are few-shot learnersC/Proceedings of the 34th InternationalConfer
49、ence on Neural Information Processing SystemsDecember 6-12,2020,Vancouver,BC,CanadaACM,2020:1877-19019SCHICK T,SCHUTZE HExploiting cloze-questions for few-shot text classification and natural language inferenceC/Proceed-ings of the 16th Conference of the European Chapter of the Association for Compu
50、tational Linguistics:Main VolumeOnlineStro-udsburg,PA,USA:Association for Computational Linguistics,2021:255-26910SCHICK T,SCHUTZE HIts not just size that matters:Small language models are also few-shot learnersC/Proceedingsof the 2021 Conference of the North American Chapter of the Association for