收藏 分销(赏)

基于prompt tuning的中文文本多领域情感分析研究.pdf

上传人:自信****多点 文档编号:2121337 上传时间:2024-05-16 格式:PDF 页数:12 大小:1.86MB
下载 相关 举报
基于prompt tuning的中文文本多领域情感分析研究.pdf_第1页
第1页 / 共12页
基于prompt tuning的中文文本多领域情感分析研究.pdf_第2页
第2页 / 共12页
基于prompt tuning的中文文本多领域情感分析研究.pdf_第3页
第3页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 基于p r o m p t t u n i n g的中文文本多领域情感分析研究*赵文辉1,吴晓鸰1,凌 捷1,HOON H e o2(1.广东工业大学计算机学院,广东 广州 5 1 0 0 0 6;2.三星电机,韩国 水原 1 6 6 7 4)摘 要:不同领域的情感文本表达方式不一样,通常需要为各个领域训练相应的情感分析模型。针对无法用一个模型进行高效多领域情感分析的问题,提出了基于提示微调(p r o m p t t u n i n g)的多领域文本情感分析方法M S A P T。借助h a r d p r o m p t,指示情感文本的所属领域和待选的情感标签,调动不同领域情感分析相关的

2、知识,再为情感分析预训练一个统一的“通才模型”,在下游的各领域文本学习中,保持模型冻结,通过p r o m p t t u n i n g使模型学习到下游各领域情感文本的特征。M S A P T仅需保存一个模型和一些参数量远远小于模型的p r o m p t,实现了多领域情感分析。在多个属于不同领域的情感文本数据集上进行实验,结果表明仅进行p r o m p t t u n i n g时,M S A P T效果优于模型微调(m o d e l t u n i n g)的。最后,分别对适应特定领域的p r o m p t t u n i n g、h a r d p r o m p t、s o f

3、 t p r o m p t的长度和中间训练数据集的大小进行消融实验,从证明其对情感分析效果的影响。关键词:多领域情感分析;提示微调;预训练语言模型;T 5中图分类号:T P 3 9 1文献标志码:Ad o i:1 0.3 9 6 9/j.i s s n.1 0 0 7-1 3 0 X.2 0 2 4.0 1.0 1 9M u l t i-d o m a i n s e n t i m e n t a n a l y s i s o f C h i n e s e t e x t b a s e d o n p r o m p t t u n i n gZ HAO W e n-h u i1,W

4、U X i a o-l i n g1,L I NG J i e1,HOON H e o2(1.S c h o o l o f C o m p u t e r S c i e n c e a n d T e c h n o l o g y,G u a n g d o n g U n i v e r s i t y o f T e c h n o l o g y,G u a n g z h o u 5 1 0 0 0 6,C h i n a;2.S a m s u n g E l e c t r o-m e c h a n i c s,S u w o n 1 6 6 7 4,K o r e a)A

5、 b s t r a c t:T h e e x p r e s s i o n o f s e n t i m e n t t e x t s i n d i f f e r e n t d o m a i n s a r e d i f f e r e n t,s o i t i s u s u a l l y n e c e s-s a r y t o t r a i n t h e c o r r e s p o n d i n g s e n t i m e n t a n a l y s i s m o d e l f o r e a c h d o m a i n.I n o r

6、 d e r t o s o l v e t h e p r o b l e m t h a t o n e m o d e l c a n n o t b e u s e d f o r m u l t i-d o m a i n s e n t i m e n t a n a l y s i s,t h i s p a p e r p r o p o s e s a m u l t i-d o m a i n t e x t s e n t i m e n t a n a l y s i s m e t h o d b a s e d o n p r o m p t t u n i n g

7、,c a l l e d M S A P T.W i t h t h e h e l p o f h a r d p r o m p t s,i n d i c a t i n g t h e d o m a i n o f t h e e m o t i o n a l t e x t a n d t h e s e l e c t e d e m o t i o n a l l a b e l s,t h e m o d e l i s p r o m p t e d t o d r a w o n i t s k n o w l e d g e o f d i f f e r e n t

8、 d o m a i n s e n t i m e n t a n a l y s i s.T h e n,a u n i f i e d g e n e r a l i z e d m o d e l i s p r e t r a i n e d f o r s e n t i m e n t a l a n a l y s i s.I n d o w n s t r e a m l e a r n i n g o f v a r i o u s d o m a i n t e x t s,t h e m o d-e l i s f r o z e n a n d p r o m p t

9、 t u n i n g i s u s e d t o m a k e t h e m o d e l l e a r n t h e c h a r a c t e r i s t i c s o f e m o t i o n a l t e x t i n e a c h d o w n s t r e a m d o m a i n.M S A P T o n l y r e q u i r e s s a v i n g a m o d e l a n d s o m e p r o m p t s w i t h f a r f e w e r p a-r a m e t e r

10、 s t h a n t h e m o d e l f o r m u l t i-d o m a i n s e n t i m e n t a n a l y s i s.E x p e r i m e n t s w e r e c o n d u c t e d u s i n g m u l t i-p l e d a t a s e t s o f e m o t i o n a l t e x t i n d i f f e r e n t f i e l d s,a n d t h e r e s u l t s s h o w t h a t M S A P T o u t

11、 p e r f o r m s m o d e l f i n e-t u n i n g w h e n o n l y p r o m p t e d t u n i n g i s a p p l i e d.F i n a l l y,t h e l e n g t h o f p r o m p t t u n i n g,h a r d p r o m p t a-d a p t e d t o s p e c i f i c d o m a i n s,s o f t p r o m p t a n d t h e s i z e o f i n t e r m e d i a

12、 t e t r a i n i n g d a t a s e t a r e a b l a t e d r e s p e c-t i v e l y,t o p r o v e t h e i r i m p a c t o n t h e e f f e c t i v e n e s s o f s e n t i m e n t a n a l y s i s.*收稿日期:2 0 2 2-0 6-2 0;修回日期:2 0 2 2-1 2-1 4基金项目:广东省国际科技合作领域项目(2 0 1 9 A 0 5 0 5 1 3 0 1 0);工业装备质量大数据工业和信息化部重点实验室

13、开放课题(2 0 2 1-1 E Q B D-0 2)通信作者:吴晓鸰(1 1 0 0 9 5 9 9q q.c o m)通信地址:5 1 0 0 0 6 广东省广州市番禺区大学城广东工业大学计算机学院A d d r e s s:S c h o o l o f C o m p u t e r S c i e n c e a n d T e c h n o l o g y,G u a n g d o n g U n i v e r s i t y o f T e c h n o l o g y,H i g h e r E d u c a t i o n M e g a C e n t e r,P

14、 a n y u D i s t r i c t,G u a n g z h o u 5 1 0 0 0 6,G u a n g d o n g,P.R.C h i n a C N 4 3-1 2 5 8/T PI S S N 1 0 0 7-1 3 0 X 计算机工程与科学C o m p u t e r E n g i n e e r i n g&S c i e n c e第4 6卷第1期2 0 2 4年1月 V o l.4 6,N o.1,J a n.2 0 2 4 文章编号:1 0 0 7-1 3 0 X(2 0 2 4)0 1-0 1 7 9-1 2K e y w o r d s:m

15、u l t i-d o m a i n s e n t i m e n t a n a l y s i s;p r o m p t t u n i n g;p r e-t r a i n e d l a n g u a g e m o d e l(P LM);T 51 引言随着互联网的发展,人们生活的各个领域都与互联网产生了紧密的联系,人们会在各个互联网平台发表评论。通过分析这些文本中的情感倾向,挖掘有价值的信息,是自然语言处理中一个重要的研究方向。目前情感分析方法主要基于情感词典、机器学习和深度学习。深度学习常用的神经网络模型有卷积神 经 网 络C NN(C o n v o l u t i

16、o n a l N e u r a l N e t-w o r k)、循 环 神 经 网 络R NN(R e c u r r e n t N e u r a l N e t w o r k)、长短期记忆L S TM(L o n g S h o r t-T e r m M e m o r y)网络和门控循环单元G RU(G a t e d R e-c u r r e n t U n i t)。这些模型均被广泛应用到情感分析任务中。K a l c h b r e n n e r等1提出把 C NN 应用于自然语言处理,并设计了一个动态卷积神经网络模型,以处理不同长度的文本。M o n i k a等

17、2提出使用循环神经网络模型R NN对序列信号进行建模,通过在网络模型中引入记忆单元来处理长期依赖关系,同时能避免R NN 的梯度消失问题。近年来,预 训 练 语 言 模 型P LM(P r e-t r a i n e d L a n g u a g e M o d e l)飞 速 发 展,相 继 提 出 了B E R T(B i d i r e c t i o n a l E n c o d e r R e p r e s e n t a t i o n s f r o m T r a n s f o r m e r s)3、R o B E R T a(R o b u s t l y o p

18、t i m i z e d B E R T p r e t r a i n i n g a p p r o a c h)4和T 55等 基 于T r a n s f o r m e r的模型。因为P LM通过自注意力机制解决一词多义的问题,同时还能捕获词与词、句与句之间的高维情感特征,加上巨大的模型规模与从大规 模预训练语 料中获得的 通用知识,微调P LM的全模型参数后进行情感分析取得了非常优异的性能,成为了情感分析的主流方法6 8。M a n等9提出使用B E R T模型作为文章特征提取模型,并利用深度卷积神经网络提取文章的局部信息,效果好过传统深度学习模型的。梅侠峰等1 0提出了结合A

19、L B E R T(A L i t e B E R T)和B i F A S RU-AT(B i d i r e c t i o n a l b u i l t-i n F a s t A t t e n t i o n S i m p l e R e-c u r r e n t U n i t-AT t e n t i o n)的情感分析模型,借助预训练模型赋予词上下文动态语义,解决了一词多义问题;再采用双向内置快速注意力简单循环单元B i F A S RU对上下文进行建模,模型获得了较高的F1值。然而,情感文本的表达方式与文本所属领域密切相关,不同领域的情感描述之间有着明显的差别。例如,“

20、这真的把我看哭了。”这句话,描述一部电影可能是感动而哭的积极评价,而若是放在餐饮领域,则可能是因为菜品卖相太差的消极评价。因此,直接将某特定领域训练的情感分析模型应用于其它领域会存在适应度不佳的问题1 1。传统的模型微调(m o d e l t u n i n g)方法对多个不同领域进行情感分析,需要对每个领域分别建模。比如,杨修远等1 2提出了一种自适应多领域知识蒸馏框架,分别训练多个不同领域的B E R T教师模型;然后,利用基于多领域对应的多个B E R T模型,对单个学生模型进行进一步的蒸馏学习。而训练各个领域对应的情感模型,需要保存每个领域对应的大量参数,这将会极大地耗费存储空间,如

21、图1 a所示。F i g u r e 1 C o m p a r i s o n o f m u l t i-d o m a i n s e n t i m e n t a n a l y s i s m e t h o d s b a s e d o n m o d e l f i n e-t u n i n g a n d p r o m p t t u n i n g图1 基于模型微调与基于提示微调的多领域情感分析方法对比B r o w n等1 3提出了p r o m p t d e s i g n(或p r i m-i n g),可通过给出任务描述或者几个范例来调动G P T-3模型,

22、模型无需微调,可直接应用于下游任务。这种方法无需为每个下游任务训练相应的模型参数,单个模型可以同时服务于许多不同的任务。在当今模型参数量持续增加的情况下,“冻结”预训练模型的方法产生了巨大的影响。然而这种081C o m p u t e r E n g i n e e r i n g&S c i e n c e 计算机工程与科学 2 0 2 4,4 6(1)通过人工设计的p r o m p t和少量范例来调动模型的方法,在下游任务上的性能远远落后于模型微调的。近期,有 研 究 人 员 提 出 了 自 动 生 成(设 计)p r o m p t的方法。S h i n等1 4提出了一种在下游任务训

23、练数据的指导下,搜索多个离散的模型基本输入单元(t o k e n)组成p r o m p t的算法。虽然这优于人工设计的p r o m p t,但其效果与模型微调的仍有差距。L i等1 5提出了前缀微调(p r e f i x t u n i n g)方法,冻结模型参数并在编码器中的每层加入了“前缀”。与人工设计和自动生成的p r o m p t不同的是,“前缀”完全由可微调的自由参数组成,与离散的t o-k e n不是一一对应的。此方法在生成任务上取得了优异的结果。后来,H a m b a r d z u m y a n等1 6将可训练参数仅添加到掩码语言模型(M a s k e d L

24、a n-g u a g e M o d e l)的输入和输出子网络中,简化了上述方法,在分类任务上取得了尚可的结果。L e s t e r等1 7提出了p r o m p t t u n i n g,进一步简化了p r o m p t的形式,此方法保持模型冻结,仅仅把k个可微调的t o k e n添加到输入文本的前端作为s o f t p r o m p t,不同的下游任务学习不同的s o f t p r o m p t。当模型规模变得很大时,p r o m p t t u n i n g的效果接近于模型微调的,但在中小型的模型中,p r o m p t t u n i n g的效果与模型微调

25、的还存在较大差距。值得注意的是,实验中发现,对p r o m p t使用不同的初始化方法,对最终的效果有很大的影响。因此,一些研究工作中提出,在p r o m p t应用到下游任务之前,先用有监督或自监督学习的方法进行训练得到一个或几个p r o m p t,作为下游任务p r o m p t的 初 始 化,取 得 了 非 常 好 的 效 果。G u等1 8提出了P P T(P r e-t r a i n e d P r o m p t T u n i n g),通过自监督学习的方法训练p r o m p t作为下游任务的初始化,在少样本学习(f e w-s h o t l e a r n i

26、 n g)中的效果 显 著。几 乎 同 时,V u等1 9提 出 了S P o T(S o f t P r o m p t T r a n s f e r),首先在一个或多个有标注的数据 集 上 训 练s o f t p r o m p t,作 为 下 游 任 务p r o m p t的初始化,此方法在全量数据学习中效果优于模型微调的。但是,在应用于下游任务进行p r o m p t t u n i n g时,训练步数竟然达到了惊人的21 8(2 6 2 1 4 4),需要耗费大量的计算资源,而且在训练步数较少时,S P o T的效果与模型微调的还存在一定差距。以上方法,要么效果无法与模型微调

27、的媲美,要么训练步数过多导致耗费巨量的计算资源。因此,本文提出了M S A P T(M u l t i-d o m a i n S e n t i m e n t A n a l y s i s a p p r o a c h b a s e d o n P r o m p t T u n i n g),把p r o m p t t u n i n g进行适当调整,应用于多领域情感分析,并通过训练一个情感分析“通才模型”,减少下游任务中的训练步数,同时保留其仅微调少量参数即可达到模型全参数微调效果的优点。M S A P T首 先 为 情 感 分 析 的 各 个 领 域 设 计h a r d p

28、 r o m p t添加到输入文本中,同时也添加s o f t p r o m p t,再为情感分析预训练一个统一的“通才模型”,在下游的各领域文本学习中,保持模型冻结,通过提示微调(p r o m p t t u n i n g)使模型学习到各领域情感文本的特征,如图1 b所示。因为预训练“通才模型”会被反复用到各个不同领域的情感分析任务中,所以M S A P T保持了p r o m p t t u n i n g参数高效的优点,仅需保存一个模型和一些参数量远远小于模型的p r o m p t。本文还设置了4个消融实验,分 别 对 适 应 特 定 领 域 的p r o m p t t u n

29、 i n g、h a r d p r o m p t、s o f t p r o m p t的长度和中间训练数据集的大小进行消融,探索这4个因素对情感分析效果的影响。综上所述,本文的主要工作概括如下:(1)提出了M S A P T,把p r o m p t t u n i n g进行适当调整后应用到多领域情感分析,仅保存一个模型和一些参数量远远小于模型的p r o m p t,即可进行高效的多领域情感分析,并且其效果能与模型微调的相媲美。(2)设计h a r d p r o m p t帮助模型识别不同的情感领域,并提供了在特定情感领域中检索合适的h a r d p r o m p t的方法。(

30、3)在对下游各领域文本进行p r o m p t t u n i n g时,训练的轮次(e p o c h)数固定在1 0,总共的训练步数控制在1 9 6 01 7 9 8 0,在减少训练步数的同时,效果可与模型全参数微调的相媲美。(4)在消融实验中证明了添加h a r d p r o m p t、进行p r o m p t t u n i n g对改善情感分析效果存在显著作用;增加中间训练数据集的大小有助于提升方法在 下 游 各 领 域 情 感 分 析 任 务 中 的 效 果;s o f t p r o m p t的长度对模型效果有显著影响。2 基于p r o m p t t u n i n

31、 g的文本情感分析方法 本文遵循使用T 5模型将N L P(N a t u r a l L a n-g u a g e P r o c e s s i n g)任务统一为“t e x t t o t e x t”形式的方法5,同样把多领域情感分析转换为文本生成任务。对于T 5的模型微调,通常将分类任务建模为P rY|X ,即给定输入文本X,预测类标签181赵文辉等:基于p r o m p t t u n i n g的中文文本多领域情感分析研究t o k e n序列Y的概率,其中是T 5模型由编码器和解码器2 0构成的T r a n s f o r m e r模块的参数。p r o m p t是

32、添加在输入文本X前端的一系列t o k e n,可看做是为模型预测Y输入的额外信息。p r o m p t可分为离散的p r o m p t和连续的p r o m p t。人工设计或自动生成的p r o m p t由模型词汇表中的t o k e n构成,其参数化为模型参数中词向量表的一部分,固定且不可微调。因此,寻找最佳的p r o m p t需要通过人工设计或搜索算法来完成,这2种方法都不可微2 1,所以它是离散的p r o m p t,或称为h a r d p r o m p t。F i g u r e 2 C o m p a r i s o n o f i n p u t f o r m

33、 s o f m u l t i-d o m a i n s e n t i m e n t a n a l y s i s b a s e d o n m o d e l f i n e t u n i n g a n d p r o m p t t u n i n g图2 基于模型微调与基于p r o m p t t u n i n g的多领域情感分析输入形式对比2.1 为输入文本添加p r o m p t2.1.1 为输入文本添加h a r d p r o m p t为了使模型能更好地学习到不同领域情感文本的特征,受到h a r d p r o m p t可以将几个不同的任务统一为一个任

34、务的启发2 2,M S A P T在输入文本X的前面添加了人工设计的h a r d p r o m p t,记为H。h a r d p r o m p t表示该情感文本的所属领域和待选的情感标签,如一个电影领域三分类的情感文本的H可表示为:“领域:电影;标签:消极,适中,积极;文本:”,如图2 b所示。将标签词以多选的形式放入到H中,目的是增强H的可扩展性。未来随着分类类别的增多,可以将新增的情感标签添加到H中,比如细粒度情感分析的标签词“愤怒”“开心”“嫉妒”等。值得注意的是,M S A P T以“领域:”“标签:”和“文本:”3个固定的词帮助模型区分输入中的不同信息,又因为H是添加在输入文

35、本X之前的,所以在H的最后加上了“文本:”。同时,因为H由离散的t o k e n组成,所以由模型参数中词向量表的参数进行参数化,不可学习更新。在为输入文本添加h a r d p r o m p t后,可将多领域情感分析任务建模为P r(Y|H;X)。2.1.2 为输入文本添加s o f t p r o m p t连续的p r o m p t消除了p r o m p t由模型参数初始化的限制,可自由选择初始化形式,包括随机初始化、用词汇表中的高频词初始化和用标签词初始化等。关键是,连续的p r o m p t的向量空间是连续的,所以它是可微的,可通过反向传播更新参数寻找最佳的p r o m p

36、 t。因为 可 微 调,所 以 又 称 为s o f t p r o m p t。得到一个“通才模型”后,为了能让模型在未知领域或 数据集中学 习到相应的 情感文本特 征,M S A P T在输入文本和h a r d p r o m p t前面添加了s o f t p r o m p t,记为P,如图2 b所示。P的参数独立于T 5模型,而且可通过学习更新,记为P。在为输入文本添加s o f t p r o m p t后,可将多领域情感分析任务建模为P r;P(Y|P;H;X)。2.1.3 输入矩阵输入一个含有n个t o k e n的句子 x1,x2,xn,T 5模型首先把这些t o k e

37、n向量化,形成一个矩阵Xe Rne,其中e是词向量的维度。然后将s o f t p r o m p t参数化为矩阵Pe Rpe,其中p是s o f t p r o m p t的长度;将h a r d p r o m p t参数化为矩阵HeRhe,其中h是h a r d p r o m p t的长度。最后将Pe、He、Xe依次连接,形成单个矩阵 Pe;He;Xe R(p+h+n)e作为最终的输入,经过编码器和解码器最终输出Y,如图3所示。F i g u r e 3 F o r m a t i o n o f i n p u t m a t r i x图3 形成输入矩阵2.2 多领域情感分析方法通

38、 过P r;PY|P;H;X 可 以 看 出,M S A P T目标是通过优化参数和P,最大化预测正确Y的概率。为了提高p r o m p t t u n i n g的性能,并且减少s o f t p r o m p t在下游各领域情感分析任务中的训练步数,本文改进了S P o T方法,将模型训练分为了2个阶段。第1个阶段训练“通才模型”,不冻结模型任何参数,即和P都进行更新。281C o m p u t e r E n g i n e e r i n g&S c i e n c e 计算机工程与科学 2 0 2 4,4 6(1)第2个阶段应用到下游特定领域或数据集,冻结模型参数,仅更新P,即

39、p r o m p t t u n i n g。p r o m p t t u n i n g因为微调的参数较少,具有拟合慢的特点。在第1阶段训练“通才模型”拟合情感分析的通用知识,在p r o m p t t u n i n g阶段仅需拟合特定领域的情感特征,从而可以减少p r o m p t t u n i n g步数,且不会导致对情感特征的欠拟合。F i g u r e 4 F l o w c h a r t o f m u l t i-d o m a i n s e n t i m e n t a n a l y s i s m e t h o d图4 多领域情感分析方法流程图多领域情

40、感分析方法流程如图4所示。首先,为训练“通才模型”准备大量的情感分析文本,并加入s o f t p r o m p t和h a r d p r o m p t,为了方便下文阐述,把修改后的数据集命名为中间训练数据集。接着,在语言模型预训练和对下游各领域情感分析任务进行p r o m p t t u n i n g之间加入一个中间训练阶段,基于中间训练数据集,把原T 5模型训练为一个无特定领域的情感分析“通才模型”。但是,必须强调的是,若此时直接应用于下游任务,还无法达到模型微调的效果,详见本文4.1节。与S P o T方法不同,本文方法在这个阶段没有冻结T 5模型,对和P都在进行更新。最后,在

41、应用到下游各领域的情感分析任务时,先将在交叉验证集上表现最好的h a r d p r o m p t加入到文本中,并且冻结模型参数,仅微调P,即通过p r o m p t t u n i n g学习该领域的文本情感特征,因为在这个过程中模型参数不变,所以只需要存储训练好的特定于该领域的s o f t p r o m p t而不是整个模型的参数,即一个领域存储一个s o f t p r o m p t。M S A P T保留了p r o m p t t u n i n g的优点,因为其反复利用一个统一的“通才模型”,只需为下游各领域或特定数据集选择适合的h a r d p r o m p t,训

42、练并存储特定于各领域的s o f t p r o m p t,即用一个固定的模型和一些参数量很小的s o f t p r o m p t进行多领域的情感分析。若设置s o f t p r o m p t的长度p=5 0,则其参数量为7 6 85 0=3 8 4 0 0。b a s e版本的T 5参数量约为2.4亿,所以s o f t p r o m p t的参数量仅为模型参数量的1.5。3 实验与结果分析本文对游戏、外卖、书籍、衣服和酒店等多个领域的文本进行情感极性预测,涉及的数据集介绍详见3.1.2节。传统微调方法需要为每个领域训练相应的模型参数,耗费存储空间。M S A P T先通过中间训

43、练数 据集训练一 个“通 才 模 型”,再 通 过p r o m p t t u n i n g学习上述各领域相应的情感特征。381赵文辉等:基于p r o m p t t u n i n g的中文文本多领域情感分析研究3.1 实验设置本文实验的T 5模型使用澜舟科技开源的中文预训练语言模型L a n g b o a t/m e n g z i-t 5-b a s e2 3,模型版本为b a s e。本节中的所有s o f t p r o m p t的长度p都设置为5 0。3.1.1“通才模型”的训练数据为了训练一个情感分析的通用模型,本文构建了一个由1 7 4万条情感分析数据组成的数据集,即

44、中间训练数据集。这个数据集由公开的s i m p l i f y-w e i b o_4_m o o d s、y f_a m a z o n、y f_d i a n p i n g和d o u-b a n_m o v i e s数据集组成。通过有监督学习使原T 5模型转换为一个适用于各领域的情感分析“通才模型”。F i g u r e 5 C o m p u t i n g m e t h o d o f t h e s c o r e图5 分数的计算方法3.1.2 测试数据与评价标准为了验 证 本 文 方 法 的 有 效 性,分 别 评 估 了M S A P T在全量数据学习和少样本学习2种

45、情况下的效果。在实验过程中发现,若从中间训练数据集中随机筛选一部分样本用于评估测试,因为模型在这些领域已经进行了大量的学习,效果远好于模型微调的。所以,为了增强实验结果的说服力,本文避免使用上述数据进行评估测试。全量数据采用的数据集有:o n l i n e_s h o p p i n g_1 0_c a t s、g a m e-t a p t a p、w a i m a i_1 0 k、N L P C C 1 4-S C、A S A P_S E NT和C h n S e n t i C o r p2 4。少样本学习采用的数据集是E P R S TMT2 5。本文分别就3 2个样本和1 6 0

46、个样本的情况进行了测试。二分类任务的极性标签为消极和积极,三分类任务增加适中(n e u t r a l)情感标签。测试数据集涉及的情感领域有游戏、外卖、微博、衣服、手机、水果、电脑、书籍、D V D、牛奶和酒店等。本文把这些数据集都划分为训练集、交叉验证集和测试集。对于一些标签为分数的数据集,则转换为三分类的情感分析任务。因为数据集中各类情感样本数量基本平衡,所以本文直接采用正确率来评估各方法在数据集上的效果,并计算每种方法的分数。为了方便直观地看出每种方法的效果,本文定义了一个分数,表示一种方法相对于被比较的所有方法的平均性能提升了多少,计算方法如图5所示。假设有3种方法:M1、M2、M3

47、,有3个测试数据集T1、T2、T3,ax y表示在数据集Tx上方法My的正确率,x,y1,2,3。首先计算T1、T2、T3上所有方法的平均正确率A1,A2,A3,如图5 a所示;再计算M1、M2、M3在T1、T2、T3上相对平均正确率提升的百分比,并计算每种方法的平均值即为M1、M2、M3的分数SM1、SM2、SM3,如图5 b和图5 c所示。本文认为在各个测试集的正确率相差较大时,分数相比直接计算平均正确率更能代表方法的性能。3.1.3 基线方法本文将所提出的M S A P T与以下微调方法进行对比:(1)随机初始化的p r o m p t t u n i n g:随机初始化s o f t

48、p r o m p t,直接在测试数据集上训练,下文记为R I P T(R a n d o m I n i t i a l i z a t i o n P r o m p t T u n i n g)。(2)S A-S P o T(S e n t i m e n t A n a l y s i s S P o T):将S P o T应用于多领域情感分析,通过中间训练数据集训练一个s o f t p r o m p t,作为应用在测试数据集上的s o f t p r o m p t的初始化(训练e p o c h数也固定为1 0)。(3)m o d e l t u n i n g:模型微调是优化

49、模型的标准方 法,模 型 的 全 部 参 数 都 会 更 新。本 文 将M S A P T与T 5、B E R T、R o B E R T a 3种模型的全参数微调方法进行对比。为了对比的公平性,B E R T和R o B E R T a也采 用了b a s e版本。B E R T采 用h u g g i n g f a c e的T r a n s f o r m e r s库中开源的“b e r t-b a s e-c h i n e s e”版本。R o B E R T a采用哈工大讯飞联合实验室开源的“R o B E R T a-wwm-e x t”版本2 6。3.1.4 实验环境与参数

50、选取本文实验环境参数如表1所示。在全量样本(f u l l s a m p l e)测试数据集上的训练参 数 设 置 如 下:对 于M S A P T、R I P T和S A-481C o m p u t e r E n g i n e e r i n g&S c i e n c e 计算机工程与科学 2 0 2 4,4 6(1)S P o T,在测试数据集上固定进行1 0个e p o c h的训练,初始学习率为5 e-2,预热比例为0,批处理大小为2 0,优化器为A d a mW2 7,损失函数为交叉熵函数;对于m o d e l t u n i n g,在测试数据集上固定进行3个e p o

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服