细粒度情感和情绪分析中损失函数的设计与优化.pdf

资源描述

1、第3 8卷第1期2 0 2 4年1月中文信息学报J OUR NA LO FCH I N E S EI N F O RMAT I ONP R O C E S S I NGV o l.3 8,N o.1J a n.,2 0 2 4文章编号:1 0 0 3-0 0 7 7(2 0 2 4)0 1-0 1 2 4-1 1细粒度情感和情绪分析中损失函数的设计与优化叶施仁,丁力,A l iMDR i n k u(常州大学计算机与人工智能学院,江苏常州2 1 3 1 6 4)摘要:在细粒度情感分析和情绪分析数据集中,标签之间的相关性和标签分布的不均匀性非常突出。类别标签分布不均匀,标签之间存在相关

2、性容易影响学习模型的性能。针对这一问题,该文受计算机视觉领域中的C i r c l el o s s方法的启发,将梯度衰减、成对优化、添加余量引入损失函数来优化深度学习模型的性能。该方法可以很好地与预训练模型相结合,不需要修改骨干网络。与当前最新的经典方法相比,该方法在S e m E v a l 1 8数据集上J a c c a r d系数、m i c r o-F1、m a c r o-F1分别提升了1.9%、2%、1.9%;在G o e E m o t i o n s数据集上J a c c a r d系数、m i c r o-F1、m a c r o-F1分别提升了2.6%、1.9%、3.6

3、%。实验表明,该文提出的损失函数对情感分析和情绪分析问题具有显著的提升作用。关键词:情感分析;情绪分析;成对优化;损失函数中图分类号:T P 3 9 1 文献标识码:AD e s i g na n dO p t i m i z a t i o no fL o s sF u n c t i o ni nF i n e-g r a i n e dS e n t i m e n t a n dE m o t i o nA n a l y s i sY ES h i r e n,D I N GL i,A L IMDR i n k u(S c h o o l o fC o m p u t e rS c

4、i e n c ea n dA r t i f i c i a l I n t e l l i g e n c e,C h a n g z h o uU n i v e r s i t y,C h a n g z h o u,J i a n g s u2 1 3 1 6 4,C h i n a)A b s t r a c t:I nf i n e-g r a i n e ds e n t i m e n t a n de m o t i o na n a l y s i st a s k s,t h e l a b e l c o r r e l a t i o na n di m b a l

5、 a n c e dl a b e ld i s t r i b u-t i o na r ep o p u l a ra m o n gs a m p l e s.I n s p i r e db yc i r c l el o s s i nc o m p u t e rv e r s i o n,w ed e v e l o pal o s sf u n c t i o nm o d e l t oh a n d l e t h e s e i s s u e sb ye m p l o y i n gg r a d i e n t d e c a y,p a i ro p t i m

6、i z a t i o na n dm a r g i n.T h i s l o s s f u n c t i o nm o d e l i se a s i l ya-d a p t e dt os u i tp r e-t r a i n e dn e t w o r k sw i t h o u tm o d i f y i n gt h eb a c k b o n e s t r u c t u r e s.C o m p a r e dw i t ht h ec u r r e n t s t a t e-o f-t h e-a r t r e s u l t s,o u r

7、l o s s f u n c t i o nm o d e l c o u l d i m p r o v eJ a c c a r ds i m i l a r i t yc o e f f i c i e n t,m i c r o-F1,a n dm a c r o-F1v a l-u e sb y1.9%,2%,a n d1.9%,r e s p e c t i v e l y,i nS e m E v a l 1 8d a t a s e t;a n db y2.6%,1.9%,a n d3.6%,r e s p e c t i v e l y,i nG o E m o t i o

8、 n sd a t a s e t.K e y w o r d s:s e n t i m e n t a n a l y s i s;e m o t i o na n a l y s i s;p a i ro p t i m i z a t i o n;l o s s f u n c t i o n收稿日期:2 0 2 3-0 3-0 1 定稿日期:2 0 2 3-0 6-2 9基金项目:国家自然科学基金(6 1 2 7 2 3 6 7)0 引言情感分析1是自然语言处理领域的重要问题,广泛应用于舆情分析和内容推荐等方面。早期的情感分析任务,仅要求输出句子或者文章的正面或者负面的两种情感极性,

9、近年来,出现了一些多样化的任务,如细粒度情感分析2,方面级情感分析3等,使预测的难度显著提升。与用极性表示的情感分析相比,情绪分析4任务拥有更多多样化的标签。如E k m a n5将情绪划分为六种基本情绪;P l u t c h i k6将情绪划分为八种基本情绪,并通过情感轮盘将更多情绪来插入这八种基础情绪中。近年来,很多情绪分析的数据集逐步扩展到多标签任务7,即一个样本可以有多个标签,也可以没有标签。这种改变是合理且必要的,因为一段文字可以表现出多种情绪,也可以不带情绪。对文本分类问题,深度学习模型常见的方法是使用预训练的上游模型,在下游任务中进行微调,并通过独热向量计算多分类交叉熵损失(对

10、于多分类任务)或多个二分类交叉熵损失(对于多标签任务)。1期叶施仁等:细粒度情感和情绪分析中损失函数的设计与优化然而这种方式在细粒度分类任务上显得过于粗糙了。独热向量计算多分类交叉熵损失时,损失值事实上只与正确标签有关(因为仅有正确标签对应的概率被计算)。在多标签任务中,独立计算每个标签的二分类交叉熵。它们都忽略了标签间的相关信息。在细粒度情感分析中,正例和负例标签往往不是正交的,如非常积极的样本错误地标记成积极,其错误的程度显然应该比标记成消极,或者非常消极小许多,同时区分非常积极与积极的难度也远大于区分非常积极与非常消极。对情绪分析问题,如图1所示,这1 1类情绪标签之间存在显著的正相关和

11、互相关。因此,我们应该考虑设计适当的损失函数把类别标签之间的相关性体现出来。在计算机视觉领域,流行的方式是通过R a n k i n gl o s s8、M a r g i nl o s s9、C o n t r a s t i v e l o s s1 0、T r i p l e t l o s s1 1等成对优化方式度量样本之间的距离。图1 S e m E v a l 1 8数据集中标签的相关性情感分析和情绪分析数据集的另一特点是不同类别的样本数差别非常大。如广泛使用的S e m E v a l 1 8数据集1 2,在其包含的68 3 8条推特文本中,频率最高的3个标签累计出现76 2 3

12、次,频率最低3个标签累计出现14 1 8次,其最低和最高的平均频次相差5.4倍,如图2所示。在G o Em o t i o n s数据集1 3中,在其包含的5 80 1 1条推特文本中,频率最高的3个标签累计出现5 47 1 3次,频率最低3个样本标签出现27 7 3次,其最低和最高的平均频次相差1 9.7倍。数量庞大的头部标签往往主导了训练过程,甚图2 S e mE v a l 1 8数据集中标签的分布至导致头部标签上的过度学习。相比之下,尾部标签占比很低,难以得到足够的训练,导致尾部标签上的分类准确率往往不及头部标签。针对情感分析和情绪分析中普遍存在的标签不独立、分布

13、不均衡的问题,我们借鉴计算机视觉领域中的C i r c l e l o s s1 4方法。将梯度衰减(A u t o m a t i c a l l yD o w n-w e i g h t)、成对优化(P a i rO p t i m i z a t i o n)、添加余量(M a r g i n)三种深度学习模型优化的损失函数。通过衰减因子平衡数据集中标签的长尾分布,并根据标签的情感/情绪距离,调整超参数余量(M a r-g i n),使模型能够学习标签间的距离信息。在不对学习模型进行任何改变的前提下,仅仅通过损失函数的优化,在细粒度情感分析和情绪分析数据集上多个评价指标获得了性能提升,从

14、而验证本文提出的损失函数优化是有效的。1 相关工作1.1 深度学习在情感分析与情绪分析方面的进展基于大规模预训练模型1 5,下游任务中通过修改模型结构、调整学习目标、多任务学习1 6等方式来处理细粒度情感/情绪分析任务是当前的主流方法。B a l i k a s等人1 7使用基于循环神经网络(R e c u r-r e n tN e u r a lN e t w o r k,R NN)的多任务模型,同时在二分类和多分类任务上训练模型。在两个任务上都取得了性能提升。Y a n g等人1 8提出了基于方面的情感分析的多任务学习模型(L C F-AT E P C),该模型同步学习提取方面词和推断方

15、面词极性。结果显521中文信息学报2 0 2 4年示,在常用的方面级情感分析数据集S e m E v a l-2 0 1 4t a s k 4R e s t a u r a n t和L a p t o p数据集中实现了方面术语提取(A s p e c tT e r m E x t r a c t i o n,AT E)和方面极性分类(A s p e c tP o l a r i t yC l a s s i f i c a t i o n,A P C)的性能提升。Y i n等人1 9提出了S e n t i B E R T,在B E R T模型的基础上结合了上下文表示法和二元依存解析

16、树来捕捉语义构成。P a r k等人2 0提出一种多维度的情绪探测模型,模型学习从N R C-VA D词典(M o h a m-m a d等人2 1)获得的标签词的VA D(V a l e n c e,A-r o u s a l,a n dD o m i n a n c e)分数,并同时预测句子的情绪标签。T i a n等人2 2修改了语言模型的预训练目标,引入了情感知识增强预训练(S e n t i m e n tK n o w l e d g eE n h a n c e dP r e-t r a i n i n g,S K E P),借助自动挖掘的知识,S K E P进行情感掩蔽并构建三

17、个情感知识预测目标,从而将词、极性和方面级别的情感信息嵌入到预训练的情感表示中,在细粒度情感分析中表现出改进的性能。S u r e s h等人2 3提出知识嵌入注意(K n o w l e d g e-Em b e d d e dA t t e n t i o n,K E A),使用来自情感词典的知识来增强E L E C T R A和B E R T模型的上下文表示。1.2 文本分类中样本标签不均衡对于数据集标签的不平衡,常用的方法有对数据集进行重采样和调整损失函数的权重。重采样可分为欠采样和重采样两个方向。对数据集中出现频率较高的标签样本,欠采样方法是随机删除部分样本。但深度学习

18、模型通常需要更多的训练样本。因此,多数工作中对数据集中出现频率较低的样本进行重采样。简单的重采样直接把数据集中出现频率较低的样本复制多次,来扩充和平衡数据集。更加流行的做法是在重采样中对数据进行一定的变换。图像领域常对图像进行裁剪、缩放、镜像、拼接等操作2 4。自然语言处理领域一般使用同义词替换、随机插入、使用深度学习模型翻译后再回译等2 5。针对这一问题,深度学习常用的方法是根据样本比例对损失函数的权重进行调整。与简单重采样类似,简单的梯度调整也存在一定的缺陷,如过大的梯度会影响模型的收敛。在计算机视觉领域,L i n等人2 6提出了F o c a ll o s s损失函数,提出了一种损失函

19、数的设计思路。F o c a l l o s s会根据模型输出概率的大小,动态地调节损失函数中的权重,对易分样本的权重进行衰减,从而令模型更关注于难分、未充分学习的样本。F L(pt)=-(1-pt)l o g(pt)(1)其中,pt=p如果y=11-p其他(2)为超参数。实验表明,取2时,模型性能最好。当样本标签y=1时,模型的输出p接近于真值(g r o u n dt r u t h),系数(1-p)接近于0,对梯度的衰减力度就比较大,从而抑制模型在易分样本上的过度学习。F o c a l-l o s s提出后,获得了广泛的关注与研究,不少文章也提出了自己的F o c a l l o s

20、s变体。如C u i等人2 7提出类平衡损失(C l a s sB a l a n c e d F o c a lL o s s),根据类平衡项(C l a s sB a l a n c e dT e r m)进一步加权F o c a l l o s s,以平衡数据集中样本分布的不均衡。Wu等人2 8更进一步地提出分布平衡损失(D i s t r i b u t i o nB a l a n c e dL o s s),聚焦于多标签中的标签共现,首先去除标签共现的冗余信息,再将更低的权重分配给益于分类的实例。H u a n g等人2 9将多个F o c a

21、 l l o s s变体应用在多个多标签文本分类数据集上。在尾部标签的分类上,取得了显著的成果。多标签学习中除了标签种类的分布不均衡,跨数据集间标签数量也有巨大差异。如S e m E v a l 1 8数据集中,4 1.8 0%的样本有两个标签,3 1.8 7%的样本有3个标签,1 4.8 0%的样本有1个标签。而在G o Em o t i o n s数据集中,8 2.6 8%的样本有1个标签,1 5.0 0%的样本有两个标签,2.1%的样本有3个标签。L i等人3 0将医学图像领域的D i c eL o s s应用于自然语言处理任务,在广泛的数据不平衡自然语言处理任

22、务上性能提升显著。D i c eL o s s基于索伦森-骰子系数(S o r e n s e n-D i c eC o e f f i c i e n t)或特沃斯基索引(T v e r s k yI n d e x),对误报和漏报的重要性相似,并且不易受数据不平衡问题的影响。B n d i c t等人3 1提出的S i g m o i dF1-l o s s是一个近似于M a c r o-F1分数的损失函数。其首先对模型输出使用S i g m o i d函数处理,然后计算F1分数。结果显示S i g m o i dF1-l o s s在训练时对于随机梯度6211期叶施仁等:细粒度情感和情绪

23、分析中损失函数的设计与优化下降是平滑且易于处理的,自然地近似于多标签度量,能够很好地估计标签的分布。在多个指标上,S i g m o i dF1-l o s s在一个文本和三个图像数据集上的表现优于其他损失函数。1.3 标签间的相关性在情感分析和情绪分析中,将标签间的相关性引入模型也是一个重要的研究方向。A l h u z a l i等人3 2将多标签问题转换为跨度预测问题(S p a n-P r e d i c t i o n),通过B E R T模型学习标签间的相关性。S u r e s h等人3 3通过引入对比学习损失,与不太相似的负例相比,对容易混淆的负例加权。

24、W a n g等人3 4提出了一个通用框架,用于从给定的情感分类数据集中学习情感空间中情感类别的分布式表示,情感空间表示比语义空间中的词向量能更好地表达情感关系。D i e r a等人3 5使用了一个简单的多层感知机(M u l t i-L a y e rP e r c e p t r o n,ML P)模型,在多个多标签任务上取得了与B E R T、D i s t i l B E R T、H i AGM等先进模型相当的结果,但在G o Em o t i o n s数据集上多层感知机的性能大幅度落后于基于B E R T的模型。这表明在细粒度分类领域,标签间关系是模型设计中不可忽视的因素。度量学

25、习常用于样本间具有相似性的数据集。比如在人脸识别领域中,人脸照片之间具有较高的相似度,但任务需要辨别出照片中不同人脸所属的人。常见做法是假设特征分布在超球面上如式(3)所示。pi j=e x p(Tjxi)Ml=1e x p(Tlxi)(3)其中,x和都经过单位化处理,并且不添加线性层中常见的偏置项。x和计算内积,即在计算高维空间中单位向量的相似度。对不同分类的样本,球面上分布有不同的特征中心。大部分工作在此基础上添加超参数余量(M a r g i n),使得类内分布更加紧凑,类间距离更大。如S p h e r e F a c e3 6、C o s F a c e3 7、A r c F a

26、c e3 8。2 损失函数设计2.1 C i r c l e l o s s取值的调整在细粒度情感和情绪分类中,引入适当的梯度衰减和余量是有必要的。S u n等人1 4提出的C i r c l eL o s s不仅统一了多分类损失和多标签损失,还仅通过引入一个参数,同时将梯度衰减和余量加入到了损失函数中。本文在损失函数设计方案中使用C i r c l eL o s s在训练阶段引入梯度衰减和余量,并在实验过程中根据研究领域的特点微调了C i r c l eL o s s的取值范围和取值方式。S u n等人从统一的相似度配对优化角度出发,使用类别标签学习和样本对

27、标签学习两种基本学习范式,提出了统一的损失函数如式(4)所示。Lu n i=l o g1+Ki=1Lj=1e x p(sjn-sip)(4)其目标是最大化类内相似度sp和最小化类间相似度sn,式中K和L分别为正标签和负标签的数量。当正标签K取1,缩放系数取1时,损失函数退化如式(5)所示。Lu n i=l o g1+N-1j=1e x p(sjn)e x p(sp)=-l o ge x p(sp)e x p(sp)+N-1j=1e x p(sjn)(5)即为基于相似度度量的多分类交叉熵损失函数。而当有多个正标签、多个负个标签时,则式(3)与Y e h等人3 9提出的L C A(L a b e

28、 l-C o r r e l a t i o nA w a r e)损失相类似如式(6)所示。LL C A(y,y)=1|y0|y1|(p,q)y0y1e x p(y,y)(6)其中,y为真实标签,y为模型的输出,y0为负例标签集合,y1为正例标签集合。本文在式(3)的基础上引入梯度衰减和余量如式(7)、式(8)所示。Ls i g=l o g1+Ln*LpLn=Lj=1e x p(jn(sjn+d)Lp=Ki=1e x p(-ip(sip-d)(7)其中,ip=S i g m o i d(-(sip-d)jn=S i g m o i d(sjn+d)(8)为缩放系数。由于S i g m o i

29、 d函数随着sp1和sn-1,ip和jn逐渐减小,具有衰减函数所需的721中文信息学报2 0 2 4年性质,因此将sn的余量取为d,sp的余量取为-d。与文献1 4中C i r c l e l o s s不同的是,本文将优化目标从sp1和sn0扩大到sp1和sn-1。C i r c l e l o s s应用在计算机视觉问题,相似度为0表示两张图片是不相似的,但很难说两张图片是相反的(相似度为-1)。而在情感和情绪分类中,是完全可以描述标签间的对立关系(如非常积极和非常消极,开心和生气),优化目标设计为sp1和sn-1更为合理。对文本分类问题,尽管常见的向量空间模型中相似性只在0与1

30、之间,但是对类别标签,我们可以把这种对立关系的标签考虑成相似性为-1,则有优化目标扩展到-1。同时,本文选择用S i g m o i d函数作为衰减函数,与文献1 4 中C i r c l e l o s s使用的线性衰减方式相比,在优化目标sp 1和sn-1时,如图3 图5所示。图3(a)为原始的C i r c l el o s s梯度图,横轴为sn,纵轴为sp,参数m取0.7 5,箭头方向表示梯度的优化方向,长短表示梯度的大小。图3(b)为使用S i g m o i d函数作为衰减函数的圆形决策边界梯度图,横轴为sn,纵轴为sp,参数d取0.2 5,箭头方向表示梯度的优化方向,长短表示梯度

31、的大小。图3 两种损失函数的优化梯度对比图4 两种损失函数的梯度曲面对比8211期叶施仁等:细粒度情感和情绪分析中损失函数的设计与优化图5 两种损失函数的梯度曲线对比在这样的参数选择下,它们拥有同样的优化目标sp0.2 5和sn-0.2 5。图4(a)为原始的C i r c l eL o s s的dLdsp曲面图,图4(b)为使用s i g m o i d函数作为衰减函数的C i r c l el o s s的dLdsp曲面图。图5(a)和图5(b)分别为固定sn=-1时不同取值方式下dLdsp的曲线图。由图3图5可以看出,使用了S i g m o i d函数作为衰减函数后,同样具有圆形的决

32、策边界,梯度曲线更加平滑,有利于模型收敛到极小值上。本文损失函数还解耦了余量的选择。对于每一对sip和sjn,我们使用不同的余量di,j,与文献3 3 相似,我们认为相关度较高的样本是难分样本(如积极与非常积极),为其赋予更大的余量。2.2 损失函数的推广和讨论通常,机器学习中把正确或者错误分类的正例和反例分别称为T P(T r u eP o s i t i v e)、T N(T r u eN e g a t i v e)、F P(F a l s eN e g a t i v e)和F N(F a l s eN e g a-t i v e)。损失函数的设计原则是T P和T N尽可能多

33、,而F P和F N尽可能少。损失函数包含的项应该与正确分类或者错误分类数量具有单调性的,并且是平滑的。我们将式(3)改写为如式(9)所示。Lu n i=l o g1+Ki=1Lj=1e x p(sjn-sip)=l o gKi=1e x p(-sip)()-1+Lj=1e x p(sjn)Ki=1e x p(-sip)()-1(9)式(9)中,Lj=1e x p(sjn)是与F P相关的(模型在L个负标签上的输出求和),记为F P。同理Ki=1e x p(sip)是与T P相关的,应用均值不等式HnAn(调和平均数小于算数平均数),可得:Ki=1e x p(-sip)()-1Ki=1e x p

34、(sip),而Ki=1e x p(-sip)()-1单调性与Ki=1e x p(sip)相同,因此Ki=1e x p(-sip)()-1是与T P相关的,记为T P。此时,可将式(3)简记如式(1 0)所示。Lu n i=l o gT P+F P T P(1 0)与准确率的计算公式对照,可认为C i r c l eL o s s是在优化准确率。更一般地,只要T P、T N、F P、F N是恰当定义的(正比于模型在T P、T N、F P、F N四个指标上的输出),可以设计出与各种评价指标同形的损失函数。如式(1 1)式(1 3)所示。召回损失:921中文信息学报2 0 2 4年

35、Lc a l l=l o gT P+F N T P(1 1)F1损失:LF1=l o g2 T P+F N+F P 2 T P(1 2)J a c c a r d损失:LJ a c c a r d=l o gT P+F N+T P T P(1 3)更进一步,我们甚至可以不依照现有的公式,只要优化目标单调保序,令T P、T N 更大,F P、F N更小,如式(1 4)、式(1 5)所示。L1=l o gT N+F N T N(1 4)L2=l o gT N+F N T N+T N+F P T P(1 5)都是有意义的组合。本文使用如下公式作为损失函数,在实验中取得了最优结果如式(1 6)所示。L

36、s=l o gT P+F P T P+F P+F N(1 6)其中,T P=ip o se x p(-i(si-d)()-1(1 7)F P=jn e ge x p(j(sj+d)(1 8)F N=ip o se x p(-i(sj-d)(1 9)在多标签任务中,仅用准确率作为评价指标是不够的,更优的做法是让模型学习接近J a c c a r d系数和F1值。如式(1 6)所示,本文通过在损失函数中加入的F P、F N项,令模型学习到的分布更接近与真实数据集的分布。3 实验我们选择三个常用的情感分析和情绪分析语料库来验证本文提出的损失函数的有效性,分别为细粒度情感分类数据集S S T-54 0

37、,细粒度情绪分类数据集G o Em o t i o n s和S e m E v a l 1 8。实验旨在验证本文的损失函数能够在多个复杂数据集上提升主干网络的性能。我们使用R o B E R T a4 1作为模型的主干网络,它是基于B E R T模型的改进模型。我们通过P y t h o n中的H u g g i n g F a c e库4 2加载和实例化预训练完成的R o B E R T a-b a s e和R o B E R T a-l a r g e模型。本文实验所用机器配置为处理器AMDR y z e n3 6 0 0,显卡NV I D I AR T X3 0

38、9 0,内存3 2G B,操作系统w i n d o w s1 0。P y t h o n版本3.8.5,P y t o r c h版本1.9.0+c u 1 1 1。3.1 S S T-5数据集S S T-5是一个细粒度的情感分析任务,数据集由句子和情感极性组成。情感极性分为非常消极,消极,中性,积极,非常积极五类。任务是由给出的句子预测出正确的情感极性。在我们的实验中,使用A d a mW优化器,模型的参数r=d,d=0.3,学习率设置为1.5 e-6,R o B E R T a的最大句子长度设置为2 5 6,R o B E R T a-b a s e模型词向量长度为7 6 8,R o B

39、 E R T a-l a r g e模型词向量长度为10 2 4。准确率为多次实验结果中验证集上损失函数值最小的模型在测试集上的平均值(取随机种子为20 2 2递减)。如表1所示,文献1 9把R NN当作基准,长短时记忆网络(L o n gS h o r tT e r m M e m o r yN e t w o r k,L S TM)的工作,基于B E R T的模型的准确率提高了很多。表中第(8)、第(1 1)项来自文献4 1,是骨干网络R o B E R T a的结果;此前的最好结果是来自文献4 3 的第(1 2)项,其使用一个复杂度为O(N2D)的下游模型链接骨干网络来抽取情感信息。结果

40、表明对于细粒度情感分析任务,C i r c l el o s s能够有效提升模型的准确率。表1 s s t-5上不同模型的准确率(单位:%)编号模型准确率(1)R e c u r s i v eNN1 94 6.5 3(2)G C N1 94 9.3 4(3)T r e e-L S TM1 95 0.0 7(4)B i L S TM w/T r e e-L S TM1 95 0.4 5(5)B E R Tw/M e a np o o l i n g1 95 0.6 8(6)B E R Tw/G C N1 95 4.5 6(7)B E R Tw/T r e e-L S TM1 95 5.8 9(

41、8)R o B E R T a-b a s e4 15 6.3 4(9)S e n t i B E R Tw/R o B E R T a1 95 6.8 7(1 0)R o B E R T a-b a s e+S e l f-E x p l a i n i n g4 35 7.8 0(1 1)R o B E R T a-l a r g e4 15 7.9 0(1 2)R o B E R T a-l a r g e+S e l f-E x p l a i n i n g4 35 9.1 00311期叶施仁等:细粒度情感和情绪分析中损失函数的设计与优化续表编号模型准确率(1 3)R o B E R

42、 T a-b a s e+s i g-l o s s5 7.2 3(1 4)R o B E R T a-l a r g e+s i g-l o s s5 9.7 93.2 S e m E v a l 1 8数据集S e m E v a l 1 8数据集来自于S e m E v a l-2 0 1 8T a s k1。任务是给定一个推特文本,对其标注若干个情绪标签,而这种情绪标签总计有1 1种。我们按照S e m E v a l 1 8给定的训练集、验证集和测试集来评估我们的模型。评价标准有三个指标,J a c c a r d系数,m i c r o-F1(M iF1),m a c r o-F1

43、(M aF1)。其中,J a c c a r d系数被定义为预测标签和真实标签交集与它们的并集之比。F1值的计算由精确率和召回率组成,m i c r o-F1给予每个样本相同的权重,而m a c r o-F1给予每个类别相同的权重。实验使用A d a mW优化器,模型的参数r=1 2,d=0,学习率设置为1 e-5,R o B E R T a最大句子长度设置为1 2 8,各个评价指标为多次实验结果中验证集上损失函数值最小的模型在测试集上的平均值(取随机种子为20 2 2递减)。如表2所示,编号(1)(8)的实验列出了这个测试集上的经典结果和最新的结果。在骨干网络R o B E R T a-b

44、a s e上使用u n i-l o s s损失函数(9)得到的结果比最新的结果(8)要差一些,已经具有不错的结果。这是由于u n i-l o s s在优化过程中是正例和负例成对优化的。我们在骨干网络R o B E R T a-b a s e上使用带有衰减和余量的s i g-l o s s(1 0),实验显示优于最新的结果(8)。表2 S e m E v a l 1 8评价指标(单位:%)编号模型J a c c a r d M iF1 M aF1(1)P l u s E m o 2 V e c4 45 7.66 9.24 9.7(2)T C SR e s e a r c h4 45 8.26 9

45、.35 3.0(3)N TUA-S L A4 45 8.87 0.15 2.8(4)C NND e t e c t o r4 45 5.86 8.55 0.0(5)B i L S TM4 45 6.36 8.75 1.0(6)S e q 2 Em o4 45 8.77 0.05 1.9(7)B E R T l a r g e+D K4 55 9.57 1.65 6.3(8)S p a n E m o(j o i n t)3 26 0.17 1.35 7.8(9)R o B E R T a-b a s e+u n i-l o s s5 9.37 1.55 6.1续表编号模型J a c c a r

46、 d M iF1 M aF1(1 0)R o B E R T a-b a s e+s i g-l o s s6 0.47 2.45 8.8(1 1)R o B E R T a-l a r g e+s i g-l o s s6 2.07 3.65 9.7 对比标准的u n i-l o s s损失函数(9),我们提出的损失函数s i g-l o s s在J a c c a r d系数、m i c r o-F1、m a c-r o-F1值上均取得了显著的提升(如(1 0)和(1 1),其中J a c c a r d系数和m a c r o-F1的假设检验p0.0 5,m i c r o-F1的假设检

47、验p0.0 1,均在统计学上显著。由于s i g-l o s s中梯度衰减和余量是一同出现的,形成圆形的决策边界。假如只考虑其中一项,就会破坏其设计结构。如果两项一起去掉,s i g-l o s s将退化成u n i-l o s s。多分类中常用的二元交叉熵(B i n a r y C r o s sE n t r o p y,B C E)损失,将每个标签看成一个二分类问题,输出“是”或者“不是”。这种优化方式忽略了标签之间联系的学习。最新的结果表2中的(8)来自文献3 2,使用了二元交叉熵损失和文献3 9提出的L C A损失联合训练。其使用的L C A损失,正是基于正例

48、和负例成对优化来学习标签间的联系。如文献2 9 所示,F o c a l l o s s引入的梯度衰减能够动态调节梯度的分配,在标签长尾分布的情况下,能够有效地提升模型的性能。C i r c l e l o s s中同样带有梯度衰减,实验结果也显示在更加重视类别均衡的m a c r o-F1分数上,R o B E R T a-b a s e+s i g-l o s s领先于基线模型R o B E R T a-b a s e+u n i-l o s s。此外,如果使用规模更大的R o B E R T a-l a r g e作为主干网络,维度从7 6 8维提升到1 0

49、2 4维,会取得更好的效果。3.3 G o E m o t i o n s数据集与S e m E v a l 1 8数据集相比,G o Em o t i o n s含有更多样本、更多的标签种类。其样本数量达到5万条,共有2 7个情绪标签和1个中性标签,并已被开发者划分为训练集、验证集和测试集。我们仍然使用J a c c a r d系数,m i c r o-F1,m a c r o-F1三个指标来评价结果。实验使用A d a mW优化器,模型的参数=1 2,d=0.2,学习率设置为1 e-5,R o B E R T a最大句子长度设置为1 2 8,各个评价指标为多次实验结果中验证集上损失函数值最

50、小的模型在测试集上的平均值131中文信息学报2 0 2 4年(取随机种子为20 2 2递减)。如表3所示,我们使用带有衰减和余量的R o B E R T a-b a s e+s i g-l o s s和作为基线模型的R o-B E R T a-b a s e+u n i-l o s s与其他相关工作中的结果进行比较。结果在J a c c a r d系数、M i c r o-F1、M a c r o-F1值上均取得了显著的提升,其中J a c c a r d系数、M i c r o-F1、M a c r o-F1的假设检验p0.0 1,在

展开阅读全文