收藏 分销(赏)

基于栈式降噪编码器的跨语言多标签情感分类.pdf

上传人:自信****多点 文档编号:2357494 上传时间:2024-05-28 格式:PDF 页数:7 大小:1.39MB
下载 相关 举报
基于栈式降噪编码器的跨语言多标签情感分类.pdf_第1页
第1页 / 共7页
基于栈式降噪编码器的跨语言多标签情感分类.pdf_第2页
第2页 / 共7页
基于栈式降噪编码器的跨语言多标签情感分类.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第11期总第339期文章编号:1006-2475(2023)11-0006-07收稿日期:2022-11-01;修回日期:2023-01-03基金项目:国家自然科学基金资助项目(61672389);广州市大数据智能教育重点实验室项目(201905010009)作者简介:唐诗琪(1998),女,广东湛江人,硕士研究生,研究方向:自然语言处理,情感分类,E-mail:;周瑞平(1998),女,四川广安人,硕士研究生,研究方向:数据库技术,E-mail:;谢仕斌(1997),男,广东汕头人,硕士研究生,研究方向:教育大数据,知识追踪

2、,E-mail:;刘梦赤(1962),男,教授,研究方向:大数据系统,智能信息系统,E-mail:;肖文(1998),女,广东惠州人,硕士研究生,研究方向:自然语言处理,E-mail:。0引言随着互联网的快速发展,Twitter、微博、豆瓣等社交平台改变了人们的生活方式,越来越多的人习惯通过社交网络发表观点和交流信息。因此,企业、政府越来越重视用户数据信息中蕴藏的情感因素,比如Twitter上对热点时事的讨论等。早期的情感分类的工作关注单标签分类,即每个实例只对应一个标签,且分类粒度粗略,如一种极性(消极或积极)、一种状态(愉快、难过或生气)。但在现实生活中,一个实例可能拥有更加复杂的语义和内

3、容,Schapire等人1对此提出了多标签分类,即从一组情感标签中为每个实例分配相关性最高的标签子集,分类粒度细化程度也越来越高。例如,“I had agreat day at work today,but I spilled my coffee.”这可能表达了说话者悲伤、厌恶、喜悦等多种情感。随着深度学习的发展,众多学者开始探索神经网络模型在多标签情感分类任务上的应用,提出了用于多标签情感分类的模型,如JBNN2引入了一种联合二元神经网络,该网络基于情感色轮理论3,重点学习情感标签间的关系,然后将这些标签关系集成到损失函数中进行多标签情感分类;NTUA4模型利用不同的训练前和微调策略,并通过

4、一组单词情感特征进行增强,在SemEval2018比赛中排名第一;LEM5引入了一基于栈式降噪编码器的跨语言多标签情感分类唐诗琪1,2,周瑞平1,2,谢仕斌1,2,刘梦赤1,2,肖文1,2(1.广州大数据智能教育重点实验室,广东 广州 510631;2.华南师范大学计算机学院,广东 广州 510631)摘要:多标签情感分类任务旨在处理一个实例可能与多个情感标签关联的问题。现有的大多数多标签情感分类模型都是基于完整的数据设计,模型性能和语义易受到数据本身存在的不完全性影响。针对此问题本文提出一种基于栈式降噪自编码器的跨语言多标签情感分类模型,引入标签感知损失函数弥补训练带来的损失。该模型通过栈式

5、降噪自编码器对词向量去噪以构建原始数据的低维特征,降低特征空间的噪声干扰,为下游任务提供有效特征表示。在SemEval2018的3种语言数据集(即英语、阿拉伯语和西班牙语)多标签情感分类实验中,该模型在测试集上的micro_F1、macro_F1、jaccard这3个指标均得到提升,其中macro_F1分别提升了约0.82、1.45和1.83个百分点。关键词:多标签分类;情感分类;不完全数据;BERT;栈式降噪自编码器中图分类号:TP391文献标志码:ADOI:10.3969/j.issn.1006-2475.2023.11.002Cross-language Multi-label Sent

6、iment Classification Based on Stacked Denoising AutoEncoderTANG Shi-qi1,2,ZHOU Rui-ping1,2,XIE Shi-bin1,2,LIU Meng-chi1,2,XIAO Wen1,2(1.Guangzhou Key Laboratory of Big Data and Intelligent Education,Guangzhou 510631,China;2.School of Computer Science,South China Normal University,Guangzhou 510631,Ch

7、ina)Abstract:The multi-label sentiment classification task aims to deal with the problem that an instance may be associated withmultiple sentiment labels.Most existing multi-label sentiment classification models were designed based on complete data,andtheir performance and sentiment were easily affe

8、cted by the incompleteness of data itself.To address this problem,a cross-language multi-label sentiment classification model based on stacked denoising autoencoder is proposed,and a loss function isintroduced to compensate for the loss caused by training.In this model,the word vectors are denoised

9、by the stacked denoisingautoencoder to construct the low-dimensional features of the original data.This reduces the noise interference in feature spaceand provides effective feature representation for downstream tasks.In the multi-label sentiment classification experiment ofSemEval2018 three languag

10、e datasets(English,Arabic and Spanish),the micro_F1 score,macro_F1 score and jaccard indexesof the model on the test set are all improved.Macro_F1 is improved by about 0.82,1.45 and 1.83 percentage points,respectively.Key words:multi-label classification;sentiment classification;incomplete data;BERT

11、;stacked denoising autoencoder(SDAE)2023年第11期个潜在情感记忆网络,通过一个变分自编码器学习情感分布,同时记忆模块捕捉每个情感对应的特征等;文献 6 提出SpanEmo利用BERT7同时学习标签和单词的关系,引入了标签感知损失函数8(LossChange Allocation,LCA)专注于对输入文本中多种共存情感之间进行建模,是目前性能最好的多标签情感分类模型。虽然上述模型在不同的情感数据集上表现优秀,但是在处理数据时忽略了数据本身的不完全性。数据的不完全性在Twitter文本上表现为人为的书写错误等9,因为用户喜欢使用简短而简洁的句子进行交流,几乎

12、不考虑正确的句子的语法或单词拼写。但是噪声数据带来的误差在神经网络模型的反向传播过程中逐轮累积,进而会影响模型的分类效果10。针对数据存在不完全性问题,栈式降噪自编码器11(Stacked Denoising AutoEncoder,SDAE)在隐层上对噪声数据的表达与干净输入几乎相同,通过均方误差(Mean Squared Error,MSE)函数降低训练过程带来的损失,在含噪数据的情感分类任务中比随机森林(Random Foreest)等传统机器学习模型的分类性能优秀;文献 12 提出了降噪 BERT;文献 13 提出的SDAE-BERT模型利用SDAE直接对原始数据去噪。为了降低数据的不

13、完全性带来的负面影响,本文提出一种基于栈式降噪自编码器的跨语言多标签情感分类模型SpanEmo-SDAE。总的来说,本文的主要贡献如下:1)提出基于自编码器的跨语言多标签情感分类模型,利用栈式降噪自编码器对 BERT 的词嵌入向量进行去噪并构建原始数据的低维特征,对BERT学习上下文的语义特征进行补充。2)引入标签感知损失函数,其目标是通过直接从情感数据集学习使正面标签和负面标签之间的距离最大化;引入均方损失函数,通过构建原始数据中预测标签与真实标签间距离的平方和并赋予异常点更大的权重来减少噪声的影响。同时设计实验来调节2个函数对损失的控制。3)本文在3种不同语言的数据集上分别与各自较为流行的

14、模型进行对比试验,证明该模型在3种语言(即英语、阿拉伯语和西班牙语)的多标签情感分类上的优势。此外,设计消融实验来验证栈式降噪自编码器的去噪能力。1相关工作1.1多标签学习多标签学习是针对现实世界中普遍存在的多义现象进行学习。在该框架中,每个实例由一组特性组成,可以同时归属于多个标签。学习的最终目的是为每个未知实例分类相关性最高的标签集。多标签学习可以描述为:设Y=y1,y2,ym是实例所对应的标签集,X=x1,x2,xnTRnd表示输入的文本,其中n表示实例的数目,d表示输入的维度。最终的映射关系f:X-1,1m。通过分析训练集中实例的已知标签和使用验证集验证模型训练效果,在测试集中进行多标

15、签分类。1.2栈式降噪自编码器自编码器(AutoEncoder,AE)是一种非线性无监督学习技术,旨在学习编码器和解码器输入的近似表示。为了获取数据的隐层表达,Vincent等人14提出了降噪自编码器(Denoising AutoEncoder,DAE),通过人为地加入噪声,局部破坏数据特性,再产生对应的损坏信号,通过对损坏信号编码-解码恢复成相对干净输入。为了避免一次线性变化给模型带来过拟合现象,Vincent等人提出了栈式降噪自编码器。本文将使用栈式降噪自编码器来处理高维度数据的不完全性问题。如图1所示,其中黑色的数据表示含噪数据。栈式降噪自编码器通过逐层贪婪训练法,采用误差反向传播机制,

16、学习文本的最优低维特征。相较于高维数据一次性到低维的转化,多次的“栈化”能够提取和重组数据更深层的隐藏表达。图1栈式降噪自编码器1.3BERT预训练模型词向量模型Word2Vec15通过语料训练出相同形状的多个1k维的词向量,通过拼接词向量生成一个nk维的向量,其中k为词向量维度,n为句子中单词的数量。但是,Word2Vec属于静态词向量,无法解决多义词问题。为了解决该问题,文献 7 提出具有双向Transformer的预训练模型BERT,该模型通过无监督预训练的方式抽取了大量的语言信息,有着更强的词表征能力。本文将使用BERT进行词义表示。1.3.1输入表示BERT在输入句子时引入了3种不同

17、的嵌入:标记词嵌入(Token Embedding)、片段词嵌入(SegmentEmbedding)、位置词嵌入(Position Embedding),再将3种维度相同的向量拼接得到输入表示。其中,Token Embedding表示维度固定的词向量,Position Embedding表示编码输入序列的位置信息。每句话开头以 CLS 表示开始,可利用 CLS 编码全句的语义进行情感分类,结尾以 SEP 作为结束,2 个句子间以SEP 作为分隔符,SEP 编码可区别句子对中的 2个句子的向量表示。1.3.2掩盖语言模型常见的语言模型如 ELMo16(Embeddings fromOutputD

18、ecoder 2Decoder 1Encoder 1Encoder 2Input唐诗琪,等:基于栈式降噪编码器的跨语言多标签情感分类7计算机与现代化2023年第11期Language Models)采用的是 BILSTM 的网络结构,该模型使每个单词在多层上下文中间接“看到自己”;OpenAI GPT使用从左向右的单向Transformer,两者均存在语义单向问题。BERT 采 用 掩 盖 语 言 模 型(Masked LanguageModel,MLM)和下一句预测(Next Sentence Prediction,NSP)这2个预训练任务共同解决词义单向的问题。MLM:为了BERT能够学习

19、上下文语义,MLM选择随机掩盖一定比例的单词,强迫模型通过全局语义来学习被掩盖的单词,实现了深度的双向表示。NSP:判断前后2个句子是否连续。MLM选取输入句子中的15%的单词作为待遮蔽位置,待遮蔽位置中80%的位置被 MASK 代替,10%的位置被随机的单词取代,10%的位置不作改变。从理论上讲,MLM采用了降噪自编码器的思想,通过从人为加入的噪声中恢复原始的输入的过程,迫使模型学习整体的共现信息,但这仅仅影响预训练阶段。本文将使用SDAE对含噪数据去噪并提取降维特征,与下游任务中特定的数据集的语义特征进行融合。1.3.3Transformer编码器Transformer 编码器是一个基于注

20、意力机制的Seq2Seq17(Sequence to Sequence)模 型,采 用 了Encoder-Decoder 结构,舍弃了传统的 CNN 和 RNN,仅使用自注意力机制来学习单词间的相互关系,既兼顾了并行计算能力,又极大地提升了模型学习长文特征的能力。BERT仅采用 Transformer编码器,其结构如图2所示。词向量首先经过多头注意力(Multi-Head-Attention)机制层,促使模型提取不同子空间的信息,从而学习更多层次的特征信息。接着,经过前馈神经网络层做低维空间到高维空间的映射,得到最终的向量表示。Transformer编码器中的每个子层都有一个残差连接进行层规范

21、化,残差连接可缓解梯度消失现象,层规范化通过对样本的元素进行归一化,以此缓解数据的剧烈变化,从而加快模型的收敛速度。BERT模型包含12个相同的Transformer编码层,增强了BERT学习的深度。图2Transformor编码器2模型描述数据的不完全性既可以表示为句子中单词的拼写错误、语法错误等,也可以表示为标签中的噪声,本文主要关注前者,也就是带噪声的数据文本。表1为实验所用数据集中的常见错误类型,其中括号内为词语的规范表示。在类似Twitter这样的非正式场合,人们为了方便,容易造成句子残缺,而机器无法像人一样灵活地进行判别,从而降低了模型的分类性能。例如,“too hot to go

22、 to school”错误写成“to hot to goto school”,则情感由 disgust、peesimism、sadness错误识别为joy、optimism、trust。表1数据集常见错误类型错误类型拼写语法缩写发音拟声其他举例belive(believe)、all ready(already)、psychitrist(psychiatrist)Teachers Day(Teacher s Day)、they re(they ve)、toto(tooto)Dr(doctor)、thx(thanks)wanna(want to)ha-ha、aha、heheOMG(oh my go

23、d)2.1SpanEmo-SDAE模型本文提出基于栈式降噪自编码器的跨语言多标签情感分类模型SpanEmo-SDAE,如图3所示。给定一个句子和一组情感标签,通过BERT的嵌入层构建句子和标签集向量,使用栈式降噪自编码器对向量进行去噪并构建低维特征,同时利用 BERT 的 transformer层来学习向量的上下文的单词表示。接下来,使用前馈网络(Feed Forward Network,FNN)将学习到的特征标记分类到每个token中。最后,使用标记在标签上的分数来预测相关性最高的标签集。图3SpanEmo-SDAE模型词嵌入处理后的词向量多头注意力求和&归一化前馈神经网络求和&归一化Nx位

24、置编码输入E SEP E CLS E SEP Ec1Ec2EcmEw2Ew1Ewnc1c2CLScmSEPw1w2wmSEPClasses(C)Input(si)BERT EncoderSDAED0D1D2E3E2E1E0concatFeed Forward Networkc1c2CLScmSEPw1w2wnSEPInput82023年第11期图3中,FFN顶部的浅灰色方框为积极标签集,深灰色方框为消极标签集,用于多标签情感分类。在2.2节将介绍SpanEmo-SDAE模型的4个层次以及使用的损失函数。2.2模型结构介绍2.2.1输入层对于情感标签集|C|,令()si,yiNi=1是N个实例的

25、集合,其中si表示输入的句子,yi0,1m表示si对应的标签集。如图3的模型结构所示。将情感标签集|C|和输入的句子si经过分词操作构造为输入序列X,该序列是一个索引列表,能够输入到BERT的嵌入层转化为大小为()Nbs,mls,Nhidden的词嵌入向量E0表示,如公式(1)、公式(2)所示。其中,Nbs为批处理数量,mls为句子的最大序列处理长度,Nhidden为隐藏层神经元数。X=CLS+|C|+SEP+si+SEP(1)E0=Embedding(X)(2)其中,CLS、SEP 为特殊token,|C|为情感标签集,si为输入的句子,X为总的输入序列。公式(2)的Embedding函数指

26、BERT的嵌入层。2.2.2BERT Encoder将词向量E0传递到BERT Encoder,得到每个输入句子和标签集的隐藏表示()Hi RT D2,如公式(3)所示,其中T和D分别表示输入的长度和维度。Hi=Encoder(Hi-1),H0=E0(3)文献 6 指出,将情感标签集和句子同时送入BERT Encoder有几个优点:1)BERT Encoder可以在情感标签集和输入句子中的所有单词之间进行交叉学习;2)对情感标签和情感标签单词本身生成一个隐藏表示,用于进一步了解BERT Encoder是否能够学习输入句子中情感标签单词和情感标签之间的关联。除此之外,BERT Encoder还能

27、够回传一段相同长度且蕴含上下文语义的序列,对下游的NLP任务很有帮助。2.2.3SDAESDAE 拥有 3 个降噪自编码器,共 6 个隐藏层。其中,降噪自编码器分为编码和解码2个过程,其公式为式(4)、式(5):编码过程:E1=R()Y02R()Y01E0+b01+b02E2=R()Y12R()Y11E1+b11+b12E3=Y22R()Y21E2+b21+b22(4)解码过程:D2=R()Y22R()Y21E3+b21+b22D1=R()Y12R()Y11D2+b11+b12D0=T()Y02R()Y01D1+b01+b02(5)其中:E1、E2、E3、D2、D1为编码、解码过程中出现的中间

28、变量,E0为BERT的嵌入层输出的词嵌入向量;Y、b、Y、b为编码、解码过程中的权重和偏置;R为线性整流(Rectified Linear Unit,ReLU)函数,T为双曲余切(Hyperbolic Tangent,Tanh)函数。使用MSE损失计算SDAE的解码输出数据D0与E0的误差,如公式(6)所示。使用具有权重衰减的AdamW优化器更新网络参数。LMSE()D0,E=1Nbsi=1Nbs()D0-E2(6)其中,Nbs为批处理数量,表示每训练一批数据计算一次误差大小,一批数据的误差为全部批量的平均误差。2.2.4前馈网络将上一层BERT的输出T和SDAE的编码输出E3融合作为FNN的

29、输入。FNN由一个非线性的隐含层(fi(Ei+T)和一个位置向量piRD组成,用于计算fi和pi的输出之间的点积。不同于单标签情感分类,多标签情感分类需要添加一个sigmoid激活函数来确定yi是否为正确的情感标签,如公式(7):y=sigmoid()FFN()Ei+T(7)2.2.5损失函数本文引入标签感知损失函数,它以一个真正的二进制向量y以及一个概率向量y作为输入,计算方式为公式(8)。BERT模型由12个Transformer组成,取最后一层的隐藏层向量用于情感分类。LLCA()y,y=1|y0|y1()p,q y0 y1exp()yp-yq(8)其中,y0为负标签集合,y1为正标签集

30、合。yp表示向量y的第p个元素。该损失函数的目的是通过隐式保留标签依赖信息,使正面标签和负面标签之间的距离最大化。也就是说,当该模型预测到给定实例中不应该共存的标签时,该模型应该受到惩罚。考虑到SDAE训练时会带来相应的损失,本文将引入 MSE,与 LCA 进行联合训练。LCA 损失的重点是最大化正负标签集之间的距离,而MSE损失能够使解码输出数据 D0接近于输入数据 E0,从而提升SDAE提取降维特征的精确性。本文也通过多次实验观察到:将SpanEmo-SDAE模型与这2个损失函数联合训练能产生最好的结果。因此,总的损失函数设计如公式(9):L=()1-LMSE+ai=1MLLCA(9)其中

31、:a 0,1 表示各部分对整体损失贡献的权重。3实验与结果分析3.1数据集为验证提出的模型在多标签情感分类中的性能,本文采用Semval2018 Twitter数据集18,它是基于英语、阿拉伯语和西班牙语的数据集,其中的11种情感标签为:anger、anticipation、disgust、fear、joy、love、optimism、pessimism、sadness、surprise、trust。数据集被分成3个集合:训练集、验证集和测试集。表2给出了每唐诗琪,等:基于栈式降噪编码器的跨语言多标签情感分类9计算机与现代化2023年第11期种语言的训练集、验证集和测试集的实例数目。表2数据集

32、数据集类别训练集验证集测试集标签数量英语6838886325911阿拉伯语2278585151811西班牙语35616792854113.2评价指标由于本文采用 Semval2018 Twitter数据集,其给出的指标为 micro_F1、macro_F1 和 jaccard 相似度。本文将使用与其相同的评价指标,具体公式如下。microP=-TP-TP+-FP(10)microR=-TP-TP+-FN(11)micro_F1=2 microP microRmicroP+microR(12)macroP=1ni=1nTPiTPi+FPi(13)macroR=1ni=1nTPiTPi+FNi(1

33、4)marco_F1=2 macroP macroRmacroP+macroR(15)jaccard=|yhat ytrue|yhat ytrue(16)其中:microP 为微观精准率,microR 为微观召回率,macroP为宏观精准率,macroR为宏观召回率。正样本被正确预测为正样本的数量记作TP,负样本被错误预测为正样本的数量记作FP,正样本被错误预测为负样本的数量记作FN。而i表示第i个情感标签(i取值范围为111)。yhat为预测标签,ytrue为目标标签。3.3超参数设置本文所有的实验模型均在PyTorch1.2.0和Transformers3.0.2 框架上进行,操作系统为

34、64 位的 Centos7.6,GPU是11 GB的Nvidia GeForce GTX 1080显卡。BERT 英 文 数 据 集 采 用 的 模 型 是 bert-base-uncased,阿拉伯语数据集采用的模型是 bert-base-arabic,西班牙语数据集采用的模型是 bert-base-spanish-wwm-uncased,词向量维度为 768,输入句子的最大长度为128。SDAE输入句子的处理序列长度为 128,隐藏层神经元数为单词的词嵌入维度768。其中,编码器的隐藏层神经元数参数为(384,128,32),解码器的隐藏层神经元数为(32,128,384)。3种不同语言的

35、数据集在相同的超参数上训练,初始化种子固定,特征维数为768,批大小为32,退出率为 0.1,训练 epoch 为 20 个。使用 Adam 优化器,BERT的学习率为2e-5,SDAE与FFN的学习率为1e-3。为了防止过拟合所提模型使用了早停训练法,早停 epoch 设为 10 个。在损失函数权重设计上,由于BERT 构建的是不同单词间、句子间相互联系的特征,SDAE构建的是数据的原始特征,前者的特征含义更丰富,则设置a=0.2,而多次实验结果也证明了当a=0.2时,几乎所有指标都获得了最佳效果。3.4实验结果对比及分析实验比较了 SpanEmo-SDAE 在 3 种语言上和一些基线以及最

36、先进的模型的性能。除了对比 SpanEmo模型本身,在与英语相关的试验中,本文还选择了 8 个模型进行对比,分别为 JBNN、DATN19、NTUA、RERc20、BERTBASE21、BERTBASE+DK22、BERTBASE-GCN23、LEM;在与阿拉伯语的实验中,本文还选择了 4个模型,分别为 EMA24、Tw-StAR25、HEF26、BERT-base;在与西班牙语相关的实验中,本文还选择了 4 个模型,分别为 Tw-StAR、ELiRF27、MILAB、BERT-base。以下为对比模型的简要介绍:1)DATN提出了一种基于双重注意的迁移学习方法,通过双重注意力分别捕获一般情感

37、词和其他重要情感词的特征,利用情感分类来改进多标签情感分类的性能。2)RERc定义了情感相关损失排序,重点是将情感关系纳入损失函数,以提高情感预测和相关情感排名等。3)BERTBASE+DK和BERTBASE-GCN使用了与本次实验相同的编码器,前者考虑额外的领域知识(DK),后者通过图卷积网络(GCN)捕捉情感关系。4)SpanEmo 在 BERT 中同时学习标签集和句子中的单词之间的关系,并引入了标签相关感知损失函数,该模型可以同时对3种语言进行分类。5)EMA是SemEval2018竞赛中性能最好的模型。它利用了各种预处理步骤(例如,删除变音符、标准化、表情符号转录和词根提取)以及不同的

38、分类算法。6)Tw-StAR 模型通过预处理步骤,利用 TF-IDF学习支持向量机的特征。7)HEF基于一种混合神经网络,包括不同的单词嵌入(如Word2Vec、Glove、FastText)以及RNN神经网络的变体,如长短期记忆和门控循环单元。8)ELiRF模型应用了一些预处理步骤,同时也为西班牙语推文调整了推文标记器。9)MILAB 是 SemEval2018 共享任务中性能最好的模型。表3为不同语言的模型在SemEval2018数据集上的表现。实验结果表明,本文提出的模型SpanEmo-SDAE在3种不同的语言数据集及在所有指标上的效果都优于其他模型,这证明了SpanEmo-SDAE的实

39、用性和优势。并且与性能最优的SpanEmo模型相比,加入的栈式降噪自编码器对词向量去噪并构建原始数据的低维特征,不仅降低了特征空间的噪声干扰,而且实现了单词与标签的信息结合,为下游任务提供有效特征表示。可以看到,在英语数据集上,3个指标分别提升了约0.07、0.82、0.04个百分点;在阿拉伯语数据集上,3个指标分别提升了约0.75、1.45、0.46个百分点;在西班牙语数据集上,3 个指标分别提升了约0.12、1.83、0.64个百分点,验证了所提模型在3种语言的数据集上具备最佳的分类性能。102023年第11期表3不同模型在SemEval2018数据集上的表现语言模型/指标JBNNRERc

40、DATNNTUABERT-baseBERT-base+DKBERT-base-GCNLEMSpanEmoSpanEmo-SDAE语言模型/指标Tw-StAREMABERT-baseHEFSpanEmoSpanEmo-SDAE语言模型/指标Tw-StARELiRFMILABBERT-baseSpanEmoSpanEmo-SDAE英语micro_F10.63200.6510-0.70100.69500.71300.70700.67500.71300.7137阿拉伯语micro_F10.59700.61800.65000.63100.66600.6735西班牙语micro_F10.52000.535

41、00.55800.59600.64100.6422macro_F10.52800.53900.55100.52800.52000.54900.56300.56700.57800.5862macro_F10.44600.46100.47700.50200.52100.5355macro_F10.39200.44000.40700.47400.53200.5503jaccard-0.58300.58800.57000.59100.5890-0.60100.6014jaccard0.46500.48900.52300.51200.54800.5526jaccard0.43800.45800.4690

42、0.48700.53200.53843.5消融实验为了了解所提模型的框架影响,实验对模型在3种情况下的性能进行了烧蚀研究:第一,将常用的二元交叉熵损失函数(Binary Cross Entropy,BCE)替换 LCA,证明 LCA 损失函数比 BCE 损失函数有效;第二,移除SDAE,则损失函数仅有LCA,消融后的模型等同于仅有LCA损失函数的 SpanEmo 模型,验证引入 SDAE 的有效性。实验结果如表4所示。表4消融实验结果语言模型/指标SpanEmo-SDAEBCE+MSESDAE Seg.语言模型/指标SpanEmo-SDAEBCE+MSESDAE Seg.语言模型/指标Span

43、Emo-SDAEBCE+MSESDAE Seg.英语micro_F10.71370.68820.7034阿拉伯语micro_F10.67350.62810.6445西班牙语micro_F10.64220.60910.6117macro_F10.58620.52580.5692macro_F10.53550.46260.523macro_F10.55030.47220.5389jaccard0.601430.56180.5873jaccard0.55260.49860.5144jaccard0.53840.48680.5024由此得知,当 SpanEmo-SDAE 训练使用普通的BCE代替LCA

44、时,各项指标下降了24个百分点;当移除SDAE,各项指标下降了24个百分点。在阿拉伯语和西班牙中的情况也是如此,这反过来验证了SDAE的降噪作用以及SpanEmo-SDAE通过引入LCA损失函数极大提升了跨语言多标签情感分类的性能。3.6参数的影响SpanEmo-SDAE 通过参数 进行 LCA 损失和MSE损失训练,其结果见图4。当=0.0时,表示模型仅用LCA损失进行训练;当=1.0时,表明仅用MSE损失进行训练。将LCA与MSE组合可以平衡3个指标的结果,从而产生强大的分类性能。当=0.2时,几乎所有指标都获得了最好的结果。因此,本文将所有试验的参数设置为0.2。图4参数的值分析4结束语

45、针对现有的多标签情感分类模型在处理数据时关注的是将数据处理为标准的形式,而忽略了数据本身的不完全性,本文提出基于栈式降噪自编码器的跨语言多标签情感分类模型。首先确认了栈式降噪自编码器具备数据去噪以及提取低维特征的作用;其次描述了 BERT 的词嵌入处理、Transformer 编码器和MLM;最后提出将BERT与栈式降噪自编码器提取的不同特征融合进行分类。在含噪数据的实验中,各项评价指标均有提升,从而验证了SpanEmo-SDAE模型进行跨语言多标签情感分类的有效性。在未来的工作中,计划评估所提模型对其他类型噪声的鲁棒性,例如单词重新排序、单词插入和句子中的拼写错误。为了提高模型的性能,将进行

46、进一步的实验,寻找更合适的超参数和更复杂的神经分类器来替代最后一层前馈网络层。参考文献:1 SCHAPIRE R E,SINGER Y.Improved boosting algorithmsusing confidence-rated predictionsM/Machine Learning.Kluwer Academic Publishers,1999,37:297-336.2HE H H,XIA R.Joint binary neural network for multi-label learning with applications to emotion classificati

47、onC/CCF International Conference on Natural LanguageProcessingandChineseComputing(NLPCC).2018:250-259.3CAMRAS L.Emotion:A psychoevolutionary synthesis byRobert Plutchik J.The American Journal of Psychology,1980,93(4):751-753.4 BAZIOTIS C,NIKOLAOS A,CHRONOPOULOU A,et al.00.5100.20.40.60.81指标值参数的值macr

48、o_F1micro_F1jaccard唐诗琪,等:基于栈式降噪编码器的跨语言多标签情感分类11计算机与现代化2023年第11期NTUA-SLP at SemEval-2018 task 1:Predicting affectivecontent in tweets with deep attentive RNNs and transferlearning C/Proceedings of the 12th International Workshop on Semantic Evaluation.2018:245-255.5 FEI H,ZHANG Y,REN Y F,et al.Latent

49、 emotion memoryfor multi-label emotion classificationC/Proceedings ofthe AAAI Conference on Artificial Intelligence.2020:7692-7699.6 ALHUZALI H,ANANIADOU S.SpanEmo:Casting multi-label emotion classification as span-predictionC/Proceedings of the 16th Conference of the European Chapter ofthe Associat

50、ion for Computational Linguistics.2021:1573-1584.7 DEVLIN J,CHANG M,LEE K,et al.BERT:Pre-trainingof deep bidirectional transformers for language understanding C/Proceedings of NAACL-HLT.2019:4171-4186.8 YEH C K,WU W C,KO W J,et al.Learning deep latentspace for multi-label classification C/Proceeding

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服