DA-Transformer：基于“门”注意力的文本情感分析方法.pdf

资源描述

1、0ct.2023Journal of Xian UniverNatural Science Edition)2023年10 月No.4Vol.26西安文理学院然科学版）第2 6 卷第4期文章编号：10 0 8-556 4(2 0 2 3)0 4-0 0 35-0 5DA-Transformer:基于“门”注意力的文本情感分析方法李苗，关力?,张扬1（1.安徽新华学院大数据与人工智能学院，合肥2 30 0 8 8；2.大连交通大学计算机与通信工程学院，辽宁大连116 0 0 0）摘要：为了解决Transformer对中文文本词语建模时容易造成信息穴余这一问题，提出了一种“门”注意力结合Trans

2、former(DA-Transformer）的情感分析模型.该模型通过在Transformer模型中的编码和解码过程中插人一种基于自注意力的“门”注意力（DA）来建立文本的长远距离依赖，加速模型学习深层特征与浅层特征的权重比值.本模型在ChnSentiCorp_htl_al和weibo_senti数据集上得到验证.实验表明，本模型的准确率比BLSTM的准确率高1.8%，比BLSTM-Attention模型的准确率高0.9%，表明本模型具有一定的优异性与可实行性。关键词：文本情感分析；Transformer模型；信息穴余；自注意力机制；DA中图分类号：TP391.1文献标志码：ADA-Trans

3、former:Text Sentiment Analysis Method Based on Gate AttentionLI Miao,GUAN Li?,ZHANG Yang(1.School of Big data and AI,Anhui Xinhua University,Hefei 230088,China;2.School of Computer and Telecommunications Engineering,Dalian Jiaotong University,Dalian 116000,China)Abstract:In order to solve the proble

4、m that Transformer is easy to cause information redundan-cy when modeling Chinese text words,a sentiment analysis model combining gate attentionwith Transformer(DA Transformer)is proposed in this paper.This model establishes the long-term distance dependence of text by inserting a self attention bas

5、ed gate attention(DA)dur-ing the encoding and decoding process in the Transformer model,accelerating the modelslearning of the weight ratio between deep and shallow features.This model has been validatedon the ChnSentiCorp_htl_al and weibo_senti datasets.The experiment shows that the accuracyof this

6、 model is 1.8%higher than that of BLSTM,and 0.9%higher than that of BLSTM-Atten-tion model,indicating that this model has certain advantages and feasibility.Key words:text sentiment analysis;Transformer model;information redundancy;self-attention mechanism;DA收稿日期：2 0 2 3-0 1-12基金项目：2 0 2 1年安徽省质量工程重大

7、教研项目应用型本科高校人工智能专业群建设与改革研究(2021jyxm0616)作者简介：李苗（198 4一），女，安徽蚌埠人，安徽新华学院大数据与人工智能学院讲师，硕士，主要从事计算机应用技术和学生教育教学管理研究.上对36第2 6 卷西安文理然科学版）文本情感分析属于自然语言处理领域，它比较倾向于对人们的情感偏向进行分析.情感分析是对含有情感信息的数据进行处理、分析，而得到情感极性的结果.目前，常用的情感分析方法是将文本数据经过分词工具分词后，再使用预训练模型将词映射成唯一的词向量，再通过各种深度学习神经网络提取特征，最后进行分类.例如，段承祺用改进的RNN处理序列经过隐藏层间的连接，让序列

8、后部节点的计算中包含了序列前部节点的信息；孔繁钰等用改进的Bi-LSTM解决深度神经网络的退化问题 2 ；杨奎河等用Transformer针对复杂语境提取信息 3 但是上述模型在实验中忽略了一个问题，那就是信息数量是非常庞大的，非常容易造成信息穴余，如何在这过程中有选择的建立文本的长远距离信息是本文更为关注的.本文基于冯茹嘉等 4 的模型，提出了一种“门”注意力(DA）结合Transformer的模型DA-Transformer.1结合“门”注意力的Transformer文本情感分析传统中文情感分析Transformer模型会造成信息亢余，不能突出有效特征，使得模型收敛缓慢.销高准确度信息的筛

9、选问题，本文建立了DA-Transformer的情感分析模型，如图1所示1.1DA-Transformer模型DA-Transformer模型主要由5部分组成，分别是输人层、Transformer层、BLSTM层“门”注意力机制层和输出层.模型整体的框架为：首先将句子经过输入层输人到模型中，然后利用Transformer预训练模型获取包含上下文语义信息的词向量，再利用BLSTM提取上下文相关特征进行深度学习，获取高级特征 5.接着引人自注意力机制生成一个权重向量，通过与这个权重向量相乘，使每一次迭代中的词汇级的特征合并为句子级的特征.最后将句子级的特征向量输入到输出层，用于完成情感分类任务。1

10、.2“门”注意力（DA）为了尽可能降低Transformer在建立长远距离关系依赖时产生的穴余信息，本文提出的模型借鉴了LSTM的“门”结构，把“门”与Transformer相结合.在DA-Transformer模型中，增加了“门”注意力，OutputProbabilitiesSoftmaxLinearAdd&NormFeedForwardAdd&NormAdd&NormMuiti-HeadFeedAttentionForwardNxAdd&NormNxAdd&NormMaskedMulti-HeadMulti-HeadAttentionAttentionPositionalPositiona

11、lEncodingEncodingInputOutputEmbeddingEmbedding(Gate-attention,DA)OutputsInputs(shiftedright)图1DA-Transformer模型该“门”注意力主要有三部分组成，第一部分是基于L,正则化的全局上下文编码，如公式（1）所示，这部分的主要作用是增大感受也有助于避免局部混淆。S,=,/x/,=,Z,(x)+)(1)其中，是一系列可学习的参数，H和W是词条的长度和宽度,同时也是一个可学习参数，有助于增加模型的非线性拟合能力，并且避免倒数为0 情况出现.第二部分是基于L,的跨通道正则化，如公式（2)所示，这部分主要

12、作用是通过少量计算资源构建神经元间的竞争关系VCS.VC人（2)SS12C2S=1为：.自37李苗，感分析方法第4期其中，VC为尺度因子，用于规范化3。的尺度以避免尺度过小，E作用同公式（1）中一致，用于避免倒数为0 的情况出现.第三部分也是基于L,的正则化，如公式（3）所示，其作用主要是促进神经元的竞争或者协同关系.x。=x 1+t a n h(。S.+.)(3)由于通道规范化无参数操作，设计了一组可训练参数，用于控制通道门限，当通道的门限权值为正时，取得通道竞争关系；当通道的门限权值为负时，取得通道协同作用1.3Transformer 层由于在中文文本中,经常出现一词多义的情况，而Tran

13、sformer模型采用了一种灵活且高效的字向量表示方法，这种方法允许模型根据上下文准确地表达词语的其他意思，因此选择Transformer模型作为基准模型.针对Transformer模型的输入层进行相对位置嵌人.由于针对的是中文文本的情感评论分析，所以数据集预训练模型选用选择Transformer-Base-Chinese.Transformer-Base-Chinese是谷歌官方提供的完全版本，Transformertext是用于测试训练的训练版本，为了方便操作，选用Transformertext作为原始训练模型，并在Transformertext相应位置嵌人并增加了部分参数，三种模型参数对

14、比如表1所示.表1三种模型参数对比模型名称隐层向量长度头数注意力层数输人最大长度总参数Transformer base7681212512110MTransformer text5128851217M本文模型5128851218M1.4BLSTM层不同于LSTM的单向传输,BLSTM包含一个前向LSTM和一个后向LSTM,能够分别学习序列中各个词的左右上下文信息，实现双向传输.该模型分为输人层、前向LSTM、后向LSTM和输出层4部分.输人层接收从Transformer层输出的词向量，到达前向LSTM后，前向LSTM按1,2，n的顺序依次读取输人向量T,T，,T,并计算前向隐藏状态序列h，接着

15、后向LSTM逆序读取序列T，,T,，T,到一个后向隐藏状态序列h,最后将前向和后向隐藏状态序列相连接，输出后得到完整的序列.1.5自注意力层由于Transformer模型并未进行微调训练，为了弥补模型准确性损失，在模型中增加自注意力层注意力只在序列内部完成注意力计算，寻找序列内部联系，常用放缩点积注意力进行计算，计算公式QKTDA(Q,K,V)=SoftMax(4)其中，Q,K,V表示三个矩阵，它们接收BLSTM层的输出作为输人，由相同的输入经过不同的参数计算得到的,为了防止结果太大,利用SoftMax把操作结果归一化处理2实验及结果分析2.1数据集本实验使用的数据集来自中国科学院谭松波整理的

16、ChnSentiCorp_htl_all和weibo_senti数据集.其中ChnSentiCorp数据集包括了7 7 6 6 条酒店评论数据；weibo_senti数据集共11998 8 条数据.将这些数据分为2 个类别：积极评价（positive）和消极评价（negative）数据集.分别从ChnSentiCorp_htl_all数据集随机抽样2 0 0 0 条语句，从weibo_senti数据集随机抽样10 0 0 0 0 条语句，构造平衡语料作为本实验数据，其中ChnSentiCorp数据集正负预料各10 0 0 条，weibo_senti数据集正负预料各50 0 0 0 条.通过人为

17、标注的方式将选取的10 万条数据分为积极和消极评论，1表示积极评论，0 表示消极评论.实验将两份数据集分为训练集、验证集和测试集，按照6：2：2 的比例划分.通过观察可以发现，ChnSentiCorp_htl_all数据集一般长度范围在 0,40 0 之间，而weibo_senti数据集中其长度普遍分布在 0,2 0 0 之间.根据数据集的文本长度差异，ChnSentiCorp_htl_all数据集和weibo_senti数据集的参数设置具体如表2 所示.口38第2 6 卷西安文理学院生自然科学版）2.2评价指标评价指标作为判断模型的标准，能很好的对模型的性能进行衡量，评估词向量的性能指标通常

18、采用混淆矩阵的方法.本实验效果的评价指标有4个,分别为准确率Acc（a c c u r a c y）、精确率P(precision）、召回率R(recall)和F1(f-score).2.3实验结果分析2.3.1结合自注意力模型的比较表2DA-Transformer模型参数参数ChnSentiCorpweibo_senti学习率1r0.0020.02dropout0.30.4词向量维度230200LSTM隐藏层120120文本最大长度max_len500200本模型DA-Transformer首先在ChnSentiCorp_htl_all数据集上面做了消融研究，实验过程如图2 禾图3所示。训练

19、DA-TransformerTransformer0.1250.1200.1150.110020406080100120选代次数图2DA-Transformer模型消融实验训练损失图验证DA-Transformer0.8Transformer0.60.40.20.0020406080100120送代次数图3DA-Transformer模型消融实验验证准确率图从消融实验的训练过程中可以看出，在刚开始“门”注意力并没有发挥作用，这是因为训练起始阶段，特征信息采集的还不算很多，这也证明了本文提出的“门”注意力并不会起到降低特征收集的反作用.在训练中期阶段，特征开始越来越多，特征开始允余，这时候“门”

20、注意力开始发挥作用，将大量的重复的信息屏蔽掉，减轻了模型输出层的负担，让模型更为“关注”重要特征.从验证准确率图可以看到，在20个epoch之后，提出的“门”注意力开始显著提升模型在ChnSentiCorp_htl_all数据集的准确率.显而易王新奇责任编辑基于39第4期李苗，感分析方法见，提出的“门”注意力在降低特征允余方面有着重要作用.为了对比结合自注意力模型的优势，将实验分成两类四组对照实验，一类是使用传统的神经网络模；另一类在之前的基础上引入自注意力进行训练.如表3所示，第一组为参照模型，后三组为对照模型.第一组SVM模型的准确率最低，可以看出其本身的自学习能力偏弱.第二组引人自注意力

21、的C-LSTM模型比LSTM模型的准确率高2.2 4%；第三组引人自注意力的C-CNN模型比CNN模型的准确率高2.44%；第四组引人自注意力的C-CNN-LSTM模型比CNN-LSTM模型的准确率高1.7 9%.由此可见，“门”注意力机制的有效性，2.3.2深度学习网络的实验对比结果表3基于ChnSentiCorp_htl_all数据集的对比结果组别网络模型准确率第一组SVM79.11第二组LSTM86.22C-LSTM88.46第三组CNN86.52C-CNN88.96第四组CNN-LSTM87.25C-CNN-LSTM89.04OursTransformer85.42DA-Transfo

22、rmer90.01为了证明Transformer在语言特征提取方面的有效性，以及证明使用的分类器的优势，设置了不同分类方法的对比实验，同时设置了主流模型的对比分析实验，结果如表4所示，表4表明RNN模型在主动学习、取得隐藏起来的信息及文本特征等其他方面的能力更强.在RNN组中,BLSTM模型与LSTM模型相比，前者比后者的准确率高3.2%，表明双向LSTM网络比单向LSTM网络效果更好.而引人注意力机制的BLSTM模型的准确率比普通的BLSTM模型高1.8%，说明引人注意力机制可以提高模型对更多重要序列信息的注意能力，序列信息的注意能力表4基于weibo_senti数据集的对比结果组别网络模型

23、AccRecallF1MachineSVM81.8283.1582.84LearningNaiveBayes82.7184.1883.62RNNLSTM84.785.0184.75BLSTM87.987.2587.86BLSTM-Attention89.789.4389.61OursDA-Transformer90.690.7790.36的提高，又会进一步提高模型的准确率.从表4可以看出,DA-transformer模型比BLSTM模型在准确率、召回率和F1值依次提高了2.7%、3.52%和2.5%；DA-transformer模型比BLSTM-Attention模型在准确率、召回率和F1值依

24、次提高了0.9%、1.43%和0.7 5%.3结语本文首先研究了从早期的RNN、L ST M 到近几年火热的Transformer，包括了很多在Transformer基础上做的各种研究.详细分析了这些模型提出的目的，以及它们的优势和劣势.在此基础上，提出了“门”注意力的特征筛选机制.通过一系列的消融实验和对比实验，证明了“门”注意力在特征降维和加速模型收敛上发挥了不可忽略的作用.虽然“门”注意力可以去特征信息进行去重，但是也容易降低重要特征的权重.因此，我们会继续在“门注意力上进行研究，尝试与空洞卷积进行结合，因为空洞卷积同样有特征提取、扩大感受和建立长远信息的作用.同时也将尝试将“门”注意力

25、应用到图像处理上，希望“门”注意力在更多方向有更多有益的作用。参考文献1段承祺.通过MLP，CNN,R NN实现情感分析C/中国计算机用户协会网络应用分会.中国计算机用户协会网络应用分会2 0 2 2 年第二十六届网络新技术与应用年会论文集，2 0 2 2：6.2孔繁钰，陈纲.基于改进双向LSTM的评教文本情感分析 J.计算机工程与设计，2 0 2 2,43（12）：358 0-358 7.3杨奎河，孟豪阳.基于Transformer的微博文本情感分析算法研究 J.长江信息通信，2 0 2 3,36(1)：12 6-12 7.4冯茹嘉，张海军，潘伟民.基于情感分析和Transformer模型的微博谣言检测 J.计算机与现代化,2 0 2 1,314（10：1-7.5冯斌，张又文，唐昕，等.基于BiLSTM-Attention神经网络的电力设备缺陷文本挖掘 J.中国电机工程学报，2 0 2 0,40(S1):1-10.

展开阅读全文