多特征感知情感分析模型_袁勋.pdf

资源描述

1、基金项目:国家社会科学基金项目(19BTQ005)收稿日期:2021-05-21 修回日期:2021-06-07 第 40 卷第 4 期计算机仿真2023 年 4 月文章编号:1006-9348(2023)04-0509-05多特征感知情感分析模型袁勋1,刘蓉1,刘明2(1.华中师范大学物理科学与技术学院,湖北武汉 430079;2.华中师范大学计算机学院,湖北武汉 430079)摘要:情感分析旨在对带有情感色彩的主观性文本进行分析和总结,针对现有的情感分析研究存在语料特征提取不足等问题,提出了一种基于 BERT 的多特征感知情感分析模型。首先,将情感文本输入 BERT

2、进行语料编码,然后使用多个卷积核提取编码文本片段的局部特征设计了局部特征层,再对编码文本进行降采样操作构造全局特征层,通过融合局部特征层与全局特征层得到多特征感知网络,从而增强情感语料间的信息关联。实验表明,所设计的多特征感知情感分析模型是有效的。关键词:自然语言处理;情感分析;多特征感知;特征融合中图分类号:TP183 文献标识码:BMulti-Feature Perception Sentiment Analysis ModelYUAN Xun1,LIU Rong1,LIU Ming2(1.College of Physical Science and Technology,Central

3、 China Normal University,Wuhan Hubei 430079,China;2.School of Computer,Central China Normal University,Hubei Wuhan Hubei 430079,China)ABSTRACT:Sentiment analysis aims to analyze and summarize subjective texts with emotional colors.Aiming at theproblems of insufficient corpus feature extraction in ex

4、isting sentiment analysis research,a BERT-based multi-feature perception sentiment analysis model is proposed.First,the emotional text was input into BERT for corpus en-coding,and then multiple convolution operations were used to extract the local features of the short text to design a lo-cal featur

5、e layer,and then the encoded text was down-sampled to construct a global feature layer.By fusing the localfeature layer and the global feature,the multi-feature perception network was obtained,thereby enhancing the infor-mation association between emotional corpus.Experiments show that the multi-fea

6、ture perceptual sentiment analysismodel designed in this paper is effective.KEYWORDS:Natural language processing;Sentiment analysis;Multi-feature perception;Feature fusion1 引言随着科学技术的飞速发展,移动互联网已成为人们日常生活中密不可分的一部分,文本数据因其容易编辑、表达简单、存储空间占比小等优点在互联网上的应用最广,如何对这些数据进行分析并为实际应用场景提供支持是自然语言处理(Natural language proc

7、essing,NLP)的主要研究方向。情感分析是当下 NLP 领域中最热门的任务之一1,它能够利用计算机技术实现对情感文本的极性判断,有着重要的研究价值。情感分析最早由 Nasukawa2在研究商品评论时提出,互联网商品评论往往带有强烈的个人情感倾向,用户评论对于商家来说是非常重要反馈信息,通过对海量用户的评价进行情感分析,可以量化用户对产品及其竞品的褒贬程度,从而针对性的对自己的产品进行迭代升级。早期的情感分析主要基于情感词典对广泛使用的情感词进行归纳整理3-5所得,通过将文本语句与情感词典进行对比来判断文本的情感极性,但这种方法无法解决词典的边界问题。近年来,随着机器学习特别是深度学习的快

8、速发展,深度学习方法逐渐应用在情感分析领域,并取得了显著的成果。在深度学习方法中,如何将自然语言转换为计算机可理解的语义特征是文本情感分析的首要任务。Kim 等6采用类似多元语法的方法提取多个卷积神经网络(ConvolutionalNeural Network,CNN)特征进行拼接,得到多个文本局部特征905从而增强了模型的特征感知能力。Johnson 等7用类似图像卷积的思路设计了一种高维度文本卷积方法,使用深层次卷积方法将文本词向量与远距离单词进行交互,在情感分析任务上取得了不错的结果。陶永才等8针对单一文本词向量无法全面表示文本中的情感特征信息等问题,将情感词特征、情感符号特征与词性特征

9、进行融合,设计了一种多特征融合的情感分析方法。然而,卷积神经网络主要通过卷积核窗口式抽取特征,在长距离建模方面能力有限,且对文本的位序不敏感,缺乏对文本的整体感知能力。针对文本位序不敏感问题,Mikolov 等9提出循环神经网络(Recurrent NeuralNetwork,RNN),RNN 是一种带有记忆性质的特征提取网络,可以方便的提取上下文之间的位置关联。Li 等10认为传统RNN 网络无法解决长文本梯度消失的问题,采用长短时记忆网络(Long Short-Term Memory,LSTM)11提取长文本上下文间的语义关联,在情感多分类问题中取得了比 RNN 更好的成绩。但是,循环神经

10、网络由于其记忆模块逐级传递的特性,难以实现并行操作。Devlin 等12提出基于双向 Trans-former13的 BERT(Bidirectional Encoder Representations fromTransformers)语言模型,该模型采用自注意力而非记忆传递的方式将每个词映射为矩阵,因此能够实现并行操作,并且该模型是一种双向的预训练模型,在预处理阶段为每个元素添加位置信息,因此 BERT 输出编码包含整体文本的位序关系,为情感分析任务提供了语义表示基础。针对卷积网络整体感知不足问题,Severyn 等14在处理推特情感分析任务中使用平均池化和最大池化交互的方式,将提取到的文

11、本特征图中的纹理特征和数据特征拼接起来,提升了模型对文本整体的感知能力。受以上方法的启发,本文基于 BERT 提出一种融合多特征感知的情感分析模型(BERT MeanMaxpool CNN,BMMC)。首先,该模型将情感语料输入 BERT 进行编码,提取文本整体的位序关系,然后对编码信息进行卷积操作提取局部特征,并采用池化操作提取文本的纹理特征和数据特征,再将纹理特征和数据特征级联构造全局特征,最后将局部特征与全局特征进行融合得多特征感知网络,既补全了卷积神经网络位序不敏感问题,又提升了编码向量的整体特征感知,使模型达到了更好的分类性能。2 多特征感知情感分析模型模型将待分类文本从编码层输入,

12、通过 BERT 将原始文本编码转换为词向量矩阵,然后分别对句子编码进行局部特征挖掘和全局特征提取,最后将两种特征进行融合以进行情感预测。BMMC 模型由编码层、多特征感知层和输出层三部分构成。模型的整体结构如图 1 所示。2.1 编码层编码层用于将输入原始文本转换为带有文本位序关系的词向量。本文使用 BERT 来完成文本编码,为保证特征融合维度匹配,编码层使用的词嵌入维度为原始 BERT 的一图 1 BMMC 模型架构半。编码层的输入为带有情感色彩的文本语料,经过 BERT中的双向 Transformer 转换为句子编码,编码采用自注意力机制,计算公式如下=softmax(QKTdk)V(1)

13、Pout=(1,2,n)(2)其中,Q、K、V 为输入单词的词嵌入矩阵经过线性变换所得,dk是 Q、K 和 V 矩阵的向量维度,为句中单个单词编码,(1,1,n)为输入句子所有单词的编码组合,文本编码Pout是后续局部特征层与全局特征层的基础。2.2 多特征感知层文本特征抽取是对文本进行科学的抽象,建立数学模型,用以描述和代替原始文本。在文本卷积网络中,往往卷积核尺度远小于输入文本的维度,需要使用滑动窗口来提取对应文本片段的特征,这使得文本卷积网络可用来提取文本局部特征,使用多种不同大小的卷积核可以获得多个局部特征信息,将局部的特征组合可得更丰富的文本抽象特征。然而卷积神经网络主要靠卷积核窗口

14、式抽取特征,在长距离建模方面能力有限,且对文本的语序不敏感,缺乏对文本的整体感知能力,因此需要在 BERT 编码层来获取文本位序关系。同时,对预训练输出编码信息进行最大池化可以保留编码文本的整体纹理特征,而平均池化则可以提取文本编码的数据特征,将两种池化方案结合可有效地获取上下文依赖关系,提升模型对文本整体浅层特征的感知能力。2.2.1 局部特征层在局部特征层,本文模型分别使用 3 种大小不同的感知器来提取文本的局部特征。文本特征提取通常使用卷积操作完成,通过卷积核与对应文本上进行乘法操作就可以得到当前卷积核的局部视野。卷积核长度远小于文本长度,卷积核在整个文本上进行滚动,可得到当前卷积核对全

15、文本的局部特征,使用多种不同尺寸卷积核可以得到多窗口的文本视野,从而能够捕捉文本向量局部依赖关系。图 1 中编码层 BERT 输出为词嵌入矩阵,记词嵌入维度为 d。使用 3 种长度不同但词嵌入维度相同的卷积核与矩阵015进行卷积就可以得到 3 种不同尺寸的特征图(feature maps),局部特征层结构如图 2 所示。图 2 局部特征层如图 2 所示,Xhidden1与 Xhidden2分别表示句子编码Pout的长度与词嵌入维度,不同大小的卷积核可以得到不同视野的语料文本,从而提取出多个角度的局部特征。本文设计的卷积核的个数为词嵌入维度大小的 2/3,即 2d/3,卷积核的尺寸有 3 种,分

16、别是2,d、3,d和4,d,分别卷积可得到 3 种大小不一的特征图,特征图维度计算公式如下。convout=convin-convker nel+2paddingstride+1(3)padding 为填充 0,stride 为滑动窗口长度,大小与词嵌入维度一致,convkernel为卷积核横向长度,convin为输入文本长度,convkernel为输出文本长度。由图 2 可知每种尺寸对应特征图数量为 2d/3。则 feature maps 层维度为2d/3,convout,1,经过最大池化层转换为2d/3,1大小的矩阵,将 3 类池化层拼接可得维度为2d,1的特征矩阵,该特征矩阵可与下文全局

17、特征进行级联。2.2.2 全局特征层为强化模型对远距离文本的情感感知能力,从全局视角提取文本的纹理特征与数据特征并进行交互,以获取完整语义特征。在 BERT 的训练中,情感文本数据是按批次输入,本文采用动态填充的方式对每个小批次中的短文本数据进行补 0,以保证所有句子编码等长,这样可以减少计算资源浪费以提高训练速度。由于待分类文本需按批次输入,所以利用分批池化策略来提取全局特征。全局特征层的设计如图 3所示,其输入为 BERT 的输出编码,为保留更多的有效信息防止模型过拟合,分别提取同一批次句子中所有单词的词嵌入数据的平均值作为文本的数据特征,再用同样的方法提取词嵌入数据的最大值作为文本的纹理

18、特征,最后将两种特征进行级联得全局特征。全局特征层按批次输入文本,其中横向表示词嵌入维度,大小为 d 维不可再分,纵向表示句子长度,随着当前批次句子最大长度的变化而变化,可归一化成一维向量而不丢失语义,所以使用图 3 所示的纵向池化方法进行 mean pooling与 max pooling,两种池化结果都是 d 维,再将其级联相加并图 3 全局特征层转置可得维度2d,1。这本质是一种 Doc2Vec15方法,可以获得文本的固定长度向量表达。可以发现局部特征与全局特征的大小都是 2d 维,将局部特征与全局特征拼接可得多特征感知结果 Sout,公式表示如下Sout=conv(Pout)T+con

19、cat(meanpool(Pout),maxpool(Pout)(4)通过线性层映射并用 sigmoid16激活,可得到模型的推断结果。2.3 输出层在获得两种特征融合结果 Sout之后,再送入一个全连接层,然后通过 softmax 分类器可得到数据样本的分类概率 p,计算过程如式(5)和式(6)所示p=softmax(WcSout+bc)(5)y=arg max(p)(6)其中,Wc和 bc为训练的权重和偏差,y为预测值。模型通过最小化交叉熵来进行训练,并且引入 L2 正则化机制,损失函数 loss 如式(7)所示loss=-Nn=1Ci=1ylog(y)+2(7)其中,C 为分类类别,y

20、为真实标签,从数据集中读取,2为正则化表达。3 实验与分析3.1 实验数据集为了验证本文模型的情感分类效果,在谭松波酒店评论语料17公开数据集上进行对照实验,该数据集共 10000 条语料评论,其中正负样本各 5000 条,每条数据都由评论语句和情感极性组成,情感极性分为:乐观、消极。将语料划分,90%做训练集,10%做测试集,数据集长度分布如表 1 所示。115表 1 数据集数据集长度分布数据集长度训练集测试集=10050.7%50.2%=20075.1%75.6%=25090.8%90.7%3006.6%6.4%由上表可以看出,可见句子大部分长度维持在 0-250 之间,300 个字以下占

21、比 93.5%,所以设 300 为允许最大长度,超出长度则截断。本文实验的操作系统是 centOS7,配备 Tesla V100 32GB显卡,开发环境是 python3.6 和 pytorch1.7.0,部分参数配置如表 2 所示。实验使用 Adam 优化器18自适应学习率来加快收敛速度,通过 L2 正则防止过拟合,epoch 迭代次数定义为初值定义为 1000,但并不是表示模型需要迭代这么多次,每个 epoch 之后模型都会记录当前最好的评估指标,若 10 次迭代没有更新指标,则终止训练。表 2 实验参数超参数设定值最大文本长度(max_len)300预训练模型(pretrained mo

22、del)BERT词向量的维度(word embedding)384初始学习路(Learning rate)1e-6丢弃比例(dropout)0.4批处理大小(batch_size)643.2 实验结果分析经过线性分类层输出的预测是一个小数,模型分类的依据是将当前预测值与分类阈值对比以对情感极性进行分类。将阈值边界设定为 0.5 可能会造成分类不均,因此从 0 到 1以 0.01 为间隔定义 99 个备选阈值,计算 0.01-0.99 所有的阈值对应的 F1 值,找出使 F1 值最大的阈值作为分类边界。本文模型使用上述方法得到的情感分析实验结果如图 4所示。上图中横轴代表 epoch,纵轴代表

23、AUC19值。可以看出实验在前 100 个 epoch 增长较快,测试集的性能表现比训练集更好,这是因为训练集在训练时为防止过拟合而加入了dropout 策略,往后增长较为平缓,在 200 个 epoch 趋于稳定,整体表现 AUC 达到了 0.95 以上,相比以往模型有更好的分类效果。3.3 对比实验为了进一步评估模型的性能,文章列举了其它研究的方面情感分析模型与之进行对比。度量指标统一使用 AUC 和Macro-F1,在数据样本不均衡时,F1 指标具有更好的评估性能。1)TEXT-CNN6:使用多个不同大小卷积核来提取句图 4 模型实验结果子关键信息的文本卷积方法,更好地捕捉句子局部相关性

24、。2)DPCNN7:使用多组卷积层和池化层堆叠而成都深层次循环卷积网络,通过不断卷积扩大单词向量的感受野,以获取情感文本远距离依赖关系。3)BI-LSTM11:双向 LSTM 网络,相比于 LSTM 网络可以更好的捕捉句子上下文的双向语义依赖。4)BERT12:预训练网络结构,通过大规模与具体任务无关的文本数据自监督学习得到,再经过下游情感分析文本针对性进行微调。5)BERT-CNN6,12:以 BERT 为基础的文本卷积神经网络,在 BERT 编码的基础之上,使用卷积神经网络捕捉词向量局部相关性。在谭松波酒店评论语料数据集上各模型对比结果如表 3所示。表 3 不同模型实验对比结果基准模型评估

25、指标AUCF1TEXT-CNN89.51%83.37%DPCNN90.32%NABI-LSTM91.42%NABERT94.85%86.28%BERT-CNN95.39%86.45%BMMC95.86%86.61%从表 3 可以看出,基于 BERT 的情感分类模型相比于未基于 BERT 的模型无论在 AUC 还是 F1 指标上都有质的提升,可以证明预训练模型在情感分类任务上的性能优势。BMMC 模型在谭松波酒店评论语料数据集上的 AUC 与 F1指标分别为 95.86%和 86.61%,对比基于 BERT 的网络模型可知,其 AUC 指标比 BERT 基准模型高 1.01%,比 BERT-CN

26、N 也提升了 0.47%,证明在局部特征上加入位序关系并与全局特征进行交互构造多特征感知网络是有意义的。2154 结束语在文本情感分析任务中,为提升对文本浅层特征的感知能力,本文结合 BERT 模型设计了一种多特征感知模型 BM-MC。由于使用单一特征提取器可能会导致模型特征抽取不足,本文在预训练模型的基础之上融合局部特征和全局特征,通过构造多个卷积核提取文本的局部信息,然后将局部信息与全局信息进行交互构造多特征感知网络,提升了模型对文本浅层特征的感知能力。本文在情感分析任务上与多个基准模型进行对比,实验结果表明将局部特征与全局特征进行融合在情感分析任务上是有效的。参考文献:1 徐戈,王厚峰.

27、自然语言处理中主题模型的发展J.计算机学报,2011,34(8):1423-1436.2 Nasukawa T,Yi J.Sentiment analysis:Capturing favorability usingnatural language processingC.Proceedings of the 2nd interna-tional conference on Knowledge capture.2003:70-77.3 Rao Y,Lei J,Wenyin L,et al.Building emotional dictionary forsentiment analysis o

28、f online newsJ.World Wide Web,2014,17(4):723-742.4 王志涛,於志文,郭斌,等.基于词典和规则集的中文微博情感分析J.计算机工程与应用,2015,51(8):218-225.5 Vilares D,Alonso M A,Gmez-Rodrguez C.Supervisedsentiment analysis in multilingual environments J.InformationProcessing&Management,2017,53(3):595-607.6Kim Y.Convolutional Neural Networks f

29、or Sentence ClassificationJ.Eprint Arxiv,2014.7 Johnson R,Zhang T.Deep pyramid convolutional neural networksfor text categorizationC.Proceedings of the 55th Annual Meetingof the Association for Computational Linguistics(Volume 1:LongPapers).2017:562-570.8陶永才,张鑫倩,石磊,卫琳.面向短文本情感分析的多特征融合方法研究J.小型微型计算机系统,

30、2020,41(6):1126-1132.9 Mikolov T,Karafit M,Burget L,et al.Recurrent neural networkbased language modelC.Eleventh annual conference of the in-ternational speech communication association.2010.10 Li D,Qian J.Text sentiment analysis based on long short-termmemoryC.2016 First IEEE International Conferen

31、ce on Com-puter Communication and the Internet(ICCCI).IEEE,2016:471-475.11 Hochreiter S,Schmidhuber J.Long short-term memory J.Neural computation,1997,9(8):1735-1780.12 Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of deepbidirectional transformers for language understandingJ.arXivpreprint arXiv:

32、1810.04805,2018.13 Vaswani A,Shazeer N,Parmar N,et al.Attention is all you needJ.arXiv preprint arXiv:1706.03762,2017.14 Severyn A,Moschitti A.Unitn:Training deep convolutionalneuralnetworkfortwittersentimentclassification C.Proceedings of the 9th international workshop on semantic evalua-tion(SemEv

33、al 2015).2015:464-469.15Le Q,Mikolov T.Distributed representations of sentences anddocuments C.International conference on machine learning.PMLR,2014:1188-1196.16Sharma S.Activation functions in neural networksJ.towardsdata science,2017,6.17 吴琼,谭松波,程学旗.中文情感倾向性分析的相关研究进展J.信息技术快报,2010,8(4):16-38.18 Kin

34、gma D P,Ba J.Adam:A method for stochastic optimizationJ.arXiv preprint arXiv:1412.6980,2014.19 Bradley A P.The use of the area under the ROC curve in the e-valuation of machine learning algorithmsJ.Pattern recognition,1997,30(7):1145-1159.作者简介袁勋(1996-),男(汉族),湖北襄阳人,硕士研究生,主要研究方向为模式识别、智能信息处理。刘蓉(1969-)

35、,女(汉族),湖南安化人,副教授,博士,主要研究方向:模式识别,智能信息处理。刘明(1967-),男(汉族),湖北人,教授,博士,主要研究方向:物联网,计算机系统结构、智能信息处理及可视化。(上接第 385 页)18 顾荣杰,吴治平,石焕.基于 TFR 模型的公安云平台数据分级分类安全访问控制模型研究J.计算机科学,2020,47(1):400-403.19 周秀霞,刘万国,隋会民,等.Five Safes 安全框架及其对我国图书馆领域敏感数据安全访问的启示J.情报理论与实践,2020,43(3):85-90.作者简介李俊(1973-),男(汉族),湖北随州人,硕士研究生,副教授,主要研究方向:网络技术、信息安全、电子技术。唐智灵(1975-),男(汉族),广西桂林人,教授,博士生导师,主要研究方向:无线通信网络、通信信号处理。315

展开阅读全文