收藏 分销(赏)

一种融合CINO+TextCNN+BiLSTM+Attention的藏文情感分类方法.pdf

上传人:自信****多点 文档编号:613040 上传时间:2024-01-15 格式:PDF 页数:6 大小:1.32MB
下载 相关 举报
一种融合CINO+TextCNN+BiLSTM+Attention的藏文情感分类方法.pdf_第1页
第1页 / 共6页
一种融合CINO+TextCNN+BiLSTM+Attention的藏文情感分类方法.pdf_第2页
第2页 / 共6页
一种融合CINO+TextCNN+BiLSTM+Attention的藏文情感分类方法.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、引 言随着互联网技术的日益发展和普及,越来越多的人在互联网上表达自己的观点和情感,情感分类研究已成为自然语言处理的热点领域。在中英文情感分类研究方面,赵妍妍等1通过收集大量的微博数据,使用情感词典方法实现情感分类;黄仁等2提出一种使用Word2vec词向量来扩充情感词典的方法,并以此实现了中文情感分类。但是上述方法太过依赖于情感词典的质量,存在一定的缺陷。机器学习技术的发展使得更多的研究者采用机器学习的方法来研究情感分类问题。Cynthia等3对早期的英文情感词典进行了完善;冯成钢4等采用机器学习方法对微博上的舆情进行情感分类,并对比了支持向量机(SupportVector Machine,S

2、VM)算法、朴素贝叶斯(Naive Bayes,NB)分类算法、K最邻近(K-Nearest Neighbor,KNN)分类算法等3种机器学习方法,实验结果表明当词频-逆文档频率(Term Frequency-Inverse Document一种融合CINO+TextCNN+BiLSTM+Attention的藏文情感分类方法白玛洛赛1,2群 诺*1,2达 措1(1.西藏大学信息科学技术学院西藏拉萨8500002.西藏信息化省部共建协同创新中心西藏拉萨850000)摘要文章在卷积神经网络(TextCNN)、长短期记忆神经网络(LSTM)、词向量(Word2vec),全局词向量(Glove)等传统

3、的训练词向量基础上,提出一种基于CINO+TextCNN+BiLSTM+Attention的藏文情感分类模型,使用少数民族语言的多语言预训练模型(CINO)来获取上下文语义的词向量,通过TextCNN和BiLSTM结合的注意力机制来提取局部信息和语义特征信息。文章构建了包含1.7万条藏文情感分类词的语料库,使用 TextCNN、BiLSTM、CINO、CINO+TextCNN、CINO+BiLSTM、CINO+BiLSTM+Attention、CINO+TextCNN+BiLSTM+Attention等7种不同模型进行对比实验,实验结果表明本文提出的模型在藏文情感分类中的效果最优,其准确率上达

4、到90.74%。关键词藏文情感分类;CINO;TextCNN;注意力机制DOI:10.16249/ki.2096-4617.2023.02.010中图分类号 TP391.1文献标识码 A文章编号 2096-4617(2023)02-093-006收稿日期:2022-09-19基金项目:西藏自治区高校人文社会科学研究项目(SK2021-24);西藏大学珠峰学科建设计划项目(zf22002001).第一作者简介:白玛洛赛,男,藏族,四川甘孜人,西藏大学信息科学技术学院硕士研究生,主要研究方向为系统结构和深度学习。通讯作者简介:群诺,男,藏族,西藏拉萨人,西藏大学信息科学技术学院教授,博士生导师,主

5、要研究方向为自然语言处理。Frequency,TF-IDF)为特征权重时SVM分类准确率最高。但是由于存在不考虑上下文语义和数据稀疏以及只能提取浅层特征等因素,导致情感分类的准确率很低,针对上述问题已有一些研究将深度学习应用到情感分类任务中。范智皓等5基于长短期记忆神经网络(Long Short-Term Memory,LSTM)进行中文情感分类,但仍然存在只能提取单向较长句子信息的问题。为了解决以上存在的问题,任勉等6尝试使用双向长短时记忆神经网络,以驱动网络更好地学习到上下文信息;刘春磊等7基于卷积神经网络(Text Convolutional Neural Network,TextCNN

6、)提出了用户评论情感极性判别方法,并将TextCNN、LSTM以及TF-IDF做了对比,结果表明TextCNN模型的准确率最高,但是TextCNN只能提取局部特征,存在对上下文信息理解不足的缺点。针对以上问题,张翠等8提出了基于卷积神经网络(Convolutional Neural Network,CNN)与双向长短时记忆神经网络LSTM融合的文本情感分类方法,TextCNN与LSTM的融合有效提高了情感分类的准确率;Jelodar等9提出LSTM新冠病毒在线讨论情感分类模型,与传统的机器学习模型相比,该研究提出的模型准确率高于机器学习模型,可有效解决循环神经网络(Recurrent Neur

7、al Network,RNN)梯度消失和梯度爆炸问题。吴汉瑜等10基于CNN+BiLSTM+Attention混合模型,并融入注意力机制来提取文本整体的语义信息,通过对比实验发现加入注意力机制提高了分类的准确率。但是这些传统的实验大部分使用像Word2vec、Glove这类词向量模型忽略了词与词之间上下文语义信息。邵辉11将TextCNN作为下游任务,使用BERT预训练模型得到了包含上下文语义信息的词向量,发现与其他方法相比其在分类准确率上有一定程度的提高。在藏文情感分类方面,张瑞12使用情感词典和机器学习方法完成藏文在线评论,通过相互对比找出方法的优缺点。黄晨晨等13基于构造藏文情感词典,运

8、用Word2vec训练词向量,利用TF-IDF来提取特征使用SVM分类器来进行分类。但是由于数据集稀少,TF-IDF只能获取浅层特征。却措卓玛等14通过使用词向量word2vec和双向长短期记忆神经网络(Bi-directional Long Short-Term Memory,BiLSTM)技术实现了藏文情感分类,并运用深度学习方法进一步提高了藏文情感分类的准确性。由于传统的词向量缺乏词与词之间的上下文关系信息,因此本文提出了基于CINO+TextCNN+BiLSTM+Attention藏文情感分类模型,该模型通过使用开源的少数民族预训练模型(Chinese minority pre-tra

9、ined language model,CINO)来提取词向量以解决数据稀疏问题,下游任务TextCNN和BiLSTM+Attention融合模型能够加强获取特征的能力。实验表明该模型能够提高藏文情感分类效果。1 研究方法1.1 融合CINO+TextCNN+BiLSTM+Attention的藏文情感分类模型CINO模型借鉴了RoBERTa的思想,使用MLM方法。基本单元使用Transformer模块,从每种语言取样,然后训练预测Masked位置。CINO模型能够获取上下文句子的语义信息,TextCNN模型利用不同的卷积核对输入文本进行特征学习,充分学习整个句子的特征完成分类,能够有效提取文本

10、局部特征。利用LSTM来实现文本建模的过程中对由后到前的信息难以编码,而基于BiLSTM就能够对双向语意进行有效捕捉。Attention机制的核心目标也是从众多信息中选择出对当前任务目标更关键的信息。通过引入Attention模型根据信息重要程度获取文本整体特征,以突出特定的词对整个文本的重要程度。本文提出的 CINO+TextCNN+BiLSTM+Attention 藏文情感分类模型结合了上述模型的优点,采用TextCNN和BiLSTM+Attention构建混合神经网络模型。首先对藏文句子进行数据预处理,通过加载预训高原科学研究 2023年第2期(总第23期)9494练模型使文本向量化,得

11、到CINO模型的语义表达向量,CINO得到的词向量再通过TextCNN模型以及带注意力机制的BiLSTM模型,分别获取文本的局部信息和句子全局特征以及深度语义信息。最后进行融合拼接,使用全连接层实现模型的藏文情感分类与评估功能。模型结构如图1所示。图1 CINO+TextCNN+BiLSTM+Attention模型结构图Fig.1 Structure diagram of CINO+TextCNN+BiLSTM+Attention model1.2 CINO预训练模型预训练模型在中英文自然语言处理中得到广泛应用,但是目前对藏文的开源预训练模型只有CINO。CINO15是由哈尔滨工业大学提供的少

12、数民族预训练模型,该模型基于国内少数民族语料进行了二次预训练,其中的预训练语料包括藏文。基于多语言预训练模型XLM-R(XLM-RoBERTa)开发的CINO在多语言综合处理的相关研究中的应用较为普遍,它继承了XLM的训练方法,与XLM不同的是去掉了语言编码层。1.3 TextCNN模型随着研究者将传统图像的CNN应用到自然语言处理,Kim等16提出了TextCNN模型解决文本分类问题,而对于文本来讲局部特征就是由若干个单词组成的滑动窗口,类似于N-gram。CNN的优势在于能够自动对N-gram特征进行组合和筛选,获得不同层次的语义信息。该模型的核心思想是捕捉局部特征,将预训练好的词向量作为

13、输入向量,通过不同大小的卷积核来提取特征。TextCNN模型结构主要包括卷积层、池化层、全连接层,通过softmax来输出类别的概率。该模型对短文本具有较好的效果。如图2所示。图2 TextCNN模型结构图16Fig.2 Structure diagram of TextCNN model161.4 BiLSTM+Attention模型在自然语言处理任务中,BiLSTM模型所发挥的作用是获取上下文信息,是LSTM模型的优化版本。注意力机制(Attention)源于人类视觉的研究,主要应用于机器翻译。传统的机器翻译使用的是“编码-解白玛洛赛,群诺,达措:一种融合CINO+TextCNN+BiLS

14、TM+Attention的藏文情感分类方法9595码”原理,以此来完成序列之前的有效转换。因此,需要在研究中引入注意力机制,以便解决编码向量中存在的长距离依赖问题。从图3可以看出,相比于以往文本分类中的BiLSTM模型,BiLSTM+Attention模型在BiLSTM层之后、全连接softmax分类层之前接入了一个叫做Attention Layer的结构,Attention层先计算BiLSTM输出中每个位置词语的权重,然后将所有位置词语的向量进行加权和作为句子的表示向量,最后进行softmax分类。图3 BiLSTM+Attention模型17Fig.3 BiLSTM+Attention m

15、odel172 实 验2.1 数据集处理本文采用爬虫技术从百度上爬取了2万条中文情感分类数据,首先去除数据中的不规范表达和意思重复的句子。其次利用藏文智能词典翻译软件将中文翻译成藏文,并完成去除停用词、去重、过滤等数据预处理过程,然后使用中国社会科学院民族学与人类学研究所提供的藏语自然语言处理平台中的分词系统完成分词,并通过人工校对整理后,最终将得到的1.7万条藏文词条用于实验。根据情感极性分类要求把实验数据集标签分为两类,其中消极为0、积极为1。积极训练集6 800条、验证集和测试集各850条,消极训练集6 800条、验证集和测试集各850条,具体如表1所示。表1 实验数据Tab.1 The

16、 experimental data编号01类别消极积极训练集6 8006 800验证集850850测试集8508502.2 实验环境本文使用Pytorch深度学习框架,在PyCharm工具中实现,在RTX3070Ti显存8G,处理器为Intel 酷睿i7 11800H,8核16G内存中训练模型。2.3 实验参数实验的参数调整对于实验的结果有很大的影响,主要对学习率、正则化等进行调参,当准确率不再提升的时候就提前结束训练。避免造成模型过拟合以及出现不收敛的情况,正则化参数设置为 0.5,batch_size参数设置为128,epoch的参数值设置为20,优化器为BertAdam,具体模型参数如

17、表2所示。高原科学研究 2023年第2期(总第23期)9696表2 CINO+TextCNN+BiLSTM结合注意力机制模型参数Tab.2 Parameters of the model of CINO+TextCNN+BiLSTM combined attention mechanism参数名参数值学习率1e-3丢弃法0.5CINO隐藏层数目768批量大小128卷积核个数256BiLSTM隐藏层个数128训练批次202.4 实验结果与分析为了验证本文提出的CINO+TextCNN+BiLSTM+Attention模型具备了以下几个不同模型的优点,在1.7万条藏文情感分析数据集上进行对比实验,

18、即将TextCNN、BiLSTM、CINO、CINO+TextCNN、CINO+BiLSTM、CINO+BiLSTM+Attention不同模型进行对比,其中准确率、精确率、召回率、F1值等各项指标如表3所示。表3 实验结果Tab.3 The results of experiments模型TextCNNBiLSTMCINOCINO+TextCNNCINO+BiLSTMCINO+BiLSTM+AttentionCINO+TextCNN+BiLSTM+Attention准确率/%0.88730.87400.89590.89660.87690.88130.9074精确率/%0.88680.8741

19、0.89620.89750.87630.88140.9079召回率/%0.88680.87340.89530.89600.87530.88060.9070F1值/%0.88740.87390.89590.89660.87580.88120.9072分析表3数据,可以看出本文提出的CINO+TextCNN+BiLSTM+Attention模型在4项评估指标上都优于单结构TextCNN模型和BiLSTM模型,在TextCNN模型上分别提升了2.01%、2.11%、2.02%、1.98%。在BiLSTM模型上分别提升了3.34%、3.38%、3.36%、3.33%。证明融合神经网络模型比单一结构模型

20、效果更好,可以看出跟传统的基线深度学习模型相比本文提出的CINO+TextCNN+BiLSTM+Attention模型在藏文情感分类上性能更强。将本文提出的 CINO+TextCNN+BiLSTM+Attention 模型与其他融合模型进行对比,相比于 CINO+TextCNN模型在4项评估指标上分别提升了1.08%、1.04%、1.1%、1.06%,相比于CINO+BiLSTM模型在4项评估指标分别提升了3.05%、3.16%、3.17%、3.14%,相比于CINO+BiLSTM+Attention模型在4项评估指标上分别提升了2.61%、2.65%、2.64%、2.6%。证明本文CINO+

21、TextCNN+BiLSTM+Attention模型提升了藏文情感分类的准确性和效果。结 语本文采用CINO+TextCNN+BiLSTM+Attention模型在藏文情感分类数据集上行进实验,通过几种不同模型的对比实验,最终结果表明该模型在对藏文情感分类上取得的效果最佳。本文实验采用的数据集大部分都属于短文本,并且数据量较小。因此,增加长句子的数据,构建更大规模的数据集以及更加鲁棒、准确的特征提取与识别模型是未来的研究重点。参考文献1 赵妍妍,秦兵,石秋慧,等.大规模情感词典的构建及其在情感分类中的应用J.中文信息学报,2017,31(2):187-193.白玛洛赛,群诺,达措:一种融合CI

22、NO+TextCNN+BiLSTM+Attention的藏文情感分类方法97972 黄仁,张卫.基于word2vec的互联网商品评论情感倾向研究J.计算机科学,2016,43(S1):387-389.3 Cynthia W.Using the revised dictionary of affect in language to quantify the emotional undertones of samples of natural languageJ.Psychological reports,2009,105(2):509-521.4 冯成刚,田大钢.基于机器学习的微博情感分类研究J

23、.软件导刊,2018,17(6):58-61+66.5 范智皓,王浩狄,刘淏言,等.基于LSTM神经网络的中文情感分类J.中国新通信,2018,20(14):240.6 任勉,甘刚.基于双向LSTM模型的文本情感分类J.计算机工程与设计,2018,39(7):2064-2068.7 刘春磊,武佳琪,檀亚宁.基于TextCNN的用户评论情感极性判别J.电子世界,2019(3):48+50.8 张翠,周茂杰.一种基于CNN与双向LSTM融合的文本情感分类方法J.计算机时代,2019(12):38-41.9 Jelodar H,Wang Y L,Orji R,et al.Deep sentiment

24、 classification and topic discovery on novel coronavirus or COVID-19 onlinediscussions:NLP using LSTM recurrent neural network approachJ.IEEE Journal of Biomedical and Health Informatics,2020,24(10):2733-2742.10 吴汉瑜,严江,黄少滨,等.用于文本分类的CNN_BiLSTM_Attention混合模型J.计算机科学,2020,47(S2):23-27+34.11 邵辉.基于BERT-Te

25、xtCNN的中文短文本情感分析J.信息与电脑(理论版),2022,34(1):77-80.12 张瑞.藏文在线评论情感分析研究综述J.智库时代,2018(35):206-208.13 黄晨晨,索朗拉姆,拉姆卓嘎,等.基于SVM的藏文微博文本情感分析研究与实现J.高原科学研究,2020,4(1):92-96.14 却措卓玛.藏文文本情感分类技术研究D.西宁:青海师范大学,2020.15 Yang Z Q,Xu Z H,Cui Y M,et al.CINO:A Chinese minority pre-trained language modelC/Proceedings of the 29th

26、International Conference on Computational Linguistics(COLING).Gyeongju,Republic of Korea:International Committee on Computational Linguistics,2022:3937-3949.16 Kim Y.Convolutional neural networks for sentence classificationJ.Eprint Arxiv,2014:1746-1751.17 Zhou P,Shi W,Tian J,et al.Attention-based bi

27、directional long short-term memory networks for relation classificationC/Proceedings of the 54th annual meeting of the association for computational linguistics(volume 2:Short papers),2016:207-212.高原科学研究 2023年第2期(总第23期)Study on A Tibetan Sentiment Classification MethodBased on CINO+TextCNN+BiLSTM+At

28、tention IntegrationBaima-Luosai1,2Qunnuo*1,2Dacuo1(1.School of Information Science and Technology,Tibet University,Lhasa 850000,China;2.Collaborative Innovation Center for Tibet informatization by MOE and Tibet Autonomous Region,Lhasa 850000,China)Abstract:Sentiment classification is one of the majo

29、r scientific fields of study nowadays.Based on the traditional training word vectors such as Convolutional Neural Networks(TextCNN),Long Short-Term Memory neural network(LSTM),Word2vec,and Glove etc.,a Tibetan sentiment classification model based on CINO+TextCNN+BiLSTM+Attention was proposed in this

30、 paper.CINO(Chinese Minority PLM)is used to obtain the word vectorof context semantics,and the attention mechanism combined with TextCNN and BiLSTM is applied to extract local information and the information of semantic features.A corpus of 17 000 Tibetan sentiment classifications iscollected,and se

31、ven different models,which are TextCNN,BiLSTM,CINO,CINO+TextCNN,CINO+BiLSTM,CINO+BiLSTM+Attention,and CINO+TextCNN+BiLSTM+Attention,are compared in this paper.It has been indicated that the model introduced in this paper has the best effect on Tibetan sentiment classification based onour experimental results with an accuracy of 90.74%.Keywords:Tibetan sentiment classification,CINO,TextCNN,attention mechanism责任编辑:索郎桑姆9898

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签
资源标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服