收藏 分销(赏)

基于K-BERT和残差循环单元的中文情感分析.pdf

上传人:自信****多点 文档编号:636592 上传时间:2024-01-21 格式:PDF 页数:12 大小:1.62MB
下载 相关 举报
基于K-BERT和残差循环单元的中文情感分析.pdf_第1页
第1页 / 共12页
基于K-BERT和残差循环单元的中文情感分析.pdf_第2页
第2页 / 共12页
基于K-BERT和残差循环单元的中文情感分析.pdf_第3页
第3页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、127第 5 卷第 4 期2023 年 8 月Vol.5No.4Aug.2023数据与计算发展前沿,2023,5(4)基于K-BERT和残差循环单元的中文情感分析王桂江,黄润才*,黄勃上海工程技术大学,电子电气工程学院,上海 201620摘 要:【目的】利用自然语言处理技术可以为网络舆论安全提供技术支持。为解决文本情感分析中存在的循环神经网络无法获取深层加浅层的特征信息,以及动态词向量偏离核心语义的问题,本文提出了基于K-BERT和残差循环单元的K-BERT-BiRESRU-ATT的情感分析模型。【方法】首先使用K-BERT模型获取包含背景知识的语义特征向量;之后使用提出的双向残差简单循环单元

2、(Bidirectional Residual Simple Recurrent Unit,BiRESRU),对上下文特征进行序列提取,获取深层和浅层的特征信息;然后利用注意力机制对BiRESRU的输出进行关键词权重增强;最后使用softmax进行结果分类。【结果】在ChnSentiCorp和weibo数据集上,分别达到了95.6%和98.25%的准确率;在计算速度上较使用其他循环网络每轮迭代减少了接近 5分钟,提高了计算效率。【结论】K-BERT-BiRESRU-ATT解决了动态词向量偏离核心语义的问题,获得了深层加浅层的特征信息,加速模型计算的同时也提高了分类准确率,但仍对计算能力有较大需

3、求。关键词:简单循环单元;K-BERT;情感分析;网络舆论安全 Chinese Sentiment Analysis Based on K-BERT and Residual Recurrent UnitsWANG Guijiang,HUANG Runcai*,HUANG BoSchool of Electrical and Electronic Engineering,Shanghai Engineering University,Shanghai 201620,ChinaAbstract:Objective The use of natural language processing te

4、chnology can provide technical support for the security of network public opinion.In order to solve the problem that the recurrent neural network in text sentiment analysis cannot obtain the feature information of deep and shallow layers,and the dynamic word vector deviates from the core semantics,a

5、 K-BERT-BiRESRU-ATT based on K-BERT and the residual recurrent unit is proposed.Methods First,the K-BERT model is used to obtain the semantic feature vector containing background knowledge;Then,the proposed Bidirectional Residual Simple Recurrent Unit(BiRESRU)is used to extract the sequence of the c

6、ontextual features to obtain deep and shallow feature information;After that,the attention mechanism is used to enhance the keyword weight of the output of BiRESRU;Finally softmax is used to classify the results.Results ISSN 2096-742XCN 10-1649/TP文献CSTR:32002.14.jfdc.CN10-1649/TP.2023.04.011文献DOI:10

7、.11871/jfdc.issn.2096-742X.2023.04.011页码:127-138 获取全文基金项目:国家自然科学基金(61603242)*通信作者:黄润才(E-mail:)128数据与计算发展前沿,2023,5(4)王桂江 等:基于K-BERT和残差循环单元的中文情感分析 On the ChnSentiCorp and Weibo datasets,the accuracy rates were 95.6%and 98.25%,respectively;the calculation time was reduced by nearly 5 minutes per iterat

8、ion compared with other recurrent networks,and the computational efficiency was improved.Conclusions K-BERT-BiRESRU-ATT solves the problem of the dynamic word vector deviation from the core semantics,obtains the feature information of deep and shallow layers,accelerates the model calculation,and imp

9、roves the classification accuracy.But it still has a large demand for computing ability.Keywords:simple recurrent unit;K-BERT;sentiment analysis;security of network public opinion帆4利用 LSTM 实现了在微博数据集上的情感分析,但并不能关联上下文语义;梁军等5使用基于极性转移和 LSTM 的情感分析方法,在极性分析中关联上下文语义,获得了不错的效果。这类方法使用静态词向量,无法解决一词多义的问题,引入了循环神经网络

10、,增加语义获取能力,但无法解决 LSTM计算速度慢的问题。利用混合网络机制实现情感分析也成为很多学者研究的内容。Shin 等 6将卷积神经网络(Convolutional Neural Network,CNN)用于句子分类,使用不同的卷积核来获取文本的特征,取得了很好的分类效果;赵宏等7使用双向长短时记忆网络和卷积神经网络 CNN 串行混合,得到了比双向长短时记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)多的语义特征;Lai 等8将 LSTM 和 CNN进行结合,首先使用 LSTM 提取上下文信息,再通过最大池化提取特征进行分类,增加网络深度

11、也提升了分类的效果。尽管这些方法增加了模型的分类效果,但这类方法词向量的获取仍是静态的,无法解决一词多义的问题。注意力机制(Attention,ATT)9在情感分析中得到了广泛应用。孙敏等10将注意力机制融入到并行混合网络中,通过为模型学习到的特征给予不同程度的关注,提升了在文本情感分析中的精确率;祁瑞华等11使用注意力与特征融合的方式,利用注意力机制提取底层单元的跨领域情感特征权重信息,在跨领域产品评论情感分析中准确率得到进一步提升;胡艳丽等12针对基于词向量的循环神经网络与卷积神经网络对于文本特征的提取和保留能力不足,引入了多层自注意力机制,更好地强调了与分类相引 言互联网时代,人人皆是信

12、息的创造者和消费者,互联网平台为用户发声提供了阵地。对于同一事件,不同用户有不同看法,了解和分析用户观点,是及时有效处理舆情发展的方式之一,了解用户的观点态度,是改进和优化的重要途径。情感分析作为重要工具,对于维护网络舆论安全具有积极意义。情感分析的发展经历了情感词典、传统机器学习和深度学习 3 个主要阶段。情感词典作为最早的情感分类方法,构建起了对情感分析的早期模板。Xu 等1利用基本情感词、字段情感词和多疑情感词扩充了情感词典,在评论文本上提升了分类准确率;因为信息更新速度较快,使用情感词典已经难以满足实际的情感分析需求;基于传统机器学习的情感分析,主要是通过支持向量机(Support V

13、ector Machine,SVM)、朴素贝叶斯、逻辑回归等分类器,对用户观点进行简单处理。李婷婷等2使用基于SVM 与条件随机场相结合的方式,使用多种词性特征,提升了情感分类的正确率;Cai 等3通过情感词典构建文本特征,使用 SVM 和梯度提升树的混合模型,在情感分类任务中取得了比单一模型更好的效果。然而这些基于监督学习的方法的分类结果受人工数据标注的影响较大。深度学习的发展促进了情感分析的进步,循环神经网络(Rerrent Neural Network,RNN)是处理时序问题的关键技术,基于 RNN 的长短时记忆网络(Long Short-Term Memory,LSTM)和门控循环单元

14、(Gated Recurrent Unit,GRU)克服了 RNN 梯度消失和梯度膨胀的缺陷,被广泛作为 RNN 的替代。陈129数据与计算发展前沿,2023,5(4)王桂江 等:基于K-BERT和残差循环单元的中文情感分析 关的语义信息,实现了不错的分析效果。BERT13、ALBERT14、ERINIE15等 使 用 叠 加 attention 的Transformer16充分获取到了动态词向量,并解决了一词多义的问题。使用预训练模型获取动态词向量,再使用 RNN 作为提取序列信息,是提升情感分析效果的有效方法。沈瑞琳等17等结合 BERT 和 BiGRU的特征,提升了模型的整体性能;余本功

15、等18利用双重注意力,进一步强化文本的上下文相关特征和方面级相关特征。以上方法使用动态词向量,解决了静态词向量无法处理一词多义的问题,但仍存在无法理解句子的内容含义导致偏离核心语义;使用循环神经网络提升了对上下文语义特征的获取,但网络深度增加存在的特征传递丢失的问题。本研究在上述工作的基础上,针对以上方法存在的问题,使用知识表达的 K-BERT19模型,解决语句偏离核心语义的问题;使用减少时间步依赖的简单循环单元20(Simple Recurrent Unit,SRU)替代LSTM,加速特征提取,并在 SRU 的基础上,设计了能够避免网络深度增加导致特征丢失的双向残差简单循环单元 BiRESR

16、U;最后与注意力机制相结合,提出了基于 K-BERT-BiRESRU-ATT 的文本情感分析模型。主要贡献和创新点如下:(1)使用知识表达的 K-BERT 模型生成语料的词向量,解决多样化词向量编码空间不一致和语句偏离核心语义的问题;由于融合了知识图谱,可用于专业领域的情感分析。(2)提出了双向残差简单循环单元 BiRESRU。BiRESRU 将浅层的特征与深层的特征相融合,避免了网络深度增加带来的梯度消失和特征损失,防止了网络深度增加带来的模型退化;同时该单元克服了 LSTM 存在的计算效率低、无法提取浅层信息的问题,有助于进一步加速运算和提升分类性能。(3)引入注意力机制对每个时间点双向特

17、征提取到的结果进行权重分配,增强对分类结果重要词的权重,提升模型分类性能。1 相关技术1.1 K-BERT 模型K-BERT 模型是知识集成的语言表达模型,解决了多样化词向量编码空间不一致和语句偏离核心语义的问题,该模型可以根据不同的任务选择不同的知识图谱,融入专业知识的操作在嵌入层之前完成。模型结构如图 1 所示,其中表示输入的句子,Sentence-tree 代表嵌入知识的句子树,Seeing Layer 代表可视化层,Embedding Layer 表示嵌入知识后的嵌入词向量层,表示得到的文本特征向量表示。T1mask-Trmmask-TrmEmbedding LayerSeeing L

18、ayerSentence-TreeKnowledge Graphmask-Trmmask-Trmmask-Trmmask-TrmT2TnI1I2In图 1 K-BERT 模型结构Fig.1 K-BERT model structureK-BERT 首先对输入的句子进行实体识别,然后将得到的实体在知识图谱中查询对应的关系和值,将查询得到的内容嵌入到句子中合适的位置,形成一个树形的结构,称为句子树(Sentence Tree)。句子树实现了对句子背景信息的补全,解决了单一句子不具备知识背景导致的词向量偏离核心语义。然而句子树不能作为序列输入,因此要将句子树变为130数据与计算发展前沿,2023,5

19、(4)王桂江 等:基于K-BERT和残差循环单元的中文情感分析 句子序列。为了防止嵌入的关系和值影响到原来词的位置信息,在模型当中引入了软位置的概念,使用软位置将嵌入的值和关系进行编码,与实体的位置编码区分开来。K-BERT 的 embedding 层结构如图2 所示。E1输出字嵌入软位置嵌入段嵌入输入苹果库克在北京E2E3E4E5E6E7图 2 Embedding layerFig.2 Embedding layer在引入软位置进行词嵌入的同时,为了避免知识噪声对句子的影响,构建了一个可视化矩阵 M,用以限定每个字只能看到与自己相关的上下文以及知识,存放可视化矩阵的层称为可视化层(Seein

20、g Layer)。K-BERT 使用堆叠的 mask-transformer 编码器捕获语句中深层次的双向关系。Transformer 是一个 seq2seq 的结构,使用 encode 和 decode 的模型结构,在 BERT 中使用了 transformer 中的 decode 部分,该部分是一个多层的 self-attention 堆叠而成。在K-BERT 中,使 用 mask-self-attention 堆 叠 成 mask-transformer,mask-self-attention 在 self-attention 的 基础上增加了一个可视化矩阵 M。可视化矩阵 M 可以用来

21、限制每个字的注意力范围。mask-self-attention的计算方式如公式所示:(1)其中,Q,K,V 是输入向量经过线性变换得到的 3 个输入矩阵,是输入字向量维度,M 是一个可视化矩阵。通过计算每个输入向量与其他向量之间关系的比重大小,得到不同的权重,再将权重与所有序列的表示加权求和,得到最终的字符表征分数。1.2 简单循环单元RNN 是序列特征提取的重要工具,因其存在梯度消失及长距离依赖问题,广泛使用 LSTM 和 GRU作为序列特征提取工具。然而,LSTM 和 GRU 存在计算过程依赖,导致计算速度慢,而简单循环单元SRU 可以克服时间步上的依赖,是序列特征提取的改善选择。SRU

22、模型结构如图 3 所示。图 3 中,表示在 时刻的输入,是 K-BERT 层输出矩阵 T 的一个词向量,表示遗忘门在 时刻的状态,表示重置门在 时刻的状态,表示 时刻的输出,和 代表激活函数,和分别表示记忆单元在时刻和 时刻的记忆状态。Ct-1Cthtg 11ftrtxtxtW*图 3 SRU 模型结构Fig.3 SRU model structSRU 将 W、Wr和 Wf3 个参数矩阵同时计算,分别求解出,rt和 ft 3 个参数向量,得到的参数向量用以更新记忆单元 ct和最终隐藏层的输出 ht。由于 3 个参数矩阵是同时计算,在计算 ft时不需要等待上一个阶段的 ft-1,去掉了前后时间上

23、的依赖,这是 SRU 可以加速计算的主要原因,也是 SRU 区别与 LSTM 和 GRU 的最大不同。单层 SRU 的计算流程如公式(2-6)所示:(2)(3)(4)(5)(6)131数据与计算发展前沿,2023,5(4)王桂江 等:基于K-BERT和残差循环单元的中文情感分析 2 双向残差简单循环单元 BiRESRU尽管简单循环单元 SRU 减少了对于时间步上的依赖,加速了网络的计算。然而,SRU 并不能够解决特征丢失问题。从网络深度增加的角度上看,增加网络深度意味着使用的激活函数个数增加,由此存在梯度退化的问题;从特征传递角度上看,网络深度增加会改变原来的数据分布,造成特征损失。基于以上考

24、虑,提出了具有残差思想的双向残差简单循环单元(Bidirectional Residual Simple Recurrent Unit,BiRESRU)。2.1 设计思想假设循环网络的输入层为,输出层为,那么添加一条从 层到层的映射,能确保第层的特征一定丰富于 层。使用大规模预训练模型获取动态词向量,再使用循环神经网络提取序列特征,增加了模型的复杂度,对微调模型提出了考验。然而循环神经网络提取到的序列特征对于提升分类性能具有价值,所以要尽可能的避免使用循环神经网络之后出现的模型退化,换而言之,要在增加循环神经网络获取序列特征的同时不降低模型的性能。引入残差思想,将浅层特征传递到深层,既能避免网

25、络模型的退化,又能传递较多的特征,是较好的选择。2.2 方法对比文献 21 使用将前一层还未激活的隐藏层状态作为残差的方法,在 BiGRU 上取得了不错的效果,但在 BiSRU 上,这种方法不能适用。公式(7)给出了前一层未激活的隐藏层状态,公式(8)给出了将前一层未激活隐藏层作为残差的计算公式。从公式中可以看到,使用这种方法,当前隐藏层的输入不仅会依赖于上一步的隐藏层输出,也依赖于上两步的记忆单元状态,既增加了时间上的依赖,又增加了模型的记忆负担。(7)(8)本研究提出的残差循环单元方法,将 SRU 的输入作为残差,直接引入到 SRU 的输出上。仅使用一个低层映射,解决了文献 21 使用残差

26、带来的计算量增加、时间步依赖增加和记忆负担增加。2.3 双向残差简单循环单元设计双向残差简单循环单元 BiRESRU 结构如图 4所示,由 BiSRU 的输出和 BiSRU 的输入两部分的特征融合而成,其中 为浅层特征,为深层特征,为的简写,其他参数与 SRU 保持一致。HSRUSRUbackwardforwardSRUSRUxhhxxt+1xt-1Hhh图 4 BiRESRU 模型结构Fig.4 BiRESRU model struct单向的 RESRU 计算流程如下,输入 同时求解、和,然后对记忆单元 和隐藏层输出进行更新,最后将激活后的浅层特征传递到隐藏层,合并后作为输出。其计算公式如(

27、9-14)所示。(9)(10)(11)(12)(13)(14)与 SRU 相比,两者的计算过程几乎一致,区别在于 RESRU 的输出,不仅仅含有记忆单元与重置单元 的处理结果,而且增加了一个经过激活函132数据与计算发展前沿,2023,5(4)王桂江 等:基于K-BERT和残差循环单元的中文情感分析 数处理的浅层信息,其中 为激活函数 GELU,该激活函数具有良好的负半轴性能。通过将SRU 的浅层特征传递到了深层,在不影响序列特征提取的同时,仅使用一个浅层映射,减少了饱和激活函数对特征的影响,避免了网络传递过程中的梯度损失,在不增加模型复杂度的情况下,实现了对模型性能的提升。3 基于 K-BE

28、RT-BiRESRU-ATT 的情感分析模型基于 K-BERT 对核心语义的良好获取能力,以及残差循环单元对信息的序列特征提取能力,本研究提出了文本情感分析模型 K-BERT-BiRESRU-ATT。K-BERT-BiRESRU-ATT 模型如图 5 所示,分为词嵌入表示层、序列建模层、注意力层和 Softmax分类层。其中词嵌入表示层是对语料增加背景知识并生成词向量;序列建模层对 K-BERT 提取到的词向量进行深层加浅层和上下文的特征提取;注意力层对 BiRESRU 得到的特征信息进行加权分析,得到每个词对于情感分析的贡献;Softmax 作为分类层,得到句子的分类极性。xt+1xtxt-

29、1SoftmaxSelf-attentionK-BERTHSRUSRUSRUSRUSRUSRUhhhhhhHH分类层注意力层序列建模层词嵌入表示层图 5 K-BERT-BiRESRU-ATT 模型框架Fig.5 K-BERT-BiRESRU-ATT model framework3.1 词嵌入表示层词嵌入表示层是将文本语句转换为神经网络能够处理的特征向量。传统的嵌入方法有 word2vec 和Glove 等,这些方法为每个词获得一个固定的词向量,无法解决一词多义的问题。K-BERT 模型根据一个词的上下文语境的不同、背景知识的不同,为句子提供融合知识表示的特征表示。对于每一个输入的句子,首先从

30、句子中获取命名实体,之后将得到的命名实体在知识图谱中查询对应的关系和值,形成一个 实体、关系、值 的三元组,再将这个三元组返回到句子对应的位置中,实现背景知识的丰富。比如“苹果公司库克在北京”,可以从知识图谱中得到“苹果公司,CEO,库克”,“中国,首都,北京”,丰富知识后的句子为“苹果公司 CEO 库克在中国首都北京”。丰富背景知识后的句子使用软位置编码和可视化矩阵 M 防止不相关三元组的值关联到一起。比如“苹果库克在北京”,在位置编码上可以编为“苹果公司(1)库克(2)在(3)北京(4)”,丰富之后的句子编码“苹果公司(1)CEO(2)库克(3)在(4)中国(5)首都(6)北京(7)”,失

31、去了原来的主干信息,因此编码为“苹果公司(1)CEO1 库克(2)在(3)中国 2 首都 3 北京(4)”。其中()里面是原来的 token 位置,是软位置的 token,使用图 2 的方式得到词嵌入 E;在可视化矩阵中,1(1)(2)相互可见,(1)(2)(3)(4)相互可见,23(4)相互可见,123 相互不可见。然后将词嵌入 和 Seeing Layer 中的可视化矩阵 M,同时传入 mask-transformer 进行特征计算,得到包含核心语义的动态词向量。3.2 BiRESRU 序列建模层基于注意力机制的 K-BERT 得到的动态词向量缺乏序列信息,因此使用循环神经网络模型进行序1

32、33数据与计算发展前沿,2023,5(4)王桂江 等:基于K-BERT和残差循环单元的中文情感分析 列建模,以充分提取词向量的序列信息。为了解决深层次网络的网络退化问题和梯度消失问题,充分获取全局特征,使用具有残差思想 BiRESRU 循环网络结构,该结构使用正反两个方向 RESRU 进行正反方向的上下文语义获取。将动态词向量 作为BiRESRU 的输入,进行二次上下文语义提取,同时提取深层加浅层的特征信息,得到语义信息更丰富的。如果用和表示正反的输出,则 BiRESRU的输出可以表示为。3.3 注意力层采用自注意力中的全局注意力对每次输出的进行权重计算,以充分计算当前词的重要程度,捕捉词之间

33、的语法和语义特征。首先对 BiRESRU 的输出乘以一个权重 Wg并加以偏置 bg,之后利用激活函数进行非线性映射得到,然后再将句子中每个分词的权重值进行计算得到;最后将每个阶段的权重 与对应的时间步相乘,对相乘得到的结果加权相加,获取最后的注意力表示。注意力机制的公式如下:(15)(16)(17)3.4 softmax 分类层通过注意力层得到特征向量,然后对 进行降维操作,利用 softmax 函数对输出层做归一化处理,得到句子级别的情感分布。softmax 公式如(18)所示。其中 为第 个结点的输出值;C 为输出结点的个数;是当前元素与所有元素的比值,即当前元素 的概率。计算如公式(19

34、),其中是权重矩阵,是偏置。(18)(19)4 实验及分析4.1 实验环境及数据集本实验的开发环境为 pytorch 1.6,cuda 版本为10.2,开发工具为 pycharm,语言为 python3.7,基于Ubuntu 系统,GPU 为华硕 1070Ti 8G。本文中,实验部分使用自然语言处理中文情感分类任务中的标准数据集 ChnSentiCorp(https:/ classification)和 weibo(https:/ 0,并将数据集分为 train、dev和 test 3 个部分。ChnSentiCorp:ChnSentiCorp 是一个平衡语料数据集,内容为长文本,包含酒店、笔

35、记本电脑和书籍的网购评论,以酒店评论为主,包含正负情绪各 6,000 条。在 train、dev 和 test 中分别含文本评论9,148 条、1,201 条和 1,201 条。Weibo:weibo 数据集来源于新浪微博评论,内容为短文本,含正负情绪各 60,000 条。在 train、dev和 test 中分别含文本评论 99,989 条、10,001 条和10,001 条。4.2 实验评价标准为了验证模型的有效性,采用准确率(Precision)对测试集和验证集进行分别评价,准确率的计算方式如下:(20)其中,表示正面评价样本中被预测为正面的样本总数;表示负面评价样本中被预测为正面的样本

36、总数。4.3 对比实验设计为验证本研究方法的有效性,取下列情感分析方法做比较。134数据与计算发展前沿,2023,5(4)王桂江 等:基于K-BERT和残差循环单元的中文情感分析(1)BERT。利用 BERT 直接进行情感分析是常用的分析方法之一。该方法将输入的文本进行词向量编码,对于获取到的词向量进行特征提取,之后运用分类器进行结果分类。(2)K-BERT。该模型首先对输入的内容进行背景知识丰富,之后对丰富信息后的句子进行特征提取,最后使用分类器进行结果分类。(3)RoBERTa22。该模型是 BERT 的升级版本,使用更多的训练数据,更长的训练序列和动态的Masking 机制。该方法将输入

37、的文本进行解码,将得到的词向量信息进行提取之后用分类器进行计算。(4)BiGRU。该方法将 BiGRU 最后一个时间步的前向隐藏状态和后向隐藏状态进行拼接,送入全连接层并使用 softmax 分类器获取分类结果。(5)MCNN-LSTM23。该模型由多通道 CNN 和LSTM 组合而成。首先使用不同的卷积核对多通道的 CNN 提取不同大小的文本局部特征,然后把经过最大池化获取的特征输入到 LSTM 层,再使用一层全连接后利用 softmax 进行分类。(6)XLNet-RCNN24。该模型首先利用 XLNet广义自回归预训练模型对文本进行特征表示,之后利用 RCNN 神经网络对文本特征进行双向

38、训练,最后使用 softmax 作为分类器,输出分类结果。(7)ALBERT-AFSFN25。该模型使用 ALBERT进行词向量表征,之后通过注意力特征分割融合网络将特征分为两组,分别对两组不同通道的特征进行融合,最后使用 softmax 进行分类。(8)K-BERT-BiLSTM。该模型首先对输入的内容进行背景知识丰富,然后使用 BiLSTM 对最后一层的语义信息进行上下文特征提取,最后送入分类器进行结果分类。4.4 实验参数实验选用 bert-base-chinese 作为预训练模型,使用 CnDbpedia26作为知识图谱,K-BERT 使用 12 层的 mask-transformer

39、 叠加,设置输入的最大文本长度为 128,设置学习率为 2e-5,使用 dropout 防止过拟合,设置 dropout 值为 0.5,设置隐藏层的向量维度为 768,传入 BiRESRU 的维度为 768,选取 Adam作为训练过程中的优化器。4.5 实验结果分析4.5.1 分类模型结果对比表 1 在 ChnSentiCorp 数据集上的结果对比(%)Table 1 Comparison of results on the ChnSentiCorp dataset(%)IndexModelDevTest1BERT91.4392.412K-BERT92.0293.343RoBERTa92.20

40、92.504BiGRU89.8588.765MCNN-LSTM90.6590.846XLNet-RCNN92.4092.907ALBERT-AFSFN93.3393.358K-BERT-BiLSTM93.7594.259K-BERT-BiRESRU94.4295.2510K-BERT-BiRESRU-ATT94.9995.60从表 1 的模型结果对比可以看出,本研究提出的 K-BERT-BiRESRU-ATT 模型在验证集和测试集的准确率均取得了较其他对比模型更高的分类准确率,分别达到了 94.99%和 95.60%,证明了本研究的有效性。与 BERT、K-BERT、K-BERT-BiLSTM

41、、ALBERT-AFSFN 和 XLNet-RCNN 相比,本研究方法的准确率在验证集上分别提升了 3.56%、2.97%、1.24%、1.66%和 2.59%,在测试集上分别提升了3.19%、2.26%、1.35%、2.25%和 2.7%。分析对比实验结果可以发现,在测试集和验证集上,BERT 和 RoBERTa 的表现均不如 K-BERT。BERT 是 大 规 模 的 语 料 训 练 模 型,内 部 使 用transformer 作为特征提取,使用固定的 mask 作为随135数据与计算发展前沿,2023,5(4)王桂江 等:基于K-BERT和残差循环单元的中文情感分析 机丢弃,使用 CL

42、S 作为分类标记,获得的词向量直接用于分类,得到了较高的准确率;RoBERTa 使用了比 BERT 规模更大的数据集和更长的训练序列,同时使用了动态 Masking,得到的特征信息较 BERT增加,分类效果优于 BERT。K-BERT 是在 BERT 的基础上,增加了知识图谱的结构,处理词嵌入的时候嵌入了已知的专业知识和背景知识,信息的局部特征提取能力得到了加强。由此体现出丰富句子背景知识,有针对性地补充句子内容,以及完整的句子语义结构对于情感分类的重要性。通 过 比 较 MCNN-LSTM、BiGRU、XLNet-RCNN 和 ALBERT-AFSFN 的实验结果可以看出,在模型中使用预训练

43、模型能得到更多的特征信息,使用多网络组合在一定程度上能提升分类的效果。CNN-LSTM 和 RCNN 是特征提取的不同形式,两者均能够有效获取特征。然而 CNN 对于局部特征信息提取的优势在长文本数据中表现并不出色,MCNN 得到的局部特征,经过 LSTM 提取没能得到完整的序列信息;XLNet 采用了适用于超长序列的transformer-xl,经过 RCNN 能得到全局信息中的局部特征序列。ALBERT-AFSFN采用注意力通道分割,聚合了局部上下文和全局上下文网络的特征,效果在 4 种对比里面最好,说明多维度的特征融合能提升分类性能。相比于 BiGRU 只提取长距离信息,局部和全局信息的

44、特征提取方式,能提升分类的效果。K-BERT-BiRESRU 与 K-BERT-BiLSTM 的结果进行比较,无论在测试集还是验证集上,BiRESRU的效果均优于 BiLSTM。相较于 BiLSTM 仅能提取上下文语义,BiRESRU 既可以捕捉文本间的长距离语义和依赖关系,又能获取深层加浅层的特征信息,同时还能避免特征丢失,既有非线性表达又有线性表达,因此在情感分类任务中表现更出色。由此说明,充分发挥循环神经网络长距离信息存储的优势,并增加全局特征提取能力,减少特征损失,效果更佳。对实验模型 K-BERT-BiRESRU-ATT 和 K-BE-RT-BiRESRU 的实验结果进行比较,引入注

45、意力模块,在验证集和测试集上分别提升了 0.57%和0.35%,证明了注意力模块能聚焦关键特征,提升模型性能。使用注意力权重对已知的词向量加权线性组合,计算单词间的相互影响和依赖程度,使得模型更加关注对分类结果影响大的部分。4.5.2 在其他数据集上的表现表 2 在 weibo 数据集上的结果对比(%)Table 2 Comparison of results on the weibo dataset(%)IndexModelDevTest1BERT97.2297.312K-BERT97.2297.313RoBERTa97.2597.364BiGRU92.492.45MCNN-LSTM95.6

46、595.846XLNet-RCNN96.4096.307ALBERT-AFSFN97.8197.788K-BERT-BiLSTM97.7597.259K-BERT-BiRESRU98.2098.1110K-BERT-BiRESRU-ATT98.2898.25为进一步验证本研究方法的有效性,将本研究的情感分析模型与其他对比模型在 weibo 数据集上进行训练和测试,weibo 数据集是一个短文本数据集,其结果如表 2 所示。由表 2 的数据可知,在短文本数据集上,融合知识图谱和残差简单循环单元的模型在整体效果上优于其他对比模型。由模型(1,2,3)可知,不同的预训练模型在该数据集上的表现基本一致

47、,说明无论是使用静态 mask 还是动态 mask 还是在句子中嵌入背景知识,短文本的内容嵌入是有限的;由模型(4,5,6,7)可知,在短文本上,使用CNN 提取局部特征能提升分类的准确性,使用预训练模型获取词向量能提升分类效果,由于句子内容的口语化,单纯对提取到的词向量进行上下文关联,不能很好地提取到句子中的特征信息,使用多通道分割及局部加全局的提取方式能提升性能;由模型(8,9,10)可知,对句子进行背景丰富后再增加循环神经网络进行长距离特征提取,能显著提升分类的性能,在词向量得到的特征有限的情况下,使用具有残差思想的 BiRESRU 作为循环网络比单纯使用BiLSTM 得到的特征信息更多

48、,引入注意力机制后分136数据与计算发展前沿,2023,5(4)王桂江 等:基于K-BERT和残差循环单元的中文情感分析 类效果有提升。综上所述,相对于其他模型,本研究提出的模型在评价指标上表现最好。本研究利用 K-BERT 进一步对输入文本进行特征丰富并解决一词多义的问题,获取到了句子丰富的特征;利用 BiRESRU 进行长距离建模能避免信息传递过程中的特征丢失,同时还能加速并行计算;引入注意力机制后,进一步增强了影响分类结果特征的权重信息。由于本研究使用的是融合知识图谱的 BERT 模型,因此能够针对不同的专业领域进行情感分析。与其他模型相比,本研究既融合了它们的优点也克服了它们的缺点,无

49、论是从词向量特征提取还是循环神经网络特征提取,对于特征的提取能力均优于其他对比模型,在分类效果上的表现同样优于对比模型。4.5.3 BiRESRU 与其他循环模型比较分析为验证 BiRESRU 相对于其他循环模型的优势,采用 BiLSTM、BiGRU 和 BiSRU 作为对比,均使用K-BERT 作为词嵌入层,且确保其他参数一致,实验采用 ChnSentiCorp 数据集。首先比较了四种不同的循环模型在训练过程中每轮的训练时间,如图6所示。其中横坐标为训练次数,纵坐标为训练时间,单位为秒。之后比较了 4 种循环模型在验证集和测试集上的准确率,如图 7 所示。其中横坐标为不同的循环模型,纵坐标为

50、准确率,单位为%。11001000900800迭代时间/秒700600epoch246810BiLSTmBiGRUBiSURBiRESRU图 6 不同循环模型的训练时间比较Fig.6 Comparison of training time for different recurrent models由 图 6 可 知,在 训 练 时 间 上,BiRESRU 与BiSRU 明显领先 BiLSTM 和 BIGRU,平均每次迭代减少 5 分钟左右;随着训练次数的增加,BiRESRU的训练速度明显优于 BiSRU,这与训练过程中使用了残差思想有密切关系,随着训练次数的增加和网络的不断传播,使用深层加浅

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服