基于CNN-BiLSTM-CRF的企业舆情监控模型构建.pdf

资源描述

1、Computer Era No.11 20230 引言在当今的信息化背景下，网络上的大量网络舆情信息得到有效保存。互联网营销平台也被许多企业选择作为开展营销活动的重要根据地，汇聚了大量用户数据、营销活动数据。这些数据对于企业的经营和管理具有极高的参考价值，但如何合理利用这些数据来进行决策指导，是企业面临的重要问题。近年，基于深度学习的情感分析方法在各个领域内都有所应用。吴贵珍等1提出一种将CNN与双层双向门控循环单元（BIGRU）相结合的方法，改善了CNN只能提取文本局部信息和RNN容易陷入梯度爆炸的问题。但存在时间效率不高以及随着数据规模增长，训练时间也会显著变长的问题。赵星宇等2提出一种融

2、合双向LSTM和CNN的混合情感分析模型，改善了现有文本情感分析方法实时性不强、难以应用到大规模文本等问题。曾莉等3提出一种融合主题模型和情感分析的 LDA-Attention-BiLSTM 模型，对舆情中的热点话题和情感时序变化有更好的反映。但该模型在方便计算的同时丢失了很多信息。杨秀璋等4提出一种改进LDA-CNN-BiLSTM模型，在社交媒体情感分析忽略情感特征的长距离语义关系，无法精确捕获带有情感色彩的特征词，过度依赖人工标注等问题上做出了改善。企业在舆情监控时需要更多地考虑到评价的主DOI:10.16644/33-1094/tp.2023.11.029基于CNN-BiLSTM-CRF

3、的企业舆情监控模型构建*张欣艺，郑军红，何利力(浙江理工大学计算机科学与技术学院，浙江杭州 310018)摘要：在互联网+环境下，将舆情监控应用到企业决策中是一个趋势。本文提出一种与企业需求契合度高且能更充分地提取情感特征的模型。将社交平台和互联网营销平台评论信息进行预处理，并使用Word2vec技术获取文本的词向量表示，通过 CNN 提取特征、BiLSTM 提取上下文语义特征，再加入条件随机场模型对标签序列进行优化。最后使用K-means聚类得到企业网络舆论焦点。经在真实数据集上对比实验，验证了模型的有效性。关键词：企业舆情监控；CNN；BiLSTM；舆论观点抽取；K-means中图分类号

4、：TP391.1文献标识码：A文章编号：1006-8228(2023)11-136-05Construction of enterprises public opinion monitoring model based on CNN-BiLSTM-CRFZhang Xinyi,Zheng Junhong,He Lili（School of Computer Science and Technology,Zhejiang Sci-Tech University,Hangzhou,Zhejiang 310018,China）Abstract：Under the Internet+environme

5、nt,it is a trend to apply public opinion monitoring to enterprise decision-making.A modelthat fits well with the needs of enterprises and can extract sentiment features more fully is proposed.The comment information ofsocial platforms and Internet marketing platforms is preprocessed,and word vector

6、representation of the text is obtained usingWord2vec technique.The features are extracted by CNN,contextual semantic features are extracted by BiLSTM,and conditionalrandom field model is added to optimize the label sequence.Finally,K-means clustering is used to obtain the enterprise onlineopinion fo

7、cus.Comparison experiments on real datasets verify the effectiveness of the model.Key words：enterprises public opinion monitoring;CNN;BiLSTM;public opinion extraction;K-means收稿日期：2023-03-13*基金项目：浙江省重点研发“尖兵”攻关计划项目（2023C01119）作者简介：张欣艺(1998-)，女，浙江宁波人，硕士研究生，主要研究方向：数据智能。通讯作者：郑军红(1978-)，男，浙江磐安人，博士，讲师，主要研究

8、方向：商务智能、人工智能。136计算机时代 2023年第11期体，并聚焦于互联网营销平台和网络舆情平台中多数人关注的事件，不同的企业所关注的内容会不同。因此，目前的舆情监控模型不完全适用于各个企业。我们可以将以上的问题转换为对特征向量分配权重的问题。目前，许多研究人员针对这个问题做出了不同的改进。赵蕊洁等5提出一种基于 Attention-BiLSTM-CRF的医药实体识别模型，提高了医药实体识别的效果，但应用范围较为单一。佘恒健等6采用BiLSTM-CRF 方法，对标注的政务公文进行了中文实体识别实验，更加准确有效地识别政务公文中的实体。陈伟等7提出了一种多头自注意力机制与条件随机场(CR

9、F)结合的实体抽取模型，改善了传统命名识别容易受上下文相对距离的影响、实体整体识别效果差的问题。综上所述，增加条件随机场（Conditional RandomField，CRF）8能在以上模型中起到很好的效果。但是针对企业舆情监控仍存在以下问题：单一的神经网络模型无法充分提取情感特征，卷积网络只能提取局部特征，而具有序列特性的神经网络（如LSTM，GRU等）只能提取整个序列特征，其时间效率低下。虽然网络舆情监测一直是比较热门的研究方向之一，但目前的舆情监控模型与企业的需求契合度较低。因此本文从情感分析的角度，运用深度学习理论，提出了一种基于 CNN-BiLSTM-CRF 的企业舆情监控模型。首

10、先将社交平台评论信息和互联网营销平台留言信息进行预处理，然后使用Word2vec技术获取文本的词向量表示。将其输出作为CNN卷积神经网络的输入，再将经过处理的数据输入到BiLSTM网络层，加入条件随机场模型对标签序列进行优化，最后，基于K-means进行观点聚类，得到企业网络舆论焦点，从而进行企业舆情监控。本文的主要贡献如下：提出一种结合 CNN-BiLSTM 和条件随机场、K-means聚类的模型，实验结果表明，该模型在各个指标上均得到提升，说明了模型的有效性。根据企业舆情监控特点，结合社交平台和互联网营销平台信息，建立了面向企业的舆情监控模型。1 模型构建本模型首先将社交平台评论信息和互联

11、网营销平台留言信息作为初始文本进行预处理，并将预处理完的短文本数据导入Word2vec9获取文本的词向量表示，将其输出作为 CNN 卷积神经网络的输入，通过CNN的卷积层和池化层的构建，用来提取特征，再将经过处理的数据输入到BiLSTM网络层，加入条件随机场模型对标签序列进行优化，最后，基于 K-means进行观点聚类，得到企业网络舆论焦点，从而进行企业舆情监控。模型整体结构如图1所示。图1模型整体结构1.1 数据预处理首先，我们需要对收集到的数据进行处理，转化为机器可以接受的输入。本模型文本预处理的具体步骤如图2所示。图2文本预处理流程图本模型主要采用 JieBa 分词库进行分词，使用Wor

12、d2vec技术向量化实验数据。由于数据量较大，本模型选用 word2vec 的 Skip-gram 模型进行词向量训练，以分词处理后的文本序列(w1,w1,wn)转换为低纬稠密的词向量序列作为 CNN 神经网络的输入。Skip-gram模型结构图如图3所示。137Computer Era No.11 2023图3Skip-gram模型Skip-gram模型通过建立词与词之间的共现关系P来使用Ct中的每个词作为独立上下文，从而实现对目标词的预测。其公式计算如式所示。P(c|wt)=exp(vwtvc)wvexp(vwtvw)其中，c表示词wt的上下文单词的集合。1.2 卷积神经网络卷积神经网络(

13、CNN)主要由三个部分构成：输入层、卷积层和池化层，本文通过卷积神经网络提取社交平台评论信息和互联网营销平台留言数据的关键特征。首先，将通过 Word2vec获得到的输出作为 CNN的输入，句子中每个词的词向量为xi，xi Rn d，其中n是词数，d是向量维度。在卷积层，我们用设置好的滤波器来进行特征提取，计算公式如式所示：Ci=f(xi:i+g-1+b)其中，f是激活函数，是卷积核，g是卷积核的尺寸，xi:i+g-1是i到i+g-1个词组成的句子向量，b是偏置项。通过卷积层后，得到特征矩阵C，C=c1,c2,cn-g+1。池化层可以压缩文本特征向量和模型参数的大小，并且最大化保留情感的特征，

14、计算公式如下：M=max C经过池化层后，将其输出向量输入至 BiLSTM模型。1.3 双向长短期记忆网络双向长短期记忆网络(Bi-directional long short-lerm memory,BiLSTM)模型是循环神经网络的变体，它通过从前后两个方向提取特征来获得长距离依赖关系及上下文语义特征，本文用来提取社交平台评论和互联网营销平台活动中的用户评论文本中的情感特征，同时，提升命名实体识别的效果。以合并后的词向量序列作为输入，进行前后文的空间语义建模，捕捉词向量的双向语义依赖，进一步构建社交平台评论信息和互联网营销平台留言信息文本上下文信息的高层特征表达，并拼接前向(Forward

15、)LSTM神经网络的输出向量 h和后向(Backward)LSTM 神经网络的输出向量 h作为 BiLSTM 层的输出向量 h。BiLSTM的网络结构如图4所示。其公式计算如式式所示。hn=f(w1 cn+w2 hn-1)hn=f(w3 cn+w5 hn+1)hn=g(w4 hn+w6 hn)式式中，hn表示n时刻前向LSTM层的状态，hn表示n时刻后向LSTM层的状态；cn表示输入的词向量；w1至w6表示权重参数；f表示激活函数；hn是双向LSTM层的输出结果。图4BiLSTM模型网络结构1.4 条件随机场虽然使用双向长短期记忆网络(BiLSTM)模型可以达到从文本序列中提取命名实体的效果，

16、但实体命名标签不同，只通过BiLSTM模型无法区分不同命名实体标签。因此，本模型增加了条件随机场(CRF)推理层，帮助学习标签之间的关联信息，从而保证舆情监控的准确性。本模型采用线性链CRF模型，最终输出序列的句子评估分数定义如式所示。138计算机时代 2023年第11期s(x,y)=i=1n(Pi,yi+Wyi-1,yi)其中，x是输入序列，y是x对应的标签值；Pi,yi代表第yi个标签的分数。对标签序列概率进行计算，结果如式所示。P(y|x)=es(x,y)y Yxes(x|y)其中，Yx代表所有可能的标签序列集合；P(y|x)代表输出概率最大的值，也就是将序列yi的标签作为最终的输出。

17、1.5 K-means聚类最后，本模型以评论者所留的观点文本数据，面向不同的评论对象分别提取相关观点，并聚类得到舆情焦点以进行企业舆情监控。本文使用 K-means算法将评论同一对象的观点聚类，初始选取一个k作为全体的簇的数量，然后随机选取k个企业评论观点作为初始簇的核心，本模型采用欧几里得距离来计算每个观点与各聚类中心之间的距离，从而把每个观点划分到它最近的簇中，计算过程如式所示。对于每一条评论数据，K-means算法会依据当前类中现有的所有对象重新计算聚类中心，并不断重复以上过程到所有观点被合理分配为止。最后得到的结果就是企业舆情监控需要的舆论焦点。d(x,)=i=0n(xi-ui)2其中

18、，u表示质心，x代表一个样本点，n是维数。2 实验与分析为验证本文所构建模型的有效性，选取用户对某企业互联网营销平台上开展活动的评价作为实际分析对象，进行观点抽取和舆情焦点监控实验。2.1 数据集本文实验数据主要来自某社交平台和某互联网营销平台，该互联网营销平台服务于某工业公司的互联网营销项目。实验采集用户评论共102318条，经预处理后剩余文本数据96335条。通过三组人员人工标注，对以上数据采用 BIO(B-begin,I-inside,O-outside)数据标注格式完成对语料的标注。B表示实体起始字符，I表示实体内部字符，O表示非实体。标注完成后，随机抽取20%即19267条数据作为测

19、试集，10%即9634条数据作为验证集，剩余数据作为训练集。2.2 实验设置本文具体实验环境如表1所示。表1实验环境项目操作系统CPUGPU内存实验环境开发语言参数Windows 10AMD Ryzen 9 5900HX with Radeon GraphicsRTX 3070Samsung DDR4 3200MHz 8GB x 2Pytorch 1.13.0+cu116Python 3.10本实验的实验参数设置如表2所示。表2实验参数设置实验参数词向量维度词向量训练模型CNN卷积核个数CNN卷积核大小LSTM长度双向长短时记忆网络层数批处理大小丢弃率优化函数激活函数损失函数参数值200Ski

20、p-gram25631282320.5AdamRelu交叉熵2.3 评价指标本文选择精准率（Precision，P）、召回率（Recall，R）和F值（F1-score）作为实验结果的评测指标。准确率衡量了模型预测标签中正确的比例。召回率衡量了所有人工标注标签中被正确识别的比例。F值将精准率和召回率作为基准进行综合考虑。精准率、召回率、F值的计算公式如式至式所示。p=TPTP+FPR=TPTP+FNF=2PRR+P其中，TP表示正确识别的标签数，FP表示错误识别的标签数，FN表示实际未识别的标签数量。2.4 对照基准模型本次实验选取CNN、CRF、LSTM-CRF、BiLSTM-CRF和BiG

21、RU-CRF模型来与本文模型做对比实验。CNN：经典深度学习模型，很早被应用于命名实体识别，提取句子级别的特征。139Computer Era No.11 2023 CRF：将命名实体识别问题转化为序列标注问题，可以考虑到复杂的特征。LSTM-CRF：将LSTM和CRF结合在一起，可以捕捉到输入的过去特征和句子级的标签信息。BiLSTM-CRF：与LSTM-CRF类似，将LSTM换为 BiLSTM，是序列标注问题的经典模型。使用Word2vec完成词向量训练，并将其输出值导入BiLSTM来获取文本特征、得到各标签取值的概率，通过CRF约束标签间的顺序关系。BiGRU-CRF：BiGRU 网络是

22、由 RNN 发展而来，它在处理序列数据的任务中被广泛使用，结合CRF优化目标函数。2.5 实验结果与分析本次实验选取CNN、CRF、LSTM-CRF、BiLSTM-CRF和BiGRU-CRF模型来与本文提出的模型做对比实验，实验结果如表3所示。本文提出的模型最后结果精确率达到 88.26%，召回率为 87.60%，F1 值为87.93%，相较于其他模型结构，各个指标都有所提升。表3模型比较结果模型CNNCRFLSTM-CRFBiLSTM-CRFBiGRU-CRF本文精确率（%）78.6277.6185.2587.1785.2688.26召回率（%）77.6576.0284.8987.2385.

23、5587.60F1值（%）78.1376.8185.0787.2085.4087.933 结束语通过对网络社交平台舆情信息和企业互联网营销平台相关信息的处理分析，可以实现对企业的舆情监控，并指导企业决策。在当前的互联网+环境下，这对企业来说是必不可少的，基于此，本文提出了一种基于CNN-BiLSTM-CRF的企业舆情监控模型。通过在真实数据集上进行对比实验，本文模型在精确率、召回率、F1值指标上均优于其他基准模型，验证了本文提出模型的有效性。接下来，将基于目前的研究成果，面向企业网络舆情监控，结合企业舆情焦点中的感情极性进行研究。参考文献(References):1 吴贵珍,王芳,黄树成.基于

24、词向量与 CNN-BIGRU 的情感分析研究J.软件导刊,2022,21(8):27-32.2 赵星宇,何浩,范双南,等.一种融合双向LSTM和CNN的混合情感分析模型J.湘潭大学学报(自然科学版),2021,43(4):69-76.3 曾莉,杨添宝,周慧.基于 LDA 与注意力机制 BiLSTM 的微博舆情分析模型J.南京理工大学学报,2022,46(6):742-748.4 杨秀璋,刘建义,任天舒,等.基于改进LDA-CNN-BiLSTM模型的社交媒体情感分析研究J.现代计算机,2022,28(2):29-36.5 赵蕊洁,佟昕瑀,刘小桦,等.基于神经网络的医药科技论文实体识别与标注研究J

25、.数据分析与知识发现,2022,6(9):100-112.6 佘恒健,黄焕清,余钟昌,等.基于BiLSTM-CRF的政务公文实体识别J.电脑编程技巧与维护,2022,446(8):119-121.7 陈伟,吴云志,涂凌,等.基于多头自注意力机制的实体识别研究J.蚌埠学院学报,2022,11(5):54-60.8 朱傲.基于 BiLSTM-CRF 的汉语浅层语义分析研究D.兰州:西北民族大学,2022.9张良君.基于 Word2Vec 词嵌入和双向 LSTM 模型对用户回答文本进行分类J.电子技术与软件工程,2021(14):208-211.11 张雨晴,许宁,武云云,等.应用随机森林分析非吸烟

26、女性肺癌风险因素J.环境卫生学杂志,2022,12(2):80-86.12 董永峰,董彦琦,张亚娟.面向不平衡数据集的改进SMOTE算法J.河北工业大学学报,2022,51(6):40-46.13 刘路.基于XGBoost优化算法的5G潜在用户识别研究D.南昌:江西财经大学,2022.14 Daoud E A.Comparison between XGBoost,LightGBMandCatBoostUsingaHomeCreditDatasetJ.InternationalJournalofInformation,ControlandComputer Sciences,2019,13(1):6-10.15 陈磊,霍永亮.利用改进的遗传算法求解非线性方程组J.西南师范大学学报(自然科学版),2015,40(1):23-27.16 Breiman L.Random ForestsJ.Machine Learning,2001,45(1):5-32.17BaltrusaitisT,AhujaC,MorencyLP.Morency,MultimodalMachineLearning:ASurveyandTaxonomyJ.IEEE Trans Pattern Anal Mach Intell,2019,41(2):423-443.(上接第135页)CECE140

展开阅读全文