收藏 分销(赏)

基于机器学习的在线评论情感分析.pdf

上传人:自信****多点 文档编号:2346029 上传时间:2024-05-28 格式:PDF 页数:6 大小:1.70MB
下载 相关 举报
基于机器学习的在线评论情感分析.pdf_第1页
第1页 / 共6页
基于机器学习的在线评论情感分析.pdf_第2页
第2页 / 共6页
基于机器学习的在线评论情感分析.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 卷第期 年月兰州文理学院学报(自然科学版)J o u r n a l o fL a n z h o uU n i v e r s i t yo fA r t sa n dS c i e n c e(N a t u r a lS c i e n c e s)V o l N o S e p t 收稿日期:基金项目:安徽省高校自然科学研究重点项目(K J A ,K J A )作者简介:张黎娜(),女,安徽阜阳人,工程师,硕士,研究方向为数据挖掘、情感分析 E m a i l:q q c o m文章编号:()基于机器学习的在线评论情感分析张黎娜,董露露,李梅,檀娟伢(安徽开放大学 信息与建筑工程学

2、院,安徽 合肥 )摘要:随着我国互联网的快速发展,海量的在线评论数据已经成为互联网的重要组成部分,如何有效地利用评论数据进行商业营销和舆情分析就显得尤为重要以某品牌机械手表为研究对象,通过爬取互联网上某电商平台消费者在线评论,对其进行预处理和词向量表示,同时基于朴素贝叶斯模型对量化后的在线评论文本进行情感分类,生成正面和负面评论文本,并通过文本可视化验证情感倾向分类结果的正确性;最后,利用L D A模型对评论文本进行潜在主题挖掘和分析,找出产品或服务上不足,提出优化措施,促进品牌及电商平台的健康发展关键词:在线评论;情感分析;机器学习;L D A中图分类号:T P 文献标志码:AO n l i

3、 n eC o mm e n t S e n t i m e n tA n a l y s i sB a s e do nM a c h i n eL e a r n i n gZHANGL i n a,D ONGL u l u,L IM e i,T ANJ u a n y a(S c h o o l o f I n f o r m a t i o na n dA r c h i t e c t u r a lE n g i n e e r i n g,A n h u iO p e nU n i v e r s i t y,H e f e i ,C h i n a)A b s t r a c

4、t:W i t ht h er a p i dd e v e l o p m e n t o f t h e I n t e r n e t i nC h i n a,m a s s i v eo n l i n e r e v i e wd a t ah a sb e c o m ea n i m p o r t a n tp a r to f t h eI n t e r n e t,h o wt oe f f e c t i v e l yu s ec o mm e n td a t af o rb u s i n e s sm a r k e t i n ga n dp u b l i

5、 co p i n i o na n a l y s i si sp a r t i c u l a r l yi m p o r t a n t T a k i n gab r a n dm e c h a n i c a lw a t c ha s t h er e s e a r c ho b j e c t,b yc r a w l i n gt h eo n l i n er e v i e wt e x to fc o n s u m e r so na ne c o m m e r c ep l a t f o r mo nt h eI n t e r n e t,t h er

6、e v i e wt e x t i sp r e p r o c e s s e da n de x p r e s s e db yw o r dv e c t o r s B a s e do nan a i v eB a y e s i a nm o d e l,s e n t i m e n t c l a s s i f i c a t i o n i sp e r f o r m e do nq u a n t i f i e do n l i n e c o mm e n t t e x t s,g e n e r a t ep o s i t i v e a n dn e g

7、 a t i v e c o mm e n t t e x t,a n d t h e c o r r e c t n e s s o f e m o t i o no r i e n t a t i o nc l a s s i f i c a t i o nr e s u l t s t h r o u g h t e x t v i s u a l i z a t i o n i sv e r i f i e d F i n a l l y,L D Am o d e l i su s e d t om i n e a n da n a l y z e t h ep o t e n t i

8、 a l t h e m e so f t h e r e v i e wt e x t,f i n do u t t h e a d v a n t a g e sa n dd i s a d v a n t a g e so fp r o d u c t so rs e r v i c e s,a n dp r o p o s eo p t i m i z a t i o nm e a s u r e s t op r o m o t e t h eh e a l t h yd e v e l o p m e n to fb r a n d sa n de c o mm e r c ep

9、l a t f o r m s K e yw o r d s:o n l i n ec o mm e n t;e m o t i o n a l a n a l y s i s;m a c h i n e l e a r n i n g;L D A 年月 日,中国互联网络信息中心发布第五十次 中国互联网络发展状况统计报告截至 年月,中国的网民规模已经达到了 亿人,这个数字令人印象深刻而且,互联网普及率也达到了 ,意味着超过三分之二的中国人都在使用互联网网民在使用互联网的过程中产生大量带有情感色彩的主观评论,在线评论数据成了互联网的重要组成部分,反映出网民所关注事件的观点和情感态度对在线评论文本

10、进行情感分析可以应用于购物网站、网络学习平台、社交媒体的商业营销和舆情分析等场景,同时也是用户决策的重要信息来源,很大程度上影响着新用户的选择,在线评论的情感分析也成为学者们研究的热点 ,这些文献为本研究提供了很多帮助国内对于在线评论文本的情感分析和主题研究一般是单一研究,但情感倾向和内容主题是分析用户在线评论的两个重要维度因此,本文以某品牌机械手表为研究对象,通过爬取消费者在线评论文本,采用基于机器学习的情感倾向分析和L D A主题模型相结合的研究方式进行在线评论数据的情感分析1理论依据1 1.1 1在线评论在线评论数据是网民在使用互联网过程中产生大量带有情感色彩的主观数据,是网络平台的重要

11、组成是发文者对某种事和物的看法、态度和情感反应1 1.2 2情感分析情感分析是通过分析文本中的情感词语,挖掘对特定事和物的情感表达通过挖掘文本数据中的情感信息,了解发文者对某种事物或事件的看法、态度和情感反应这对理解公众舆论、市场趋势、产品反馈等方面都非常重要通过对在线评论情感分析,可以从大规模的评论数据中提取有价值的信息,帮助企业和组织做出更准确的决策和改进策略1 1.3 3情感分析方法常见的文本情感分析方法有情感词典法和机器学习法前者通过将文本中的情感词与情感词典进行对比,统计情感词的数目,并计算情感得分,判断情感类别但此方法对于新的、未知的情感词或特定领域的情感词,可能无法准确识别和计算

12、得分为了提高准确性,情感词典根据情感分析的需要,人为地进行更新和完善,这种方法实现困难且耗时;后者是由人工提取文本特征,使用机器算法进行文本数据处理与情感分析这种分析方法可以动态地更新词库,同时有效地减少工作量及情感分析过程中的一些感性判断所以,通过训练机器学习模型来自动识别文本中的情感,从而提高情感分析的准确性和适应性 支持向量机支持向量机是一种强大的机器学习算法,尤其适用于二分类问题该问题的目标是寻找一个误分类率最小,并且不同类别的样本点是能够被尽可能大的间隔分开的最优超平面,基本原理结构如图所示它在实际应用中具有很好的分类性能,被 广 泛 应 用 于 模 式 识 别、文 本 分 类 等

13、领域图支持向量机基本原理图中,w xb为分类超平面当处理的数据是文本数据时,需要把非线性数据从低维空间转换到高维的线性数据再进行求解 朴素贝叶斯朴素贝叶斯分类算法是基于贝叶斯理论和特征条件独立假设的分类算法朴素贝叶斯算法中的“朴素”表示假设每个特征之间都是相互独立的,这样可以简化计算并减少模型参数的数量虽然这个假设在现实中不成立,但在实际应用中,朴素贝叶斯算法仍然能够提供很好的分类性能并且,朴素贝叶斯算法在文本数据情感判定方面效果较好,算法复杂度也较低,常应用于数据量不大的文本情感分类定义 在 线 评 论 文 本 为wkw,w,wn,情感类别为CC正,C负文本的情感判定公式为:C(x)a r

14、g m a xxcP(Cj)niP(Wi|Cj)w tk(wi),()P(Cj)NUM(Cj)CjNUM(Cj),()P(qi|Cj)mkw tk(wi,Cj)nimkw tk(wi,Cj),()其中,P(Cj)是Cj的先验概率,P(qi|Cj)是Cj的后验概率,NUM(Cj)为Cj的在线评论文本数 决策树决策树是指通过对属性的测试和判断过程,以树的形式直观地表示文本情感分析的逻辑关系,使得分析过程清晰易懂,其结构如图所示自根节点逐个验证条件分支,直到某叶子节点,得到文本的情感类别第期张黎娜等:基于机器学习的在线评论情感分析图决策树模型2研究设计2 2.1 1研究思路整个研究由两大部分内容组成

15、:在线评论情感倾向分析首先,爬取京东电商平台某品牌机械手表在线评论数据;然后,经过文本预处理、分词、向量化等操作;再通过训练好的情感分类器进行文本情感倾向分析,得到正面、负面评论文本;L D A主题模型分析通过L D A模型对第一部分分析的结果进行主题建模,挖掘出潜在主题,找出产品或服务上的优势与不足,提出干预措施整个研究思路如图所示图本文研究思路2 2.2 2在线文本情感倾向分析 在线评论文本数据的采集网络爬虫技术 爬取的数据可根据研究需要从网络上抓取大量源数据,并进行不相关的数据剔除常用的数据爬取工具为八爪鱼采集器,与其相比,P y t h o n软件可以自动采集、获取海量规范的文本数据,

16、避免了人工收集、整理数据的繁琐过程然后对文本进行深度挖掘,将有价值的数据提取出来,再进行深入分析,得到更多有用的数据使用P y t h o n软件爬取来源于京东电商平台某品牌机械手表 年 月至 年 月在线评论数据共 条,每一条评论包含评分人、评分、评论时间、评论内容其中,分评论 条,分评论 条,分评论 条,分评论 ,分 条在线商品页面评论中好评率在,差评率在分析得出是将分及以上归为正面评论,分及以下归为负面评论,正面评论共有 条,负面评论共有 条 评论文本预处理评论文本预处理是进行文本情感分析前的一系列操作,具体步骤为:数据清洗,从爬取的数据中剔除无效评论,例如包含图片、音视频等评论,最终得到

17、有效评论文本共计 条;分词,使用j i e b a分词工具进行分词,将评论文本切分成一个个独立的词语,以便后续处理和分析;剔除停用词,选择哈工大停用词词库剔除停用词停用词是指在评论中频繁出现但对文本情感分析没有实质性帮助的常见词语,如“的”“了”“是”等剔除这些停用词能够减少噪音,提高情感分析的准确性通过以上预处理步骤,评论文本将被清洗、分词并去除停用词,最终生成可以被计算机处理的自然语言数据,以便进行后续的情感分析 文本向量化文本向量化是计算机识别、处理文本数据的第一步计算机能处理的是线性、结构化数据,而文本是一种非结构化数据,经过数据清洗、分词后的文本需要数字编码后才可以输入模型进行建模这

18、便需要将文本转化为计算机能识别、处理的语言,词向量化技术实现了文本数据向机器语言的转变采用W o r d v e c中的连续词袋模型(C B OW)作为词向量化工具,将文本数据进行词向量化通过词向量来表达词与词之间的关系,寻找词之间的关联,将文本中的词直接映射到一个坐标系中,得到词语的数值向量,在向量空间上进行一系列数值计算W o r d v e c中的连续词袋模型分为层,首先是输入层,输入当前词W前后的n个词向量,作为模型的输入;其次是隐藏层,将输入层的词向量进行拼接或平均操作,得到一个综合的上下文表示,可以使用全连接层或者其他非线性映射函数对上下文表示进行处理;最后是输出层,它由一个全连接

19、层组成,输出单元对应词库中的词通过生成一个概率分布,预测当前词,词袋模型的实现过程如图所示 分类模型用种机器学习算法训练模型从网络获取一个酒店评论数据集,采用正面评论 条,负面评论 条使用t r a i n_t e s t_s p l i t函数将数据集随机划分为训练集与测试集,计算 次模型兰州文理学院学报(自然科学版)第 卷训练准确率均值 ,结果如表所列图C B OW模型实现过程表准确率均值模型训练集测试集支持向量机 朴素贝叶斯 决策树 从表可以看出,决策树模型在两个数据集上的准确率差别较大,支持向量机模型与朴素贝叶斯模型在训练集、测试集的准确率都不错,但朴素贝叶斯的两组数据更接近因此,在线

20、评论的情感分析最终采用朴素贝叶斯模型在线评论文本经过数据预处理、分词、文本向量化进入分类器进行情感倾向分析,得到正面 情 感 评 论 文 本 条,占 总 文 本 的 ;负面情感评论文本 条,占总文本的 ,与京东网站在线评论好评占比有左右的误差 评论文本可视化根据情感分析结果,分别把正、负面评论文本生成词云图,也可以验证分类模型对在线评论情感倾向分析的结果是否准确正面、负面的评论文本词云图如图和图所示从图和图可以看出,正面评论词云图中,“精准”“大气”“高端”等高频词语都是正面的,未发现负面色彩的词语,说明训练出的分类模型很好地区分出正面情感倾向评论负面评论词云图中,“划痕”“粗糙”“掉色”“雾

21、气”等负面词语的出现频率较高,图中未出现带有正面情感的词语,也说明训练出的分类模型可以很好地区分出负面情感评论2 2.3 3L LD DA A 主题模型分析采用朴素贝叶斯模型进行在线评论的情感倾图正面评论词云图图负面评论词云图向分析,是为了分析和掌握消费者对在线商品哪些方面不满或比较认同通过L D A模型对消费者在线评论主题进行探索,挖掘出消费者正面、负面评论中的潜在主题,获得某个主题包含的词语概率分布,确定该主题包含的其他词汇,分析出消费者对在线商品特征的关注以及情感态度 主题数目选择通过余弦相似度对在线评论的正、负面文本进行L D A主题建模,确定正面评论文本、负面评论文本的最优主题数并进

22、行主题分析使用循环函数进行数次迭代后找到评论文本的最佳主题个数,无需调参,简单方便初始模型中,将评论文本的主题数初始值设置为k,计算评论文本主题间的平均余弦距离;然后,对主题数k值的大小进行调整(增加或是减少),每次调整后进行模型训练,得出评论文本主题间的余弦相似度;重复操作直至寻找到最优主题数k如果评论文本主题间的余弦相似度越高,则词语越相似,具体计算公式为:c o sniWiTini(Wi)ni(Ti)WT|WT|,()其中,W、T是两个n维的评论文本向量,c o s是第期张黎娜等:基于机器学习的在线评论情感分析W向量和T向量之间夹角的余弦值正面、负面评论的主题寻优数据如图和图所示可以看出

23、,正面评论文本中,主题数值取时,平均余弦相似度最低,因此,正面评论进行L D A主题建模时,选择主题数;负面评论主题数在或时平均余弦相似度最低,所以,负面评论主题数也选择进行L D A建模图正面评论L D A主题建模图负面评论L D A主题建模 主题建模与分析使用P y t h o n中的G e n s i m库对正面、负面评论进行L D A主题建模,k值设置为,各主题下生成个最有可能出现的词语和概率分布,结果如表和表所列根据建模结果,再进行数据分析表正面评论主题主题关键词权重主题关键词权重主题关键词权重大气 精准 手表 不错 值得 材质 好看 一款 购买 高端 防水 表盘 外观 推荐 耐用

24、档次 时间 做工 如表所列,正面评论文本主题中“大气”“好看”“高端”“外观”“档次”等体现了消费者对手表外观设计的认同;主题中“准时”“值得”“喜欢”“推荐”“时间”等体现了消费者对手表走时准,防水强的机械性能的赞许;主题中“手表”“材质”“表盘”“做工”等词体现消费者选择此款手表的原因主要在于其的材质优良、耐用,做工一流表负面评论主题主题关键词权重主题关键词权重主题关键词权重划痕 假货 客服 粗糙 差 平台 雾气 贵 坑 质量 正品 商家 退 降价 售后 一般 慢 垃圾 如表所列,负面评论主题中关键词“划痕”“粗糙”“雾气”“一般”等词语表明消费者对于手表的做工、质量的不满;主题中“假货”

25、“贵”“正品”“价格”等词体现在线商品价格昂贵,降价快,引起了消费者的不满,质疑是假货不是正品的负面情感体现;主题中“客服”“平台”“商家”“售后”“垃圾”表明消费者对在线商品产生质疑、心存不满时,商家及平台售后没能及时提供售后服务,遇到问题没得到解决,导致情绪升级,出现含有“垃圾”字样的文本,这也符合日常购物场景中的情绪体现针对负面评论,品牌商和电商平台方可以采取一些有效措施来缓解消费者的负向情绪,维护消费者利益,提升品牌形象,优化电商平台主要方法有:严格把控产品质量商品发货前,品牌商和电商平台应该严格核查产品型号、质量,避免有瑕疵、不合格的商品流入到消费者手中,保障消费者的利益;保障商品价

26、格正常浮动商品的价格不稳定、低价竞争会影响品牌利益,也会导致假货泛滥,损坏品牌形象电商平台需要及时干预、约束品牌商,将价格控制在规定的范围内;提升售后服务质量消费者进行商品购买或是售后咨询时,应及时给予回应,解决问题品牌商和电商平台对服务团队应进行专业、系统的产品知识培训,以便更好地服务于消费者,提升购物体验3结语本文以某品牌机械手表为研究对象,通过爬取互联网某电商平台消费者在线评论文本,采用基于机器学习方法的情感倾向分析和L D A主题模型相结合的研究方式进行在线评论数据的情感兰州文理学院学报(自然科学版)第 卷分析在利用机器学习方法进行情感倾向分析的基础上,对正面、负面评论文本完成L D

27、A主题建模,再进一步分析研究,通过分析研究结果得出以在线购物为渠道的某品牌手表在产品或服务上的优势和不足,并提出干预措施,以促进某品牌和电商平台的健康发展,提升消费者的购物体验参考文献:王忠群,钱寅亮,叶安杰,等基于证据网络的在线商品评论 有 用 性 的 评 估 模 型 J情 报 理 论 与 实 践,():田依林,黎盈盈,滕广青基于商品类型的在线负面评论有用性影响因素比较研究J现代情报,():AHMA DF,GU ZMN F N e g a t i v eo n l i n er e v i e w s,b r a n de q u i t ya n de m o t i o n a lc o

28、 n t a g i o nJ E u r o p e a nJ o u r n a l o fM a r k e t i n g,():T S I O T S OU,R H I d e n t i f y i n gv a l u e c r e a t i n ga s p e c t si nl u x u r y h o t e ls e r v i c e sv i at h i r d p a r t y o n l i n er e v i e w s:ac r o s s c u l t u r a l s t u d yJ I n t e r n a t i o n a l

29、J o u r n a lo fR e t a i l&D i s t r i b u t i o n M a n a g e m e n t,():厍向阳,杨瑞,董立红基于S w o r d v e c t的中文在线商品评价情感分析J西安科技大学学报,():郑畋电商评论的文本分析研究D武汉:中南财经政法大学,万岩,杜振中融合情感词典和语义规则的微博评论细粒度情感分析J情报探索,():杨立公,朱俭,汤世平文本情感分析综述J计算机应用,():MAN E KAS,S HE NOYPD,MOHAN MC A s p e c tt e r me x t r a c t i o nf o rs e n

30、t i m e n ta n a l y s i si nl a r g e m o v i er e v i e w su s i n gG i n i I n d e x f e a t u r e s e l e c t i o nm e t h o da n dS VMc l a s s i f i e rJ W o r l dW i d eW e b I n t e r n e tW e b I n f o r m a t i o nS y s t e n s,():王泽辰,王树鹏,孙立远,等基于情感对象识别和情感规则的微博倾向性分析J北京航空航天大学学报,():方巍,吴伶琳大数据背景下网络爬虫框架的应用研究J电脑编程技巧与维护,():张黎娜,檀娟伢,李梅,等基于机器学习的开放教育在线文本情 感 分 析J广 西 广 播 电 视 大 学 学 报,():侯佩玲云冈石窟景区在线评论文本情感分析研究D大连:东北财经大学,张姝欣儿童阅读A P P用户在线评论文本情感分析研究D大连:辽宁师范大学,责任编辑:李岚第期张黎娜等:基于机器学习的在线评论情感分析

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服