收藏 分销(赏)

在线评论中的用户需求识别及其演化趋势挖掘_王克勤.pdf

上传人:自信****多点 文档编号:600399 上传时间:2024-01-11 格式:PDF 页数:11 大小:1.64MB
下载 相关 举报
在线评论中的用户需求识别及其演化趋势挖掘_王克勤.pdf_第1页
第1页 / 共11页
在线评论中的用户需求识别及其演化趋势挖掘_王克勤.pdf_第2页
第2页 / 共11页
在线评论中的用户需求识别及其演化趋势挖掘_王克勤.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 年第 42 卷7 月第 7 期机 械 科 学 与 技 术Mechanical Science and Technology for Aerospace EngineeringJulyVol422023No7http:/journalsnwpueducn/收稿日期:20230218基金项目:国家自然科学基金青年项目(72101204)与陕西省自然科学基金项目(2022JM-421)作者简介:王克勤(1979),副教授,博士,研究方向为质量管理和产品开发管理,keqinwang nwpueducn通信作者:李靖,副教授,博士,lijing2015 nwpueducn王克勤,高智姣,乔亚楠

2、,等在线评论中的用户需求识别及其演化趋势挖掘 J 机械科学与技术,2023,42(7):1070-1080在线评论中的用户需求识别及其演化趋势挖掘王克勤,高智姣,乔亚楠,李靖,同淑荣(西北工业大学 管理学院,西安710072)摘要:Web20 环境下,越来越多的消费者在网络平台上购买商品,且将使用感受通过在线评论的形式表现出来,大量的在线评论数据蕴含着很多有价值的信息,企业可以利用在线评论来识别和分析用户需求,以便于后续的产品改进。本文以联想笔记本电脑的评论数据为研究对象,提出基于在线评论挖掘的用户需求识别与演化分析模型,利用 SnowNLP 模型、Kano 模型与 LDA 模型,对用户评论进

3、行分类、识别、特征情感对分析以及时间序列分析。结果表明:根据情感趋势预测,顾客对类型一、类型二和类型三的情感值呈上升趋势,类型四的情感值呈下降趋势;此外,用户对产品外观与游戏体验的关注较多。研究从时间的角度对在线评论的研究方法和模型进行了改进,可为分析用户对产品需求以及预测用户对于产品的情感趋势等研究提供参考价值。关键词:在线评论挖掘;用户需求;情感分析;LDA 模型;Kano 模型中图分类号:F274;TP3911文献标志码:ADOI:1013433/jcnki1003-872820230241文章编号:1003-8728(2023)07-1070-11User equirements Id

4、entification and Trend of EvolutionMining in Online eviewsWANG Keqin,GAO Zhijiao,QIAO Yanan,LI Jing,TONG Shurong(School of Management,Northwestern Polytechnical University,Xian 710072,China)Abstract:In the Web20 environment,more and more consumers are purchasing products on online platforms andexpre

5、ssing their feelings through online reviews A large amount of online review data contains valuable information,and enterprises can use online reviews to identify and analyze user requirements for subsequent productimprovement This article takes review data from Lenovo laptops as the research object

6、and proposes a userrequirements identification and evolution analysis model based on online reviews mining The SnowNLP model,Kano model,and LDA model are used to classify,identify,analyze feature sentiment pairs,and analyze time seriesof user reviews The results show that according to the sentimenta

7、l trend prediction,customers sentiment values fortype 1,type 2,and type 3 show an upward trend,while the sentiment values for type 4 show a downward trend;Inaddition,users pay more attention to the appearance of the product and the gaming experience The research hasimproved the research methods and

8、models of online reviews from a time perspective,providing reference value foranalyzing user requirements for products and predicting user sentimental trends towards productsKeywords:online reviews mining;user requirements;sentiment analysis;LDA model;Kano model中国互联网络信息中心的第 51 次中国互联网络发展状况报告 显示,截至 20

9、22 年 12 月,我国网民规模达 10.67 亿,互联网普及率达 75.6%。网民们对互联网络的运用范围,从一开始的网上冲浪、浏览新闻、知识问答到如今的在线教育、网络会议、第 7 期王克勤,等:在线评论中的用户需求识别及其演化趋势挖掘http:/journalsnwpueducn/线上办公、移动支付、网络购物等领域。大量的互联网用户产生了海量的互联网数据资源,用户生成内容是其中一种数据资源。用户生成内容是用户自由讨论产生的内容,丰富了外部知识来源的质量和数量,许多专家学者已经开始研究如何从用户生成内容中提取到有价值的信息。在用户生成内容中,有一类是在线评论数据。用户在网络社区或电子商务网站上

10、浏览和发布评论,用来进行产品信息交流和购物体验分享。用户的在线评论不仅对潜在顾客做出购买决定有影响,而且对企业收集用户需求和偏好也有帮助。从企业发展的角度看,挖掘用户的在线评论数据,可以帮助企业快速找到产品的优点和不足,了解用户的需求,从而支持企业在产品升级换代、生产、销售、售后等环节制定相应的策略,减少产品缺陷的消极影响,更好地满足用户的需求,妥善处理售后问题,以推动企业可持续的发展。在线评论是一种在线口碑的形式,包含了来自消费者的大量有价值的信息1。在线评论数据数量庞大且质量不一,包含了很多非规范化和结构化的文本表述。借助文本挖掘技术可以深度挖掘用户在线评论的深层内涵,了解用户需求,为设计

11、人员提供有效信息,帮助其进行产品改进。大多数研究是静态的文本挖掘和用户需求分析。然而,用户对产品的认知和感受是不断变化的,用户需求也在改变。对在线评论数据进行动态分析,可以了解用户关注的产品特征变化、情感变化和用户需求变化。在大数据环境下,企业如果能充分利用在线评论来挖掘用户需求,就可以为产品创新、改进提供良好的基础。本文以用户需求分析为主要研究目标,把用户需求分析分为用户需求获取、用户需求识别和用户需求演化分析这 3 个阶段,将自然语言处理技术应用到用户需求分析的各个阶段,可以得到自然语言处理分为在线评论数据采集、在线评论数据处理和数据可视化 3 个阶段。1情感分析及主题模型方法综述11情感

12、分析方法情感分析是指通过挖掘和分析文本中所表达的情感内容,帮助决策者获取情感信息的一种分析方法。Pang 等2 较早研究了情感分析方法,提出了一种根据整体情感进行情感分类的方法。然后,一些学者对情感分析的方法和技术进行了深入的研究。目前,情感分析已经成为数据挖掘和机器学习领域的研究热点之一。从现有文献可以看出,情感分析主要分为两类:基于词典的情感分析和基于机器学习的情感分析。Hu 等3 较早使用了基于词典的情感分析方法,基于词典的情感词集构建过程:首先,人工选取一小组情感词作为种子列表。同时,种子表中情感词的同义词和反义词可在现有的情感词典如WordNet 或 HowNet 中找到。最后,将新

13、发现的同义词和反义词添加到种子列表中,进行新一轮搜索。当没有找到新单词时,停止搜索,使用当前种子列表作为情感词最终集4。Yuan 等5 提出了一种基于词典的情感分析方法,可以对与上下文相关的意见词进行处理。吴杰胜等6 对词典词典进行了改进和扩充,同时将文本之间的语义规则集考虑到情感分析中,用多部情感词典和规则集相结合的方式实现了对微博的情感分析。首先,基于机器学习的情感分析方法可以分为两类:基于监督机器学习的情感分析方法和基于无监督机器学习的情感分析方法。基于监督机器学习的情感分析方法可以分为 4 大类:基于概率的分类方法、基于支持向量机的分类方法、基于决策树的分类方法和基于深度学习的分类方法

14、7-8。其中,基于概率的分类方法主要有基于朴素贝叶斯的方法和基于贝叶斯网络的方法;基于深度学习的分类方法主要有基于卷积神经网络的方法和基于递归神经网络的方法9。基于机器学习的情感分析的基本思想是把情感分析看作一个分类问题。基于机器学习的各种情感分析方法的基本过程相似。首先,使用一组训练样本对机器学习分类算法进行训练,建立情感分类模型。然后,使用测试语料样本对情感分类模型的性能进行测试。该模型通过性能测试后,可作为情感分类器进行未来的分类。最后,输入待分类文本进行情感分类,得到情感分类的结果。12主题模型运用主题模型对在线评论分析是为了了解评论的主题分布,主题分布中往往包含着产品特征。产品特征是

15、指产品所具备的属性或功能,在在线评论中,产品特征多以名词或名词短语的形式出现。产品特征提取的方法主要分为两类:基于统计的方法和基于规则的方法。基于统计的方法在特征提取中应用广泛,主要有关联规则挖掘10、隐马尔可夫模型11、条件随机场12、最大熵模型13、潜在狄利克雷分布模型14 等。Hu 等15 使用关联挖掘来提取频繁特征。他们还提出了一种使用意见词来发现不常见特征的方法,以弥补关联挖掘不能提取频繁特征的局限性。Kangale 等16 在构建基于特征的评论总结时,选择使用条件随机场来寻找产品的频繁特1701机 械 科 学 与 技 术第 42 卷http:/journalsnwpueducn/征

16、。李慧等17 将潜在狄利克雷分布主题模型与专利价值评价指标相结合,提出一种挖掘技术创新主题的量化方法。唐飞等18 提出了一种基于隐马尔可夫模型的煤矿事故死亡人数预测模型,通过马尔可夫模型优化修正最佳的灰色模型,提高了模型的精确度,并预测未来的事故死亡人数。余本功等19 梳理了条件随机场模型在多标签、隐变量、语义层次、空间信息、半监督和多模型融合等六个方面的扩展研究,并对该模型未来研究方向进行了展望。同时,可以看到一些基于规则的特征提取方法的研究成果。Yang20 提出了一种基于无监督规则的方法来提取客观特征和主观特征。在该方法中,采用了部分整体关系和评论特定模式相结合的方法来提取客观特征。Qi

17、u 等21 提出了一种双重传播方法,其主要思想是:在一个已有的初始种子意见词典的基础上,通过识别出的特征和意见词提取新的意见词和特征。基于规则的特征提取方法的研究很少,基于统计的特征提取方法应用更广泛。潜在狄利克雷分布(LDA)主题模型是近些年来文本挖掘中被广泛研究和使用的概率模型,它可以衡量语料库文档之间的语义相似性,并抽取文档集合的隐含语义。LDA(潜在狄利克雷分布)是由Blei 等22 在 2003 年提出的生成式主题模型。生成模型,即认为每一篇文档的每一个词都是通过“一定概率选择了某个主题,并从这个主题中以一定的概率选择了某个词语”。LDA 模型也被称为三层贝叶斯概率模型,包含文档(d

18、)、主题(z)、词(w)这 3层结构,能够有效地对文本进行建模。LDA 模型采用词袋模型将每一篇文档视为一个词频向量,从而将文本信息化为易于建模的数字信息。在 LDA 主题模型被引入到国内之后,国内专家学者主要对其进行应用研究并针对应用场景对模型做相应的优化改进。岳丽欣等23将传统的 LDA 模型与 T-SNE 降维算法和可视化等技术相结合,构建技术创新路径图谱辅助解读分析,提出了融合专利引用和文本特征的技术创新路径识别及其可视化方法。郭强等24将 LDA 主题模型应用到各层政策指土的文本相似度计算中,利用该方法计算出各层级政策主题的相似度,了解政策自上而下扩散的特点。2实验分析21实验设计2

19、11数据采集及预处理选取京东购物平台为数据采集网站,选取联想品牌的 7000P、9000P 两个系列共 4 个型号的产品在线评论数据作为实验数据。采用 Python 语言编写爬虫代码,其中一种方法是运用 Python 中的equest 和 esponse 函数,首先将目标网页上对应的 UL 传递给 equest,然后 equest 自动传送给Downloader,Downloader 将下载到本地,esponse 将接收并自动调用回调函数。利用爬虫技术进行数据采集算法伪代码如下所示:输入:网址 url、http 请求头 header输出:采集的数据集For i=1 to Page do#最大爬

20、取页数初始化 url,headerresponse=requestsget(url,header)#向浏览器发送请求data=responsetext()#获取数据review=jsonloads(data)#使用 json 模块的 loads函数将其转化为字典对象For j review docontent=review content#获取数据对应属性值sheetwritewrite(content)#将属性值填写到数据集中End forEnd for预处理主要由 5 个部分组成:文本去重、机械压缩去词、去短句、分词、去停用词。借助 Python 中的自然语言处理工具包,比如 Jieba、

21、Pyltp 等工具包进行预处理操作。步骤 1文本去重。对完全重复的文本评论进行处理,保留一条文本评论信息。使用 Python 中的duplicates 函数达到去重目的;步骤 2机械压缩去词。经过文本去重,仍然有很多评论需要处理。例如,“很好很好很好很好很好”,这一类的评论里存在连续重复的词语,也是一种无意义的评论,需要删除;步骤 3去短句。短句删除的目的是删掉过短的评论数据,因为一条字数越少的评论所能表达的信息是越少。短句删除的重要环节是确定保留的评论字数的下限,可以结合特定语料来确定。步骤4分词。采用 Python 中文分词包“jieba”(结巴分词),对评论数据进行中文分词。步骤 5去停

22、用词。停用词是一些没有用或者没有意义的词,例如助词、语气词等,这些词汇会对词频统计、主题分析等操作造成干扰,所以应予以剔除。数据预处理的伪代码如下所示:输入:在线评论原始数据集输出:预处理后数据集2701第 7 期王克勤,等:在线评论中的用户需求识别及其演化趋势挖掘http:/journalsnwpueducn/data=pdDataFrame(data review unique()#文本去重def func(x):#定义机械压缩去词函数For i in range(len(review):func(i)#对评论数据进行机械压缩去词处理review=review_data review_da

23、taapply(len)=4#去除短句处理For i in range(len(review):If i not in stoplist:fileword i#去停用词处理If jiebapossegcut(i)=n :#词性标注并提取名词wordset iEnd ifEnd ifEnd for原始评论数据数量、文本去重后、机械压缩去词和去短句后数据数量如表 1 所示。表 1在线评论数据数量Tab1Number of online review data笔记本电脑型号原始评论数量文本去重后的评论数量机械压缩去词和去短句后的评论数量7000P 型号 1(类型一)2 3451 8281 79870

24、00P 型号 2(类型二)2 4921 5981 5899000P 型号 1(类型三)2 8652 2922 2739000P 型号 2(类型四)1 4341 2031 177合计9 1366 9216 789212用户需求数据分类指标体系Kano 模型是进行用户需求分类的经典模型,传统 Kano 模型分析时会用到对应的 Kano 问卷来收集数据。在线评论是一种较新的数据来源,本研究运用 Kano 模型的思想来对评论数据进行需求分类。首先,对数据进行情感分析,得到了情感数值。根据 SnowNLP 的情感分析原理,本质是将评论分类为积极和消极,输出的数值是表示概率,数值越接近则越积极,数值越接近

25、 0 则越消极。所以,将小于0.5 的结果转化为 0,大于等于 0.5 的结果转化为1。用 0 表示消极或负向,用 1 表示积极或正向。其次,对评论的关注度进行分析。爬取的数据集 中 列 名“replyCount”表 示 评 论 的 点 赞 数,“replyCount2”表示评论的回复数。将两项数值相加,得到用户关注度的具体数值,使用箱线图的方法,得到下限、中位数和上限,然后将用户关注度分为两个等级,即低和高,分别用数值 0 和 1 表示。Kano 模型与在线评论的关联如表 2 所示。表 2Kano 模型与在线评论的关系Tab2The relationship between Kano mod

26、el and online reviewsKano 模型需求类型用户满意度变化在线评论的表征基本型需求提供时,用户满意度提升不大;不提供时,用户满意度大幅降低非常关注。该类需求的实现,不会激起用户在网上评论及分享,然而若该类需求未实现,用户会在网上表达强烈的负向情感,同时会吸引更多的用户关注。期望型需求提供时,用户满意度会提升;不提供时,用户满意度会降低非常关注。对该类需求的评价是用户反馈的主要组成部分,但是该类需求未实现时,其感情程度不及基本型需求未得到满足时强烈。魅力型需求提供时,用户满意度会有很大提升;不提供时,用户满意度不会降低一般关注。用户反馈争议比较大,该类需求较难把握。无关需求无

27、论提供或不提供,用户满意度都不会有改变偶尔关注。与产品关系不大或者没有关系的用户评论3701机 械 科 学 与 技 术第 42 卷http:/journalsnwpueducn/情感极性反映了用户对于产品的态度,极性为正则表明用户对产品满意;极性为负则表明用户对产品心存不满。选择评论情感极性和评论关注度为需求分类指标,用户关注度是指用户对评论的关注程度,用点赞数与回复数之和衡量用户关注度。评论情感极性和评论关注度在指标上会产生高、低两种分类,这样会有 4 种组合。基于在线评论的需求分类如表 3 所示。基本型需求:评论情感极性为负,用户关注度高,应该对这类需求给予重视。期望型需求:评论情感极性为

28、正,用户关注度高,当满足了其期望的时候,用户会产生比较强烈的正向情绪;评论情感极性为负时,用户关注度低,因为对于此类需求用户没得到满足时,其感情程度不及基本型需求未得到满足时强烈。魅力型需求:用户关注度低,用户较少的关注到,但是得到满足后用户产生较强烈的正向情绪。此外,经过前期对评论数据的文本去重、机械压缩去词、去短句等预处理,基本将无关评论剔除掉了,所以认为不考虑该类型需求。表 3基于在线评论的需求分类Tab3Classification of requirements based on online reviews情感极性关注度需求类型负向高基本型正向高期望型负向低期望型正向低魅力型通过上

29、面的分析,达到对评论数据的分类,然后再对各类需求开展进一步的分析,运用主题模型、依存句法分析等方法,分析出用户对具体产品特征的关注点,针对不同类型需求下制定产品改进策略。213LDA 模型主题分析LDA 主题模型分析步骤如下:1)将评论语料转化为词向量,使用 Doc2Bow方 法 实 现 词 袋 模 型 Bag-of-words model(BoWmodel);2)使用余弦相似度确定主题最佳数量;3)使用 Gensim 工具的 LDA 模块,训练模型,调整参数,输出主题词语分布。LDA 主题分析的伪代码如下所示:输入:在线评论数据集输出:主题提取cut=lamda s:join(jiebacu

30、t(s)#定义分词函数word=reviewapply(cut)#对评论数据进行分词处理For i in range(len(word):If i not in stoplist:fileword i#去停用词,得到词袋If jiebapossegcut(i)=n :#词性标注并提取名词wordset iEnd ifEnd ifEnd fordict=corporaDitionary(wordset)#建立词典corpus=dictdoc2bow(i),i fileword#建立语料库LdaModel(corpus,num_topics,dict)#LDA 分析LDA 模型的主题数可以设置任意

31、正整数,本文在运用 LDA 模型时,引入余弦距离法,增加主题数寻优的步骤,能够得到效果最佳的主题分析结果。使用余弦相似度确定主题最佳数量,通过对 P7000P 型号1 的数据进行计算,余弦相似度与主题数关系见图 1。以 P7000P 型号 1 的数据为例可得:情感极性为正向的期望型需求数据最佳主题数为 4,情感极性为负向的期望型需求数据最佳主题数为 3,基本型需求数据最佳主题数为 3,魅力型需求数据最佳主题为 3。图 1LDA 模型最佳主题数寻优Fig1LDA model optimal topic number optimization22实验结果221用户需求分类根据评论情感极性和关注度等

32、级将各数据集划分为基本型需求数据、期望型需求数据和魅力型需求数据,具体情况如表 4 所示。表 4评论数据分类Tab4eview data classification用户需求类型7000P型号 17000P型号 29000P型号 19000P型号 2基本型需求901176140170期望型需求385350527336魅力型需求5071 0571 587662222基于 LDA 模型的用户需求主题挖掘将 7000P 型号 1 各类需求主题进行分析与合并后,结果见表 5。4701第 7 期王克勤,等:在线评论中的用户需求识别及其演化趋势挖掘http:/journalsnwpueducn/表 570

33、00P 型号 1 产品各类需求主题分析结果Tab57000P Model 1 Product requirements subject analysis results需求主题词汇价格 电脑 联想 买 垃圾 降价 慢 特别 打折基本型 客服 电脑 客服 重启 死机 声音 软件 买鼠标 电脑 买 一个 开机 换货 会 鼠标 真的外观 白色 游戏 好看 不错 外观 运行 画面 电脑包装 包装 画面 游戏 好看 外形 保护 键盘 运行期望型 屏幕 屏幕 颜值 不错 性能 高 固态 外观 感觉客服 买客服内存差评说牌子 office 希望 出风扇 感觉 东西 买 真的 特别 风扇 不好 到货 售后游戏

34、 游戏包装 不错 保护 外观 电脑 运行 喜欢魅力型 系统 不错 运行 速度 品质 喜欢 外观 挺 高 很快软件 游戏 不错 性能 好看 外观 外形 包装 白色以 7000P 型号 1 为例,利用 LDA 形成基本型需求主题分析,如图 2 所示。用户对于买后商家降价的行为非常不满;与客服的沟通也不顺畅,遇到问题没有得以解决;用户对该产品的外观颜色非常满意,喜欢白色的外观;认为商家对于运输过程中的包装保护做得很到位;对于屏幕的性能表现以及系统跑分测评结果比较满意。通过分析,从企业角度而言,定制好价格政策,提升客服解决用户问题的能力可以减少用户的不满。图 2基本型需求 LDA 主题分析可视化Fig

35、2Basic requirements LDA topic analysis visualization223情感趋势预测与需求演化分析1)情感值时间序列预测 时间序列预测方法对比因为研究的情感值时间序列类型为平稳序列,所以预测时可以使用的方法有简单平均法、移动平均法、指数平滑法和自回归模型。简单平均法和移动平均法,都是采用平均值的方式进行预测,所以预测值总是停留在过去的水平上,从而导致无法预测未来更高或更低的波动。指数平滑法适用于中短期发展趋势预测。简单平均法,对时间序列的过去数据全部加以同等利用;移动平均法,不考虑较远期的数据,并在加权移动平均法中给予近期数据更大的权重;而指数平滑法,则兼

36、容了全期平均和移动平均所长,不舍弃过去的数据,但是仅给予逐渐减弱的影响程度,即随着数据的远离,赋予逐渐收敛为零的权数。根据平滑次数的不同,指数平滑法一般可以分为:一次指数平滑法、二次指数平滑法和三次指数平滑法。对类型一产品的情感时间序列分别做一次指数平滑、二次指数平滑、三次指数平滑和自回归处理,得到的图像结果见图 3。图 3 中红色线条是原始数据的态势,蓝色线条是进行平稳化处理后的态势。5701机 械 科 学 与 技 术第 42 卷http:/journalsnwpueducn/图 3类型一产品时间序列的 4 种方法拟合图Fig3Four methods of fitting a graph

37、for type 1 product time series类型一的实际情感均值、1 阶指数平滑值、2 阶指数平滑值、3 阶指数平滑值和自回归预测模型拟合值表如表 6 所示。表 6类型一的实际情感均值、1 阶指数平滑值、2 阶指数平滑值、3 阶指数平滑值和自回归预测模型拟合值表Tab6The actual affective mean value,first-order exponential smoothing value,second-order exponential smoothing value,third-order exponential smoothing value and

38、autoregressive prediction model fitting value table of type 1时间实际情感值1 阶指数平滑2 阶指数平滑3 阶指数平滑自回归预测模型2021-01-010.705 70.717 60.717 60.717 60.693 22021-01-020.640 70.679 10.679 10.684 10.725 02021-01-030.748 00.713 60.703 90.720 80.720 52021-01-040.782 90.748 30.744 80.756 80.629 72021-01-050.827 80.788 0

39、0.797 30.797 40.645 02021-01-060.585 30.686 70.709 90.696 50.745 02021-01-070.179 40.433 00.432 00.442 90.748 22021-01-080.565 50.499 30.423 10.507 00.713 92021-01-090.472 80.486 00.407 80.493 10.558 72021-01-100.334 60.410 30.347 40.417 10.595 92021-01-110.826 70.618 50.560 00.628 30.589 22021-01-1

40、20.766 10.692 30.702 70.714 30.605 32021-01-130.467 90.580 10.640 80.593 90.656 62021-01-140.568 00.574 00.616 60.584 90.581 52021-01-150.747 10.660 60.682 00.672 80.482 86701第 7 期王克勤,等:在线评论中的用户需求识别及其演化趋势挖掘http:/journalsnwpueducn/经过 4 种模型的拟合后,得到拟合数据与实际数据的均方差,如表 7 所示。表 74 种模型拟合数据与实际数据的均方差Tab7The mean

41、 square error of 4 modelsfitted data to the actual data一次指数平滑 二次指数平滑 三次指数平滑 自回归模型MSE0.011 60.008 00.007 80.024 0数理统计中均方误差是指参数估计值与参数真值之差平方的期望值(MSE)。MSE 是衡量平均误差的一种较方便的方法,MSE 可以评价数据的变化程度,MSE 的值越小,说明预测模型描述实验数据具有更好的精确度。情感值时间序列预测根据预测方法对比结果,本着均方误差最小的原则,可以发现三次指数平滑法对历史数据拟合的效果最好,能更好地反映数据的变化趋势。下面,我们运用三次指数平滑法对

42、4 类产品的情感值时间序列进行预测,结果如图 4 所示。图 4产品情感均值随时间分布以及指数平滑预测结果Fig4Product sentiment mean over time and exponential smoothing prediction results从图 4 可以发现:通过指数平滑预测各类型产品的趋势,顾客对类型一、类型二和类型三的情感值呈上升趋势,说明这些产品越来越受到顾客的青睐;类型四的情感值呈下降趋势。整体来说,类型四的情感均值始终分布在 0.8 左右,购物者们对该产品还是趋向于积极。类型一的情感均值虽然呈上升趋势,但是不断向 0.8 进行靠拢,说明目前类型四相对类型二还

43、是有较强的竞争优势。类型二和类型三的情感值不断逼近于 1,尤其是类型三,情感值随时间波动较小。所以,从情感值的角度而言,四类产品的竞争优势从强到弱分别为类型三、类型二、类型四和类型一。该结论与前面描述性统计量分析结果一致。2)用户需求主题演化 高频词统计上面已经分析了情感时间序列,这里将对产品在线评论数据进行高频词分析,总体把握用户对于产品的关注点随时间的变化。采集到的产品数据时间跨度大概是一年时间。以 7000P 型号 1 产品的评论数据为例,评论时间7701机 械 科 学 与 技 术第 42 卷http:/journalsnwpueducn/跨度在 2020 年 9 月至 2021 年 8

44、 月。按照每一个月为一个区间,将采集到的数据划分为 12 个时间区间,同理,也可以对其他 3 种类型的产品进行各时间区间的高频词分布分析。运用 Python 语言对在线评论数据进行自然语言处理,通过观察在线评论的文本内容,在百度、知网、哈工大停用词表的基础上针对实验分析对象添加了一些新的停用词,构成了符合本次数据分析需求的中文停用词表。经过前期的预处理之后,构建循环语句对各时间区间内的评论文本进行高频词统计。70000P 型号 1 产品的各时间区间在线评论词云图如图 5 所示。表 8 中显示了各时间区间出现频次前 8 的高频名词,在表格的最右侧一列显示截止时间段内累计初次出现 3 次的高频词语

45、。图 57000P 型号 1 产品各时间区间内的词云图Fig57000P Model 1 word cloud map ineach time interval of the product表 87000P 型号 1 产品各时间区间内的高频词统计Tab87000P Model 1 product statistics of high-frequency words in each time interval时间区间高频词累计高频词2020-09风扇,神机,发货,屏幕,系统,交流,评价,内存2020-10电流,感觉,视频,价格,降价,价保,气泡,平面2020-11游戏,外形,外观,软件,屏幕,画

46、面,风扇,开机2020-12外形,外观,白色,品质,画面,游戏,效果,速度2021-01感觉,速度,质量,颜值,白色,开机,外形,外观外形 外观2021-02白色,速度,屏幕,售后,客服,降价,感觉,颜值白色 屏幕 速度2021-03白色,速度,屏幕,游戏,感觉,键盘,颜值,客服游戏 感觉 颜值2021-04速度,性能,屏幕,感觉,画面,品质,外观,外形画面2021-05游戏,键盘,价格,速度,屏幕,办公,性能,评价价格2021-06外观,速度,开机,售后,人工,客服,价格,大师开机 客服2021-07摄像头,开机,键盘,神机,体验,感觉,不卡键盘2021-08性价比,划痕,程度,学业7000

47、P 型号 1 产品的用户评论累计出现 3次以上高频词包括:外形、外观、白色、屏幕、速度、游戏、感觉、颜值、画面、价格、开机、客服和键盘,出现最多的高频词是“速度”;7000P 型号 2 产品的用户评论累计出现 3 次以上高频词包括:外观、性能、游戏、速度、外形、画面、笔记本、品质和效果,出现最多的高频词是“外观”和“游戏”。可以看出,产品外观和游戏体验一直都是用户关注和讨论的产品特征。用户需求演化分析对各时间区间内的评论数据进行 LDA 主题分析,结合前面的高频词构成,归纳分析用户对产品需求的变化情况。按照主题概率大小对产品特征词进行排序,总结出用户需求的变化过程。以 7000P型号 1 的产

48、品为例展开分析,2020 年 9 月至 11 月期间 LDA 主题分析结果见表 9,2020 年 9 月至 2021年 8 月期间用户需求演化过程如图 6 所示。8701第 7 期王克勤,等:在线评论中的用户需求识别及其演化趋势挖掘http:/journalsnwpueducn/表 97000P 型号 1 产品前 3 个时间区间的 LDA 主题分析结果Tab9LDA subject analysis results for the first three time intervals of the 7000P Model 1 product时间词语概率词语概率词语概率词语概率词语概率2020-

49、09快递0.132物流0.131服务0.089速度0.026态度0.026散热0.193风扇0.059品质0.032差异0.032开机0.032外观0.157气泡0.088时尚0.088漂亮0.087声0.0872020-10画面0.131外观0.075感觉0.073价格0.073辣鸡0.073速度0.248外形0.130降价0.072游戏0.072开机0.072品质0.069感觉0.069风扇0.039野兽0.038网络0.0382020-11软件0.081系统0.056屏幕0.056降价0.056评价0.055游戏0.176外形0.069速度0.048屏幕0.028漏光0.027外观0.0

50、77画面0.054机子0.054效果0.042开机0.030图 6用户需求演化过程Fig6Evolution process of user requirements从图 6 中可以看出用户对于外观方面的需求较多,在 2020 年 12 月及 2021 年 1 月、2 月,连续 3 个月的评论中,外观一直是用户评论最多的一项产品特征。由于此款产品是游戏本,所以用户对游戏体验非常敏感。然而,游戏体验受多方面因素的影响,产品的存储会影响其运行速度,产品的显卡和屏幕会影响其画面清晰度和流畅度,产品的声卡会影响其游戏音效等等。此外,用户对于屏幕、显卡等讨论得较多,大多数用户对于显卡的配置非常满意,但是

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服