1、2023 年 8 月 25 日第 7 卷 第 16 期现代信息科技Modern Information TechnologyAug.2023 Vol.7 No.1624242023.082023.08收稿日期:2023-03-26基金项目:2022 年江苏省大学生创新创业训练计划项目(202210299133Y)基于电商评论情感分析的用户聚类方法研究王盈,张文龙,唐卓然(江苏大学 管理学院,江苏 镇江 212013)摘 要:针对电子商务中的商品评论信息过载问题,运用情感关联分析理论,通过挖掘商品评论信息中的商品特征及相应的情感反馈,建立商品特征细粒度上的情感分值向量,在此基础上利用 SOM 神
2、经网络模型对评价用户进行聚类,建立电商用户情感画像,并针对不同电商用户群体特征制定个性化营销策略,从而帮助平台商家从繁杂的商品评论中快速获取有效信息。实验中在线评论取自图书类商品,数据均来源于 Amason。实验结果表明,该方法具有良好的应用效果。关键词:电子商务;在线评论;情感分析;自组织映射地图;用户聚类中图分类号:TP391.1;C931 文献标识码:A 文章编号:2096-4706(2023)16-0024-05Research on User Clustering Method Based on Sentiment Analysis of E-Commerce ReviewsWANG
3、 Ying,ZHANG Wenlong,TANG Zhuoran(School of Management,Jiangsu University,Zhenjiang 212013,China)Abstract:Aiming at the problem of commodity review information overload in E-Commerce,the theory of sentiment correlation analysis is used to establish the sentiment score vector of fine-grained commodity
4、 features by mining commodity features and corresponding sentiment feedback in commodity review information.On this basis,the SOM neural network model is used to cluster evaluation users and establish the emotional portrait of E-Commerce users.And it develops personalized marketing strategies accord
5、ing to the characteristics of different E-Commerce user groups,so as to help the platform merchants quickly obtain effective information from the complex commodity reviews.In the experiment,online reviews are taken from book products,and all of the data are obtained from Amason.Experimental results
6、show that this method has a good application effect.Keywords:E-Commerce;online review;sentiment analysis;Self-Organizing Map;user clustering0 引 言近年来,随着电子商务市场不断饱和、用户个性化需求不断提高,同质竞争弊端日益凸显。如能够从电商平台上海量易获取的富有用户丰富情感信息的评论文本数据中快速挖掘有用信息,将为平台商家开展精准营销提供极大便利。目前,以精准营销为目标的用户画像构建,多通过深度挖掘网络用户个人信息实现,对用户基本标签信息、社交网络分析等
7、方面研究已很多,而以用户聚类为目的的情感挖掘研究尚不深入。对此,本文提出一种基于电商评论情感分析的用户聚类方法,并结合亚马逊图书类商品评论文本数据进行实证分析。1 文献综述电商评论文本挖掘已经成为电商领域一大研究DOI:10.19850/ki.2096-4706.2023.16.006热点。电商在线评论文本里用户发布的评价信息,能够帮助其他用户了解产品品质信息,有效降低用户的感知风险,辅助用户做出购买决策。刘玉林通过抓取用户评论并采用 NLP 自然语言切分,依靠情感字典进行电商在线文本情感判断,创建新式电商商家评价方式,实现了动态监测顾客情感变化趋势1。毛郁欣针对 B2C 电商网站特点,总结用
8、户评论有用性特征,并提出基于支持向量机的评论有用性排序算法,证实了主客观内容全面和高相关性的长评论被认为更加有用2。Zhang Chenyu 抓取疫情前后用户餐饮评论文本数据,对其进行 LDA 主题及 SnowNLP 情感对比分析,实现了对其餐饮消费偏好的获取3。用户情感聚类分析是一种综合运用情感分析和聚类分析的群体聚类方法。随着深度学习的发展和文本数据可获取性不断提升,情感聚类分析逐渐从理论研究领域拓展到实践应用。郭慧提出了一种基于多重属性聚类加权输出的循环神经网络模型,根据评价中的属性词,挖掘用户兴趣点与商铺特点进行情感分析,提升了个性化推荐效果4。洪庆(2018)现代信息科技8月下16期
9、.indd 24现代信息科技8月下16期.indd 242023/8/15 17:38:022023/8/15 17:38:0225252023.082023.08第 16 期改进传统 K-means 聚类算法,对视频用户基于弹幕文本情感值分类,以了解其在情感上的异同5。王晰巍通过卷积神经网络模型,对微博用户情感进行三级分类,利用 Canopy 和 K-means 算法对其聚类,以对舆情事件下各用户群体进行分析预测并提出对应管控策略6。综上所述,虽然国内外均已有基于电商评论文本的情感聚类分析研究,但多基于整体层面建模,丢失了主体特征细粒度上的情感信息,方法上也多局限于低维数据的传统聚类算法。因
10、此,本文采用相似度算法对评论关键词进行特征映射,并量化其对应情感反馈,构建商品特征细粒度上用户情感分值向量;同时,利用 SOM 模型绘制聚簇分布图,实现用户的神经网络聚类,并结合 PCA 构造群体关注特征以辅助建立电商用户情感画像,形成个性化营销策略。2 方法设计本研究提出的基于评论文本情感关联分析的电商用户聚类方法主体分为五大模块,按照执行顺序依次是数据预处理模块、评论情感向量提取模块、用户情感向量构建模块、用户聚类分析模块和用户画像形成模块,如图 1 所示。数据获取与处理网络爬虫筛选、去重、断句等SOM 算法顾客群体聚类聚类结果的可视化呈现与分析关注特征词属性值评论情感关联特征向量提取语义
11、分析关注特征属性值用户情感分值向量提取SnowNLP库情感分数Word2vec 模型相似度竞争均值TF-IDF 算法图 1 技术路线示意2.1 评论情感关联特征向量提取2.1.1 基于语义的特征词提取和子句重构首先,对评论文本进行断句、分词以及词性标注等预处理,得到评论 r 的初始子句集 S0。针对电商评论中关注特征的词性特质,保留名词、名动词和区别词作为候选关注特征词 w,形成评论子句 si的关注特征词候选集 Wi。若 si中无候选特征词,将其视作前一子句 si-1的情感补充文本,拼接到其末尾形成新的子句 si-1。最终形成评论 r 经重构后的子句集 S。示例:1)评论例句:r=“价格不低,
12、而且太小了,像是随身读物。不过纸张还行,保护眼睛的。”2)断句后得到初始子句集:S0=“价格不低”,“而且太小了”,“像是随身读物”,“不过纸张还行”,“保护眼睛的”3)根据词性筛选得到特征词候选集:W1=“价格”;W2=;W3=“随身”,“读物”;W4=“纸张”;W5=“保护”,“眼睛”;4)将空集 W2对应的子句 s2拼接到前一子句 s1的末尾,最终得到重构后的子句集 R1=“价格不低,而且太小了”,“像是随身读物”,“不过纸张还行”,“保护眼睛的”2.1.2 基于子句的情感值计算已有研究表明,针对电商评论等短文本,在子句级进行情感分析,可以弥补传统整句级情感分析模型难以辨别单条评论内含多
13、因素的不足7,同时避免了短语级情感提取任务复杂度大、准确率不高的问题8。基于 SnowNLP 类库计算各子句情感分值 e,形成候选特征词情感向量 fj=(wj,ej)。最终得到评论情感关联特征向量 vr=(w1,e1),(w2,e2),(wn,en)。示例:1)计算候选特征词情感向量:s1=“价格不低,而且太小了”,经计算其情感分值为 0.295 035 63,则 f1=(“价格”,0.295 035 63)s5=“保护眼睛的”,经计算其情感分值为0.650 106 17,则 f1=(“保护”,0.650 106 17),f2=(“眼睛”,0.650 106 17)2)构造评论情感关联特征向量
14、:vr=(“价格”,0.295 035 63),(“随身”,0.542 669 38),(“读物”,0.542 669 38),(“纸张”,0.491 651 29),(“保护”,0.650 106 17),(“眼睛”,0.650 106 17)2.2 用户情感分值向量构建2.2.1 基于 TF-IDF 的用户关注特征词提取从评论文本集 R 中筛选出 TF-IDF 值为前 100的候选特征词,再对其进行人工筛选与主题发现,最终归纳出 10 个特征词作为用户情感分值向量的特征,记作 F=F1,F2,F10。王盈,等:基于电商评论情感分析的用户聚类方法研究现代信息科技8月下16期.indd 25现
15、代信息科技8月下16期.indd 252023/8/15 17:38:022023/8/15 17:38:022626第 16 期现代信息科技2023.082023.08示例:F=“质量”,“内容”,“作者”,“纸张”,“印刷”,“出版社”,“包装”,“封面”,“价格”,“正版”2.2.2 基于词语相似度的特征竞争和值的定义程序包对于 vr中的候选特征词 w,基于 gensim 中的word2vec 模块计算 F 与 wi的词语相似度,相似度最高的 Fj获胜,取 wi对应情感值 ei作为用户向量 vu在特征 Fj上的一个基础值,对其求算术平均值 ai。最终形成该用户情感分值向量 vu=(a1,
16、a2,a10)。示例:以特征词为第一维度,候选特征词为第二维度,二者的词语相似度为值,定义相似度竞争矩阵。经计算得到 vr1中候选特征词与特征词的相似度竞争矩阵如表 1 所示。表 1 候选特征词与特征词相似度竞争矩阵质量内容作者纸张包装封面价格正版价格0.749 80.940 40.864 50.647 70.896 90.858 01.000 00.914 7随身0.659 10.773 20.820 40.701 50.853 00.822 10.900 90.834 2读物0.623 50.800 50.898 30.622 70.813 80.878 00.949 50.861 6纸张
17、0.933 80.728 10.422 21.000 00.719 50.647 70.494 40.515 9保护0.520 60.733 40.897 20.478 50.729 20.840 80.928 40.840 4眼睛0.569 00.801 10.888 80.520 30.807 70.882 40.967 20.918 6以获胜特征词代替被竞争的候选特征词,则:vr=(“价格”,0.295 035 63),(“正版”,0.542 669 38),(“正版”,0.542 669 38),(“纸张”,0.491 651 29),(“正版”,0.650 106 17),(“正版”
18、,0.650 106 17)F10即“正版”特征下的基础值求均值后为0.596 387 77,最终得到用户情感分值向量:vu=(0,0,0,0.491 651 29,0,0,0,0,0.295 035 63,0.596 387 77)2.3 基于 SOM 的用户聚类算法自组织映射(Self-Organizing Feature Maps,SOM)9是一种特殊的神经网络模型,能将高维数据的空间拓扑结构保序地映射到低维空间(通常为二维),以实现高维数据的低维可视化10,十分适合用于处理分析本研究中的用户情感分值向量数据。因此,本文采用 VC-SOM 算法11生成 SOM 聚簇分布特征图,获取数据分
19、布特点,从而确定用户聚类数目。3 实验分析3.1 实验数据实验采用 Github 项目 ChineseNLPCorpus 中的电商评论情感倾向性分析数据集 yf_amazon,在标注褒义、贬义的图书类评论中分别随机选取 1 000条作为实验数据。3.2 电商用户聚类基于评论文本集构建用户情感分值向量后,定义结构为 3030 的 SOM 网络,网络邻域函数选用高斯函数,学习率初始值设为 0.5,采用欧氏距离度量,训练得到聚簇分布特征图如图 2 所示。3025201510501.00.80.60.40.20 5 10 15 20 25 30图 2 3030 聚簇分布特征图图中每个网格代表 1 个
20、SOM 神经网络节点,网格着色越深,代表该节点与其相邻节点间距离越大,即深色节点用于显示聚簇边界。通过观察分析可得,图中较明显的聚簇共 6 个,分别是位与分布特征图右上方的 1 个,上下并排位于中部的 2 个,位于左下角的 1 个,和左右并排位于图下边界的 2 个。基于此,结合轮廓系数12及 CH 指标13计算结果,最终确定最佳聚类数为 6。定义 SOM 网络结构为 16,输入用户情感向量数据集,训练聚类神经网络并输出各样本聚类标签。3.3 聚类结果分析从解释变量的角度出发,使用 PCA 主成分分析法将前面 10 个用户情感向量特征转换成 A1、A2、A3、A4、A5五个属性来反映用户关注特征
21、及情感反馈情况,分别代表价格、快递物流、纸张印刷、正现代信息科技8月下16期.indd 26现代信息科技8月下16期.indd 262023/8/15 17:38:022023/8/15 17:38:0227272023.082023.08第 16 期版授权、装帧质量。聚类基础信息汇总如表 2 所示。表 2 电商用户聚类基础信息聚类标签人数占比平均属性总值占比Cluster10.434 30.071 5Cluster20.218 50.141 7Cluster30.101 30.196 2Cluster40.095 00.219 0Cluster50.094 80.158 5Cluster60
22、.056 30.212 7表中显示,聚类编号为 1 的电商用户群体人数占比最多,而平均属性总值占比最少,说明该群体在各属性上的关注度较低,属于特征不明显的大众群体,不是平台商家进行精准营销的核心对象。其余聚类,以 6 号用户群体为代表,人数占比少,而平均属性总值占比大,属于特征突出的用户群体,是平台商家进行精准营销的重点目标对象。接下来使用单变量分析方法,比较各聚类用户组相对于用户整体的个性化行为特征,以便进行针对性营销策略制定。以 A1属性为例展开分析,如图3 所示,绘制 A1属性的百分比分布图,其中折线表示各聚类样本分布,柱形表示总体样本分布,由图可知,对于价格,第一、二、四类与总体分布基
23、本一致,反映其对商品价格方面满意度居中;第三类电商用户群体出现两个峰,一个呈正态分布,另一个呈右偏分布,反映其中部分用户对商品的价格方面满意度较用户整体而言居低;第五、六类电商用户呈左偏分布,且反映其对商品的价格方面满意度较用户整体而言居高,且第五类比第六类满意度更高。-?.?-?.?-?.?-?.?.?.?.?A?_valueCluster?Cluster?Cluster?Cluster?Cluster?Cluster?.?.?.?.?.?.?.?Percent图 3 A1属性百分比分布图使用同样的方法分析另外四个属性,提炼出基于用户整体的相对关注特征表如表 3 所示。在此基础上,可以根据每
24、一类电商用户的相对关注特征和情感反馈,采取针对性的营销策略来提高营销活动的命中率。例如,对于第一类用户,其关注点为装帧质量,因此可以向其针对性地推销以高质量装帧为卖点的图书,以满足其对于该特征的情感诉求;而对于第四类用户,其关注点遍布正版保障、装帧质量以及纸张印刷,且对于前二者的关注程度尤为突出,因此可以选择针对正版保障和装帧质量来制定营销策略,向其定向投放以正版精装为亮点的图书软广,同时辅以纸张印刷品质的侧面展示,精准激励其进入并购买该类图书产品。表 3 基于用户整体的相对关注特征表聚类标签相对关注特征Cluster1装帧质量Cluster2正版保障Cluster3正版保障、装帧质量、价格C
25、luster4正版保障*、装帧质量*、纸张印刷Cluster5价格、快递物流、正版保障Cluster6价格*、快递物流、纸张印刷、装帧质量*注:“*”表示同一用户聚类下,该特征受关注程度最高。3.4 聚类效果评测本文随机选取 200 条评论作为测试语料,对其用户类别进行人工标注。采用分类领域广泛接受的精确率(Precision)和召回率(Recall)作为评测指标,来评价模型聚类分析的准确性和可行性。表 4 的测试结果表明,本文聚类方法的平均查准率为 0.78,平均查全率为 0.73,通过对比其他研究者的实验效果(如文献 14 中查准率值约为 0.76,文献 15 中约为 0.75),说明了该
26、聚类模型的有效性。表 4 用户聚类判断测试结果聚类标签PrecisionRecallCluster 10.820.71Cluster 20.750.87Cluster 30.790.92Cluster 40.670.56Cluster 51.000.59Cluster 60.600.754 结 论本文针对电商评论信息过载问题,提出了一种基于电商评论情感分析的用户聚类方法,以真实的亚马逊图书类商品评论为基础,挖掘用户关注点及情感反馈,从而进行用户聚类及画像构建,帮助平台商家更好地进行精准营销。基于在线评论,采用相似度算法将提取的在线评论特征词映射到商品特征,并量化用户在各特征上的情感反馈,构建用
27、户情感分值向量,保留了用户在商品特征细粒度上的情感信息,有效弥补了现有电商用户聚类方法中细粒度情感信息丢失的不足。创新性地(下转 33 页)王盈,等:基于电商评论情感分析的用户聚类方法研究现代信息科技8月下16期.indd 27现代信息科技8月下16期.indd 272023/8/15 17:38:022023/8/15 17:38:0233332023.082023.08第 16 期5 结 论目前,主流的微服务架构主要应用在服务器后台上面,并以网络形式为前台服务。本系统使用微服务架构,解决了毕业审核人数多、系统更新换代快,技术人员不受开发限制,能及时更新系统等问题,学生能随时查看是否满足毕业
28、条件,管理员能随时设置培养方案与毕业审核条件,进行毕业审核和学位审核,统计毕业审核数据等。通过多次毕业审核测试,本系统能有效提高毕业审核效率,具有良好的运用前景。参考文献:1 任加慧,卢婷,魏淑婕.开放大学学籍管理平台的功能优化与完善以江苏开放大学为例 J.电大理工,2021(4):54-58.2 杨博森,严张凌.微服务架构下学生选课系统的设计与实现 J.信息与电脑:理论版,2020,32(20):84-86.3 夏华,莫灿灿,袁舒雯.高等学历继续教育专业建设内涵式发展研究 J.继续教育研究,2021(4):22-25.4 徐晴,王加年.微服务架构的学生综合事务平台构建 J.办公自动化,202
29、0,25(23):11-12+40.5 徐小华,胡忠旭,常凤.基于微服务架构的“数智学工”系统的设计 J.现代计算机,2022,28(20):117-120.6 刘坤.基于微服务架构的在线教学平台的设计与实现 D.西安:西北大学,2022.7 刘元超.本科毕业资格及学位资格审核工作优化研究 J.当代教育实践与教学研究,2020(11):99-100.8 薛云兰,黄嘉浩,邵桐杰.微服务架构的在线课程学习系统的研究与设计 J.计算机时代,2022(5):130-133+137.9 GU H J,YANG S L,GU M D,et al.Research on online teaching pl
30、atform system based on microservice architecture J/OL.MATEC Web of Conferences,2022,355.2023-02-18.https:/www.matec-conferences.org/articles/matecconf/abs/2022/02/matecconf_icpcm2022_03058/matecconf_icpcm2022_03058.html.10 郄小明,张建君.基于微服务架构的终端服务平台设计 J.数字技术与应用,2020,38(6):124-126.作者简介:潘秋霞(1989),女,汉族,广西贺
31、州人,科员,研究生,研究方向:机器学习、大数据、计算机应用;林中明(1988),男,汉族,广西贺州人,助理研究员,研究生,研究方向:大数据、物流信息化;潘金兰(1991),女,汉族,广西贺州人,专任教师,研究生,研究方向:优化建模、自然灾害风险分析。引入自组织映射地图,对高维情感向量数据绘制可视化聚簇分布图,实现了对电商用户的 SOM 神经网络聚类,并结合 PCA 辅助建立电商用户画像,生成了不同用户群体的个性化营销方案。本文提出的聚类方法对于消费者和平台商家都具有一定的现实价值和意义。平台商家能更高效地挖掘用户群体情感画像,进行精准营销,从而获得竞争优势;消费者也能因此享受更加人性化的购物体
32、验。在今后的研究中,将考虑向模型中引入更加深入完善的语义分析体系,并将研究成果应用到更多行业领域中去。参考文献:1 刘玉林,菅利荣.基于文本情感分析的电商在线评论数据挖掘 J.统计与信息论坛,2018,33(12):119-124.2 毛郁欣,朱旭东.面向 B2C 电商网站的消费者评论有用性评价模型研究 J.现代情报,2019,39(8):120-131.3 ZHANG C Y,JIANG J Y,JIN H,et al.The Impact of COVID-19 on Consumers Psychological Behavior Based on Data Mining for Onl
33、ine User Comments in the Catering Industry in China J.International Journal of Environmental Research and Public Health,2021,18(8):4178(2021-04-15).https:/doi.org/10.3390/ijerph18084178.4 郭慧,柳林,刘晓,等.深度学习下的情感分析与推荐算法 J.测绘通报,2018(9):55-58.5 洪庆,王思尧,赵钦佩,等.基于弹幕情感分析和聚类算法的视频用户群体分类 J.计算机工程与科学,2018,40(6):1125
34、-1139.6 王晰巍,贾若男,韦雅楠,等.多维度社交网络舆情用户群体聚类分析方法研究 J.数据分析与知识发现,2021,5(6):25-35.7 彭卫,文松,韩雨濛,等.基于主题模型和前景理论的生鲜电商顾客满意度评价研究 J.河南工业大学学报:社会科学版,2021,37(6):67-74.8 邱祥庆,刘德喜,万常选,等.文本情感原因自动提取综述 J.计算机研究与发展,2022,59(11):2467-2496.9 KOHONEN T.Self-Organizing Maps M.Berlin:Springer-Verlag,2001.10 杨黎刚,苏宏业,张英,等.基于 SOM 聚类的数据挖
35、掘方法及其应用研究 J.计算机工程与科学,2007(8):133-136.11 杨黎刚.基于 SOM 聚类的数据挖掘方法及其应用研究 D.杭州:浙江大学,2006.12 ROUSSEEUW P J.Silhouettes:A graphical aid to the interpretation and validation of cluster analysis J.Journal of Computational and Applied Mathematics,1987,20:53-65.13 CALISKI T,HARABASZ J.A dendrite method for clust
36、er analysis J.Communications in statistics,1974,3(1):1-27.14 吴迪,杨瑞欣,申超.基于情感主题特征词加权的微博评论聚类算法研究 J.现代电子技术,2020,43(23):67-71+75.15 马晓悦,马昊.考虑标签情绪信息的图书资源个性化推荐方法研究 J.情报理论与实践,2020,43(9):115-124.作者简介:王盈(2001),女,汉族,浙江嘉兴人,本科在读,研究方向:大数据挖掘;张文龙(2001),男,汉族,新疆巴音郭楞人,本科在读,研究方向:大数据挖掘;唐卓然(2002),女,汉族,天津河西人,本科在读,研究方向:大数据挖掘。(上接 27 页)潘秋霞,等:基于微服务架构的毕业审核系统研究与实现现代信息科技8月下16期.indd 33现代信息科技8月下16期.indd 332023/8/15 17:38:032023/8/15 17:38:03