收藏 分销(赏)

基于情感分析和文本主题特征的画像研究.pdf

上传人:自信****多点 文档编号:639286 上传时间:2024-01-22 格式:PDF 页数:4 大小:2.12MB
下载 相关 举报
基于情感分析和文本主题特征的画像研究.pdf_第1页
第1页 / 共4页
基于情感分析和文本主题特征的画像研究.pdf_第2页
第2页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、信息与电脑2023年第10 期Information&Computer基于情感分析和文本主题特征的画像研究人工智能与识别技术张秉文张岳何西远(山东青年政治学院信息工程学院,山东济南摘要:我国旅游业是快速发展的行业之一,已成为经济体系中不可或缺的部分。为了更好提高景区的服务质量和用户的旅游体验,实现可持续发展,文章利用情感分析和文本主题特征构建景区画像和用户画像,并建立景区画像和用户画像之间的耦合关系。景区画像和用户画像的应用可以帮助旅游企业更好了解用户和目的地的特征和需求,提高旅游产品和服务的个性化和精准度,增强企业的市场竞争力和发展潜力。关键词:用户画像;个性化;耦合关系中图分类号:F592

2、文献标识码:APortrait Study Based on Sentiment Analysis and Text Topic Features250103)文章编号:10 0 3-9 7 6 7(2 0 2 3)10-18 7-0 4ZHANG Bingwen,ZHANG Yue,HE Xiyuan(School of Information Engineering,Shandong Youth University of Political Science,Jinan Shandong 250103,China)Abstract:Chinas tourism industry is on

3、e of the rapidly developing industries and has become an indispensable partof the economic system.In order to improve the service quality of scenic spots and the tourism experience of users,andachieve sustainable development,this paper uses sentiment analysis and text topic features to construct sce

4、nic spot portraitsand user portraits,and establishes a coupling relationship between scenic spot portraits and user portraits.The applicationof scenic spot portraits and user portraits can help tourism enterprises better understand the characteristics and needs ofusers and destinations,improve the p

5、ersonalization and accuracy of tourism products and services,and enhance the marketcompetitiveness and development potential of enterprises.Keywords:user portrait;personalization;coupling relationship0引言数据挖掘技术可以从庞杂的数据中获取有价值的信息,在旅游业中得到广泛应用。其中,景区画像和用户画像是数据挖掘技术在旅游业中应用的两个重要方面,在商业价值上具有巨大的潜力,已经受到国内外学者的研究关

6、注。常海超探讨了基于“用户画像”的北极村旅游景区营销对策,通过对北极村旅游景区一年跨度的真实游客数据分析,建立了用户画像模型,为旅游企业提供个性化的营销策略 5。兑艳红研究基于网络游记的茶文化旅游景区游客画像构建,采用爬虫技术获取网络收稿日期:2 0 2 3-0 3-2 5基金项目:山东青年政治学院校级应用型科研项目(项目编号:2 0 2 1yyx-yb05)。作者简介:张秉文(2 0 0 2 一),男,山东滨州人,本科。研究方向:大数据、数据挖掘。游记,并使用文本挖掘技术对景区用户的行为数据进行处理,构建了用户画像,为景区的发展提出合理化建议 6 。何金洁研究基于游客表达视角的景区画像和推荐

7、策略,利用统计分析和词频分析等方法挖掘游客的相关信息,运用隐含狄利克雷分布(LatentDirichletAllocation,L D A)主题模型分析情感倾向,最终构建景区画像,为景区进一步发展提供新的思路。单晓红等人使用在线评论数据构建了酒店用户画像模型,从用户信息属性、酒店信息属性、用户评价信息属性3个方面进行分析和特征提取,以全面描述和分析酒店用户特征8。187信息与电脑人工智能与识别技术Information&Computer1主要工作文章将山东省济南市作为实验区域,利用Python调用Selenium,实现对旅游网站的数据采集。本次爬取携程网站上济南市18 个景点的38 6 2 8

8、 条评论数据和相关的2 0 篇游记数据。如果缺乏用户画像,旅游企业将无法真正了解游客的兴趣和需求,难以提供个性化服务,导致用户体验和满意度下降。如果没有景区画像,游客无法准确了解目的地信息,容易造成信息不对称和误解。而现有的研究仅用到了景区画像或者用户画像,因此文章提出一种基于数据挖掘技术景区画像和用户画像构建的方法。首先,利用文本挖掘技术和文本主题提取技术根据用户对于景点的评论和游客的游记进行挖掘,绘制景区画像和用户画像,建立景区画像和用户画像之间的耦合关系。其次,将分析完毕后的数据将存人MongoDB数据库。最后,通过可视化技术展示景区画像和用户画像。旅游领域景区画像和用户画像概念模型如图

9、1所示。2模型2.1文本情感分析本次对用户的评论和用户的游记进行情感分析,根文本预处理2023年第10 期据用户评论分析的情感倾向来判断该景点是否受用户喜爱,根据用户游记分析的情感倾向判断用户对旅游景点的态度。使用的情感分析模型为朴素贝叶斯模型,对于一个文本x,其中包含n个词汇wi,wn。同时,有一个训练数据集D,其中包含m个带标签的文本,每个文本都属于某个情感类别c。因此,可以得到先验概率为N。P(c)N式中:P(c)表示情感类别c在训练数据集出现的先验概率;N表示训练数据集D属于情感类别c的文本数量;N表示训练数据集D的总文本数。于是,条件概率为P(w:lc)Ne.+1N.+VP(xlc)

10、=II P(w:lc)i=1式中:P(wlc)表示在情感类别c下,词汇w,出现的条件概率;Nc,表示训练数据集属于情感类别c且包含词汇w,的文本数;N。表示训练数据集属于情感类别景点评论、用户游记数据(1)(2)(3)文本情感分析用户评论情感占MangoDB比评论文本信息文本主题提取景点评论分析景点3要素评分景点关键词游记文本信息文本主题提取用户游记分析用户旅游3要素用户旅游关键词文本情感分析MangoDB用户游记情感占比景区画像一建立耦合关系一用户画像可视化图1旅游领域景区画像和用户画像概念模型图188信息与电脑2023年第10 期Information&Computerc的文本总数;V表示

11、词汇表中不同词汇的总数;P(xlc)表示在情感类别c下,文本x出现的概率。可得,后验概率为P(dlx)-P(dl0)P(c)P()式中:P(x)表示所有情感类别下,文本x出现的概率之和;P(xlc)表示在给定文本x的情况下,文本属于情感类别x的后验概率。朴素贝叶斯分类器假设每个词汇在文本中相互独立,即忽略词汇之间的相关性。因此,可以计算每个词汇在不同情感类别下的条件概率,并将它们相乘得到文本x在各个情感类别下的概率值。评论的分类共两类:好评是1;差评是0。结果概率越接近1,表示情感越积极;结果概率越接近0,表示情感越消极。另外,设定了概率范围:概率大于0.7 5,表示积极情感;概率为0.500

12、.7 5,表示中性情感;概率小于0.5,表示消极评论情感。2.2文本主题提取本次采用景点的风景、美食、住宿3个方面作为景点的3要素和用户旅游3要素。利用词频-逆文本频率指数(Term Frequency-Inverse Document Frequency,T F-IDF)算法计算用户评论和用户游记中描述风景、美食、住宿相关词的权重,可用于完善情感词典,然后根据情感词典计算景点旅游3要素和的占比、用户旅游3要素的占比。词频(TermFrequency,T F)计算方式为某个词在文本中出现的次数除以文本总词数,即T.Jnij式中:d,表示某个文本;ni.,表示词t,在文本d,中出现的次数;ldl

13、表示文本d,的总词数。逆文档频率(Inverse DocumentFrequency,ID F)用于衡量一个词的重要性,计算方式为所有文本数目除以包含该词的文本数目,然后取对数,具体公式为DI,=10ogi0 1+/:t,d,式中:t,表示某个词;IDI表示文本集合D的总文本数;li:t Ed l 表示包含词t,的文本数量。于是,将式(5)和式(6)相乘,可得TF-IDF的计算方式为Fi,FT,I,式中:Fi,表示某个词的词频-逆文本频率指数。人工智能与识别技术通过式(7)可以得到每个词语在文本中的重要程度,进而得到景点和用户的旅游3要素的占比。2.3整体框架模型本次利用文本情感分析技术和文本

14、主题提取技术绘(4)制用户画像和景区画像,最终为旅游景点发掘新的商机和增长点。情感分析可以计算用户评论中的积极情绪、中性情绪、消极情绪的占比。通过文本主题提取可以得到景点的关键词,并对美食、风景、住宿3要素进行分类,得到景点3要素的评分,最终画出景区画像。而分析游记中的文本信息,则采用文本情感分析,分析文本中用户对旅游的积极情绪、中性情绪、消极情绪的占比。通过文本主题提取分析用户旅游3要素和用户旅游关键词,最终画出用户画像。3画像3.1构建景点画像和用户画像景点画像和用户画像的构建是通过数据挖掘技术实现的。景点画像包括3个维度,分别为用户评论情感占比、景点3要素、景点关键词。用户画像也包含3个

15、维度,分别为用户游记情感占比、用户旅游3要素、用户旅途关键词。3.1.1爬取景点数据景点数据和用户游记数据主要从携程网站上使用Python的Selenium库进行爬取,其中景点数据的属性包括用户的身份标识号(IdentityDocument,ID)、用户名、评论、评论出处、评论时间以及评论星级等。用户游记数据的属性包括用户的ID和游记的内容。3.1.1景点数据预处理读取景点数据和用户游记数据,对数据进行一系列(5)的处理工作。在这个过程中,使用jieba分词工具对景点的评论数据和游记的文本数据进行分词处理,通过使用停用词表过滤文本中的无用字词,简化文本,使文本分析更加精确。3.1.3分析情感占

16、比分析情感占比时,因为采集的数据中好评数据和差评数据的相差过大,所以在模型训练前运用合成少数类过采样技术(Synthetic Minority Oversampling(6)Technique,SM O T E)算法对训练集进行过采样,生成一些合成样本,从而平衡不同类别之间的数量差异 9 。另外,运用TF-IDF向量化技术将过采样后的训练集进行向量化处理,将文本数据转换为稀疏矩阵形式,然后构造一个MultinomialNB分类器进行训练。训练完毕后,(7)将全部的数据进行情感分析,返回的概率值作为该文本的情感得分。189一信息与电脑人工智能与识别技术Information&Computer3.

17、1.4提取文本主题1.0本次选取景点的风景、美食、住宿作为旅游的3要素。3要素的计算方式是先建立和3要素相关的情感词典,然后利用TF-IDF算法提取预处理后的数据中与3要素相关的关键词,以完善情感词典,最后将分词后的数据和情感词典中的词进行匹配,得出结果。3.1.5数据存储分析之后的数据用MongoDB数据库进行存储,便于可视化时的读取。MongoDB是一种NoSQL数据库,采用文档型数据存储方式,支持保存各种类型的数据,具有较好的可扩展性和自动化负载均衡。3.1.6可视化本次利用Django框架将绘制的景区画像和用户画像展示在前端,图表则利用Matplotlib库绘制。3.2画像耦合将景区画

18、像和用户画像进行耦合,可以获得更加全面和精准的数据信息,帮助景区做出更加明智的决策,如景区改进和升级等,同时可以了解游客的需求和偏好,帮助景区更好开发、创新产品和服务,提高游客的游玩体验和满意度。4实验分析4.1系统的改进第一,构建了景区画像和用户画像,建立景区画像和用户画像的耦合关系,有助于旅游业更好的发展。第二,利用过采样技术解决了网络爬取的数据不平衡问题,便于更好的训练模型。第三,建立了情感词典,且情感词典可根据景区评论的增加变得更加丰富,使景点3要素和用户旅游3要素的计算更为准确。4.2性能比较在旅游领域,传统景区画像研究忽视了对游客需求的分析,导致无法提供个性化服务,缺乏对游客个体差

19、异的深入了解,进而限制了景区和游客之间的互动和联系。要想提高景区的发展和服务质量,需要建立景区画像和用户画像之间的耦合关系,更好了解游客的需求和提供个性化的服务,而准确的判断情感态度对建立景区画像和用户画像有较大帮助,因此文章建立了情感分析模型。文本情感分析模型评估图如图2 所示。由图2 可知,受试者工作特征(ReceiverOperatingCharacteristic,ROC)曲线呈现较为明显的上升趋势,其ROC曲线下方面积(AreaUnderCurve,A U C)值高达0.9 7,表明模型在区分正例和负例样本方面具有较好的性能,有助于绘制更为精准的用户画像和景区画像。2023年第10

20、期0.80.40.20.00.05结语文章利用数据挖掘技术绘制了景区画像和用户画像,并实现景区画像和用户画像的耦合关系,对用户行为特征、兴趣偏好、景区形象等特征数据进行挖掘分析,为旅游企业提供更精确的服务导向和管理决策支持,也为用户提供更加个性化的服务。本次仅针对部分景区进行实验,后续的工作可以针对不同类型的旅游景区,利用数据挖掘技术进行更多的实验和分析,可为旅游行业的发展提供更有价值的参考。参考文献1黄辉英.基于网络文本分析的海岛旅游目的地形象感知研究:以三亚西岛为例 D.三亚:海南热带海洋学院,2 0 2 2:2 3.2陈文汇.基于B公司电商购物平台用户画像的营销策略研究 D.绵阳:西南科

21、技大学,2 0 2 1:2 5.3常海超.基于 用户画像 的北极村旅游景区营销对策研究 D.哈尔滨:哈尔滨工业大学,2 0 2 0:2 6.4兑艳红.基于网络游记的茶文化旅游景区游客画像构建研究 D.海口:海南大学,2 0 2 1:2 6.5何金洁.基于游客表达视角的景区画像及推荐策略研究 D.成都:成都理工大学,2 0 2 1:2 4.6单晓红,张晓月,刘晓燕.基于在线评论的用户画像研究:以携程酒店为例 .情报理论与实践,2 0 18,41(4)99-104.7吴海燕,陈晓磊,范国轩.一种自适应核SMOTE-SVM算法用于不平衡数据分类 J.北京化工大学学报(自然科学版),2 0 2 3,50(2):9 7-10 4.8罗文琦,杨晓霞.基于游记数据挖掘的旅游领域用户画像构建 J.旅游纵览,2 0 2 2(1):2 4-2 7.特征曲线0.20.4假阳性率图2文本情感分析模型评估图0.60.81.0190

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服